Добавил:

Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.

Вуз:

Московский государственный физико-технический университет (МФТИ)

Предмет:

[НЕСОРТИРОВАННОЕ]

Файл:

CUDA Memory

.pdf

Скачиваний:

Добавлен:

03.06.2015

Размер:

1.72 Mб

Скачать

☆

<<< < Предыдущая 12 / 32 3 > Следующая >>>

Глобальная память. Цифры

Размер глобальной памяти

<=12 Гб

Скорость передачи данных через PCI-E 3.0:

6-10 Гб/с

Скорость чтения из глобальной памяти:

150-250 Гб/c

Ширина шины памяти DRAM GPU

до 384 бит

APC | 11

Произведение матриц

Произведение двух матриц одинакового размера

cij aik bkj k 1

Используются

одномерные массивы

a[i][j] => a[i * n + j]

APC | 12

Умножение матриц. Реализация

__global__ void matmul1 (float* a, float* b, int n, float* c){

// Индексы блока

int bx = blockIdx.x, by = blockIdx.y;

// Индексы нити внутри блока

int tx = threadIdx.x, ty = threadIdx.y;

// Смещение для a[i][0]

int ia = n * (BLOCK_SIZE * by + ty);

// Смещение для b[0][j]

int ib = BLOCK_SIZE * bx + tx;

//Переменная для накопления результата float sum = 0.0f;

//Перемножить строку и столбец

for (int k = 0; k < n; k++)

sum += a [ia + k] * b [ib + k * n];

// Смещение для записываемого элемента

int ic = n * BLOCK_SIZE * by + BLOCK_SIZE * bx;

// Сохранить результат в глобальной памяти c[ic + n * ty + tx] = sum;

}

APC | 13

Дополнение по массивам

Можно переложить на компилятор вопросы работы с многомерными массивами:

float* ptr = malloc(sizeof(float) * nx * ny); float (*arr)[nx] = (float(*)[nx])ptr; arr[2][3] = 1.0f;

APC | 14

Разделяемая память

APC | 15

Разделяемая память

Располагается на мультипроцессоре => быстрая

Делит пространство с L1 кэшем

•48 Кбайт (16 Кбайт L1 кэш)

•32 Кбайт (32 Кбайт L1 кэш)

•16 Кбайт (48 Кбайт L1 кэш)

Является программно управляемым кэшем. Одно из самых важных средств оптимизации

APC | 16

Выделение разделяемой памяти

Статически

• В GPU коде статический массив или переменная:

__shared__ int f[32]; //массив

__shared__ float sum; //переменная

Динамически

•В GPU коде динамический массив: extern __shared__ int g[];

•Размер указывается при запуске ядра:

kernel <<<100, 100, 40*sizeof(int)>>>();

APC | 17

Особенности использования

Переменные, помеченные __shared__:

•При объявлении вне функций ведут себя как статические (размер должен быть указан)

•Приватны для каждого блока

•Существуют только на время жизни блока

•Не могут быть инициализированы при определении

APC | 18

Особенности использования

Одновременно могут использоваться статические и динамические переменные в shared-памяти

__global__ void kernel(){

__shared__ float f;

extern __shared__ int buf [];

}

...

kernel<<<10, 15, 30*sizeof(int)>>>();

APC | 19

Особенности использования

Все динамические указатели будут указывать на начало динамически выделенного блока

__global__ void kernel(){

extern __shared__ int buf1 []; extern __shared__ int buf2 []; buf2 = buf1 + 10;

}

...

kernel<<<10, 15, 30*sizeof(int)>>>();

APC | 20

<<< < Предыдущая 12 / 32 3 > Следующая >>>

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]

#
03.06.2015235.11 Кб13CodeRules_M102.pdf
#
03.06.2015277.43 Кб6Coll-FunkAn(24-11-14) (1).pdf
#
08.11.201895.23 Кб197CONDITIONALS.doc
#
03.06.20152.9 Mб36Conspect.doc
#
03.06.20154.16 Mб22CUDA Intro.pdf
#
03.06.20151.72 Mб21CUDA Memory.pdf
#
27.03.2016276.18 Кб13Curve.pdf
#
03.06.2015180.02 Кб11Describing graphs.pdf
#
03.06.2015713.59 Кб15devcpp_2.pdf
#
03.06.2015529.83 Кб20Diff.pdf
#
27.03.20161.89 Mб19diploma_0.0.2.pdf