Блочно-рекурсивный параллельный алгоритм перемножения матриц

Поможем в ✍️ написании учебной работы

Имя

Поможем с курсовой, контрольной, дипломной, рефератом, отчетом по практике, научно-исследовательской и любой другой работой

Нажимая кнопку "Продолжить", я принимаю политику конфиденциальности

Будем считать, что количество процессорных элементов p вычислительной системы является степенью числа 4.

Рассмотрим задачу вычисления произведения квадратных матриц X = A*B размерности n на вычислительной системе с n процессорными элементами. Матрицы A и B рассмотрим, как блочные матрицы 2*2 с квадратными блоками размера (n/2) * (n/2). Всего в каждой матрице получается по 4 блока. Обозначим A_ij , i,j = 1,2, блоки матрицы A. Аналогично обозначим блоки матрицы B.

Множество всех процессорных элементов разобьем на 4 равных группы с номерами 0, 1, 2, 3. Разместим элементы обоих матриц поблочно – в каждой группе модулей памяти по одному:

Блок A_ij , i,j = 1,2, матрицы A разместим в группе модулей памяти с номером (i-1)*2 + j-1.

Блок B_ij , i,j = 1,2, матрицы B разместим в группе модулей памяти с номером (j-1)*2 + i-1.

Модуль памяти 0 A₁₁, B₁₁, C₁₁	Модуль памяти 1 A₁₂, B₂₁, C₁₂
Модуль памяти 2 A₂₁, B₁₂, C₂₁	Модуль памяти 3 A₂₂, B₂₂, C₂₂

Рис. 58 Соответствие 4 групп процессорных элементов блокам матрицы.

B₁₁	B₂₁
B₁₂	B₂₂

A₁₁*B₁₁	A₁₂*B₂₁
A₂₁*B₁₂	A₂₂*B₂₂

Рис. 59. Первое перемножение блоков и первая группа пересылок.

A₁₁*B₁₂	A₁₂*B₂₂
A₂₁*B₁₁	A₂₂*B₂₁

A₁₁*B₁₂	A₁₂*B₂₁
A₂₁*B₁₂	A₂₂*B₂₁

Рис. 60. Второе перемножение блоков и вторая группа пересылок.

Модуль памяти 0 C₁₁ = A₁₁B₁₁ + A₁₂B₂₁	Модуль памяти 1 C₁₂ = A₁₂B₂₂ + A₁₁B₁₂
Модуль памяти 2 C₂₁ = A₂₁B₁₁ + A₂₂B₂₁	Модуль памяти 3 C₂₂ = A₂₁B₁₂ + A₂₂B₂₂

Рис. 61 Сложение блоков.

Для вычисления произведения матриц в этом случае требуется два перемножения блоков, два сложения блоков и две пересылки блоков.

Перемножения блоков в каждой группе процессорных элементов можно выполнять по такой же схеме рекурсивно. Всего у этого алгоритма log₄p шагов. На каждом шаге размерности блоков в два раза уменьшаются, но количество блоков в 4 раза возрастает.

0.0	0.1	1.0	1.1
0.2	0.3	1.2	1.3
2.0	2.1	3.0	3.1
2.2	2.3	3.2	3.3

Рис. 62. Разбиение каждой из 4 групп ПЭ еще на 4 группы второго уровня. При двойной нумерации цифра перед точкой означает номер группы ПЭ первого уровня. Цифра после точки – номер группы ПЭ второго уровня.

Количество параллельных шагов с умножениями (скалярными) в данном алгоритме, как и в других известных параллельных алгоритмах, равно n³/p. При наличии p процессорных элементов и при базовом последовательном алгоритме перемножения матриц со сложностью n³ – эта формула, очевидно, не улучшаема.

Для пересылок данных в этом алгоритме удобно использовать полнодоступный коммутатор или (log₂p)-мерный куб. Всего в этом алгоритме получается 2*log₄p = log₂p блочных пересылок.

На каждом шаге пересылается n² элементов по p штук одновременно. Всего скалярных пересылочных шагов n²/p . Итого, общее количество скалярных пересылочных шагов n²*log₂p/p . Если p = n, то количество одновременных скалярных пересылок равно n*log₂n – это существенно меньше, чем при размещениях матриц по строкам или столбцам и меньше, чем пересылок в алгоритмах Кэннона и Фокса [35].

Перемножение прямоугольных матриц тоже может быть выполнено блочно-рекурсивным алгоритмом. Действительно, пусть требуется перемножить матрицу A размера n*m на матрицу B размера m*k. Обозначим q = p^1/2 . Разобьем матрицу A на блоки размера (n/q)*(m/q) , а матрицу B на блоки размера (m/q)*(k/q). Тогда задача перемножения прямоугольных матриц будет сведена к задаче перемножения квадратных блочных матриц размера q * q , где q = p^1/2 .

Блочно-рекурсивное размещение данных предполагает количество процессорных элементов (вычислительных узлов) равным степени четверки. Это жесткое ограничение. Иногда, если количество ПЭ равно степени четверки, умноженной на некоторое число, можно комбинировать блочно-рекурсивное размещение данных с блочно-аффинным. На следующем рисунке изображено такое размещение для случая 12 ПЭ.

Группа ПЭ 0

0 A₁₁ B₁₁

1 A₁₂ B₂₁

2 A₁₃ B₃₁

Группа ПЭ 1

3 A₁₄ B₄₁

4 A₁₅ B₅₁

5 A₁₆ B₆₁

Группа ПЭ 2

6 A₂₁ B₁₂

7 A₂₂ B₂₂

8 A₂₃ B₃₂

Группа ПЭ 3

9 A₂₄ B₄₂

10 A₂₅ B₅₂

11 A₂₆ B₆₂

Рис. 63. Вычислительная система состоит из 12 ПЭ, которые разбиваются на 4 группы по 3 ПЭ в каждой.

В данном примере матрицы разбиваются на блоки следующим образом:

A = {A_ij} i = 1,2, j = 1,…,6 ; B = {B_ij} i = 1,2, j = 1,…,6

Дата: 2018-12-21, просмотров: 727.

⇐ Предыдущая 10 11 12 13 141516 17 18 19 Следующая ⇒

Модуль памяти 0 C₁₁ = A₁₁B₁₁ + A₁₂B₂₁	Модуль памяти 1 C₁₂ = A₁₂B₂₂ + A₁₁B₁₂
Модуль памяти 2 C₂₁ = A₂₁B₁₁ + A₂₂B₂₁	Модуль памяти 3 C₂₂ = A₂₁B₁₂ + A₂₂B₂₂