1.11 Конвейерная обработка данных

При реализации конвейерной обработки выполнение каждой команды разбивается на несколько этапов (ступеней), аналогично сборке автомобиля на конвейере. Работа каждой ступени завершается за 1 такт работы МП. Результат на выходе конвейера появляется с каждым тактом МП (в идеальном случае).

Если команды однотипны, то появление результата на выходе не тормозится в ожидании завершения предыдущей команды.

ВК	ДК	ФА	ПО	ВО	РР
ВК		ДК	ФА	ПО	ВО	РР
		ВК	ДК	ФА	ПО	ВО	РР

Если же используются разные типы команд, то возникает простой, когда на какой-то ступени конвейера ничего не выполняется.

ВК	ДК	ПР	ПР	ВО	ПР
ВК		ДК	ОЖ	ОЖ	ФА	ПО	ВО	ПР
		ВК	ДК	ФА	ПО	ОЖ	ОЖ	ВО	ПР

На рисунке приведен 6-ти ступенчатый конвейер. Весь процесс выполнения команды разбивается на 6 частей:

ВК – выборка очередной команды

ДК – декодирование очередной команды

ФА – формирование адреса операнда

ПО – прием операнда из памяти

ВО – выполнение операции

РР – размещение результата в памяти

ПР – простой

ОЖ – ожидание

Если возникает ситуация, когда нет данных с предыдущей команды для выполнения следующей команды, то происходит замедление работы конвейера, для приведенного на нижнем рисунке примера скорость падает в 5/3 раза. Эффективность работы конвейера будет тем ниже, чем более разнородные команды будут использованы (более эффективно работает конвейер при использовании RISC архитектуры, а при использовании CISC архитектуры наблюдается самая неэффективная работа).

С повышением тактовой частоты микрооперации приходится делать более элементарными, чтобы успеть выполнить их за 1 такт (1ГГц  такт 1 нс), следовательно, повышается количество ступеней конвейера для того, чтобы микрооперация успевала выполняться за 1 такт.

Команды условного ветвления могут сильно замедлить работу конвейера. Для того, чтобы повысить эффективность работы конвейера при работе с командами ветвления используются механизмы предсказания ветвления.

Простой механизм предсказания ветвления предполагает, что в очередной раз все будет так же, как в предыдущий. Вероятность правильного предсказания - до 80%.

Более сложный механизм предполагает использование статистики. Вероятность правильного предсказания – до 95%.

Суперскалярная структура. Возможность повышения производительности процессора достигается также путем включения в его структуру нескольких параллельных функционирующих операционных устройств, обеспечивающих одновременное выполнение нескольких операций, т.е. в процессоре имеется несколько исполнительных конвейеров, работающих параллельно. Такая структура МП называется суперскалярной. В идеале, в МП может одновременно обрабатываться столько команд, сколько в нем имеется операционных устройств. Реально при использовании от 4 до 10 операционных устройств удается обеспечить выполнение за такт от 2 до 6 команд, т.к. сложно обеспечить равномерную загрузку операционных устройств. Эффективная одновременная работа нескольких исполнительных конвейеров обеспечивается путем предварительной выборки и декодирования ряда команд и выделения среди них группы команд, которые могут использоваться одновременно. Обычно в МП используется несколько устройств для выполнения целочисленных операций, одно или несколько устройств для выполнения операций с плавающей точкой и отдельное устройство для обработки специальных форматов аудио и видео данных. Параллельно с ними работают устройства для формирования адресов и выборки операндов для исполняемых команд. Здесь реализуется спекулятивная (предварительная) выборка операндов.

В итоге результаты последующих команд могут быть доступны раньше результатов предыдущих. Результаты выполнения команд могут быть получены не в том порядке, в каком они записаны в программе. Для упорядочивания вводится специальный буфер, который устанавливает требуемый порядок выдачи результатов.

Одновременное выполнение команд может оказаться невозможным, если они обращаются к одному и тому же регистру. При ограниченной емкости РЗУ эта ситуация может возникать часто. Чтобы ее нейтрализовать, вводят специальные регистровые блоки, дублирующие основное РЗУ. Тогда, если происходит одновременное обращение к одному и тому же регистру, то один из запросов перенаправляется к дублирующему регистру – «переименование регистра».

На рис. 1.8 представлена суперскалярная структура Гарвардской архитектуры. В ней используются 2 конвейера по 6 степеней в каждом. Устройство управления обеспечивает выборку, декодирование и распределение команд.

В структуре присутствуют 2 устройства, которые работают с целочисленными данными (SIU1, SIU2), 1 устройство работает с данными в форме с плавающей запятой (FPU) и 1 устройство (MIU) выполняет сложные операции с целыми числами (умножение, деление).

Блок работы с числами с плавающей запятой обслуживается собственным набором регистров по 64 бита (блок FPR); дополнительно имеется буфер - 1 набор из 8 регистров по 32 бита, т.е. каждый из регистров блока имеет дублирующий регистр.

Блок DSU обеспечивает выборку операндов из памяти.

После выполнения операнды накапливаются в специальном буфере (блоке завершения), который и записывает их в память в требуемой последовательности.

Рис. 1.8 Суперскалярная структура Гарвардской архитектуры

<<< < Предыдущая 1 2 3 4 5 6 7 8 9 1011 / 8011 12 13 14 15 16 17 18 19 20 21 22 23 24 25 > Следующая >>>

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]

#
21.09.2019756.74 Кб20008 Пусковые двигатели и подогреватели.doc
#
21.09.2019919.55 Кб15011 Аксенов Левашов спец.doc
#
21.09.2019601.6 Кб28011 Букин Рудаков спец.doc
#
21.09.2019831.49 Кб9011 Параскев Синеглазов спец.doc
#
27.03.2016212.99 Кб33030222_88368_otvety_na_voprosy_po_bd.doc
#
27.03.201610.5 Mб5180_МПиИСТС_Все главы.doc
#
15.11.20192.53 Mб201 и 2_Лаб_раб_электроника10_07.doc
#
27.03.201614.42 Mб27031 Курс лекций ТЭА.docx
#
28.08.2019240.13 Кб181 Лекция 1- 6 семестр 2012.doc
#
27.03.201658.96 Кб641 Лекция КЛММР для тестирования 5-ЭФЭн.docx
#
27.03.201625.42 Кб371 Лекция по БТ ПРЕДМЕТ БИОТЕХНОЛОГИЯ.docx