Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Загород030457.doc
Скачиваний:
12
Добавлен:
15.04.2019
Размер:
1.69 Mб
Скачать

4.3. Создание отказоустойчивых кс

Отказоустойчивость - это свойство КС сохранять работоспо­собность при отказах отдельных устройств, блоков, схем.

Известны три основных подхода к созданию отказоустойчи­вых систем:

простое резервирование;

помехоустойчивое кодирование информации;

создание адаптивных систем.

Любая отказоустойчивая система обладает избыточностью. Одним из наиболее простых и действенных путей создания отка­зоустойчивых систем является простое резервирование. Простое резервирование основано на использовании устройств, блоков, узлов, схем только в качестве резервных. При отказе основного элемента осуществляется переход на использование резервного. Резервирование осуществляется на различных уровнях: на уровне устройств, на уровне блоков, узлов и т. д. Резервирование отлича­ется также и глубиной. Для целей резервирования могут исполь­зоваться один резервный элемент и более. Уровни и глубина ре­зервирования определяют возможности системы парировать отка­зы, а также аппаратные затраты. Такие системы должны иметь несложные аппаратно-программные средства контроля работо­способности элементов и средства перехода на использование, при необходимости, резервных элементов. Примером резервиро­вания может служить использование «зеркальных» накопителей на жестких магнитных дисках. Недостатком простого резервиро­вания является непроизводительное использование средств, кото­рые применяются только для повышения отказоустойчивости.

Помехоустойчивое кодирование основано на использовании информационной избыточности. Рабочая информация в КС до­полняется определенным объемом специальной контрольной ин­формации. Наличие этой контрольной информации (контрольных двоичных разрядов) позволяет путем выполнения определенных действий над рабочей и контрольной информацией определять ошибки и даже исправлять их. Так как ошибки являются следст­вием отказов средств КС, то, используя исправляющие коды, можно парировать часть отказов. Исправляющие возможности кодов для конкретного метода помехоустойчивого кодирования

46

зависят\от степени избыточности. Чем больше используется кон­трольной информации, тем шире возможности кода по обнаруже­нию и исправлению ошибок. Ошибки характеризуются кратно­стью, т.е. количеством двоичных разрядов, в которых одновре­менно искажено содержимое. Помехоустойчивые коды обладают различными возможностями по обнаружению и исправлению ошибок различной кратности. Так классический код Хемминга обнаруживает и исправляет однократные ошибки, а двукратные ошибки - только обнаруживает.

Помехоустойчивое кодирование наиболее эффективно при па­рировании самоустраняющихся отказов, называемых сбоями. Помехоустойчивое кодирование при создании отказоустойчивых систем, как правило, используется в комплексе с другими подхо­дами повышения отказоустойчивости.

Наиболее совершенными системами, устойчивыми к отказам, являются адаптивные системы. В них достигается разумный компромисс между уровнем избыточности, вводимым для обеспе­чения устойчивости (толерантности) системы к отказам, и эффек­тивностью использования таких систем по назначению.

В адаптивных системах реализуется так называемый принцип элегантной деградации. Этот принцип предполагает сохранение работоспособного состояния системы при некотором снижении эффективности функционирования в случаях отказов ее элемен­тов.

Адаптивные системы содержат аппаратно-программные сред­ства для автоматического контроля работоспособности элементов системы и осуществления ее реконфигурации при возникновении отказов элементов. При реконфигурации восстанавливается необ­ходимая информация (при ее утрате), отключается отказавший элемент, осуществляется изменение связей и режимов работы элементов системы. Простым примером адаптивной КС может служить ЭВМ, имеющая в своем составе математический и гра­фический сопроцессоры, а также оперативную память блочной структуры. Все сопроцессоры и блоки памяти используются для достижения максимальной производительности ЭВМ. При отказе какого-либо сопроцессора он логически отключается от ЭВМ, а его функции выполняет центральный процессор. При этом систе­ма деградирует, так как снижается производительность ЭВМ. Но

47

в то же время система сохраняет работоспособность и может за­вершить вычислительный процесс. При отказе блока оперативной памяти он отключается, и емкость памяти уменьшается. Чтобы избежать потерь информации при отказах процессоров и блоков оперативной памяти, вычислительный процесс возобновляется либо сначала, либо с последней контрольной точки. Механизм контрольных точек используется обычно при выполнении слож­ных трудоемких программ. Он заключается в запоминании всей необходимой информации для возобновления выполнения про­граммы с определенной точки. Запоминание осуществляется че­рез определенные интервалы времени.

В адаптивных системах даже внешние устройства не исполь­зуются только как резервные. Информация, необходимая для вос­становления данных с отказавшего ВЗУ, хранится на накопителях, которые используются для хранения и рабочей информации. Примером таких систем являются RAID системы.