Количественные характеристики надежности программ
Надежность нужно оценивать, измерять, предсказывать – обеспечивать заданные требования к надежности во время проектирования и проверять их выполнение в продукте. «Внутренняя» характеристика надежности – количество оставшихся ошибок в программе – интересна скорее разработчикам, чем потребителям. Для последних важны характеристики, традиционные для теории надежности, основанные на предположении о стохастическом (случайном во времени) процессе возникновения отказов: среднее время безотказной работы (MTBF – Mean Time Between Failures) и коэффициент готовности. Третья характеристика, взаимосвязанная с первой - интенсивность отказов – среднее их количество в единицу времени.
В предположении простейшего потока отказов (отказы независимы, редки и их вероятность неизменна во времени) P( t ) - вероятность безотказной работы за время t – подчиняется закону Пуассона (экспоненциальному распределению вероятностей):.
P P( t ) = e – t, где - интенсивность отказов (обычно в 1/час).
1 Его первый момент – математическое ожидание M (P) -
и есть MTBF = 1 /
0- t
M (P) В таблице приведены средние значения MTBF
для устойчивых отказов:
Вид компонента |
MTBF, час лет |
|
Обычная электромеханическая аппаратура |
102 – 103 |
10-1 |
Обычная электронная аппаратура |
103 – 104 |
1 |
Большие интегральные схемы |
106 – 108 |
102 – 104 |
Программы общего назначения |
101 – 103 |
10-3 –10-1 |
Надежность электронной и электромеханической аппаратуры в компьютерах в последние годы значительно увеличилась. Например, хард-диск повышенной надежности Seagate Barracuda 180 (объемом 180 Гбайт) имеет MTBF =1 200 000 часов, т.е. в среднем один отказ за 14 лет! В то же время, надежность обычных программ только уменьшается по мере роста их сложности.
Таким образом, программы вносят наибольший вклад в ненадежность современных вычислительных систем. Между тем существуют столь ответственные (mission-critical) приложения, где требуется очень малая вероятность отказов. Например, для бортовой системы управления космическим зондом требуется =10-9, чтобы вероятность устойчивого отказа в первые 10 лет работы была не более 10-4 (или вероятность безотказной работы 0,9999), что означает MTBF = 100 тысяч лет ! (Вопросы 4 - 6)
Вообще говоря, не постоянна во времени. Для аппаратуры характерна зависимость вида рис. 13-1:
ln t
0 А В С
Рис 13-1. Типичное изменение электронной аппаратуры во времени:
А – период приработки («выжигание» дефектов)
В – полезная жизнь
С – старение, износ
Многие ПП имеют аналогичный характер изменения надежности: А – период начальной эксплуатации (расширенного бета-тестирования), С – накопление ошибок из-за модификаций.
Если отказ все же произошел, время восстановления должно быть минимальным. Это характеризуется показателем ремонтопригодности - коэффициентом готовности (availability): k = (T – Tпр) / T , где T – общее время работы, Tпр – время простоя из-за восстановления. В ответственных системах требуется, чтобы значение k почти не отличалось от 1: для цифровых АТС – 2 часа простоя суммарно за 15 лет; для системы управления воздушным движением – 3 сек за год !