Надежность нужно оценивать, измерять, предсказывать – обеспечивать заданные требования к надежности во время проектирования и проверять их выполнение в продукте. «Внутренняя» характеристика надежности – количество оставшихся ошибок в программе – интересна скорее разработчикам, чем потребителям. Для последних важны характеристики, традиционные для теории надежности, основанные на предположении о стохастическом (случайном во времени) процессе возникновения отказов: среднее время безотказной работы (MTBF – Mean Time Between Failures) и коэффициент готовности. Третья характеристика, взаимосвязанная с первой - интенсивность отказов – среднее их количество в единицу времени.
В предположении простейшего потока отказов (отказы независимы, редки и их вероятность неизменна во времени) P(t) - вероятность безотказной работы за время t – подчиняется закону Пуассона (экспоненциальному распределению вероятностей):.
P P(t) = e – lt, где l- интенсивность отказов (обычно в 1/час).
1 Его первый момент – математическое ожидание M (P) -
|
|
и есть MTBF = 1 / l
0 - t
M (P) В таблице приведены средние значения MTBF
для устойчивых отказов:
Вид компонента | MTBF, час лет | |
Обычная электромеханическая аппаратура | 102 – 103 | 10-1 |
Обычная электронная аппаратура | 103 – 104 | |
Большие интегральные схемы | 106 – 108 | 102 – 104 |
Программы общего назначения | 101 – 103 | 10-3 –10-1 |
Надежность электронной и электромеханической аппаратуры в компьютерах в последние годы значительно увеличилась. Например, хард-диск повышенной надежности Seagate Barracuda 180 (объемом 180 Гбайт) имеет MTBF =1 200 000 часов, т.е. в среднем один отказ за 14 лет! В то же время, надежность обычных программ только уменьшается по мере роста их сложности.
Таким образом, программы вносят наибольший вклад в ненадежность современных вычислительных систем. Между тем существуют столь ответственные (mission-critical) приложения, где требуется очень малая вероятность отказов. Например, для бортовой системы управления космическим зондом требуется l =10-9, чтобы вероятность устойчивого отказа в первые 10 лет работы была не более 10-4 (или вероятность безотказной работы 0,9999), что означает MTBF = 100 тысяч лет! (Вопросы 4 - 6)
Вообще говоря, l не постоянна во времени. Для аппаратуры характерна зависимость вида рис. 13-1:
l
ln t
0 А В С
Рис 13-1. Типичное изменение l электронной аппаратуры во времени:
А – период приработки («выжигание» дефектов)
В – полезная жизнь
С – старение, износ
Многие ПП имеют аналогичный характер изменения надежности: А – период начальной эксплуатации (расширенного бета-тестирования), С – накопление ошибок из-за модификаций.
|
|
Если отказ все же произошел, время восстановления должно быть минимальным. Это характеризуется показателем ремонтопригодности - коэффициентом готовности (availability): k = (T – Tпр) / T, где T – общее время работы, Tпр – время простоя из-за восстановления. В ответственных системах требуется, чтобы значение k почти не отличалось от 1: для цифровых АТС – 2 часа простоя суммарно за 15 лет; для системы управления воздушным движением – 3 сек за год!