Некоторые современные АЦП настолько сложны, что включают в себя даже небольшой микропроцессор, управляющий их работой. АЦП – это фактически главный узел измерительного устройства. Как и любому сложному измерительному устройству АЦП свойственны различные погрешности и ошибки преобразования входной величины. Это ошибки квантования; аддитивная и мультипликативная погрешности; дифференциальная и интегральная нелинейности передаточной характеристики; апертурная погрешность; ошибка, вызванная наложением частот (aliasing). Как же можно контролировать в процессе непрерывно изменяющейся входной величины исправность такого сложного устройства? А помните старый анекдот про пьяного, который искал утерянный бумажник под фонарем? На вопрос почему он ищет под фонарем, а не там где потерял бумажник, он ответил, что под фонарем светлее. По такому же принципу работает и так называемая «самодиагностика» АЦП. Поскольку единственным элементом с неизменным уровнем сигнала в процессе работы АЦП является источник опорного напряжения 10, то именно на его мониторинге и основана так называемая «самодиагностика» АЦП [21]. О пользе и эффективности такой самодиагностики читатель может судить сам.
● Память. В МУРЗ имеется два различных вида памяти: ПЗУ (постоянное запоминающее устройство или ROM), предназначенное для хранения управляющей программы и уставок, и ОЗУ (оперативное запоминающее устройство или RAM), предназначенное для временного хранения результатов измерения входных величин и промежуточных вычислений. Управляющий алгоритм представляет собой набор определенных числовых кодов. Из этих кодов составляется некая контрольная сумма, которая запоминается в отдельной ячейке памяти. В процессе работы МУРЗ эта предварительно записанная контрольная сумма периодически сравнивается с фактической. Несовпадение этих сумм должно указывать на неисправность ПЗУ [21]. Понятно, что процесс вычисления фактической контрольной суммы и сравнения ее с предварительно записанной суммой - это процесс дискретный, производимый с определенными интервалами. А что будет, если повреждение возникнет в промежуток времени между интервалами сравнения контрольных сумм? Произойдет ложное срабатывание реле защиты и отключение линии электропередач? Вопрос отнюдь не гипотетический. Такие реальные случаи не выявленных системой самодиагностики сбоев, описаны в литературе [19].
Ситуация с самотестированием ОЗУ обстоит намного сложнее, так как содержимое ОЗУ постоянно изменяется случайным образом, причем с большой частотой, в процессе работы МУРЗ. Трудно даже себе представить, как вообще можно тестировать в процессе функционирования (то есть диагностировать так называемые «динамические сбои»), постоянно перезаписываемые с большой частотой ячейки памяти. А зачем же тестировать именно рабочие ячейки, спросит опытный читатель, уже знакомый с нашим пьяным, занятым поиском своего бумажника под фонарем? Если нельзя тестировать рабочие ячейки памяти во время их работы, то давайте тестировать свободные ячейки, не участвующие в работе, то есть искать там, где светло, а не там, где нужно! Самое удивительное, что именно так и поступают производители МУРЗ. ОЗУ тестируется в автоматическом режиме путем периодического записывания в специально зарезервированные для этого ячейки памяти некоего постоянного числа и периодического считывания этого числа с последующим сравнением этих двух чисел. Совпадение этих чисел должно, по замыслу производителей, якобы подтверждать исправность всего ОЗУ [21], хотя совершенно не понятно, как можно судить об исправности всего ОЗУ по факту сохранности информации в нескольких ячейках памяти. Кроме того, хорошо известно, что отсутствие статических ошибок памяти абсолютно не гарантирует возникновение динамических ошибок [22, 23], то есть ошибок, возникающих непосредственно в процессе записи и считывания информации.
Вопрос о надежности элементов памяти МУРЗ в действительности намного сложнее. Оказывается, элементы памяти подвержены случайным непредсказуемым сбоям, не связанным с физическим повреждением ячеек памяти. Такие случайные, обратимые сбои, обусловленные самопроизвольным изменением содержания ячеек памяти, называются «мягкими ошибками» (“soft-failures” или “soft errors”, не путать с программными ошибками - “software programming errors”). Ошибки такого рода были не известны ранее для электронных устройств, выполненных на дискретных полупроводниковых элементах или на обычных микросхемах. Прогресс последних лет в области нанотехнологий привел к существенному снижению размеров полупроводниковых элементов (речь идет о единицах и даже долях микрона), уменьшению толщины слоев полупроводниковых и изоляционных материалов, уменьшению рабочих напряжений, увеличению рабочей скорости, уменьшению электрической емкости отдельных ячеек памяти, увеличению плотности размещения элементарных логических ячеек в одном устройстве. Все это вместе взятое привело к резкому повышению чувствительности элементов памяти к ионизирующим излучениям [24, 25]. Эта чувствительность стала настолько высокой, что обычный (то есть совершенно нормальный) радиационный фон на уровне моря стал опасным для ячеек памяти. Особенно опасными являются потоки высокоэнергетических элементарных частиц, приходящих из космоса. Даже одна такая частица при попадании в ячейку памяти рождает вторичные потоки электронов и ионов, вызывающие самопроизвольное переключение элементарного транзистора или разряд емкости в элементах с зарядовой памятью. Проблема усугубляется тем, что в современных микропроцессорных структурах наблюдается устойчивая тенденция расширения использования элементов памяти [25]. Многие современные интегральные микросхемы высокого уровня интеграции, входящие в состав микропроцессорного устройства, содержат встроенные элементы памяти достаточно большого объема, исправность которых вообще никак не контролируется. Как показано в [26, 27], проблема резкого увеличения чувствительности к ионизирующим излучениям актуальна не только для элементов памяти, но также и для высокоскоростных логических элементов, компараторов и т. д., то есть, практически, для всей современной микроэлектроники.
● Центральный процессор (ЦП). В отличие от описанных выше сложностей с контролем исправности памяти, самоконтроль ЦП выглядит достаточно простым, рис 4.

Рис. 4. Принцип автоматического контроля исправности микропроцессора
с помощью сторожевого таймера.
Он просто посылает контрольные импульсы с заданным периодом следования в так называемый «watchdog timer» – сторожевой таймер (“watchdog” - дословно «сторожевой пес»), который сбрасывается в исходное состояние с приходом каждого нового контрольного импульса, после чего начинает новый отсчет времени. Если к определенному моменту времени с ЦП не поступил очередной контрольный импульс, таймер запускает процесс перезагрузки ЦП. При серьезной неисправности микропроцессора и его «зависании» при перезагрузке, которое обнаруживается таймером как повторное отсутствие контрольного сигнала, происходит блокирование ЦП и выдача сигнала о неисправности центрального процессора. Работа по отслеживанию контрольных импульсов сторожевым таймером синхронизирована с помощью внешних синхроимпульсов (так называемое «стробирование»). Иногда сторожевые таймеры встраиваются непосредственно в микропроцессор, иногда (что предпочтительнее) представляют собой внешние специализированные интегральные микросхемы. Примером таких устройств могут служить микросхемы из серии ADM690 – ADM695, производимый компанией Analog Devices. Такой маленький чип содержит не только сторожевой таймер, но также и монитор напряжения питания ЦП. Пауза между контрольными импульсами сторожевого таймера этой серии может быть 0.1 или 1.6 сек.
Совершенно очевидно, что проверить таким образом исправность сотен тысяч транзисторных наноструктур, из которых собственно и состоит любой микропроцессор, абсолютно невозможно. Речь может идти о мониторинге лишь общей работоспособности ЦП, то есть о том, жив он или мертв. При очень сложной внутренней структуре ЦП, рис. 5, содержащей большое количество узлов (регистры для временного хранения команд, данных и адресов; арифметико-логическое устройство; стек, система управлении и синхронизации и т.д.) и микроэлементов, контрольные сигналы с ЦП могут продолжать поступать на сторожевой таймер даже если часть внутренней структуры ЦП окажется поврежденной. Очевидно, что повреждения участков структуры ЦП (или участков его внутренней управляющей программы) могут проявиться только во время работы (то есть активизации) этих участков. Если эти участки ЦП активизируются лишь при сигналах, соответствующих аварийным режимам в электрической сети, то это означает, что сторожевой таймер – это слабое утешение.
Сам по себе сторожевой таймер – это устройство, выполненное по такой же самой технологии, как и все остальные устройства микроэлектроники (рис. 6) и, точно так как и все остальные устройства, содержащие микроэлектронные компоненты, подвержен отказам и сбоям в работе. Вследствие описанного выше алгоритма работы сторожевого таймера, его отказ в процессе нормального функционирования МУРЗ может привести либо к блокированию ЦП и выходу из строя всего МУРЗ, либо к тому, что он не заметит «зависания» ЦП, в результате чего релейная защита не сработает должным образом при возникновении аварийного режима. Таким образом, работоспособность всего МУРЗ оказывается в очень сильной зависимости от исправности одного маленького чипа, называемого «watchdog».
Еще одним важным обстоятельством является то, что ЦП вовсе не является каким-то отдельно стоящим элементом, правильное функционирование которого в составе МУРЗ не зависит от исправности десятков других сложных интегральных микросхем, с которыми связан ЦП, но

Рис. 5. Блок-схема микропроцессора Intel 486 SX.

Рис. 6. Блок-схема сторожевого таймера (“watchdog”) серии ADM691 – ADM695, производимого компанией Analog Devices.
самодиагностика которых не предусмотрена. Достаточно взглянуть на печатную плату блока центрального процессора, рис. 7, чтобы понять, что исправность самого ЦП еще не говорит об исправности всего этого блока.

Рис. 7. Печатная плата блока центрального процессора МУРЗ серии RE*_316
(производитель – компания ABB).