В статье обсуждается проблема отказоустойчивого управления техпроцессами на примере производства молочных и пивобезалкогольных напитков. Рассмотрена платформа «ГиперСфера», позволяющая повысить отказоустойчивость серверов и таким образом обеспечить непрерывность технологических процессов.
Почему отказоустойчивость критична для пищевого производства
Специфика пищевой отрасли такова, что незапланированный простой из-за отказа ИТ-системы превращается в технологическую катастрофу.
Отказ сервера прерывает процесс передачи данных: в контроллер перестает поступать рецепт (очередной шаг), из-за чего происходит остановка всего техпроцесса. Для скоротечных процессов, не допускающих длительных пауз, даже остановка, превышающая 10 минут, имеет критическое значение.
Цена незапланированного простоя
Для расчета стоимости незапланированного простоя на пивоваренном заводе недостаточно просто умножить объем непроизведенной продукции на цену. Например, незапланированный простой автоматизированной системы управления линией розлива часто ведет не только к простою производства, но и к каскадным затратам в виде порчи сырья.
Помимо упущенного дохода существуют специфические расходы, связанные с технологическим браком сырья из-за того, что при резкой остановке приложения АСУ ТП процесс пастеризации или фильтрации прерывается. Пиво, находящееся в потоке, подлежит утилизации.
Кроме этого, необходимо учитывать расходы на перезапуск линии, включая санитарную промывку и затраты на поддержание пивоваренных котлов в режиме ожидания. Отказ сервера прерывает процесс передачи данных: в контроллер перестает поступать рецепт (очередной шаг), из-за чего происходит остановка всего техпроцесса. Для скоротечных процессов, не допускающих длительных пауз, даже остановка, превышающая 10 минут, имеет критическое значение. Специфика пищевой отрасли такова, что незапланированный простой из-за отказа ИТ-системы превращается в технологическую катастрофу. Для расчета стоимости незапланированного простоя на пивоваренном заводе недостаточно просто умножить объем непроизведенной продукции на цену. Например, незапланированный простой автоматизированной системы управления линией розлива часто ведет не только к простою производства, но и к каскадным затратам в виде порчи сырья. Помимо упущенного дохода существуют специфические расходы, связанные с технологическим браком сырья из-за того, что при резкой остановке приложения АСУ ТП процесс пастеризации или фильтрации прерывается. Пиво, находящееся в потоке, подлежит утилизации.
Рис. 1. Для пивоваренного завода характерны скоротечные технологические процессы, не допускающие долгих простоев
Когда одна ИТ-система останавливает производство
Все системы критичны, для каждой из них выделяются отдельные физические или виртуальные машины, и отказ любой из этих машин приводит к простоям.
Стандартные методы защиты — резервное копирование данных, холодный резерв оборудования, кластеризация ПО АСУ ТП встроенными средствами — позволяют сохранить информацию, но не обеспечивают непрерывности производственного цикла.
Если сервер выходит из строя по любой причине — из-за аппаратного обеспечения, ПО или отключения электроснабжения, — у завода останавливается линия и теряется партия продукта. И это происходит из-за отказа только одной ИТ-системы. Обычно же на предприятии, производящем напитки, внедрено несколько разных систем: кроме АСУ ТП, SCADA и MES, это могут быть системы, отвечающие за маркировку «Честный знак», за связь с государственной системой ЕГАИС, за планирование (1С: ERP), учет и другие бизнес-задачи.
Человеческий фактор и риски восстановления
Человеческий фактор тоже может привести к остановке технологического процесса на недопустимо долгий срок.
На заводе без хорошей технической поддержки операторы, потеряв связь с сервером, делают то, что кажется самым простым решением: перезагружают кластер, на котором находится производственный сервер.
Но если проблема была, например, в коммутационном оборудовании, то ни первая, ни вторая, ни третья перезагрузка не принесут результата, а будут потеряны время, продукт и синхронизация кластера.
В итоге потребуется восстановление системы и дополнительные расходы на услуги технических специалистов из операционных затрат (OPEX).На заводе без хорошей технической поддержки операторы, потеряв связь с сервером, делают то, что кажется самым простым решением: перезагружают кластер, на котором находится производственный сервер.
Подход ГиперСферы: отказоустойчивость вместо восстановления
Для решения указанной проблемы необходимо сместить акцент с сохранности данных на отказоустойчивость инфраструктуры.
Платформа виртуализации «ГиперСфера» производства ООО «СТР» предназначена для повышения отказоустойчивости серверов. Архитектурно решение строится на двух физических серверах x86-64, на которых поддерживаются синхронные копии виртуальных машин, содержащих SCADA, базы данных, MES и шлюзовые компоненты.
Принципиальным отличием от классических кластеров является отсутствие необходимости в выделенной системе хранения данных. Синхронизация памяти и состояния ввода-вывода происходит по выделенному каналу 10 Гбит/с напрямую между узлами.
В случае аппаратного отказа одного из серверов — выхода из строя блока питания, диска или потери сети — второй узел подхватывает выполнение критической нагрузки без потери состояния, то есть остановки техпроцесса не происходит. Платформа виртуализации «ГиперСфера» производства ООО «СТР» предназначена для повышения отказоустойчивости серверов. Архитектурно решение строится на двух физических серверах x86-64, на которых поддерживаются синхронные копии виртуальных машин, содержащих SCADA, базы данных, MES и шлюзовые компоненты. Принципиальным отличием от классических кластеров является отсутствие необходимости в выделенной системе хранения данных. Синхронизация памяти и состояния ввода-вывода происходит по выделенному каналу 10 Гбит/с напрямую между узлами.
Рис. 2. Архитектура отказоустойчивой системы управления техпроцессом на базе ПО «ГиперСфера»
Fault Tolerance для критически важных процессов
С помощью платформы «ГиперСфера» можно реализовать и более защищенный вариант — виртуальные машины с непрерывной доступностью (Fault Tolerance, FT).
Режим непрерывной доступности практически исключает переходные процессы и в случае отказа одного из физических серверов обеспечивает продолжение выполнения виртуальных машин на другом сервере без перерыва и потери данных.
Однако такое решение востребовано реже и применяется в процессах, критически чувствительных к любым задержкам, например в энергетике или атомной промышленности.
Для пивного и молочного производства, где допустимы паузы в 3–5 минут, обычно достаточно высокой доступности с автоматическим перезапуском виртуальной машины на резервном узле.
Комплексный подход к отказоустойчивости
Практика внедрения подтверждает, что отказоустойчивость на уровне гипервизоров эффективна только при резервировании физических серверов и всей физической инфраструктуры.
Обязательным условием является применение RAID-массивов, дублированных блоков питания в серверах и резервирование сетевых подключений. Комплексный подход дает максимальный результат.
Внедрение системы отказоустойчивости на объекте занимает около месяца — от планирования до реализации. Если же реализуется комплексное решение с новым оборудованием и системой АСУ ТП, срок составляет от 3 до 6 месяцев.
Как меняется архитектура производственных систем
По мере накопления опыта меняется и подход к архитектуре вычислительных мощностей.
Ранее наблюдалась тенденция к выделению одного кластера под один проект или участок производства. На таком кластере обычно работали одна-две виртуальные машины.
Сейчас тренд меняется в сторону укрупнения: предприятия постепенно переходят к увеличению мощности кластеров и размещению на них множества виртуальных машин для всех участков производства. Это сокращает количество физических единиц оборудования и упрощает администрирование.
Заключение
Таким образом, внедрение ПО «ГиперСфера» переводит отказоустойчивость из категории программных «костылей» в разряд базовых свойств архитектуры производственной ИТ-системы.
Отказоустойчивость требуется для всех критически важных процессов, главное — реализовать ее своевременно и качественно, а не после «рухнувшего» сервера.
Подробнее о продукте «ГиперСфера»: https://str-technologies.com/