Сегодня началась конференция ISC High Performance 2020. К сожалению, в этом году мероприятие приходится проводить в онлайн-формате — победа над COVID-19 ещё не одержана. Но уже анонсирован ряд любопытных решений. Одно из них — новая платформа UFM Cyber-AI, разработанная NVIDIA при участии её нового подразделения Mellanox.
Эта платформа ставит своей целью минимизировать возможные простои в центрах обработки данных из-за проблем с аппаратной частью, сетями, либо информационной безопасностью.
Любой современный ЦОД, суперкомпьютер или кластер представляют собой совокупность большого количества стандартных «строительных блоков», обычно в классическом стоечном формате. Все эти «кубики», включающие в себя вычислительные узлы, системы хранения данных, сетевые коммутаторы, а также подсистемы питания и охлаждения, соединены между собой и работают как единое целое.
Эксплуатация такой системы стоит приличных денег и в интересах её владельца обеспечить максимальное время полезной работы при минимальном времени простоя из-за отказов тех или иных компонентов. По данным ITIC, стоимость часа простоя легко может обойтись более чем в $300 тысяч. Но при таком количестве компонентов не всегда помогает даже дублирование и горячая замена комплектующих. С этим-то и предлагает бороться NVIDIA с помощью современных технологий машинного интеллекта.
Поведение систем, входящих в комплекс ЦОД, подчиняется определённым закономерностям и при должном уровне накопления данных солидную часть потенциальных проблем можно предсказать, а значит, и предотвратить — например, путём опережающей замены того или иного блока. Именно такого рода предсказаниям и должна заниматься система UFM Cyber-AI, созданная на основе разработок Mellanox.
Сама технология не нова, принципы, заложенные в ней, применялись Mellanox в сетевых решениях на базе InfiniBand, очень популярного в мире суперкомпьютеров интерконнекта. Платформа UFM Cyber-AI является расширением UFM Enterprise. За сбор информации отвечает третий компонент, UFM Telemetry. Вместе они отслеживают все имеющие значение параметры, от температур и изменений конфигурации в системе до поведения сетевой части — уровня трафика, загруженности и т.п. Выявляются закономерности, отмечаются моменты проседания производительности и прочие отклонения.
На основе профиля поведения ЦОД UFM Cyber-AI может предсказывать грядущие проблемы, а значит, их можно избежать и исправить ситуацию, не останавливая работу систем. От этого выигрывают все: владельцы избегают потерь при простое, снижается стоимость эксплуатации, пользователи не страдают от того, что их задачи внезапно перестают выполняться.
UFM — это программно-аппаратный комплекс, аналитика Cyber-AI выполняется на отдельных серверах. Платформа UFM поддерживает интеграцию с уже имеющимися в ЦОД средствами мониторинга и управления, включая Slurm и Platform LFM, также имеется интеграция с OpenStack, Azure Cloud и VMWare. Более подробные описания есть на сайте NVIDIA.