Найти в Дзене
E-Flops

Что такое и как устроен Суперкомпьютер

Компьютеры появились для решения прикладных задач физики, математики, техники, они позволяют заменить натурные эксперименты, а также моделировать такие режимы, которые в жизни очень сложно получить. Для решения очень сложных задач требуется большой объем вычислений, который способны выполнять только суперкомпьютеры.

До сих пор нет точного определения, что такое суперкомпьютер. В целом принято считать, что суперкомпьютер, это специализированная вычислительная машина, значительно превосходящая по своим техническим параметрам и скорости вычислений компьютеры общего пользования.

Один из таких суперкомпьютеров, точнее Суперкомпьютерный Комплекс (СК) «Ломносов-2» установлен в Московском Государственном Университете и назван в честь выдающегося ученого — М.В. Ломоносова.

Руководитель отдела суперкомпьютерных технологий компании «АМДтехнологии», которая проектировала и строила инженерную часть суперкомпьютера Ломоносов-2, Пашнин Александр, принимал участие в создании этого комплекса еще в компании «Т-Платформы», создававшую вычислительную часто СК, в качестве Руководителя технического департамента, а так же в настоящее время занимается его поддержкой в руководя Сектором программно-аппаратных комплексов НИВЦ МГУ, и Сергей Плюснин, Главный архитектор компании «Е-Флопс», который принимал непосредственное участие в разработке СК «Ломоносов-2» являясь Руководителем технического отдела компании «Т-Платформы», рассказали, из каких блоков состоит и как функционирует данный суперкомпьютер.

Макет Суперкомпьютерного Комплекса "Ломоносов-2"
Макет Суперкомпьютерного Комплекса "Ломоносов-2"

СК «Ломносов-2» был полностью разработан и построен российской компанией «Т-Платформы» и запущен в эксплуатацию в 2013 году. В 2014-15 годах была произведена модернизация и расширение комплекса. До сих пор этот комплекс является одним из самых мощных и крупнейших в России и восточной Европе из входящих в Топ-500 мирового рейтинга.

Инфраструктура Суперкомпьютерного Комплекса «Ломоносов-2» является сложнейшим современным решением, которое органично расположилось на нескольких уровнях Ломоносовского корпуса МГУ и состоит из различных площадок, обеспечивающих функционирование данного комплекса.

В состав вычислительного комплекса входят ряд специально оборудованных помещений таких как: Машинные Залы, где размещено «сердце» комплекса – оборудование вычислительного поля, отдельный зал где находятся управляющие серверы, которые занимаются распределением задач, синхронизацией, получением результатов вычислений – это «мозг» комплекса, помещение в котором размещены системы хранения данных, которые служат для хранения исходных данных, а также хранятся результаты полученных расчетов - и это только вершина «айсберга». Немалую долю составляют помещения систем жизнеобеспечения комплекса, в которых располагаются такие наиважнейшие инженерные системы как энергообеспечения, бесперебойного питания, охлаждения, систем пожарной безопасности, а также внешняя площадка, на которой находятся элементы оборудования системы отвода избыточного тепла - сухие градирни и чиллеры (водоохладительные машины) которые имеют немаленькие габариты учитывая те мощности, на которые спроектирован комплекс.

Производительность суперкомпьютеров измеряется во флопсах – количестве операций с плавающей запятой, которые выполняются в секунду. Например, первый, установленный в МГУ суперкомпьютер «Стрела» мог выполнять до 2 000 операций в секунду. Сегодня суперкомпьютер Ломоносов-2 может выполнять до 5 квадриллионов операций в секунду, это 5 РФлопс.

Вычислительное поле СК "Ломоносов-2"
Вычислительное поле СК "Ломоносов-2"

Вычислительное поле Суперкомпьютера построено на серверных модулях, которые были разработаны в 2011-13 годах. Структура вычислительного поля СК «Ломоносов-2» гибридная и содержит как CPU x86 архитектуры, так и графические ускорители (GPU). Каждый вычислительный модуль содержит 4 независимых вычислительных узла. В свою очередь, каждый вычислительный узел построен на базе 1 центрального процессора (CPU) и 1 GPU ускорителя в узлах 1-го поколения, и одного центрального процессора (CPU) и 2 GPU ускорителей в узлах 2-го поколения, что кратно повысило производительность при расчетах современных задач. Вычислительные модули скомпонованы в группы по 8 шт., аппаратный шкаф, в свою очередь, содержит 8 таких групп и необходимое количество коммутаторов сетей InfiniBandи Ethernet, объединяющих вычислительные узлы в единый комплекс. Каждый такой аппаратный шкаф потребляет до 120 кВт электроэнергии, а по вычислительной мощности сравним с СК «Ломоносов-1», который занимал площадь более 2000 м2 и потреблял до 6 МВт. При такой энергетической плотности вычислительного поля СК особое внимание стоит уделить системе охлаждения.

Серверы управления и системы хранения данных СК "Ломоносов-2"
Серверы управления и системы хранения данных СК "Ломоносов-2"

В следующих помещениях комплекса размещены системы хранения данных, которые служат для хранения исходных данных, а также полученных расчетов. Также в системах хранения данных хранятся данные о всех пользователях, которые работают в системе.

Система хранения состоит из нескольких разделов; это раздел для хранения оперативных данных, раздел для хранения постоянных данных, а также резервный раздел, где хранятся резервные копии данных на случай сбоя первого или второго раздела. Раздел хранения резервных копий имеет полное резервирование, включая как резервирование самих данных, так и управляющих серверов.

СК «Ломоносов-2» использует 2 независимые и различные по своему принципу работы системы охлаждения. Первая, это основная по мощности отведения система охлаждения на “горячей” воде. Система такого типа впервые в мире была применена и успешно эксплуатируется на крупном вычислительном комплексе, у конкурентов даже имеющих весомые мировые имена в этом направлении работа далее отдельных экспериментальных стоек успехом не увенчалась. Особенность этой системы в том, что отбор тепла осуществляется напрямую с элементов материнской платы серверов вычислительного поля, расположенных в специально спроектированном «сэндвиче», жидким теплоносителем, за счет этого рабочая температура теплоносителя может достигать 45 Со, что позволяет не использовать компрессорное охлаждение во всем спектре наружной температуры в московском регионе. Это позволяет показывать впечатляющие результаты энергоэффективности, аналогов которым нет в мировой практике до настоящего времени.

Элемент системы охлаждения на “горячей” воде СК "Ломоносов-2"
Элемент системы охлаждения на “горячей” воде СК "Ломоносов-2"

Вторая система охлаждения используется для отведения тепла от серверов управления и систем хранения данных. Это традиционная для ЦОД система воздушного охлаждения. Оборудование, используемое для блоков управления и хранения данных, это унифицированное оборудование, используемое в традиционных ЦОД, которое разрабатывалось под воздушные системы охлаждения с использованием чиллиров. Поэтому возникла необходимость использования двух различных систем охлаждения.

Воздушная система охлаждения построена по схеме холодного и горячего коридоров. Температура воздуха в холодном коридоре составляет 20-24 градуса. Отсюда осуществляется забор воздуха для охлаждения оборудования. После охлаждения оборудования, горячий воздух поступает в изолированный горячий коридор. Далее нагретый воздух охлаждается кондиционерами и снова выпускается в холодный коридор. Так устроен цикл охлаждения.

На внешней площадке размещены сухие градирни, которые осуществляют забор тепла от жидкостной системы охлаждения. В градирнях используются только радиаторы и вентиляторы. Эта система охлаждения является наиболее энергоэффективной, так как не используется компрессорное охлаждение и потребляется значительно меньше электроэнергии для отвода тепла.

Сухие градирни СК "Ломоносов-2"
Сухие градирни СК "Ломоносов-2"

Источник бесперебойного питания расположен в отдельном помещении. Его мощности хватает для поддержания автономной работы в течении 10-15 минут для сохранения результатов текущих вычислений и корректной остановки всех систем в случае проблем на внешних линиях энергоснабжения комплекса. Также в отельных помещениях присутствует запас холодной воды, рассчитанный на те же 10-15 минут, которая будет использоваться для охлаждения вычислительных узлов при выключении подачи электроэнергии. За это время суперкомпьютерный комплекс успевает завершить все операции вычисления и сохранить информацию. После восстановления электропитания функционирование суперкомпьютерного комплекса продолжится в штатном режиме.

Система пожарной безопасности также расположена в отдельном помещении. В ней находится запас огнетушащего вещества, а также элементы автоматики, которые отслеживают возникновение возгорания в каком-либо помещении. Распределительная система с помощью автоматических клапанов направляет туда необходимое количество газа для тушения пожара. Также система автоматически отслеживает нахождение персонала в помещениях и предотвращает подачу газа в помещение, если там находятся люди.

Система пожарной безопасности СК "Ломоносов-2"
Система пожарной безопасности СК "Ломоносов-2"

В случае пожара, система сама потушит очаги возгорания. А в случае сбоя в системе электропитания информация будет сохранена и вычислительный комплекс будет остановлен без ущерба потери информации. После любого типа сбоя суперкомпьютер позволяет восстановить информацию и продолжить выполнение заданий с того места, на котором он остановился.

Когда комплекс состоит из тысяч различных компонентов, сбои и поломки происходят регулярно. Всегда какое-то количество вычислительных узлов не работают. Задача инженеров, обслуживающих комплекс, состоит в том, чтобы вовремя ремонтировать оборудование и возвращать узлы в вычислительное поле. А системы управления комплексом зарезервированы и также способны обеспечить рабочее функционирование комплекса. На текущий момент вычислительное поле комплекса работоспособно на 92% от первоначальной конфигурации. Это отличный результат.

Суперкомпьютерный Комплекс «Ломносов-2» является отечественным инженерно-техническим решением, который вобрал в себя все последние достижения науки и техники. В сфере решения, возложенных на него задач комплекс практически является автономным. Присутствие обслуживающего персонала для выполнения ежедневных задач не обязательно, люди необходимы только для выполнения технических работ по регламентному обслуживанию инженерных и вычислительных систем комплекса.

Ломоносовский корпус МГУ, где расположен СК "Ломоносов-2"
Ломоносовский корпус МГУ, где расположен СК "Ломоносов-2"

Суперкомпьютеры решаю огромное количество прикладных задач, а также это вопрос престижа, и безусловно для России очень важно продолжать внедрять суперкомпьютеры, которые будут занимать лидирующие позиции в мировом рейтинге. СК «Ломоносов-2» в скором времени уступит свое место Суперкомпьютерному Комплексу следующего поколения, который также будет с успехом решать наукоемкие задачи и отстаивать престиж нашей страны в области суперкомпьютерных вычислений.