155 подписчиков

ИБП, охлаждение, серверы, СХД: что критично для непрерывности бизнеса, а что можно делать поэтапно

27 марта27 мар

8 мин

Представьте: 15:00 среды, пик рабочего дня. Внезапно гаснет свет во всем здании. ИБП щелкает, переключая на батареи, но через 10 минут в серверной начинает расти температура. Еще через пять срабатывает аварийная сигнализация, и оборудование начинает отключаться один за другим. Вопрос: когда бизнес начнет терять деньги? Ответ — через 30 секунд после первого сбоя, если речь о процессинге платежей. А если повезло меньше — через те самые 10–15 минут, когда встанут критически важные сервисы. В работе с IT-инфраструктурой мы в Sympace® постоянно видим одну и ту же дилемму: бюджет не резиновый, а требования к отказоустойчивости растут с каждым годом. Руководители хотят «все и сразу», но реальность диктует необходимость расставлять приоритеты. Где нельзя экономить ни в коем случае, а где допустим разумный поэтапный подход? Разберемся. Прежде чем говорить о решениях, важно понять масштаб проблемы. По данным из открытых источников, компании, перешедшие с покупки серверов на аренду и гибридные мо

Оглавление

Что под угрозой: цена простоя
Критично с первого дня: то, что нельзя откладывать
1. Системы бесперебойного питания (ИБП)

В работе с IT-инфраструктурой мы в Sympace® постоянно видим одну и ту же дилемму: бюджет не резиновый, а требования к отказоустойчивости растут с каждым годом. Руководители хотят «все и сразу», но реальность диктует необходимость расставлять приоритеты. Где нельзя экономить ни в коем случае, а где допустим разумный поэтапный подход? Разберемся.

Что под угрозой: цена простоя

Прежде чем говорить о решениях, важно понять масштаб проблемы. По данным из открытых источников, компании, перешедшие с покупки серверов на аренду и гибридные модели, сокращают простои в среднем на 40% за счет SLA и резервирования. Но обратная сторона тоже известна: для банков, крупных ритейлеров и сервисных провайдеров даже час недоступности может исчисляться миллионными потерями. Для среднего бизнеса риски иные, но не менее критичны: срыв поставок, потеря репутации, невозможность повторить упущенные транзакции.

Инфраструктура непрерывности строится на трех китах: электропитание, охлаждение и отказоустойчивая архитектура самих вычислительных мощностей и систем хранения данных (СХД). И подход к каждому из этих элементов должен быть разным.

Критично с первого дня: то, что нельзя откладывать

1. Системы бесперебойного питания (ИБП)

Это основа основ. Без электропитания не работает ничего. Если выделять бюджет в порядке строгой приоритетности, ИБП и ввод резервного питания должны идти первым пунктом.

Что важно понимать:

Современный ЦОД уровня Tier III предполагает резервирование N+1 — то есть один дополнительный модуль ИБП к требуемому количеству. Это позволяет проводить обслуживание без отключения нагрузки. Для Tier IV требуется уже резервирование 2N — полное дублирование всех путей питания.

На что обратить внимание:

Время автономной работы от аккумуляторов должно покрывать интервал до запуска дизель-генераторной установки (ДГУ). Обычно это 10–15 минут.
ДГУ должна иметь регулярные тестовые запуски под нагрузкой — раз в месяц.
Не экономьте на системе автоматического ввода резерва (АВР). Ручное переключение в 3 часа ночи — сомнительное удовольствие.

Почему это критично:
Даже если у вас самые современные серверы и СХД, без защищенного электропитания они превращаются в груду металла в момент первого серьезного сбоя в городской сети.

2. Охлаждение: не роскошь, а необходимость

Современное серверное оборудование выделяет огромное количество тепла. Плотность мощности на стойку растет: если раньше нормой были 5–7 кВт, то сегодня корпоративные заказчики часто запрашивают стойки на 10–12 кВт, а для СХД — до 18 кВт.

Без правильно организованного охлаждения происходит следующее:

Серверы начинают троттлинг — снижают производительность, чтобы не перегреться.
При достижении критической температуры срабатывает аварийное отключение.
Постоянный перегрев сокращает срок службы компонентов в разы.

Минимальные требования:
Даже если вы не строите полноценный ЦОД с чиллерами и прецизионными кондиционерами, система охлаждения должна быть спроектирована с учетом:

разделения «горячих» и «холодных» коридоров;
резервирования кондиционеров (как минимум N+1);
поддержания влажности на уровне 40–60% для предотвращения статического электричества.

В небольших серверных допустимо начать с фрикулинга (использования наружного воздуха) с адиабатическим доохлаждением — это дешевле чиллерных систем, но требует тщательного расчета климатических условий региона.

3. Отказоустойчивость критических сервисов: архитектура, а не «железо»

Здесь часто возникает заблуждение: купили два сервера — уже отказоустойчивость. Нет. Настоящая непрерывность обеспечивается на уровне архитектуры.

Что должно быть в приоритете:

Кластеризация. Физические серверы объединяются в кластер, и при выходе одного из строя виртуальные машины автоматически «переезжают» на другой. Это требует не только оборудования, но и лицензий на платформы виртуализации.
Резервное копирование с четким RPO и RTO. RPO (точка восстановления) — сколько данных вы готовы потерять. RTO (время восстановления) — за сколько вы должны вернуться в строй. Для критических систем RPO должен измеряться минутами, RTO — часами.
Геораспределенная репликация. Если вся инфраструктура стоит в одном здании, то пожар или затопление уничтожат бизнес целиком. Репликация данных на вторую площадку (свою или арендованную) — это уже не роскошь, а стандарт для компаний, для которых недоступность неприемлема.

Внедрение виртуализации и отказоустойчивых решений позволяет снизить совокупную стоимость владения (TCO) по статье «серверы» на 85%, а по инфраструктуре СХД — на 65% за три года. Экономия возникает за счет более эффективного использования ресурсов и сокращения простоев.

Что можно делать поэтапно: разумная стратегия

Теперь о том, где допустим гибкий подход. Мы в Sympace® помогаем клиентам выстраивать дорожные карты, где первоочередные вложения защищают критическую функциональность, а остальное разворачивается по мере появления бюджета.

1. Замена серверного парка и СХД

Можно и нужно делать не одномоментно, а волнами. Но здесь важно правило: оборудование, на котором крутятся бизнес-критичные приложения, не должно иметь возраст более 3–5 лет. Это срок активной амортизации и гарантийной поддержки.

Поэтапный подход:

Проведите инвентаризацию и разделите все системы на классы: «Critical» (остановка невозможна), «Important» (допустим простой до 4 часов), «Background» (может подождать до суток).
В первую очередь обновляйте то, что попало в первую категорию и чей возраст превышает 5 лет.
Для некритичных нагрузок рассмотрите локальную сборку — это позволяет гибко подбирать конфигурацию и сокращает сроки поставки до нескольких дней.

Важный момент:
Локальная сборка серверов и СХД сегодня становится полноценной альтернативой ушедшим A-брендам. Она дает не только гибкость конфигураций (можно получить ровно то, что нужно, без переплаты за «лишние» опции), но и расширенную гарантию — локальные интеграторы часто предлагают сервисное обслуживание на 3–5 лет, тогда как крупные бренды дают стандартный год.

2. Модернизация систем охлаждения

Если у вас уже есть базовое охлаждение, но его мощности не хватает на перспективу, не обязательно сразу менять все.

Этапность:

Начать с организации правильной циркуляции воздуха: закрыть кабельные проходы, установить фальшполы и организовать «горячие/холодные» коридоры. Это часто дает +20–30% эффективности без замены оборудования.
Следующий шаг — установка дополнительных кондиционеров с резервированием N+1 для зоны с критическим оборудованием.
И только затем — переход на централизованные системы с чиллерами, если позволяет бюджет и масштаб.

3. Переход на аренду vs покупка ЦОДа

Вопрос «строить свой ЦОД или арендовать стойки» — один из самых дискуссионных. И здесь поэтапность работает лучше всего.

Стратегия:

Начать с аренды стоек в коммерческом ЦОДе уровня Tier III. Это дает:

отсутствие капитальных затрат (CAPEX переводится в операционные OPEX);
готовую инженерную инфраструктуру с гарантией по SLA;
возможность масштабироваться быстро, без ожидания строительства.

Когда нагрузка станет стабильно высокой (например, более 80% от мощностей) и появится четкое понимание требований на 5–7 лет вперед, можно рассматривать строительство собственного ЦОДа. По оценкам, окупаемость такого проекта при высокой загрузке составляет 5–7 лет.

Для компаний, которые не готовы ни к тому, ни к другому, есть гибридный вариант: критическое оборудование размещается в арендованном ЦОДе, а вспомогательное — на своей площадке.

4. Зонирование по надежности

Тренд последних лет, который набирает популярность в корпоративном сегменте, — разделение инфраструктуры на зоны с разным уровнем надежности в рамках одного ЦОДа.

Как это работает:

Зона А (business-critical): полное резервирование питания и охлаждения, Tier III или выше.
Зона Б (некритичные приложения): упрощенная система охлаждения (например, только фрикулинг), допустимы кратковременные перерывы.

Такой подход позволяет снизить затраты на 15–20% по сравнению с однородной инфраструктурой высшего уровня надежности. И внедрять это можно поэтапно, начиная с выделения «чистой» зоны для самого важного.

О чем часто забывают: связь и безопасность

В погоне за «железом» руководители нередко упускают из виду два критических элемента:

1. Каналы связи. Наличие основного и резервного магистральных каналов передачи данных находится на том же уровне важности, что и электропитание. Если провайдер «упал», а второго входа нет — вы в изоляции.

2. Системы контроля доступа и пожаротушения. Автономное газовое пожаротушение в серверной — не прихоть, а требование страховых компаний и здравого смысла. Вода или пена уничтожат оборудование не хуже, чем огонь.

Как подойти к планированию

Опираясь на практику, мы в Sympace® рекомендуем следующий алгоритм:

Аудит. Без понимания текущего состояния (возраст оборудования, схемы питания, реальные нагрузки) любое планирование — гадание.
Классификация. Разделить системы по критичности. Определить допустимые RPO и RTO для каждой группы.
Приоритизация. Вложиться в то, без чего бизнес не выживет даже при кратковременном сбое: ИБП + ДГУ, кластеризация критических сервисов, резервные каналы связи.
Дорожная карта. Для всего остального составить план на 2–3 года с учетом появления бюджета и роста нагрузок.

Часто попытка сэкономить на старте оборачивается многократными потерями в будущем. Некачественный ИБП, отсутствие резервирования, «скрученный» на коленке сервер без гарантии — это не экономия, а отложенные проблемы.

Совокупная стоимость владения (TCO) складывается не только из цены закупки. В нее входят:

стоимость простоев (и она всегда выше, чем кажется);
затраты на внеплановый ремонт;
время администраторов, отвлеченных на тушение «пожаров» вместо развития;
потерянная репутация.

В Симпэйс мы видим свою задачу в том, чтобы помочь клиентам найти баланс между «идеальной» отказоустойчивостью и реальным бюджетом. Иногда это означает старт с аренды и постепенный выкуп оборудования. Иногда — выбор локальной сборки вместо ожидания недоступных брендовых решений месяцами. Иногда — пересмотр архитектуры в сторону гибридной модели.

Наша задача — говорить с вами на понятном языке, разбираться в сложных технических моментах и предлагать решения, которые работают именно в ваших условиях. Без нервов, срыва сроков и с заботой.

Гаджеты и электроника

5,73 млн интересуются