Представьте: 15:00 среды, пик рабочего дня. Внезапно гаснет свет во всем здании. ИБП щелкает, переключая на батареи, но через 10 минут в серверной начинает расти температура. Еще через пять срабатывает аварийная сигнализация, и оборудование начинает отключаться один за другим. Вопрос: когда бизнес начнет терять деньги? Ответ — через 30 секунд после первого сбоя, если речь о процессинге платежей. А если повезло меньше — через те самые 10–15 минут, когда встанут критически важные сервисы.
В работе с IT-инфраструктурой мы в Sympace® постоянно видим одну и ту же дилемму: бюджет не резиновый, а требования к отказоустойчивости растут с каждым годом. Руководители хотят «все и сразу», но реальность диктует необходимость расставлять приоритеты. Где нельзя экономить ни в коем случае, а где допустим разумный поэтапный подход? Разберемся.
Что под угрозой: цена простоя
Прежде чем говорить о решениях, важно понять масштаб проблемы. По данным из открытых источников, компании, перешедшие с покупки серверов на аренду и гибридные модели, сокращают простои в среднем на 40% за счет SLA и резервирования. Но обратная сторона тоже известна: для банков, крупных ритейлеров и сервисных провайдеров даже час недоступности может исчисляться миллионными потерями. Для среднего бизнеса риски иные, но не менее критичны: срыв поставок, потеря репутации, невозможность повторить упущенные транзакции.
Инфраструктура непрерывности строится на трех китах: электропитание, охлаждение и отказоустойчивая архитектура самих вычислительных мощностей и систем хранения данных (СХД). И подход к каждому из этих элементов должен быть разным.
Критично с первого дня: то, что нельзя откладывать
1. Системы бесперебойного питания (ИБП)
Это основа основ. Без электропитания не работает ничего. Если выделять бюджет в порядке строгой приоритетности, ИБП и ввод резервного питания должны идти первым пунктом.
Что важно понимать:
Современный ЦОД уровня Tier III предполагает резервирование N+1 — то есть один дополнительный модуль ИБП к требуемому количеству. Это позволяет проводить обслуживание без отключения нагрузки. Для Tier IV требуется уже резервирование 2N — полное дублирование всех путей питания.
На что обратить внимание:
- Время автономной работы от аккумуляторов должно покрывать интервал до запуска дизель-генераторной установки (ДГУ). Обычно это 10–15 минут.
- ДГУ должна иметь регулярные тестовые запуски под нагрузкой — раз в месяц.
- Не экономьте на системе автоматического ввода резерва (АВР). Ручное переключение в 3 часа ночи — сомнительное удовольствие.
Почему это критично:
Даже если у вас самые современные серверы и СХД, без защищенного электропитания они превращаются в груду металла в момент первого серьезного сбоя в городской сети.
2. Охлаждение: не роскошь, а необходимость
Современное серверное оборудование выделяет огромное количество тепла. Плотность мощности на стойку растет: если раньше нормой были 5–7 кВт, то сегодня корпоративные заказчики часто запрашивают стойки на 10–12 кВт, а для СХД — до 18 кВт.
Без правильно организованного охлаждения происходит следующее:
- Серверы начинают троттлинг — снижают производительность, чтобы не перегреться.
- При достижении критической температуры срабатывает аварийное отключение.
- Постоянный перегрев сокращает срок службы компонентов в разы.
Минимальные требования:
Даже если вы не строите полноценный ЦОД с чиллерами и прецизионными кондиционерами, система охлаждения должна быть спроектирована с учетом:
- разделения «горячих» и «холодных» коридоров;
- резервирования кондиционеров (как минимум N+1);
- поддержания влажности на уровне 40–60% для предотвращения статического электричества.
В небольших серверных допустимо начать с фрикулинга (использования наружного воздуха) с адиабатическим доохлаждением — это дешевле чиллерных систем, но требует тщательного расчета климатических условий региона.
3. Отказоустойчивость критических сервисов: архитектура, а не «железо»
Здесь часто возникает заблуждение: купили два сервера — уже отказоустойчивость. Нет. Настоящая непрерывность обеспечивается на уровне архитектуры.
Что должно быть в приоритете:
- Кластеризация. Физические серверы объединяются в кластер, и при выходе одного из строя виртуальные машины автоматически «переезжают» на другой. Это требует не только оборудования, но и лицензий на платформы виртуализации.
- Резервное копирование с четким RPO и RTO. RPO (точка восстановления) — сколько данных вы готовы потерять. RTO (время восстановления) — за сколько вы должны вернуться в строй. Для критических систем RPO должен измеряться минутами, RTO — часами.
- Геораспределенная репликация. Если вся инфраструктура стоит в одном здании, то пожар или затопление уничтожат бизнес целиком. Репликация данных на вторую площадку (свою или арендованную) — это уже не роскошь, а стандарт для компаний, для которых недоступность неприемлема.
Внедрение виртуализации и отказоустойчивых решений позволяет снизить совокупную стоимость владения (TCO) по статье «серверы» на 85%, а по инфраструктуре СХД — на 65% за три года. Экономия возникает за счет более эффективного использования ресурсов и сокращения простоев.
Что можно делать поэтапно: разумная стратегия
Теперь о том, где допустим гибкий подход. Мы в Sympace® помогаем клиентам выстраивать дорожные карты, где первоочередные вложения защищают критическую функциональность, а остальное разворачивается по мере появления бюджета.
1. Замена серверного парка и СХД
Можно и нужно делать не одномоментно, а волнами. Но здесь важно правило: оборудование, на котором крутятся бизнес-критичные приложения, не должно иметь возраст более 3–5 лет. Это срок активной амортизации и гарантийной поддержки.
Поэтапный подход:
- Проведите инвентаризацию и разделите все системы на классы: «Critical» (остановка невозможна), «Important» (допустим простой до 4 часов), «Background» (может подождать до суток).
- В первую очередь обновляйте то, что попало в первую категорию и чей возраст превышает 5 лет.
- Для некритичных нагрузок рассмотрите локальную сборку — это позволяет гибко подбирать конфигурацию и сокращает сроки поставки до нескольких дней.
Важный момент:
Локальная сборка серверов и СХД сегодня становится полноценной альтернативой ушедшим A-брендам. Она дает не только гибкость конфигураций (можно получить ровно то, что нужно, без переплаты за «лишние» опции), но и расширенную гарантию — локальные интеграторы часто предлагают сервисное обслуживание на 3–5 лет, тогда как крупные бренды дают стандартный год.
2. Модернизация систем охлаждения
Если у вас уже есть базовое охлаждение, но его мощности не хватает на перспективу, не обязательно сразу менять все.
Этапность:
- Начать с организации правильной циркуляции воздуха: закрыть кабельные проходы, установить фальшполы и организовать «горячие/холодные» коридоры. Это часто дает +20–30% эффективности без замены оборудования.
- Следующий шаг — установка дополнительных кондиционеров с резервированием N+1 для зоны с критическим оборудованием.
- И только затем — переход на централизованные системы с чиллерами, если позволяет бюджет и масштаб.
3. Переход на аренду vs покупка ЦОДа
Вопрос «строить свой ЦОД или арендовать стойки» — один из самых дискуссионных. И здесь поэтапность работает лучше всего.
Стратегия:
Начать с аренды стоек в коммерческом ЦОДе уровня Tier III. Это дает:
- отсутствие капитальных затрат (CAPEX переводится в операционные OPEX);
- готовую инженерную инфраструктуру с гарантией по SLA;
- возможность масштабироваться быстро, без ожидания строительства.
Когда нагрузка станет стабильно высокой (например, более 80% от мощностей) и появится четкое понимание требований на 5–7 лет вперед, можно рассматривать строительство собственного ЦОДа. По оценкам, окупаемость такого проекта при высокой загрузке составляет 5–7 лет.
Для компаний, которые не готовы ни к тому, ни к другому, есть гибридный вариант: критическое оборудование размещается в арендованном ЦОДе, а вспомогательное — на своей площадке.
4. Зонирование по надежности
Тренд последних лет, который набирает популярность в корпоративном сегменте, — разделение инфраструктуры на зоны с разным уровнем надежности в рамках одного ЦОДа.
Как это работает:
- Зона А (business-critical): полное резервирование питания и охлаждения, Tier III или выше.
- Зона Б (некритичные приложения): упрощенная система охлаждения (например, только фрикулинг), допустимы кратковременные перерывы.
Такой подход позволяет снизить затраты на 15–20% по сравнению с однородной инфраструктурой высшего уровня надежности. И внедрять это можно поэтапно, начиная с выделения «чистой» зоны для самого важного.
О чем часто забывают: связь и безопасность
В погоне за «железом» руководители нередко упускают из виду два критических элемента:
1. Каналы связи. Наличие основного и резервного магистральных каналов передачи данных находится на том же уровне важности, что и электропитание. Если провайдер «упал», а второго входа нет — вы в изоляции.
2. Системы контроля доступа и пожаротушения. Автономное газовое пожаротушение в серверной — не прихоть, а требование страховых компаний и здравого смысла. Вода или пена уничтожат оборудование не хуже, чем огонь.
Как подойти к планированию
Опираясь на практику, мы в Sympace® рекомендуем следующий алгоритм:
- Аудит. Без понимания текущего состояния (возраст оборудования, схемы питания, реальные нагрузки) любое планирование — гадание.
- Классификация. Разделить системы по критичности. Определить допустимые RPO и RTO для каждой группы.
- Приоритизация. Вложиться в то, без чего бизнес не выживет даже при кратковременном сбое: ИБП + ДГУ, кластеризация критических сервисов, резервные каналы связи.
- Дорожная карта. Для всего остального составить план на 2–3 года с учетом появления бюджета и роста нагрузок.
Часто попытка сэкономить на старте оборачивается многократными потерями в будущем. Некачественный ИБП, отсутствие резервирования, «скрученный» на коленке сервер без гарантии — это не экономия, а отложенные проблемы.
Совокупная стоимость владения (TCO) складывается не только из цены закупки. В нее входят:
- стоимость простоев (и она всегда выше, чем кажется);
- затраты на внеплановый ремонт;
- время администраторов, отвлеченных на тушение «пожаров» вместо развития;
- потерянная репутация.
В Симпэйс мы видим свою задачу в том, чтобы помочь клиентам найти баланс между «идеальной» отказоустойчивостью и реальным бюджетом. Иногда это означает старт с аренды и постепенный выкуп оборудования. Иногда — выбор локальной сборки вместо ожидания недоступных брендовых решений месяцами. Иногда — пересмотр архитектуры в сторону гибридной модели.
Наша задача — говорить с вами на понятном языке, разбираться в сложных технических моментах и предлагать решения, которые работают именно в ваших условиях. Без нервов, срыва сроков и с заботой.