«Да всё нормально, просто сервер иногда подвисает»
Эта история началась не с аварии.
И не с вируса.
И даже не с человеческой ошибки.
Она началась с фразы, которую в бизнесе произносят настолько часто, что ее уже перестали замечать:
«Ну да, бывают подвисания. Но в целом всё работает».
Компания — оптовая торговля.
Около 70 сотрудников.
CRM, телефония, склад, бухгалтерия, документы — всё крутилось на одном сервере в подсобке офиса.
Обычная история среднего бизнеса.
Не стартап из презентаций.
Не корпорация с дата-центрами.
Нормальная живая компания, где IT годами развивалось по принципу:
«Надо — докрутим».
Сначала был один сервер.
Потом на него добавили 1С.
Потом CRM.
Потом файловое хранилище.
Потом удаленный доступ.
Потом еще один сервис, потому что «так быстрее и дешевле».
В какой-то момент система начала тяжело дышать.
Но не настолько, чтобы кто-то остановился и сказал:
«Так, у нас проблема».
Симптомы были. Просто к ним привыкли
Менеджеры знали, что утром CRM открывается минуты три.
Бухгалтерия старалась не запускать тяжелые отчеты после обеда.
Склад иногда ждал документы по 10–15 минут.
Раз в пару недель сервер «подвисал», и его перезагружали.
Все это воспринималось как бытовой фон.
Как старый кондиционер в офисе, который шумит, но вроде охлаждает.
Проблема в том, что сервер уже несколько месяцев работал почти без свободного места.
Диски были забиты под 95–97%.
А для систем, где постоянно пишутся базы, логи, временные файлы и резервные копии — это режим хронического стресса.
Но бизнес этого не видит.
Для директора сервер — это черный ящик.
Если сотрудники могут работать — значит всё нормально.
Самая опасная фраза: «Резервные копии есть»
Они действительно были.
Каждую ночь система создавала backup базы.
Красивые зеленые отчеты приходили на почту.
Все выглядело надежно.
Только была одна проблема.
Никто ни разу за последние полтора года не проверял, восстанавливаются ли эти копии вообще.
Потому что в большинстве компаний резервное копирование воспринимается как галочка.
Копия создается?
Создается.
Значит вопрос закрыт.
Хотя настоящая резервная копия — это не файл.
Это возможность восстановить бизнес.
А это две очень разные вещи.
Первые тревожные сигналы появились за полгода до аварии
Система начала ругаться на ошибки дисков.
Иногда база завершалась некорректно.
Пару раз «отваливались» виртуальные машины.
Подрядчик рекомендовал:
— заменить массив;
— проверить хранилище;
— перенести резервные копии отдельно;
— обновить часть инфраструктуры.
Но это был декабрь.
Потом январь.
Потом сезон.
Потом переезд отдела.
Потом «давайте после квартального отчета».
Все решения выглядели разумно.
Никто не сидел сложа руки специально.
Просто IT почти всегда проигрывает более срочным бизнес-задачам.
Особенно если проблема пока не мешает зарабатывать прямо сегодня.
День, когда всё остановилось, начался очень скучно
Среда.
8:47 утра.
Менеджеры начали писать:
«CRM не открывается».
Потом склад:
«Не проводятся документы».
Потом бухгалтерия:
«1С зависла».
Через 20 минут уже никто не мог зайти вообще никуда.
Сервер продолжал работать физически.
Но база данных перестала подниматься.
Один из дисков окончательно умер.
И это был тот неприятный сценарий, где проблема копилась слишком долго.
Массив начал сыпаться еще несколько месяцев назад.
Система пыталась держаться.
Потом держаться стало не на чем.
В этот момент бизнес обычно задает один и тот же вопрос
«У нас же есть резервные копии?»
И вот тут наступает та самая пауза, которую руководители потом вспоминают годами.
Копии были.
Только последние корректные — почти четырехмесячной давности.
Все новые backup-файлы создавались с ошибками.
Система формально их делала.
Но восстановить их было невозможно.
Уведомления о сбоях приходили.
Просто их перестали замечать.
Потому что предупреждения в инфраструктуре — как лампочка Check Engine в машине.
Первые недели пугает.
Потом становится частью интерьера.
Самое дорогое начинается после аварии
Не сервер.
Не диски.
Не работа специалистов.
Самое дорогое — операционный хаос.
Компания на сутки фактически остановилась полностью.
Менеджеры не видели клиентов.
Склад не понимал остатки.
Бухгалтерия не могла выставлять документы.
Телефония работала, но информация о заказах была недоступна.
Люди начинали работать «по памяти».
Кто-то искал старые выгрузки.
Кто-то поднимал переписки.
Кто-то пытался восстановить данные вручную.
На третий день начались проблемы с клиентами.
Потому что бизнес может пережить несколько часов сбоя.
Но когда начинается неопределенность — сыпаться начинают уже процессы.
— где чей заказ;
— кто оплатил;
— что отгрузили;
— кому обещали поставку.
Именно в этот момент IT-проблема превращается в проблему управления компанией.
Самое неприятное — катастрофа не была внезапной
Вот что важно.
Никто не «взломал систему».
Не было киношных хакеров.
Не было одной роковой ошибки.
Была длинная цепочка мелких компромиссов.
Переполненные диски.
Игнорируемые уведомления.
Непроверяемые резервные копии.
Отложенные обновления.
Старая инфраструктура.
Постоянное «не сейчас».
Катастрофа началась не в среду утром.
Она началась сильно раньше.
Просто бизнес этого не видел.
Потому что инфраструктура умеет очень долго выглядеть «в целом рабочей».
Самое опасное — ощущение контроля
После таких историй почти все руководители говорят одну и ту же фразу:
«Мы были уверены, что у нас всё под контролем».
И это честное ощущение.
Потому что большинство компаний не проверяют IT до момента аварии.
Если система работает — значит проблем нет.
Хотя зрелость инфраструктуры проверяется не тогда, когда всё хорошо.
А тогда, когда что-то ломается.
Можно ли быстро восстановиться?
Понятно ли, что критично?
Есть ли актуальные копии?
Есть ли план действий?
Есть ли понимание зависимости бизнеса от конкретных систем и людей?
И вот здесь у многих компаний начинается неприятное открытие.
Они годами инвестировали в работу.
Но почти не инвестировали в устойчивость.
Проблема резервных копий не в технологиях
А в психологии.
Backup — это вещь, ценность которой бизнес не чувствует каждый день.
Нельзя «увидеть прибыль» от резервного копирования.
Нельзя похвастаться клиенту:
«Мы сегодня успешно восстановили тестовую копию базы».
Поэтому этим занимаются по остаточному принципу.
Пока однажды не выясняется, что вся компания последние несколько лет жила в иллюзии защищенности.
У любой инфраструктуры есть момент, когда она перестает прощать
Иногда бизнесу кажется, что системы терпят всё.
Перегрузки.
Экономию.
Старое оборудование.
Отсутствие профилактики.
И долгое время это действительно так.
Но инфраструктура — штука накопительная.
Она редко ломается эффектно и внезапно.
Гораздо чаще она месяцами предупреждает:
— медленнее работает;
— странно себя ведет;
— периодически ошибается;
— требует внимания.
Пока однажды у компании не пропадает база клиентов.
Хотя на самом деле она начала пропадать гораздо раньше.