Добавить в корзинуПозвонить
Найти в Дзене
АйТи на практике

Заказчик: 'Это невозможно!' — а мы сделали за 24 часа

Телефон директора зазвонил в 11 утра среды. Голос в трубке был на грани срыва: "У нас легла вся инфраструктура. 1С не работает, почта недоступна, сотрудники сидят без дела. Завтра в 9:00 приезжает дилерская комиссия — если не покажем работающую систему учёта, потеряем контракт на 50 миллионов." Производственная компания из 150 человек столкнулась с классическим кошмаром: главный сервер просто перестал загружаться. Системный администратор уволился неделю назад, передача дел прошла формально, а документации по инфраструктуре как таковой не существовало. Владелец бизнеса уже обзвонил четыре IT-компании. Реакция была предсказуемой: "Приезжайте к нам в офис, заключим договор, через 3-5 дней начнём разбираться." Когда он услышал про дни, а не часы, понял — нужны те, кто работает по-другому. Звонок к нам был последней надеждой. Наш главный инженер Сергей задал три вопроса: "Есть ли физический доступ к серверной? Остались ли резервные копии? Готовы дать полный карт-бланш на любые действия?" Тр
Оглавление
Как сделать невозможное в ИТ-поддержке
Как сделать невозможное в ИТ-поддержке

Телефон директора зазвонил в 11 утра среды. Голос в трубке был на грани срыва: "У нас легла вся инфраструктура. 1С не работает, почта недоступна, сотрудники сидят без дела. Завтра в 9:00 приезжает дилерская комиссия — если не покажем работающую систему учёта, потеряем контракт на 50 миллионов."

Когда одна ошибка останавливает весь бизнес

Производственная компания из 150 человек столкнулась с классическим кошмаром: главный сервер просто перестал загружаться. Системный администратор уволился неделю назад, передача дел прошла формально, а документации по инфраструктуре как таковой не существовало.

Владелец бизнеса уже обзвонил четыре IT-компании. Реакция была предсказуемой: "Приезжайте к нам в офис, заключим договор, через 3-5 дней начнём разбираться." Когда он услышал про дни, а не часы, понял — нужны те, кто работает по-другому.

Звонок к нам был последней надеждой. Наш главный инженер Сергей задал три вопроса: "Есть ли физический доступ к серверной? Остались ли резервные копии? Готовы дать полный карт-бланш на любые действия?" Три "да" — и через 40 минут наша бригада уже была на объекте.

Диагностика: когда каждая минута на счету

В серверной царил хаос. Три физических сервера, десятки виртуальных машин, запутанная сеть кабелей и ни единой схемы. Первичная диагностика показала: контроллер RAID-массива вышел из строя, прихватив с собой два жёстких диска. Данные были, но добраться до них — задача нетривиальная.

Обычная компания на этом этапе сказала бы: "Нужно заказать новое оборудование, ждать 2-3 дня поставки, потом восстанавливать". У нас другой подход — мы всегда возим с собой критичные компоненты: контроллеры, диски, блоки питания, коммутаторы. Потому что знаем: в аварийных ситуациях время дороже любого оборудования.

План родился за 15 минут: развернуть временную инфраструктуру на резервном сервере, восстановить данные из бэкапов (которые, к счастью, существовали и были относительно свежими — недельной давности), поднять критичные сервисы поэтапно, параллельно чинить основной сервер.

Восстановление: работа без права на ошибку

Пока один инженер колдовал над контроллером и дисками, пытаясь вытащить максимум данных с повреждённого массива, двое других разворачивали временную инфраструктуру. Третий общался с сотрудниками компании, выясняя приоритеты: что поднимать в первую очередь, без чего они могут продержаться день, а что блокирует всю работу.

Критичная точка наступила через 4 часа. Резервная инфраструктура была готова, но бэкапы оказались не такими "чистыми", как хотелось бы. Active Directory требовала восстановления, сетевые настройки слетели, часть виртуальных машин не стартовала. Типичная ситуация, когда резервное копирование настроено формально — "для галочки", а не для реального восстановления.

Здесь проявляется разница между теми, кто "знает, как надо" и теми, кто "делал это десятки раз". Мы не стали биться над "правильным" восстановлением бэкапов — вместо этого подняли базовую инфраструктуру с нуля, импортировали критичные данные вручную, настроили сеть заново. Не элегантно, зато быстро и надёжно.

Результат: из хаоса в порядок за одну ночь

К 23:00 среды в компании заработали все критичные системы: 1С, электронный документооборот, почта, файловое хранилище. Сотрудники получили доступ к данным, пусть и недельной давности — но этого хватало, чтобы показать комиссии актуальную картину.

К 6:00 утра четверга мы закончили восстановление основного сервера. Новый контроллер, замена дисков, миграция данных с временной инфраструктуры обратно — всё отработало штатно. К моменту приезда комиссии в 9:00 директор открыл 1С, показал складские остатки, историю производства, отгрузки — система работала так, будто никакой аварии и не было.

Через неделю он признался: "Когда я увидел, что вы приехали с ящиками запчастей и начали действовать без лишних разговоров, понял — попал к профи. Другие предлагали совещания и диагностику. Вы молча делали."

Случай второй: когда серверная горит в прямом смысле

Логистическая компания столкнулась с буквальной катастрофой: короткое замыкание в серверной вызвало пожар. Автоматика сработала, огонь потушили быстро, но оборудование пострадало серьёзно — три сервера выгорели, ещё пять получили повреждения от дыма и пожаротушащей системы.

Проблема усугублялась тем, что через 36 часов компания должна была отчитаться перед налоговой, предоставив данные по движению грузов за квартал. Данные хранились на сгоревших серверах. Резервные копии были, но находились в той же серверной — и тоже пострадали.

Директор по IT позвонил в панике: "Нам говорят, что восстановление займёт неделю минимум. Но у меня нет недели — максимум полтора дня, иначе компания получит штраф и блокировку счетов."

Стратегия в условиях полной аварии: вместо восстановления старого железа мы развернули новую инфраструктуру в облаке за 4 часа. Облачный провайдер выделил мощности моментально, мы перенесли туда частично сохранившиеся бэкапы, восстановили базы данных из фрагментированных копий.

Фокус на критичном. Вместо восстановления всех 40 виртуальных машин мы сконцентрировались на трёх: сервер баз данных, 1С и система электронного документооборота. Этого хватило, чтобы сформировать отчёт для налоговой и продолжить работу компании.

Через 28 часов после пожара IT-директор отправлял отчёты в налоговую из облачной инфраструктуры. Параллельно мы закупили новое оборудование, развернули полноценную серверную уже по уму — с резервированием, мониторингом и планом аварийного восстановления.

Секрет скорости: почему мы справляемся там, где другие пасуют

Большинство IT-компаний работают по стандартной схеме: диагностика, согласование, закупка, внедрение. На это уходят недели. Но когда инфраструктура лежит, а бизнес теряет деньги каждый час, такой темп — роскошь, которую никто не может себе позволить.

Мобильный склад запчастей. Наши инженеры возят с собой критичные компоненты: жёсткие диски, контроллеры, блоки питания, оперативную память, сетевое оборудование. Не нужно ждать поставщиков — заменили и работаем дальше.

Протокол экстренного реагирования. Когда поступает аварийный вызов, у нас запускается отработанный алгоритм: выезд на объект в течение часа, параллельная диагностика всех систем, приоритизация восстановления. Пока один чинит железо, второй поднимает сервисы, третий общается с заказчиком и координирует действия.

Опыт критичных ситуаций. Все наши инженеры прошли десятки аварийных восстановлений: от сгоревших серверных до зашифрованных вирусами систем. Они не теряются при виде хаоса — они знают, как из хаоса сделать порядок максимально быстро.

Когда "невозможно" — это просто непривычно

После кейса с пожаром мы получили запрос от страховой компании: "Можете ли вы гарантировать восстановление инфраструктуры за 24 часа в случае любой аварии?". Мы честно ответили: "Зависит от масштаба разрушений, но в 90% случаев — да, если есть хоть какие-то резервные копии и физический доступ к площадке".

Крупный завод восстановил работу ERP-системы после аппаратного сбоя за 18 часов вместо прогнозируемых двух недель. Медицинская клиника подняла систему электронных карт пациентов за 12 часов после отказа сервера, хотя другие подрядчики называли сроки в 5-7 дней. Ритейлер вернул в строй кассовую систему за 8 часов в день распродажи, когда каждый час простоя стоил миллионы.

Почему так происходит? Потому что в критичных ситуациях нет времени на бюрократию, согласования и "правильные" процессы. Есть только цель — восстановить работу, и профессионализм команды, которая знает кратчайший путь к этой цели. Когда заказчик говорит "это невозможно сделать так быстро", он просто не встречал тех, кто это уже делал десятки раз.

Подписывайтесь на наш канал, если интересна внутрянка работы ИТ-поддержки)