Добавить в корзинуПозвонить
Найти в Дзене
Сети и люди

Как устроена авария. Изнутри

Авария в сетевой инфраструктуре оператора связи — это не просто "что-то сломалось". Это целый каскад событий, решений и ошибок. Вот как она выглядит изнутри глазами инженера: 1. Предвестники (о которых никто не подумал) 2. Щёлк. И всё 3. Паника 4. Беготня 5. Починка 6. Постфактум 7. Последствия Авария — это не кнопка "reset". Это зеркало всей архитектуры и подхода к эксплуатации. И чаще всего она показывает: "Мы держались на чуде".

Авария в сетевой инфраструктуре оператора связи — это не просто "что-то сломалось". Это целый каскад событий, решений и ошибок. Вот как она выглядит изнутри глазами инженера:

1. Предвестники (о которых никто не подумал)

  • ИБП сдох месяц назад. «Надо заменить» — отложили.
  • Второй линк был — но отключили, чтоб не «мешал».
  • Параметры на маршрутизаторе не сохранили после апдейта.
  • DHCP сервер — на одной тачке, без резервирования

2. Щёлк. И всё

  • Падает питание на узле связи
  • Сервер умирает. Нет DNS, нет DHCP.
  • Один узел — минус весь район.
  • Мониторинг молчит. Его запитали с того же объекта.

3. Паника

  • В контакт-центр техподдержки приходит 100+ звонков: «У нас не работает!»
  • Начальство звонит: «Срочно! Где отчёт? Какой план?»
  • Ты не на работе. У тебя выходной. Но звонишь монтажникам, ищешь ключи, выясняешь, кто дежурный.
  • Подключаешься — доступа нет. Узел вне сети. VPN не работает.

4. Беготня

  • Кто-то едет на узел
  • Ключей нет. Охрана не пускает. Договариваются. Звонки. Давление.
  • Коммутатор без питания. Запуск с удлинителя через розетку в коридоре

5. Починка

  • Втыкают питание. Один коммутатор оживает, второй — нет.
  • Перепрошивка из консоли.
  • Вспоминаешь старые команды.
  • Не поднимается, едешь обратно готовить «новый» коммутатор на замену.
  • А какой там VLAN управления? Выясняешь топологию подключения по старым заявкам в CRM системе и у монтажников.
  • Кидаешь управление на коммутатор и везешь обратно.
  • VPN поднимается. DHCP оживает. Абоненты возвращаются.

6. Постфактум

  • Отчёт для руководства: «причина — отключение электроэнергии».
  • Кто виноват? — Дежурный. «Почему не среагировали быстрее?»
  • Обещают «поставить ИБП», «купить резерв». До следующей аварии.

7. Последствия

  • Один инженер не спал 30 часов.
  • Абоненты требуют перерасчёт.
  • Репутационные потери.
  • Внутри — выгорание, злость, бессилие что-либо изменить.
  • Вопрос в голове: «А стоит ли всё это?»

Авария — это не кнопка "reset". Это зеркало всей архитектуры и подхода к эксплуатации.

И чаще всего она показывает: "Мы держались на чуде".