За последние 3 месяца мы экстерном прошли курс выживания в экстремальном ИТ. Событий было столько, что хватило бы на сериал. Просто доросли до нагрузок, где вылезают проблемы совсем другого уровня — те самые, с которыми воюют гиперскейлеры. На этом этапе любые неочевидные зависимости или ограничения масштабирования бьют в разы больнее. Решили разобрать эти кейсы открыто. Это хроника того, как мы адаптируем инфраструктуру под новые нагрузки. ➖ Инцидент в ЦОД (Германия). В феврале из-за возгорания на площадке во Франкфурте полностью отключили питание, доступ к стойкам был закрыт на 2 часа. Часть компонентов вышла из строя. Обновили протоколы «холодного старта» и резервирования для зарубежных сегментов. Дополнительно пересмотрели подходы для более быстрого взаимодействия с поставщиками и партнерами. ➖ Сетевые атаки в марте. Мы столкнулись с DDoS-атаками новых масштабов и паттернов (пики 1, 2, 14 и 16 числа). Обновили профили фильтрации, правила классификации и пороги реакции на аном