Добавить в корзинуПозвонить
Найти в Дзене
Timeweb Cloud

Дорогой дневник

За последние 3 месяца мы экстерном прошли курс выживания в экстремальном ИТ. Событий было столько, что хватило бы на сериал. Просто доросли до нагрузок, где вылезают проблемы совсем другого уровня — те самые, с которыми воюют гиперскейлеры. На этом этапе любые неочевидные зависимости или ограничения масштабирования бьют в разы больнее. Решили разобрать эти кейсы открыто. Это хроника того, как мы адаптируем инфраструктуру под новые нагрузки. ➖ Инцидент в ЦОД (Германия). В феврале из-за возгорания на площадке во Франкфурте полностью отключили питание, доступ к стойкам был закрыт на 2 часа. Часть компонентов вышла из строя. Обновили протоколы «холодного старта» и резервирования для зарубежных сегментов. Дополнительно пересмотрели подходы для более быстрого взаимодействия с поставщиками и партнерами. ➖ Сетевые атаки в марте. Мы столкнулись с DDoS-атаками новых масштабов и паттернов (пики 1, 2, 14 и 16 числа). Обновили профили фильтрации, правила классификации и пороги реакции на аном

Дорогой дневник...

За последние 3 месяца мы экстерном прошли курс выживания в экстремальном ИТ. Событий было столько, что хватило бы на сериал.

Просто доросли до нагрузок, где вылезают проблемы совсем другого уровня — те самые, с которыми воюют гиперскейлеры. На этом этапе любые неочевидные зависимости или ограничения масштабирования бьют в разы больнее.

Решили разобрать эти кейсы открыто. Это хроника того, как мы адаптируем инфраструктуру под новые нагрузки.

➖ Инцидент в ЦОД (Германия). В феврале из-за возгорания на площадке во Франкфурте полностью отключили питание, доступ к стойкам был закрыт на 2 часа. Часть компонентов вышла из строя.

Обновили протоколы «холодного старта» и резервирования для зарубежных сегментов. Дополнительно пересмотрели подходы для более быстрого взаимодействия с поставщиками и партнерами.

➖ Сетевые атаки в марте. Мы столкнулись с DDoS-атаками новых масштабов и паттернов (пики 1, 2, 14 и 16 числа).

Обновили профили фильтрации, правила классификации и пороги реакции на аномалии. Это позволяет эффективнее отсекать всплески, не задевая легитимный трафик.

➖ Сбой на уровне гипервизоров. 24 марта из-за флапа сети в московских стойках «зависли» RDMA-сессии на стороне СХД. Это привело к потере связности на 15 нодах, часть ВМ пришлось эвакуировать.

Изменили параметры взаимодействия сетевого стека и гипервизоров, чтобы локальные колебания сети не приводили к каскадному влиянию на виртуальные машины.

➖ Сбой на уровне СХД. 9–10 апреля кластер СХД столкнулся со сбоем. Причина — софтовый баг, не заявленный ранее вендором, проявился под нашей продакшен-нагрузкой.

Обновили ПО, пересмотрели процедуры обслуживания и ввели дополнительные лимиты на контроллерах для защиты системы в пиковых сценариях.

➖ Доступность Telegram API. Масштабные сбои в работе ботов по всей РФ затронули и наши сервисы.

Отладили систему мониторинга внешних сервисов, чтобы информировать пользователей о глобальных сбоях, на которые не можем влиять напрямую.

➖ Ошибка в БД. 4 мая во время плановых работ возник технический сбой, который привел к некорректным балансам и блокировкам.

Ошибку устранили, доступ восстановили. Внесли изменения в регламенты техработ и добавили дополнительные уровни проверки данных (валидацию), чтобы минимизировать риски, связанные с человеческим фактором.

Понимаем, что чем больше становится проект, тем важнее быть открытыми с теми, кто им пользуется. Поэтому решили немного изменить формат новостей.

Теперь наравне с продуктовыми обновлениями будем регулярно рассказывать про архитектуру сетей и работу с железом. Для нас это новый вызов, а для вас — возможность увидеть, с чем сталкивается большая инфраструктура изнутри.