Дата-центр почти никогда не ломается внезапно.
Чаще всего он начинает работать хуже постепенно — настолько медленно, что это трудно заметить сразу. Оборудование работает. Устройства онлайн. Критических аварий нет.
Но управлять инфраструктурой становится всё сложнее. Причина обычно не в оборудовании.
Причина в том, что инфраструктура выросла, а процессы — нет. Проще говоря, дата-центр перерастает систему управления, которая раньше отлично работала. Когда инфраструктура небольшая, многие вещи решаются естественным образом. Инженеры знают площадку.
Устройства можно быстро проверить вручную.
Инциденты редкие и понятные. Даже если процессы не идеальны, это не мешает работе.
Опыт команды компенсирует недостаток системности. Но по мере роста всё меняется. То, что раньше занимало минуты, начинает занимать часы.
А привычные рабочие схемы начинают давать сбои. Самая сложная часть — заметить момент, когда процессы начинают отставать от масштаба. Потому что сначала это выглядит как мелкие рабочие