93 подписчика

Байки из жизни наших дата-центров

29 января 202029 янв 2020

3 мин

Михаил Соловьёв (Mikhail Solovyev), R&D директор: У нас работал инженер (назовем его Иван), который был большим перфекционистом. Лучше всего ему удавалось ровно и красиво прокладывать провода в стойках. Как-то Ивану выпала задача заменить патчкорд на тестовом стенде внутренней виртуализации. И вот как-то раз прямо перед обедом мы увидели красный Nagios (наш мониторинг): облако потеряло часть хранилища по одному пути. Данные шли по другим путям и клиенты не пострадали, но тем не менее это была аварийная ситуация. Мы бросились ее исправлять, но не успели: через 5 минут пути сами восстановились. Расследование показало, что в аварии участвовали три СХД одного и того же вендора, но разных моделей и находящихся в разных залах. Мы долго думали и не смогли найти какой-либо связи, кроме как с активностью на Марсе. Не видели мы связи и в том, что падение продуктива произошло в тот момент, когда Иван пошел менять патчкорд на тесте. В конце концов между тестом и продуктивом несколько коммутаторов.

Михаил Соловьёв (Mikhail Solovyev), R&D директор:

У нас работал инженер (назовем его Иван), который был большим перфекционистом. Лучше всего ему удавалось ровно и красиво прокладывать провода в стойках. Как-то Ивану выпала задача заменить патчкорд на тестовом стенде внутренней виртуализации.

И вот как-то раз прямо перед обедом мы увидели красный Nagios (наш мониторинг): облако потеряло часть хранилища по одному пути. Данные шли по другим путям и клиенты не пострадали, но тем не менее это была аварийная ситуация. Мы бросились ее исправлять, но не успели: через 5 минут пути сами восстановились. Расследование показало, что в аварии участвовали три СХД одного и того же вендора, но разных моделей и находящихся в разных залах. Мы долго думали и не смогли найти какой-либо связи, кроме как с активностью на Марсе. Не видели мы связи и в том, что падение продуктива произошло в тот момент, когда Иван пошел менять патчкорд на тесте. В конце концов между тестом и продуктивом несколько коммутаторов.

Всю неделю после этого инцидента работали спокойно. Затем снова за 15 минут до обеда у нас отрываются те же три СХД. Один из инженеров начинает вопить, что все пропало, другой включает голову и пытается понять, что происходит. А потом смотрит на пустое место инженера-перфекциониста и как закричит: «А где Иван?!»

Иван в это самое время снова меняет патчкорд. Говорим ему срочно откатить то, что он делал и идти к нам вместе с этим патчкордом. Возвращается Иван, а у него в руках короткий шнур желтого цвета. Мы спрашиваем, где он взял Single-mode и почему он ушел с синим, а пришел с желтым. Он в ответ: «Вы мне дали трехметровый провод, а там всего-то полметра. Я пошел на оперативный склад, взял оптику покороче. Чего вы ругаетесь…»

В общем, инженер вставил вместо провода Multi-mode — Single-mode. Тут стало понятно, что нужно провести курсы по оптике: научить отличать по цветам и назначению. В тот раз так никто до конца и не понял, что если в SAN-свитч подключить сервер сингл-модом вместо мульти-мода, то это приведет к отказу трех СХД одного вендора на другом свитче...

Кирилл Шадский, Начальник отдела управления внешними ЦОД:

NORD-2 некогда порвал топы необычных ЦОДов Москвы. Он строился треугольной формы из-за особенностей площадки и расположения коммуникаций, за что и получил свое второе имя «Треугольник».
В 2012 году, когда я проходил обучение, между мной и коллегой состоялся такой диалог:

— А вы слышали, какие-то болваны треугольный ЦОД затеяли!

— Господа, это не болваны, это ДатаЛайн. Рад познакомиться.
Неловкая пауза*

На самом деле жизнь показала, что наша «треугольность» позволила максимально полезно использовать имеющуюся площадь.

Alexey Bagaev, Операционный директор:

Когда я был еще дежурным инженером, в OST’е работал один зал. Дежурка была прямо напротив этого зала, за стеклом, и его было хорошо видно. Вечереет, я работаю и вдруг вижу краснеющий мониторинг. В зал залетает весь сетевой отдел (тогда всего три инженера), ребята открывают две стойки и начинают без разбору вырывать провода клиентов.

Я в шоке смотрю на этот хоррор и не понимаю, как реагировать. В инструкции такие случаи описаны не были :)

Оказалось, клиентов отключали из-за broadcast-шторма. Он возникает из-за неправильного подключения, и конкретно в тот раз один из клиентов закольцевал свою топологию на уровне бродкастового домена. Трафик начал гоняться по кольцу, и получился такой «снежный ком». CPU под 100%, оборудование тупит и сеть полностью выходит из строя. И чтобы прекратить все это безобразие, пришлось всех отключить.

---

Во времена, когда ЦОДа на Коровинском еще не существовало, а в OST’е было только пару залов, мы уже любили устраивать праздники для своих клиентов.

Как-то мы готовились к празднованию Нового года, а какой Новый год без шампанского. Кто-то решил воспользоваться служебным положением и положил остужаться игристое под фальшпол в машинном зале. Про часть бутылок забыли и нашли клад только через пару месяцев. Вот радости у кого-то было...

Бизнес и финансы

1,13 млн интересуются