Словил странный и нехороший баг на сервере Gigabyte, который выполняет роль гипервизора ESXi. Даже не просто баг, а цепочку проблем, которая привела к деградации сервисов. В какой-то момент утилизация CPU гипервизора подскочила в полку. Нормальная ситуация, какая-то виртуальная машина решила поработать и сожрала все ресурсы CPU. CPU работали на 100%, после чего резко утилизация CPU упала почти до нуля. При этом виртуальные машины стали еле шевелиться. Сервисы встали. Всё работает нормально, ошибок никаких нет, мониторинг молчит, а виртуалки еле шевелятся. Ничего не понятно. Перезагружать гипервизор страшно, вдруг не взлетит. Экстренно выключил не сильно нужные виртуальные машины, а сильно нужные отправил мигрироваться на соседние гипервизоры. Через час более-менее привёл в порядок сервисы. Начал расследование. Пришёл к выводу, что сочетание факторов привело к такому печальному результату. Виноват баг, о котором я ранее уже писал: GigaFail сенсоров на серверах Gigabyte Значения сенсоров