Нестабильные устройства есть почти в каждом дата-центре.
Идеальной инфраструктуры не существует. Где-то перегрев, где-то просадка по хешрейту, где-то периодические отвалы. Проблема начинается не тогда, когда появляется один нестабильный ASIC.
Проблема начинается тогда, когда из-за него начинают «лечить» всю площадку. Это очень распространённый сценарий: один узел ведёт себя странно — и в ход идут массовые действия. В момент инцидента хочется действовать быстро.
Но быстро — не всегда значит правильно. Обычно это выглядит так: В итоге появляется новый риск — уже системный. Из локальной проблемы можно легко сделать инфраструктурную. Когда вы вмешиваетесь в работающую часть инфраструктуры, вы: Самое неприятное — после массовых действий становится сложнее понять, что именно было причиной сбоя: исходная нестабильность или вмешательство. Инфраструктура начинает «шуметь» ещё сильнее. Работа с нестабильными устройствами должна начинаться не с перезапуска, а с отделения. Первый шаг — выделить пр