Найти в Дзене

Процессоры AMD EPYC 7002 (Rome) зависают через 1044 дня работы, «лечить» проблему AMD не собирается

Компания AMD разослала своим партнёрам технический документ, в котором описывается довольно необычная проблема. Серверные процессоры EPYC 7002 (Rome) зависают через примерно 1044 суток беспрерывной работы. Что любопытно, AMD не собирается это исправлять.

Корень проблемы в состоянии сна CC6 (Core C6 State), понижающем напряжение и частоту в режиме простоя. Ядро просто не может выйти из спящего состояния, что и проводит к критическим ошибкам, как следствие зависание намертво. Проблема «плавающая», точное время зависания зависит от модуляции Spread Spectrum и частоты REFCLK.

В чём конкретно причина AMD не поясняет, но один пользователь Reddit имеет похожее на правду предположение. acid_migrain утверждает, что проблема появляется не через 1044 дня, а 1042 дня и 12 часов. Регистр Timestamp Counter Scaling работает при частоте 2800 МГц. Перемножение 2800 × 106 × 1042,5 даёт 0x3800000000000000, где «слишком много нулей, чтобы не быть совпадением».

-2

В документе прямо сказано, что фикс не планируется. Вместо этого AMD рекомендует принудительно отключать режим CC6, или же вручную перезагружать сервер каждые примерно 2 года и 10 месяцев.

Учитывая периодичность проблемы, удивительно, как её вообще выявили.

Источник:
Tom's Hardware