676 подписчиков
Инженерная глупость стоила десятки тысяч рублей и остановила сервер стоимость 200к
Итак сегодня я хочу поведать об очень интересной проблеме в которой "... или я дурак или лыжи не едут". Но не смотря на такоев описание в данной истории есть очень важнаяинформация, которая может помочь обладателям RAID-контроллеров LSI.
Имеем двухпроцессорную китайскую материнку X99 с 2 процессорами Intel Xeon и 256 Гб оперативки, это чудо я купил за ~50000 примерно год назад. Решил на базе данной машинки создать сервак добавил 4060 для возможности быстро создавать проекты под FPGA и запуск нагрузочных тестов в приложениях. Все шло нормально, НО в какой-то момент отъехала в мир иной планка памяти, при замене которой была заодно заменена и достаточно пухлая батарея RAID-контроллера LSI 9260-8i. И вот тут все началось...
1. Необходимо было перестроить рэйд после замены батарейки, несколько раз перестройка падала/зависала
2. Когда удалось перестроить ОС не накатывалась / накатывалась, но массив переходи в Degraded, один из дисков отваливался.
Потратив месяц (с учетом ожидания времени я сделал следующее:
1. Заменил RAID сначала на такую же модель, затем на LSI 9261-8i
2. Заменил SAS-диски (диски на 6tb дорогие, пришлось искать на Авито, но тем не менее удалось найти там новые и по разумной цене)
3. В один из PCI-e слотов установил дополнительную панель для обдува RAID-контроллера
4. Понял что так жить НЕЛЬЗЯ и значит я делаю что-то фундаментально неправильное
Итак, значит будем копаться в логах, изучая что происходит с дисками до момента деградации , периодически напонимаю логи типа Information с событиями - unexpected sense pd power on occurred . Выглядит это для меня как-будто питания НЕ было и питание было подано на диск.
5. Заменяю кабели между backplane и SAS-дисками, заодно еще удалось убрать 1 лишний кабель.
Все по-прежнему также.
Итак, что тогда ? Блок питания ? Но он взят с запсасом на 1000 Вт, не может же он фолтить.
И вот .... я переключаю группы кабелей, на одном из кабелей куча SATA-разъемов питания (штук 5, именно от него у меня запитывался один из дисков), а другой запитывался от другого кабеля на котором 4 Molex под IDE и 1 SATA, но в блоке питания у меня 2 таких кабеля. Беру и переключаю оба диска на кабели в которых 4 Molex дополнительных. И проблема УШЛА, нет больше Power Fault. У МЕНЯ НЕТ СЛОВ, почему ТАК ? Месяц времени и ~30 тыс рублей на поиск вариантов устранения этой проблемы.
Итак прежде чем закончите читать мою историю просьба поучаствовать в голосовании на тему кто осел
Кто осел
анонимный опрос
Конечно Автор: занимается полной херней, купил бы готовый сервак и не парился бы
0%
Производитель блока питания : что за кабель, который не тянет SAS-диск ?
0%
Производитель RAID-контроллера (LSI), мог бы сразу норм логи давать
0%
2 минуты
30 марта