Один день с админом.
Сегодня снова не самый обычный пост, я еду в ЦОД менять и устанавливать диски. Дисков мало, а работы на весь день. Диски разные, оборудование тоже разное. Для мониторинга состояния дисков потребуется самые разные инструменты. Вот что у нас на сегодня:
- Два диска Samsung по 12 ТБ. Эти диски будем добавлять к RAID10 массиву, который собран в Linux с помощью mdadm.
Samsung SSD MZPLJ12THALA-00007 — NVMe 12.8 ТБ - Диск Intel на 4 ТБ серии P4600. Примечательно, что на корпусе написано P4510, считаю, что это большой косяк со стороны Intel, нельзя такие ляпы допускать на промышленном оборудовании.
Intel PCIe SSD NVMe диск — SSDPEDKE040T7 - Диск HPE SSD 960 ГБ, который оказался поддельным. С этим диском пришлось предварительно провести воспитательную беседу и изменить размер сектора.
Странный диск HPE SSD 960GB SAS — MO000960JWFWT
Поехали. Я стараюсь сам ездить по ЦОДам, а то сидя целыми днями в кресле можно и заболеть. Движение — жизнь.
Очень повезло, что все работы будут производиться в одной стойке. В сервере HPE Proliant DL580 Gen10 будем менять 2.5'' диск с изменённым размером сектора. А в HPE Proliant DL580 Gen9 проводим работы со всеми остальными PCIe дисками.
Диск HPE SSD 960 ГБ
Для замены 2.5'' диска не требуется отключать сервер HPE Proliant DL580 Gen10. Так что работы на две минуты. Именно так я думал прошлый раз, когда попробовал заменить диск. В этом случае только подготовка к замене заняла несколько дней.
Заказывали диск HPE SSD 960GB SAS MO000960JWFWT для сервера HPE Proliant DL360 Gen9 с RAID контроллером Smart Array P440ar. Пришло непонятно что. На вид всё почти верно, но прошивка диска оказалась не HPD2, да и вообще не HPE. Да и не для сервера, а с размером логического сектора 520 байт. Печаль.
Логический сектор, к счастью, удалось изменить на 512 байт:
Меняем размер логического сектора диска: 520, 524, 528, 512, 4k
Ну а дальше всё просто, вытаскиваем старый диск.
Устанавливаем новый диск.
Получаем удовлетворение от проделанной работы.
Диск Intel на 4 ТБ серии P4600
Диск корпоративного класса серии Intel SSD DC P4600 Series. Объём 4.0TB, 1/2 Height PCIe 3.1 x4, 3D1, TLC. Один из самых первых дисков такого класса, появившихся в продаже. Этот диск пойдёт на замену сдохшему диску.
Вышел из строя диск Intel PCIe SSD NVMe серии Intel SSD DC P4500 Series объёмом 4 ТБ. Программный массив RAID1 спас данные, мы быстро перенесли их на другое хранилище. Хочу удалить из mdadm массива проблемный диск, но он самовыпилился. Записываю серийный номер оставшегося диска, его вытаскивать из сервера не надо.
Сервер HPE Proliant DL580 Gen9 придётся выключить. Выдвигаем сервер из стойки, снимаем крышку. Для удобства такой сервер лучше устанавливать на уровне пояса.
Заглянем внутрь, здесь у нас свои сложности. В данной модели сервера имеется 9 слотов PCIe под расширение. У меня занято восемь слотов, один свободный. Но мы ведь помним, что в этот сервер нуджно будет воткнуть ещё два диска Samsung? Было принято решение избавиться от лишнего оборудования. Мы отключим от сервера полку HPE MSA 2040 с HDD дисками и уберём из сервера FC адаптеры, освободив два PCIe слота.
Математика простая: в MSA массиве 22 диска HDD (+ 2 spare) по 900 ГБ. В RAID1 массивах это 9.67 ТБ. Просто два NVMe диска по 12 ТБ уже заменят всю эту полку. Да, полку можно расширить, но основная проблема не в объёме, а в IOPS, диски HDD уже не справляются. В общем, выкидываем СХД, получим ещё 2 юнита в стойке.
Для доступа к PCIe нажимаем на синюю защёлку.
Отвёртка не понадобилась.
Вытаскиваем лишние FC адаптеры, в шкафу полежат.
Извлекаем дохлый диск Intel.
Ставим новый.
Делаю небольшую перестановку. Мальчики Intel налево, девочки Samsung — направо.
Диск заменён. Останется только потом после включения сервера добавить диск в RAID1 массив:
mdadm — добавляем диск в RAID1 массив
А пока продолжаем работу с железом.
Диски Samsung 12 ТБ
Подготавливаем диски. Собственно, даже планку менять не приходится, просто распаковываем.
Устанавливаем в сервер. Остаётся только один свободный PCIe слот. Слева у нас RAID1 из Intel, справа RAID10 из Samsung, который нужно расширить на два диска.
Красивый RAID массив...
Хватит любоваться, пора дело делать.
Фиксируем диски скобой, нормально закрыть можно только с обратной стороны сервера. Цепляем и тянем вверх до щелчка.
Собираем сервер обратно, включаем и проверяем что все диски определились.
Неожиданная проблема
Диски-то определились нормально, всплыла другая проблема. После загрузки на почту было отправлено какое-то предупреждение.
Состояние сервера нормальное, непонятно. Посмотрел письмо, залез в SSA... Батарейка сдохла.
Не было печали, купила бабка порося. Снова лезу в сервер и фотографирую батарейку. Нужно будет купить новую и заменить потом. А пока сервер поработает без кэша на запись.
Настройка массивов
Включаю сервер, возвращаемся к нашим дискам. Для работы с NVMe дисками используем пакет NVMe Command Line Interface (NVMe-CLI).
nvme list
В системе теперь шесть дисков 12 ТБ и два диска 4 ТБ.
Сначала добавим в массив Intel диск.
mdadm — добавляем диск в RAID1 массив
Сейчас массив летит на одном крыле.
Создаём раздел на новом диске.
Загоняем диск в массив:
Массив начинает восстанавливаться.
Будем работать со вторым массивом. Расширение RAID10 массива двумя дисками:
mdadm — добавляем два диска в RAID10
Делаем всё по инструкции.
Второй массив начинает перестроение. Первый массив, кстати, уже восстановился, пока я возился с RAID10. 340 минут я ждать не буду, поеду домой. Дома останется только расширить файловую систему.
Работа с сервером ещё не закончена. Нам предстоит закупить батарейку и поменять её. Но это уже совсем другая история.
Источник:
Если вам понравилась статья, то ставьте 👍🏻 каналу.
Пишите комментарии, задавайте вопросы, подписывайтесь.