Найти тему
ServerNews

HPE случайно удалила 77 Тбайт данных с суперкомпьютера университета Киото

Пользователи суперкомпьютера Киотского университета лишились 77 Тбайт информации из-за сбоя в работе системы резервного копирования, который произошёл по вине японского подразделения HPE. Из-за ошибки было потеряны данные за 1,5 дня работы — более 34 млн файлов. В результате инцидента пострадали данные 14 групп пользователей, для четырёх из которых информация утеряна безвозвратно.

Сбой произошёл ещё две недели назад, а вчера администрация университета опубликовала сообщение, в котором раскрыла детали произошедшего и принесла глубокие извинения пользователям за неудобство и возможный ущерб. Ошибка, судя по всему, произошла из-за невнимательности при обновлении bash-скрипта, участвующего в процессе резервного копирования и удаляющего журналы старше 10 дней.

Изображение: gizchina.com
Изображение: gizchina.com

Обновлённая версия скрипта была записана поверх старого варианта в тот момент, когда он уже выполнялся. По словам HPE, которая признала проблему после её изучения, значения переменных были утеряны, а новая версия скрипта была загружена с середины, что и привело к удалению файлов, а не связанных с ними журналов. При этом стандартных мер, которые смогли воспрепятствовать такому поведению (проще говоря, остановка выполнения скрипта с сообщением об ошибке), видимо, принято не было.

Суперкомпьютерная группировка Киотского университета. Изображение: monitaana.com
Суперкомпьютерная группировка Киотского университета. Изображение: monitaana.com

На текущий момент система резервного копирования приостановлена, а возобновление её работы запланировано на конец января 2022 г. после устранения проблем в ПО и принятия мер по предотвращению повторения случившегося. В будущем планируется использовать не только резервное копирование посредством зеркалирования, но и внедрение дополнительной, более совершенной системы инкрементальных бэкапов. Специалисты центра будут работать над улучшением не только функциональности, но и управляемости системы, чтобы минимизировать риски.