2 подписчика
В ответ на пост
Longhorn's failed PV
После очередного восстановления кластера, заметил, что nats не хочет подниматься на одной из нод - srv01. Под инстансы nats я выделял небольшие вольюмы для хранения данных на диске.
Смотрю kubectl describe pod nats-0 -n nats, там ошибка про аттач к PV или что-то про PVC, в общем, вольюм не предоставился.
Т.к. там ничего важного нет, сделал helm uninstall nats и снова helm install - не помогло. Руками удалил PV, переустановил - все равно именно на одной ноде вольюм не поднимался.
Решил заняться этим утром субботы, вместо будничных вечеров, и за 5 минут разобрался:
- во-первых, открыл UI longhorn (который отвечает за тот класс PV) и увидел, что проблема с одной из нод глобальная.
- во-вторых, загуглил, и наткнулся на наводящее слово "instance manager"
- в третьих kubectl get pods -n longhorn-system -o wide | grep srv01 показал instance-manager'ы в состоянии Terminating
Дернул kubectl delete instance-manager-xxx -n longhorn-system они спокойно перезапустились и вольюмы предоставились, проблемы ушли.
Хорошо разбираться с проблемами на свежую голову.
Вспоминается мой полугодовой отпуск в том году, когда я делал свои пет-проекты с невероятной скоростью, относительно прогресса при фул-тайм работе.
1 минута
8 июня 2024