2 подписчика

В ответ на пост

Longhorn's failed PV

После очередного восстановления кластера, заметил, что nats не хочет подниматься на одной из нод - srv01. Под инстансы nats я выделял небольшие вольюмы для хранения данных на диске.

Смотрю kubectl describe pod nats-0 -n nats, там ошибка про аттач к PV или что-то про PVC, в общем, вольюм не предоставился.

Т.к. там ничего важного нет, сделал helm uninstall nats и снова helm install - не помогло. Руками удалил PV, переустановил - все равно именно на одной ноде вольюм не поднимался.

Решил заняться этим утром субботы, вместо будничных вечеров, и за 5 минут разобрался:

- во-первых, открыл UI longhorn (который отвечает за тот класс PV) и увидел, что проблема с одной из нод глобальная.

- во-вторых, загуглил, и наткнулся на наводящее слово "instance manager"

- в третьих kubectl get pods -n longhorn-system -o wide | grep srv01 показал instance-manager'ы в состоянии Terminating

Дернул kubectl delete instance-manager-xxx -n longhorn-system они спокойно перезапустились и вольюмы предоставились, проблемы ушли.

Хорошо разбираться с проблемами на свежую голову.

Вспоминается мой полугодовой отпуск в том году, когда я делал свои пет-проекты с невероятной скоростью, относительно прогресса при фул-тайм работе.

1 минута

8 июня 2024