Научный центр, который работает с машинным обучением и нейросетями, столкнулся с неожиданной проблемой: мощные GPU простаивали 😕. Задачи использовали лишь часть ресурсов, но оборудование резервировалось полностью. В итоге дорогостоящий парк видеокарт приносил пользу лишь наполовину. Дополняла ситуацию и сложность управления доступом. Подразделения центра боролись за вычислительные мощности вручную, без единой системы распределения. Менеджеры буквально «выдавали» видеокарты в ручном режиме. Команда начала с анализа возможностей оборудования. Вариантов было два: Инженерам требовалось решение, которое поддерживали бы разные модели GPU, поэтому тестировались множество сценариев. В итоге была развернута инфраструктура, где: Безопасность обеспечивают Kyverno и Keycloak, а прозрачность — GitOps-подход через FluxCD. Все построено на открытом ПО 🎉. Проект был реализован за два месяца. Параллельно создавалась документация, а инженеры центра осваивали новую инфраструктуру и развертывали её в св