Добавить в корзинуПозвонить
Найти в Дзене
Evrone

🧠 Как научный центр ускорил вычисления с помощью MLOps 🚀

Научный центр, который работает с машинным обучением и нейросетями, столкнулся с неожиданной проблемой: мощные GPU простаивали 😕. Задачи использовали лишь часть ресурсов, но оборудование резервировалось полностью. В итоге дорогостоящий парк видеокарт приносил пользу лишь наполовину. Дополняла ситуацию и сложность управления доступом. Подразделения центра боролись за вычислительные мощности вручную, без единой системы распределения. Менеджеры буквально «выдавали» видеокарты в ручном режиме. Команда начала с анализа возможностей оборудования. Вариантов было два: Инженерам требовалось решение, которое поддерживали бы разные модели GPU, поэтому тестировались множество сценариев. В итоге была развернута инфраструктура, где: Безопасность обеспечивают Kyverno и Keycloak, а прозрачность — GitOps-подход через FluxCD. Все построено на открытом ПО 🎉. Проект был реализован за два месяца. Параллельно создавалась документация, а инженеры центра осваивали новую инфраструктуру и развертывали её в св
Оглавление
⚙️ Оптимизация GPU в исследовательской среде: новый подход 🔍
⚙️ Оптимизация GPU в исследовательской среде: новый подход 🔍

Научный центр, который работает с машинным обучением и нейросетями, столкнулся с неожиданной проблемой: мощные GPU простаивали 😕. Задачи использовали лишь часть ресурсов, но оборудование резервировалось полностью. В итоге дорогостоящий парк видеокарт приносил пользу лишь наполовину.

Дополняла ситуацию и сложность управления доступом. Подразделения центра боролись за вычислительные мощности вручную, без единой системы распределения. Менеджеры буквально «выдавали» видеокарты в ручном режиме.

1️⃣ Поиск подхода 🔍

Команда начала с анализа возможностей оборудования. Вариантов было два:

  • Деление ресурсов карты — распределение памяти и ядер.
  • Тайм-слоты ⏳ — задачи по очереди занимают всю карту.

Инженерам требовалось решение, которое поддерживали бы разные модели GPU, поэтому тестировались множество сценариев.

2️⃣ Решение на базе Kubernetes ⚡

В итоге была развернута инфраструктура, где:

  1. Kubernetes управляет вычислениями.
  2. DevPod позволяет инженерам запускать задачи без ручного распределения.
  3. Ansible автоматизирует настройку среды.
  4. Стек Prometheus, Vector, Loki и Grafana отвечает за наблюдаемость.
  5. Ray помогает масштабировать Python-задачи.

Безопасность обеспечивают Kyverno и Keycloak, а прозрачность — GitOps-подход через FluxCD. Все построено на открытом ПО 🎉.

3️⃣ Сроки ⏱️

Проект был реализован за два месяца. Параллельно создавалась документация, а инженеры центра осваивали новую инфраструктуру и развертывали её в своей защищенной среде.

4️⃣ Итоги 📈

Теперь задачи запускаются параллельно, ресурсы распределяются автоматически, а GPU используются намного эффективнее.

В конце хочется отметить, что команда Evrone показала невероятную способность совмещать инженерную смелость и научную аккуратность — редкое сочетание, которое делает подобные проекты возможными.