Найти в Дзене

Суровый Норильский ИИ: обзор MetalGPT-1 Норникеля от команды Конструкторского Бюро КБ42⁠⁠

Читайте полный обзор на нашем сайте.

Вы наверняка слышали, что в декабре @nornickel выложил код своей LLM MetalGPT-1 – “первой в мире доменной модели на 32 миллиарда параметров, специально оптимизированной под металлургию”. Мы протестировали ее на рабочих задачах нашего конструкторского бюро. Делимся результатами.

Спойлер: текущее качество ответов, как у ChatGPT 2023-2024 года: много галлюцинаций, недостаточно знаний технологий производства, отсутствие возможности выходить в интернет и работать с файлами. Но помним, что это только первая версия.

В этой статье:
1. Где протестировать самостоятельно?
2. Тестируем на задачах из проекта КБ42
3. Сравниваем с Алисой, ChatGPT, Grok, DeepSeek
4. Что бы мы хотели увидеть в будущих версиях

Использовали официальную MetalGPT-1 AWQ версию, оптимизированную для использования меньших вычислительных мощностей [ссылка на Hugging Face nn-tech].

1. Где протестировать самостоятельно?
По ссылке – мы арендовали Nvidia A100L, собрали модель на Gradio и разместили на Hugging Face, чтобы вы тоже смогли протестировать. Оставим ее включенной до конца января. Дата выхода официальной браузерной версии с интерфейсом обозначена как “скоро” – ждем вместе с вами.

2. Тестируем на задачах из проекта КБ42
Для тестов выбрали задачи по подбору материала и технологии производства. Чтобы оценить качество ответов, сравнивали с нашими решениями из последнего проекта КБ42 – увеличение ресурса шнеков для строительного 3д принтера.

Спрашивали про:
1. Поиск оптимального метода производства
2. Подбор материала для изделия
3. Выбор материала по ГОСТ

Ответы MetalGPT-1 нас не устроили ни в одном из вопросов, смотрите примеры в следующем разделе.
Обобщенные выводы:
- По подбору материала смогли сразу получить хорошие ответы от Алисы, Grok и DeepSeek
- Лаконичность и релевантность ссылок среди всех лучше у Алисы
- Подтвердили для себя, что можно использовать LLM как отправную точку и советника по ходу подбора материалов из ГОСТ таблиц

Сравниваем с Алисой, ChatGPT, Grok, DeepSeek
Отставание от популярных LLM общего назначения очевидно. Пока для нашей работы мы использовать не готовы. Модель Норникеля ни разу не попала “в яблочко”, хотя всегда отвечала “что-то из той же области”. Приятно удивила Алиса.

Для тестов мы использовали такой сетап:
- Все модели без предварительных инструкций, интеграций / в режиме инкогнито

*Алиса (и потенциально LLM Норникеля) по сравнению с другими LLM имеет юридическое преимущество, так как данные хранятся в России и может использоваться российским бизнесом с меньшими рисками.
Слева MetalGPT-1, справа Алиса. Ответы Алисы более лаконичные, в конце ссылки на источники. Но и MetalGPT-1 с этим вопросом справился хорошо.

MetalGPT-1 vs Grok
MetalGPT-1 не знает ГОСТ 7769-82, начал придумывать материалы. Рекомендации Grok подходящие.

MetalGPT-1 vs DeepSeek (ссылка на диалог)
Пробовали узнать у MetalGPT-1, что такое ХТС - не знает. DeepSeek сразу понял.

MetalGPT-1 vs ChatGPT
Ответ ChatGPT в целом верный, но на троечку. У MetalGPT-1 проблема с незнанием ГОСТов, дает некорректные расшифровки.

Возможно, для других задач MetalGPT-1 отвечает лучше. Качество ответов MetalGPT-1 согласно слайдам в презентации Норникеля в целом хорошее. Там же найдете сравнение с бенчмарками.

Текущие проблемы:
- Сильные галлюцинации
- Использовано явно недостаточно данных для обучения

Это проявляется в:
- Рекомендует материалы, которых нет в указанном ГОСТе
- Путает номера ГОСТ, ISO и т.д.
- Дает некорректные ссылки на интернет-ресурсы
- Придумывает новые материалы / дает нерелевантные, но созвучные
- Пытается угадать / придумать технологию производства
- Путает термины (например, износостойкость и жесткость)

Мы благодарны команде Норникеля за возможность протестировать эту модель. Уверены, что несмотря на обозначенные проблемы, шаг за шагом модель и сам продукт станет лучше.
Ждем вместе с вами браузерную версию!
3 минуты