17 подписчиков

Суровый Норильский ИИ: обзор MetalGPT-1 Норникеля

5 марта5 мар

152

3 мин

Вы наверняка слышали, что в декабре Норникель выложил код своей LLM MetalGPT-1 – “первой в мире доменной модели на 32 миллиарда параметров, специально оптимизированной под металлургию”. Мы протестировали ее на рабочих задачах нашего конструкторского бюро. Делимся результатами. Спойлер: текущее качество ответов, как у ChatGPT 2023-2024 года: много галлюцинаций, недостаточно знаний технологий производства, отсутствие возможности выходить в интернет и работать с файлами. Но помним, что это только первая версия.

Использовали официальную MetalGPT-1 AWQ версию, оптимизированную для использования меньших вычислительных мощностей [ссылка на Hugging Face nn-tech]. https://huggingface.co/nn-tech/MetalGPT-1 Дата выхода официальной браузерной версии с интерфейсом обозначена как “скоро” – ждем вместе с вами.

Тестируем на задачах из проекта КБ42 Для тестов выбрали задачи по подбору материала и технологии производства.

Спрашивали про: Ответы MetalGPT-1 нас не устроили ни в одном из вопросов, смот

Оглавление

Где протестировать самостоятельно?
Сравниваем с Алисой, ChatGPT, Grok, DeepSeek

Вы наверняка слышали, что в декабре Норникель выложил код своей LLM MetalGPT-1 – “первой в мире доменной модели на 32 миллиарда параметров, специально оптимизированной под металлургию”. Мы протестировали ее на рабочих задачах нашего конструкторского бюро. Делимся результатами.

Спойлер: текущее качество ответов, как у ChatGPT 2023-2024 года: много галлюцинаций, недостаточно знаний технологий производства, отсутствие возможности выходить в интернет и работать с файлами. Но помним, что это только первая версия.

Использовали официальную MetalGPT-1 AWQ версию, оптимизированную для использования меньших вычислительных мощностей [ссылка на Hugging Face nn-tech]. https://huggingface.co/nn-tech/MetalGPT-1

Где протестировать самостоятельно?

Дата выхода официальной браузерной версии с интерфейсом обозначена как “скоро” – ждем вместе с вами.
Тестируем на задачах из проекта КБ42

Для тестов выбрали задачи по подбору материала и технологии производства.

Спрашивали про:

Поиск оптимального метода производства
Подбор материала для изделия
Выбор материала по ГОСТ

Ответы MetalGPT-1 нас не устроили ни в одном из вопросов, смотрите примеры в следующем разделе.
Обобщенные выводы:

По подбору материала смогли сразу получить хорошие ответы от Алисы, Grok и DeepSeek
Лаконичность и релевантность ссылок среди всех лучше у Алисы
Подтвердили для себя, что можно использовать LLM как отправную точку и советника по ходу подбора материалов из ГОСТ таблиц

Сравниваем с Алисой, ChatGPT, Grok, DeepSeek

TL;DR
Отставание от популярных LLM общего назначения очевидно. Пока для нашей работы мы использовать не готовы. Модель Норникеля ни разу не попала “в яблочко”, хотя всегда отвечала “что-то из той же области”. Приятно удивила Алиса.

Для тестов использовали такой сетап:

Алиса Плюс
Grok в режиме Expert с подпиской SuperGrok
ChatGPT free
DeepSeek 3.2 в режиме DeepThink
Все модели без предварительных инструкций, интеграций / в режиме инкогнито

Алиса (и потенциально LLM Норникеля) по сравнению с другими LLM имеет юридическое преимущество, так как данные хранятся в России и может использоваться российским бизнесом с меньшими рисками.

Слева MetalGPT-1, справа Алиса. Ответы Алисы более лаконичные, в конце ссылки на источники. Но и MetalGPT-1 с этим вопросом справился хорошо.

Слева MetalGPT-1, справа Grok. MetalGPT-1 не знает ГОСТ 7769-82, начал придумывать материалы. Рекомендации Grok подходящие.

Слева MetalGPT-1, справа DeepSeek. Пробовали узнать у MetalGPT-1, что такое ХТС - не знает. DeepSeek сразу понял.

Слева MetalGPT-1, справа ChatGPT. Ответ ChatGPT в целом верный, но на троечку. У MetalGPT-1 проблема с незнанием ГОСТов, дает некорректные расшифровки.

Мы в КБ42 используем LLM на этапе подбора материала для первичного обзора возможностей. Также мы используем AI ассистентов для поиска по ГОСТам и работы с ними. Мы видим возможность у MetalGPT-1 стать полезным инструментом для этого. Речь не про замену инженера-технолога, а что-то вроде Copilot, который помогал бы нам в поиске и исследовании возможностей.

Что бы мы хотели увидеть в будущих версиях

В первую очередь – исправление текущих проблем для улучшения качества ответов. В начале теста одна из наших главных надежд была, что модель будет отлично жонглировать информацией из ГОСТов – как минимум лучше чем https://gostassistent.ru/ или Алисы. Но пока что эти надежды не оправдались.

Возможно, для других задач MetalGPT-1 отвечает лучше. Качество ответов MetalGPT-1 согласно слайдам в презентации Норникеля в целом хорошее. Там же найдете сравнение с бенчмарками.

Текущие проблемы:

Сильные галлюцинации
Использовано явно недостаточно данных для обучения

Это проявляется в:

Рекомендует материалы, которых нет в указанном ГОСТе
Путает номера ГОСТ, ISO и т.д.
Дает некорректные ссылки на интернет-ресурсы
Придумывает новые материалы / дает нерелевантные, но созвучные
Пытается угадать / придумать технологию производства
Путает термины (например, износостойкость и жесткость)

***

Уверены, что несмотря на обозначенные проблемы, шаг за шагом модель и сам продукт станет лучше. Ждем вместе с вами браузерную версию!