Найти в Дзене
Металл и Минерал

Суровый Норильский ИИ: обзор MetalGPT-1 Норникеля

Вы наверняка слышали, что в декабре Норникель выложил код своей LLM MetalGPT-1 – “первой в мире доменной модели на 32 миллиарда параметров, специально оптимизированной под металлургию”. Мы протестировали ее на рабочих задачах нашего конструкторского бюро. Делимся результатами. Спойлер: текущее качество ответов, как у ChatGPT 2023-2024 года: много галлюцинаций, недостаточно знаний технологий производства, отсутствие возможности выходить в интернет и работать с файлами. Но помним, что это только первая версия.
Использовали официальную MetalGPT-1 AWQ версию, оптимизированную для использования меньших вычислительных мощностей [ссылка на Hugging Face nn-tech]. https://huggingface.co/nn-tech/MetalGPT-1 Дата выхода официальной браузерной версии с интерфейсом обозначена как “скоро” – ждем вместе с вами.
Тестируем на задачах из проекта КБ42 Для тестов выбрали задачи по подбору материала и технологии производства.
Спрашивали про: Ответы MetalGPT-1 нас не устроили ни в одном из вопросов, смот
Оглавление

Вы наверняка слышали, что в декабре Норникель выложил код своей LLM MetalGPT-1 – “первой в мире доменной модели на 32 миллиарда параметров, специально оптимизированной под металлургию”. Мы протестировали ее на рабочих задачах нашего конструкторского бюро. Делимся результатами.

Спойлер: текущее качество ответов, как у ChatGPT 2023-2024 года: много галлюцинаций, недостаточно знаний технологий производства, отсутствие возможности выходить в интернет и работать с файлами. Но помним, что это только первая версия.

Использовали официальную MetalGPT-1 AWQ версию, оптимизированную для использования меньших вычислительных мощностей [
ссылка на Hugging Face nn-tech]. https://huggingface.co/nn-tech/MetalGPT-1

Где протестировать самостоятельно?

Дата выхода официальной браузерной версии с интерфейсом обозначена как “скоро” – ждем вместе с вами.
Тестируем на задачах из проекта КБ42

Для тестов выбрали задачи по подбору материала и технологии производства.

Спрашивали про:

  1. Поиск оптимального метода производства
  2. Подбор материала для изделия
  3. Выбор материала по ГОСТ

Ответы MetalGPT-1 нас не устроили ни в одном из вопросов, смотрите примеры в следующем разделе.
Обобщенные выводы:

  • По подбору материала смогли сразу получить хорошие ответы от Алисы, Grok и DeepSeek
  • Лаконичность и релевантность ссылок среди всех лучше у Алисы
  • Подтвердили для себя, что можно использовать LLM как отправную точку и советника по ходу подбора материалов из ГОСТ таблиц

Сравниваем с Алисой, ChatGPT, Grok, DeepSeek

TL;DR
Отставание от популярных LLM общего назначения очевидно. Пока для нашей работы мы использовать не готовы. Модель Норникеля ни разу не попала “в яблочко”, хотя всегда отвечала “что-то из той же области”. Приятно удивила Алиса.

Для тестов использовали такой сетап:

Алиса (и потенциально LLM Норникеля) по сравнению с другими LLM имеет юридическое преимущество, так как данные хранятся в России и может использоваться российским бизнесом с меньшими рисками.

Слева MetalGPT-1, справа Алиса. Ответы Алисы более лаконичные, в конце ссылки на источники. Но и MetalGPT-1 с этим вопросом справился хорошо.

-2

Слева MetalGPT-1, справа Grok. MetalGPT-1 не знает ГОСТ 7769-82, начал придумывать материалы. Рекомендации Grok подходящие.

-3

Слева MetalGPT-1, справа DeepSeek. Пробовали узнать у MetalGPT-1, что такое ХТС - не знает. DeepSeek сразу понял.

-4

Слева MetalGPT-1, справа ChatGPT. Ответ ChatGPT в целом верный, но на троечку. У MetalGPT-1 проблема с незнанием ГОСТов, дает некорректные расшифровки.

-5

Мы в КБ42 используем LLM на этапе подбора материала для первичного обзора возможностей. Также мы используем AI ассистентов для поиска по ГОСТам и работы с ними. Мы видим возможность у MetalGPT-1 стать полезным инструментом для этого. Речь не про замену инженера-технолога, а что-то вроде Copilot, который помогал бы нам в поиске и исследовании возможностей.

Что бы мы хотели увидеть в будущих версиях

В первую очередь – исправление текущих проблем для улучшения качества ответов. В начале теста одна из наших главных надежд была, что модель будет отлично жонглировать информацией из ГОСТов – как минимум лучше чем https://gostassistent.ru/ или Алисы. Но пока что эти надежды не оправдались.

-6

Возможно, для других задач MetalGPT-1 отвечает лучше. Качество ответов MetalGPT-1 согласно слайдам в презентации Норникеля в целом хорошее. Там же найдете сравнение с бенчмарками.

Текущие проблемы:

  • Сильные галлюцинации
  • Использовано явно недостаточно данных для обучения

Это проявляется в:

  • Рекомендует материалы, которых нет в указанном ГОСТе
  • Путает номера ГОСТ, ISO и т.д.
  • Дает некорректные ссылки на интернет-ресурсы
  • Придумывает новые материалы / дает нерелевантные, но созвучные
  • Пытается угадать / придумать технологию производства
  • Путает термины (например, износостойкость и жесткость)

***

Уверены, что несмотря на обозначенные проблемы, шаг за шагом модель и сам продукт станет лучше. Ждем вместе с вами браузерную версию!