Найти в Дзене
Суровый Норильский ИИ: обзор MetalGPT-1 Норникеля от команды Конструкторского Бюро КБ42⁠⁠ Читайте полный обзор на нашем сайте. Вы наверняка слышали, что в декабре @nornickel выложил код своей LLM MetalGPT-1 – “первой в мире доменной модели на 32 миллиарда параметров, специально оптимизированной под металлургию”. Мы протестировали ее на рабочих задачах нашего конструкторского бюро. Делимся результатами. Спойлер: текущее качество ответов, как у ChatGPT 2023-2024 года: много галлюцинаций, недостаточно знаний технологий производства, отсутствие возможности выходить в интернет и работать с файлами. Но помним, что это только первая версия. В этой статье: 1. Где протестировать самостоятельно? 2. Тестируем на задачах из проекта КБ42 3. Сравниваем с Алисой, ChatGPT, Grok, DeepSeek 4. Что бы мы хотели увидеть в будущих версиях Использовали официальную MetalGPT-1 AWQ версию, оптимизированную для использования меньших вычислительных мощностей [ссылка на Hugging Face nn-tech]. 1. Где протестировать самостоятельно? По ссылке – мы арендовали Nvidia A100L, собрали модель на Gradio и разместили на Hugging Face, чтобы вы тоже смогли протестировать. Оставим ее включенной до конца января. Дата выхода официальной браузерной версии с интерфейсом обозначена как “скоро” – ждем вместе с вами. 2. Тестируем на задачах из проекта КБ42 Для тестов выбрали задачи по подбору материала и технологии производства. Чтобы оценить качество ответов, сравнивали с нашими решениями из последнего проекта КБ42 – увеличение ресурса шнеков для строительного 3д принтера. Спрашивали про: 1. Поиск оптимального метода производства 2. Подбор материала для изделия 3. Выбор материала по ГОСТ Ответы MetalGPT-1 нас не устроили ни в одном из вопросов, смотрите примеры в следующем разделе. Обобщенные выводы: - По подбору материала смогли сразу получить хорошие ответы от Алисы, Grok и DeepSeek - Лаконичность и релевантность ссылок среди всех лучше у Алисы - Подтвердили для себя, что можно использовать LLM как отправную точку и советника по ходу подбора материалов из ГОСТ таблиц Сравниваем с Алисой, ChatGPT, Grok, DeepSeek Отставание от популярных LLM общего назначения очевидно. Пока для нашей работы мы использовать не готовы. Модель Норникеля ни разу не попала “в яблочко”, хотя всегда отвечала “что-то из той же области”. Приятно удивила Алиса. Для тестов мы использовали такой сетап: - Алиса Плюс - Grok в режиме Expert с подпиской SuperGrok - ChatGPT free - DeepSeek 3.2 в режиме DeepThink - Все модели без предварительных инструкций, интеграций / в режиме инкогнито *Алиса (и потенциально LLM Норникеля) по сравнению с другими LLM имеет юридическое преимущество, так как данные хранятся в России и может использоваться российским бизнесом с меньшими рисками. Слева MetalGPT-1, справа Алиса. Ответы Алисы более лаконичные, в конце ссылки на источники. Но и MetalGPT-1 с этим вопросом справился хорошо. MetalGPT-1 vs Grok MetalGPT-1 не знает ГОСТ 7769-82, начал придумывать материалы. Рекомендации Grok подходящие. MetalGPT-1 vs DeepSeek (ссылка на диалог) Пробовали узнать у MetalGPT-1, что такое ХТС - не знает. DeepSeek сразу понял. MetalGPT-1 vs ChatGPT Ответ ChatGPT в целом верный, но на троечку. У MetalGPT-1 проблема с незнанием ГОСТов, дает некорректные расшифровки. Возможно, для других задач MetalGPT-1 отвечает лучше. Качество ответов MetalGPT-1 согласно слайдам в презентации Норникеля в целом хорошее. Там же найдете сравнение с бенчмарками. Текущие проблемы: - Сильные галлюцинации - Использовано явно недостаточно данных для обучения Это проявляется в: - Рекомендует материалы, которых нет в указанном ГОСТе - Путает номера ГОСТ, ISO и т.д. - Дает некорректные ссылки на интернет-ресурсы - Придумывает новые материалы / дает нерелевантные, но созвучные - Пытается угадать / придумать технологию производства - Путает термины (например, износостойкость и жесткость) Мы благодарны команде Норникеля за возможность протестировать эту модель. Уверены, что несмотря на обозначенные проблемы, шаг за шагом модель и сам продукт станет лучше. Ждем вместе с вами браузерную версию!
5 дней назад