Компания Nvidia представила новую модель искусственного интеллекта, которая, как утверждается, превзойдет самые современные системы искусственного интеллекта, включая GPT-4o и Claude-3.
Согласно сообщению в социальной сети X.com из аккаунта Nvidia AI Developer, новая модель, получившая название Llama-3.1-Nemotron-70B-Instruct, «является ведущей моделью» на Chatbot Arena от lmarena.AI.
Nvidia AI объявляет результаты тестов Nemotron. Источник: Nvidia AI
Немотрон
Llama-3.1-Nemotron-70B-Instruct — это, по сути, модифицированная версия Llama-3.1-70B-Instruct с открытым исходным кодом от Meta.
Часть названия модели «Nemotron» отражает вклад Nvidia в конечный результат.
«Стадо» моделей искусственного интеллекта Llama, как их называет Meta, предназначено для использования разработчиками в качестве открытой основы для дальнейшего развития.
В случае с Nemotron компания Nvidia приняла вызов и разработала систему, призванную быть более «полезной», чем такие популярные модели, как ChatGPT от OpenAI и Claude-3 от Anthropic.
Компания Nvidia использовала специально подобранные наборы данных, передовые методы тонкой настройки и собственное современное оборудование для искусственного интеллекта, чтобы превратить базовую модель Meta в, возможно, самую «полезную» модель искусственного интеллекта на планете.
Пост инженера на X.com, выражающий восторг по поводу возможностей Nemotron. Источник: Шаян Таслим
«Я задал ему несколько вопросов по кодированию, которые я обычно задаю, чтобы сравнить LLM, и получил одни из лучших ответов. Ха-ха, черт возьми».
Бенчмаркинг
Когда дело доходит до определения того, какая модель ИИ является «лучшей», нет четкой методологии. В отличие, например, от измерения температуры окружающей среды ртутным термометром, не существует единой «истины», когда речь идет о производительности модели ИИ.
Разработчики и исследователи должны определить, насколько хорошо работает модель ИИ, так же, как оценивают людей: путем сравнительного тестирования.
Сравнительный анализ ИИ подразумевает предоставление разным моделям ИИ одинаковых запросов, задач, вопросов или проблем, а затем сравнение полезности результатов. Часто из-за субъективности того, что считается полезным, а что нет, для определения производительности машины с помощью слепых оценок используются люди-прокторы.
В случае Nemotron, по всей видимости, Nvidia утверждает, что новая модель превосходит существующие современные модели, такие как GPT-4o и Claude-3, с довольно большим отрывом.
Верхняя часть таблицы лидеров Chatbot Arena. Источник: LMArenea.AI
На изображении выше показаны рейтинги автоматизированного теста «Hard» в Chatbot Arena Leaderboards. Хотя Llama-3.1-Nemotron-70B-Instruct от Nvidia, похоже, нигде не указана в списках, если утверждение разработчика о том, что он набрал 85 баллов в этом тесте, верно, то он фактически станет топовой моделью в этом конкретном разделе.
Что делает это достижение еще более интересным, так это то, что Llama-3.1-70B — это модель искусственного интеллекта Meta среднего уровня с открытым исходным кодом.
Существует гораздо более крупная версия Llama-3.1 — версия 405B (где число указывает на количество миллиардов параметров, на которые была настроена модель).
Для сравнения, по оценкам, GPT-4o был разработан с более чем одним триллионом параметров.
Подписывайтесь на канал PRO ИНВЕСТИЦИИ