Найти в Дзене
4pda.to

NVIDIA выпустила конкурента GPT-4o

   NVIDIA выпустила конкурента GPT-4o
NVIDIA выпустила конкурента GPT-4o

Компания NVIDIA рассказала о своей новой мультимодальной модели на 72 млрд параметров, которая может работать с текстом и картинками. Разработчики рассказали, чем ещё она может быть интересна, и сообщили, что скоро опубликуют модель в открытом доступе.

Модель называется NVLM-D-72B и входит в семейство NVLM. В документации к нему компания прямо упоминает в качестве соперников открытые языковые модели вроде Llama 3-V 405B и закрытые, как GPT-4o. Также приводятся тесты нейросети, где она обошла GPT-4o в бенчмарке на распознавание текста OCRBench и Llama 3-V70B в тесте на понимание естественных изображений VQAv2.

В качестве примера компания приводит несколько тестовых запросов к нейросети. Например, можно показать дорожные знаки многополосной дороги и спросить, по какой полосе ехать, или дать рукописную заметку с псевдокодом и попросить перевести его в программный код. Также нейросеть может объяснить мем на картинке или решить уравнение.

В NVIDIA также планируют опубликовать исходный код NVLM и позиционируют модель как основу, которую в дальнейшем смогут использовать сторонние разработчики в своих программах. Узнать технические подробности можно в документации к модели.