83,7 тыс подписчиков

NVIDIA представила нейросеть NVLM 1.0, которая понимает мемы

19 сентября 202419 сен 2024

1 мин

Компания NVIDIA анонсировала собственную мультимодальную большую языковую модель (LLM) с незамысловатым названием NVLM 1.0 (NVIDIA Vision Language Model). В ходе первых тестов она хорошо справилась с визуальными задачами, а также показала своё понимание мемов и рукописного почерка, обогнав даже GPT-4o в одном из испытаний.

Испытания в бенчмарке OCRBench подтвердили продвинутые возможности NVLM 1.0 по считыванию текста с картинки — в этой дисциплине нейросеть NVIDIA обошла GPT-4o. Кроме того, она хорошо показала себя в математических задачах, опередив Google Gemini и уступив всего 3 пункта Claude 3.5. Компания также подчеркнула способность нейросети выступать в роли «пояснительной бригады», рассказывая смысл мемов.

Результаты тестирования различных LLM, включая собственную, компания опубликовала в виде сводной таблицы.

Всего NVIDIA показала три модели со схожей архитектурой, но обладают разными особенностями. В частности, NVLM-D использует для картинок предобученный энкодер, который соединён с обычным двухслойным перцептроном. В свою очередь, NVLM-Х для обработки токенов изображения полагается на механизм ross-attention. Первая более экономна по части количества параметров, а NVLM-X расходует больше ресурсов GPU, но лидирует в обработке картинок в высоком разрешении. Модель NVLM-H стала чем-то средним между ними.