9 подписчиков

Большой интерес представляют мультимодальные модели, которые на вход могут принимать не только текст, но и другую информацию. Не так давно вышла обновленная версия LLaVA (Large Language and Vision Assistant) под названием LLaVA-NeXT. Линейка LLaVA предназначена для работы как с текстом, так и с картинками.

Картинка делится на кусочки, которые токенизируются и добавляются к текстовой последовательности, идущей на вход модели. Поэтому таким моделям можно задавать вопрос по картинкам. Модель воспринимает картинку как такую же часть контекста как и обычный текст.

Новой модели LLaVA-NeXT можно скормить не только отдельную картинку, но и целое видео.

Вот ссылка на репозиторий: https://github.com/LLaVA-VL/LLaVA-NeXT?tab=readme-ov-file

Там есть ссылки на демо и другие материалы. Я тоже немного поэкспериментировал с моделью. С русским у нее плохо, а так описание делает неплохо, хотя не без галлюцинаций.

Далее прикреплю пару своих экспериментов.

Около минуты

19 июля 2024