9 подписчиков
Большой интерес представляют мультимодальные модели, которые на вход могут принимать не только текст, но и другую информацию. Не так давно вышла обновленная версия LLaVA (Large Language and Vision Assistant) под названием LLaVA-NeXT. Линейка LLaVA предназначена для работы как с текстом, так и с картинками.
Картинка делится на кусочки, которые токенизируются и добавляются к текстовой последовательности, идущей на вход модели. Поэтому таким моделям можно задавать вопрос по картинкам. Модель воспринимает картинку как такую же часть контекста как и обычный текст.
Новой модели LLaVA-NeXT можно скормить не только отдельную картинку, но и целое видео.
Вот ссылка на репозиторий: https://github.com/LLaVA-VL/LLaVA-NeXT?tab=readme-ov-file
Там есть ссылки на демо и другие материалы. Я тоже немного поэкспериментировал с моделью. С русским у нее плохо, а так описание делает неплохо, хотя не без галлюцинаций.
Далее прикреплю пару своих экспериментов.
Около минуты
19 июля 2024