Хотя Денис в своем канале уже сегодня ссылался на эту работу, позволю себе ссылку повторить, только с более длинной подводкой. Группа исследователей из Microsoft предприняли довольно детальное, хоть и не претендующее на полноту качественное исследование новых возможностей GPT-4V, версии с мультимодальным вводом. Их интересовало, насколько хорошо модель может воспринимать картинки, делать обобщения, связанные с изображениями, реагировать на уточнения в графическом виде (например, дорисованные от руки поверх изображения указатели). Результаты занимают полторы сотни страниц с примерами и объяснениями. Согласен с Денисом: «Можно залипнуть вечерком на пару часиков»; я, собственно, и залип :) . Но очень советую тем, кто уже использует по работе или по жизни языковые модели, не просто залипнуть, а довольно подробно прочитать и самому потренироваться, если возможность есть.

Как правильно отмечают авторы, возможности языковых моделей очень сильно расширяются за счет графического ввода, а пресловутый промптинг может теперь включать графические составляющие, это тоже меняет мир. The findings reveal its remarkable capabilities, some of which have not been investigated or demonstrated in existing approaches. Что не менее важно, авторы показывают и слабые места, где модель ошибается и предлагают варианты как ошибки уменьшить. Так что советую парой часиков не ограничиваться.

Кстати, по-новому звучат недавно озвученные идеи Цукерберга — его очки с камерами должны дать виртуальному ассистенту картинку окружающего мира: убедитесь, насколько много уже сейчас может извлечь модель из такой картинки:) И это лишь начало, конечно, у статьи правильное название The Dawn of LMMs — это действительно лишь заря:)

https://arxiv.org/pdf/2309.17421.pdf

(а вот исходно вдохновивший меня пост - https://t.me/denissexy/7326 )

Хотя Денис в своем канале уже сегодня ссылался на эту работу, позволю себе ссылку повторить, только с более длинной подводкой.

1 минута

2 октября 2023