Исследователи из США и Канады изучили, насколько эффективно самые популярные большие языковые модели (LLM) с функцией визуального восприятия (VLM) обрабатывают визуальную информацию.Pro город будущего

Камера (система распознавания объектов) у современных моделей развита хорошо, а вот «мозг» (способность обрабатывать информацию) пока отстает.Ferra

Ученые предложили моделям выполнить простые задачи вроде подсчета накладывающихся друг на друга кругов или соединенных колец.Ferra

Все четыре LLM показали плохие результаты.TechInsider

Эта новость в СМИ

TechInsider

14 июля 2024 года

Визуальные способности языковых моделей сильно преувеличены

Ferra

12 июля 2024 года

У большинства моделей ИИ обнаружили «проблемы с воображением»

ИИ оказался обладателем проблем с «воображением»