Визуальные способности языковых моделей сильно преувеличены
Исследователи из США и Канады изучили, насколько эффективно самые популярные большие языковые модели (LLM) с функцией визуального восприятия (VLM) обрабатывают визуальную информацию.Pro город будущего
Камера (система распознавания объектов) у современных моделей развита хорошо, а вот «мозг» (способность обрабатывать информацию) пока отстает.Ferra
Ученые предложили моделям выполнить простые задачи вроде подсчета накладывающихся друг на друга кругов или соединенных колец.Ferra
Все четыре LLM показали плохие результаты.TechInsider