Исследовательский консорциум из Израиля и Англии представил сенсационные результаты тестирования когнитивных способностей современных языковых моделей. Используя Монреальскую шкалу когнитивной оценки (MoCA) – стандартизированный медицинский инструмент, применяемый для выявления ранних признаков деменции – ученые оценили ведущие нейросети, включая GPT-4, Claude 3.5 Sonnet, Gemini и GPT-4o. Результаты оказались неожиданными и заставляют задуматься о реальных возможностях и ограничениях искусственного интеллекта.
Нейросети "провалили" тест на деменцию
Результаты тестирования оказались неутешительными. Даже самые передовые модели продемонстрировали показатели, которые у людей считаются пограничными или указывающими на когнитивные нарушения. MoCA оценивает различные когнитивные функции, такие как внимание, память, язык, исполнительные функции и пространственное восприятие. При максимально возможных 30 баллах, оценка ниже 26 сигнализирует о вероятных нарушениях мыслительных функций.
Лидером тестирования стала GPT-4o, набрав пороговые 26 баллов. GPT-4 и Claude 3.5 Sonnet показали результат в 25 баллов, что уже находится в зоне риска. Наиболее тревожный результат продемонстрировала Gemini 1.0, набрав всего 16 баллов – показатель, который у людей считается серьезным отклонением от нормы.
Пространственное восприятие и исполнительные функции – ахиллесова пята ИИ
Особую тревогу вызывает тот факт, что все протестированные модели показали низкие результаты в заданиях на пространственное восприятие и исполнительные функции. Это говорит о том, что, несмотря на впечатляющие возможности в обработке языка, нейросети испытывают трудности с задачами, требующими визуализации, планирования и принятия решений. Только GPT-4o удалось справиться со сложным тестом на гибкость мышления, что подчеркивает существенные ограничения современных нейросетей.
"Возраст" имеет значение: устаревшие модели демонстрируют худшие результаты
Исследование выявило интересную закономерность: "возраст" модели напрямую влияет на её когнитивные способности. Более старые версии демонстрируют заметно худшие результаты, что ставит под сомнение возможность использования устаревших нейросетей в критически важных областях, таких как медицинская диагностика. Это подчеркивает важность постоянного обновления и совершенствования ИИ-систем.
Практические импликации для индустрии ИИ
Полученные данные имеют серьезные практические импликации для индустрии искусственного интеллекта. Они подтверждают необходимость тщательной валидации ИИ-систем перед их внедрением в ответственные сферы деятельности. Нельзя слепо полагаться на результаты, выдаваемые нейросетями, особенно в ситуациях, требующих критического мышления и принятия сложных решений.
При этом "гонка версий" между технологическими компаниями приобретает дополнительное значение – каждое новое поколение моделей демонстрирует заметное улучшение когнитивных показателей. Это означает, что прогресс в области ИИ продолжается, и будущие модели, возможно, смогут преодолеть выявленные ограничения.
Выводы
Исследование израильско-английского консорциума подчеркивает, что, несмотря на впечатляющие достижения в области искусственного интеллекта, современные языковые модели все еще далеки от человеческого уровня когнитивных способностей. Результаты тестирования MoCA выявили существенные ограничения в пространственном восприятии, исполнительных функциях и гибкости мышления. Эти данные необходимо учитывать при разработке и внедрении ИИ.