Популярные языковые модели оказались не такими умными, как мы думали. Новое исследование выявило у них «легкие когнитивные нарушения».
Большие языковые модели (LLM) — от GPT-4o до Gemini — прошли тестирование, аналогичное проверке когнитивных функций у пожилых пациентов. Исследователи из MedicalXpress использовали Montreal Cognitive Assessment (MoCA), чтобы понять, как ИИ справляется с задачами на внимание, память, язык и зрительно-пространственные навыки.
Итоги оказались неожиданными: почти все чат-боты показали признаки «умственной усталости».
MoCA — стандартный тест для выявления когнитивных нарушений, таких как деменция. Он состоит из коротких заданий: рисование часов, соединение цифр и букв в возрастающем порядке, запоминание слов, абстрактное мышление. Максимальный балл — 30, а результат выше 26 считается нормальным.
Модели, участвовавшие в исследовании:
- GPT-4o (26 из 30) — единственный, кто прошел тест «на уровне нормы».
- GPT-4 и Claude 3.5 Sonnet (25 из 30) — чуть ниже лидера.
- Gemini 1.0 (16 из 30) — явный аутсайдер.
Где чат-боты ошибались?
ИИ отлично справились с задачами на внимание, речь и называние предметов. Но вот с визуальными заданиями дела обстояли хуже:
- Все модели провалили тесты на зрительно-пространственные навыки, такие как рисование часов и «прокладывание тропы».
- Gemini не смог запомнить последовательность из пяти слов.
- Большинство моделей не справились с заданиями, требующими интерпретации сложных визуальных образов.
Интересно, что GPT-4o единственный успешно прошел тест Струпа: называл цвет текста, который обозначал другой цвет (например, слово «зелёный», написанное синим). Это говорит о лучшей адаптации к отвлекающим факторам.
Хотя языковые модели способны решать сложные текстовые задачи, их слабости в зрительно-пространственном восприятии и исполнительных функциях ограничивают их применение, например, в медицине.
Неврологи могут не бояться конкуренции: как шутят исследователи, скорее всего, ИИ-программы сами скоро станут пациентами, требующими помощи.