15,7 тыс подписчиков

У ИИ нашли «деменцию»: как чат-боты справляются с задачами на мышление

19 декабря 202419 дек 2024

1 мин

Популярные языковые модели оказались не такими умными, как мы думали. Новое исследование выявило у них «легкие когнитивные нарушения».

Большие языковые модели (LLM) — от GPT-4o до Gemini — прошли тестирование, аналогичное проверке когнитивных функций у пожилых пациентов. Исследователи из MedicalXpress использовали Montreal Cognitive Assessment (MoCA), чтобы понять, как ИИ справляется с задачами на внимание, память, язык и зрительно-пространственные навыки.

Итоги оказались неожиданными: почти все чат-боты показали признаки «умственной усталости».

MoCA — стандартный тест для выявления когнитивных нарушений, таких как деменция. Он состоит из коротких заданий: рисование часов, соединение цифр и букв в возрастающем порядке, запоминание слов, абстрактное мышление. Максимальный балл — 30, а результат выше 26 считается нормальным.

Модели, участвовавшие в исследовании:

GPT-4o (26 из 30) — единственный, кто прошел тест «на уровне нормы».
GPT-4 и Claude 3.5 Sonnet (25 из 30) — чуть ниже лидера.
Gemini 1.0 (16 из 30) — явный аутсайдер.

Где чат-боты ошибались?

ИИ отлично справились с задачами на внимание, речь и называние предметов. Но вот с визуальными заданиями дела обстояли хуже:

Все модели провалили тесты на зрительно-пространственные навыки, такие как рисование часов и «прокладывание тропы».
Gemini не смог запомнить последовательность из пяти слов.
Большинство моделей не справились с заданиями, требующими интерпретации сложных визуальных образов.

Интересно, что GPT-4o единственный успешно прошел тест Струпа: называл цвет текста, который обозначал другой цвет (например, слово «зелёный», написанное синим). Это говорит о лучшей адаптации к отвлекающим факторам.

Хотя языковые модели способны решать сложные текстовые задачи, их слабости в зрительно-пространственном восприятии и исполнительных функциях ограничивают их применение, например, в медицине.

Неврологи могут не бояться конкуренции: как шутят исследователи, скорее всего, ИИ-программы сами скоро станут пациентами, требующими помощи.