615,5K подписчиков

Искусственный интеллект превосходит человека в тестах на теорию разума

Международная группа психологов и нейробиологов путем экспериментов обнаружила, что большие лингвистические модели способны превзойти человека в тестах на теорию разума.

Тесты на теорию разума проверяют в первую очередь способен ли человек поставить себя на место другого и представить мир с иной точки зрения, чем свою собственная.

В исследовании, опубликованном в журнале Nature Human Behavior, группа провела тесты на теорию разума для добровольцев и сравнила средние результаты с результатами двух типов больших лингвистических моделей (LLM).

За последние несколько лет LLM, такие как ChatGPT, завоевали всеобщий интерес. Быстро росли их возможности. Одной из новых возможностей стало умение определять настроение или психическое состояние человека-пользователя.

В новом исследовании ученые задались вопросом, продвинулись ли способности LLM до такой степени, что они могут выполнять тесты на теорию разума наравне с людьми.

Теория разума

Тесты на теорию разума были сравнительно давно разработаны психологами для оценки психического и/или эмоционального состояния человека во время социальных взаимодействий. Люди используют различные невербальные сигналы, чтобы сигнализировать о своем психическом состоянии другим. И другие превосходно улавливают такие сигналы. Согласно исследованиям нейробиологов здесь важно, что человек способен поставить себя на место другого и почувствовать то, что другой чувствует. Такой тест, как правило, не проходят маленькие дети, пациенты с аутистическим расстройством и животные.

Многие специалисты считают, что компьютер никогда не пройдет такое испытание — он ведь лишен сочувствия.

«Сочувствующий» компьютер

Исследовательская группа протестировала несколько LLM, чтобы увидеть, насколько хорошо они пройдут тесты на теорию разума по сравнению с группой людей, проходящих те же тесты.

Исследователи проанализировали данные 1907 добровольцев, которые прошли стандартные тесты теории разума, и сравнили их результаты с результатами больших лингвистических моделей, в том числе Llama 2-70b и GPT-4.

Обе группы ответили на пять типов вопросов, каждый из которых предназначен для оценки таких моментов, как случайная ошибка, ирония или правдивость утверждения. Каждого также попросили ответить на вопросы о «ложных убеждениях» (к ним относятся, например, разные конспирологические теории — «нас всех зомбируют», «нами всеми управляет мировая закулиса» и т.д.).

Исследователи обнаружили, что LLM справлялись с вопросами как правило не хуже чем люди, а иногда и лучше. Самые лучшие результаты по всем типам вопросов показал GPT-4, Llama-2 были в среднем слабее, чем у людей.

Теория разума

Разработана нейросеть, которая позволяет роботу представить, что думает человек ChatGPT прошел тест теории разума на уровне 9-летнего ребенка Есть ли сознание у нашего Солнца

По словам исследователей, эксперимент показывает, что LLM в настоящее время способны выполнять теоретические тесты теории разума с результатами сравнимыми с человеком, хотя ученые и не утверждают, что LLM столь же умны как люди или обладают той же степенью сочувствия.