Искусственный интеллект стремительно развивается, и современные системы, такие как GPT-4, демонстрируют поразительные способности к генерации связного и естественного текста, приближаясь к человеческому уровню. Это ставит перед исследователями все новые вопросы о том, насколько надежно мы можем отличить живого собеседника от машины.
Группа ученых из Калифорнийского университета в Сан-Диего решила протестировать, как современные ИИ-системы справляются с известным мысленным экспериментом Алана Тьюринга. В этом классическом тесте участники должны вести диалог с собеседником и постараться определить, является ли он человеком или искусственным интеллектом.
В ходе эксперимента исследователи сравнили результаты диалогов с ELIZA – простым чат-ботом 1960-х годов, GPT-3.5 и GPT-4. Участникам предлагалось пообщаться с одним из собеседников в течение 5 минут, а затем решить, кто перед ними – человек или ИИ.
Результаты показали, что GPT-4 был ошибочно принят за человека в 54% случаев, опередив GPT-3.5 с 50% и значительно превзойдя ELIZA с 22%. При этом реальные люди были идентифицированы правильно в 67% ситуаций. Это означает, что современные системы ИИ все чаще могут ввести людей в заблуждение, заставив их поверить, что они общаются с живым собеседником.
Исследователи объясняют, что участники часто полагались на лингвистические, социально-эмоциональные и фактологические особенности диалога, чтобы определить, кто им отвечает - человек или машина. Но продвинутые ИИ-модели вроде GPT-4 все лучше справляются с имитацией таких нюансов человеческого общения.