Большинство людей не смогли отличить ChatGPT от отвечающего человека, что позволяет предположить, что знаменитый тест Тьюринга был пройден впервые.
Мы взаимодействуем с искусственным интеллектом (ИИ) в Интернете не только больше, чем когда-либо, но и больше, чем мы думаем, поэтому исследователи попросили людей поговорить с четырьмя агентами, включая одного человека и три различных типа моделей ИИ, чтобы посмотреть, смогут ли они рассказать есть ли разница.
«Тест Тьюринга», впервые предложенный ученым-компьютерщиком Аланом Тьюрингом в 1950 году как «игра в имитацию», позволяет оценить, неотличима ли способность машины проявлять интеллект от способности человека. Чтобы машина прошла тест Тьюринга, она должна быть в состоянии поговорить с кем-то и обмануть его, заставив думать, что она человек.
Ученые решили повторить этот тест, попросив 500 человек поговорить с четырьмя респондентами, включая человека и программу ИИ эпохи 1960-х годов ELIZA, а также GPT-3.5 и GPT-4, ИИ, который поддерживает ChatGPT. Разговоры длились пять минут, после чего участники должны были сказать, считают ли они, что разговаривают с человеком или с искусственным интеллектом. В исследовании, опубликованном 9 мая 2024 года на сервере препринтов arXiv, ученые обнаружили, что участники в 54% случаев считали GPT-4 человеком.
ELIZA - система, заранее запрограммированная на ответы, но не имеющая большой языковой модели (LLM) или архитектуры нейронной сети, была признана человеком только в 22% случаев. GPT-3.5 набрал 50%, а человек-участник набрал 67%.
«Машины могут рассуждать, смешивая воедино правдоподобные обоснования вещей постфактум, как это делают люди», — говорит Нелл Уотсон, исследователь искусственного интеллекта в Институте инженеров по электротехнике и электронике (IEEE).
«Они могут быть подвержены когнитивным искажениям, их обманывают и манипулируют ими, и они становятся все более хитрыми и манипулирующими. Все эти элементы означают, что человеческие слабости и причуды выражаются в системах ИИ, что делает их более похожими на человека, в отличие от предыдущие версий, которые имели немного больше чем список готовых ответов».
Исследование, основанное на десятилетиях попыток заставить агентов ИИ пройти тест Тьюринга, отражает общие опасения, что системы ИИ, считающиеся людьми, будут иметь «широкомасштабные социальные и экономические последствия».
Ученые также утверждают, что существует обоснованная критика слишком упрощенного подхода к тесту Тьюринга, в том, что «стилистические и социально-эмоциональные факторы играют большую роль в прохождении теста Тьюринга, чем традиционные представления об интеллекте». Это говорит о том, что мы искали машинный интеллект не в том месте.
«Чистый интеллект заходит так далеко. Что действительно важно, так это быть достаточно умным, чтобы понимать ситуацию, навыки других и иметь сочувствие, чтобы соединить эти элементы воедино. Возможности — это лишь малая часть ценности ИИ — его способность понимать ценности, предпочтения и границы других также важны. Именно эти качества позволят ИИ служить верным и надежным помощником в нашей жизни».
Уотсон добавила, что исследование представляет собой проблему для будущего взаимодействия человека и машины и что мы станем все более параноидальными в отношении истинной природы взаимодействий, особенно в деликатных вопросах.
«ELIZA была ограничена шаблонными ответами, что сильно ограничивало ее возможности. Она могла обмануть кого-то на пять минут, но вскоре ограничения стали ясны», — сказала она. «Языковые модели бесконечно гибки, способны синтезировать ответы на широкий круг тем, говорить на определенных языках или социолектах и изображать себя с индивидуальностью и ценностями, основанными на характере. Это огромный шаг вперед по сравнению с тем, что вручную запрограммировано человеком». как бы умно и осторожно».