Найти тему
Noogen

GPT-4 впервые прошел тест Тьюринга, утверждают исследователи IEEE.

Большинство людей не смогли отличить ChatGPT от отвечающего человека, что позволяет предположить, что знаменитый тест Тьюринга был пройден впервые.

Мы взаимодействуем с искусственным интеллектом (ИИ) в Интернете не только больше, чем когда-либо, но и больше, чем мы думаем, поэтому исследователи попросили людей поговорить с четырьмя агентами, включая одного человека и три различных типа моделей ИИ, чтобы посмотреть, смогут ли они рассказать есть ли разница.

«Тест Тьюринга», впервые предложенный ученым-компьютерщиком Аланом Тьюрингом в 1950 году как «игра в имитацию», позволяет оценить, неотличима ли способность машины проявлять интеллект от способности человека. Чтобы машина прошла тест Тьюринга, она должна быть в состоянии поговорить с кем-то и обмануть его, заставив думать, что она человек.

Ученые решили повторить этот тест, попросив 500 человек поговорить с четырьмя респондентами, включая человека и программу ИИ эпохи 1960-х годов ELIZA, а также GPT-3.5 и GPT-4, ИИ, который поддерживает ChatGPT. Разговоры длились пять минут, после чего участники должны были сказать, считают ли они, что разговаривают с человеком или с искусственным интеллектом. В исследовании, опубликованном 9 мая 2024 года на сервере препринтов arXiv, ученые обнаружили, что участники в 54% случаев считали GPT-4 человеком.

ELIZA - система, заранее запрограммированная на ответы, но не имеющая большой языковой модели (LLM) или архитектуры нейронной сети, была признана человеком только в 22% случаев. GPT-3.5 набрал 50%, а человек-участник набрал 67%.

«Машины могут рассуждать, смешивая воедино правдоподобные обоснования вещей постфактум, как это делают люди», — говорит Нелл Уотсон, исследователь искусственного интеллекта в Институте инженеров по электротехнике и электронике (IEEE).

«Они могут быть подвержены когнитивным искажениям, их обманывают и манипулируют ими, и они становятся все более хитрыми и манипулирующими. Все эти элементы означают, что человеческие слабости и причуды выражаются в системах ИИ, что делает их более похожими на человека, в отличие от предыдущие версий, которые имели немного больше чем список готовых ответов».

-2

Исследование, основанное на десятилетиях попыток заставить агентов ИИ пройти тест Тьюринга, отражает общие опасения, что системы ИИ, считающиеся людьми, будут иметь «широкомасштабные социальные и экономические последствия».

Ученые также утверждают, что существует обоснованная критика слишком упрощенного подхода к тесту Тьюринга, в том, что «стилистические и социально-эмоциональные факторы играют большую роль в прохождении теста Тьюринга, чем традиционные представления об интеллекте». Это говорит о том, что мы искали машинный интеллект не в том месте.

«Чистый интеллект заходит так далеко. Что действительно важно, так это быть достаточно умным, чтобы понимать ситуацию, навыки других и иметь сочувствие, чтобы соединить эти элементы воедино. Возможности — это лишь малая часть ценности ИИ — его способность понимать ценности, предпочтения и границы других также важны. Именно эти качества позволят ИИ служить верным и надежным помощником в нашей жизни».

Уотсон добавила, что исследование представляет собой проблему для будущего взаимодействия человека и машины и что мы станем все более параноидальными в отношении истинной природы взаимодействий, особенно в деликатных вопросах.

«
ELIZA была ограничена шаблонными ответами, что сильно ограничивало ее возможности. Она могла обмануть кого-то на пять минут, но вскоре ограничения стали ясны», — сказала она. «Языковые модели бесконечно гибки, способны синтезировать ответы на широкий круг тем, говорить на определенных языках или социолектах и ​​изображать себя с индивидуальностью и ценностями, основанными на характере. Это огромный шаг вперед по сравнению с тем, что вручную запрограммировано человеком». как бы умно и осторожно».