Найти в Дзене

Новая версия ИИ-модели GPT-4.5 от OpenAI сумела пройти классический тест Тьюринга — и в большинстве случаев оказалась убедительнее настоящих

Новая версия ИИ-модели GPT-4.5 от OpenAI сумела пройти классический тест Тьюринга — и в большинстве случаев оказалась убедительнее настоящих людей В нем приняли участие более трех сотен участников, которые общались в чате и не знали, кем является их собеседник – машиной или человеком. Участники вели 5-минутные беседы одновременно с другим человеком и одной из этих систем, а затем определяли, кто из собеседников, по их мнению, был человеком. После беседы им предложили угадать, где нейросеть. В тестировании принимали участие 4 системы — ELIZA, GPT-4o, LLaMa-3.1-405B и GPT-4.5. Чтобы усложнить прохождение теста, исследователи задавали нейросети определенный промт-персону. К примеру, просили говорить от имени интроверта, фанатеющего по интернет-культуре. Когда GPT-4.5 попросили принять человеческий облик, его сочли человеком в 73% случаев: значительно чаще, чем интервьюеры выбирали реального человека-участника. Без роли результат был почти вдвое ниже — 36%.

Новая версия ИИ-модели GPT-4.5 от OpenAI сумела пройти классический тест Тьюринга — и в большинстве случаев оказалась убедительнее настоящих людей

В нем приняли участие более трех сотен участников, которые общались в чате и не знали, кем является их собеседник – машиной или человеком. Участники вели 5-минутные беседы одновременно с другим человеком и одной из этих систем, а затем определяли, кто из собеседников, по их мнению, был человеком. После беседы им предложили угадать, где нейросеть. В тестировании принимали участие 4 системы — ELIZA, GPT-4o, LLaMa-3.1-405B и GPT-4.5.

Чтобы усложнить прохождение теста, исследователи задавали нейросети определенный промт-персону. К примеру, просили говорить от имени интроверта, фанатеющего по интернет-культуре. Когда GPT-4.5 попросили принять человеческий облик, его сочли человеком в 73% случаев: значительно чаще, чем интервьюеры выбирали реального человека-участника. Без роли результат был почти вдвое ниже — 36%.