Он набрал больше баллов, чем средний абитуриент, но, вероятно, недостаточно подготовлен, чтобы поступить в колледж.
Используйте ChatGPT на русском языке в России. Написание текстов, генерация кода, картинок и статей. Полный доступ без VPN
Большие языковые модели, такие как GPT-3, наделяют чат-боты удивительной способностью давать человекоподобные ответы на интересующие нас вопросы. Но насколько они умны на самом деле? Новое исследование психологов из Калифорнийского университета в Лос-Анджелесе, опубликованное на этой неделе в журнале Nature Human Behavior, показало, что языковая модель GPT-3 обладает лучшими навыками рассуждения, чем средний студент колледжа, что является довольно низкой планкой.
Исследование показало, что GPT-3 показал лучшие результаты, чем группа из 40 студентов Калифорнийского университета, когда нужно было ответить на серию вопросов, которые можно встретить на стандартных экзаменах, таких как SAT, где требуется использовать решения знакомых задач для решения новой задачи.
"В вопросах пользователям предлагается выбрать пары слов, которые имеют одинаковый тип отношений. (Например, в задаче: "Любовь" относится к "ненависти", как "богатый" к какому слову? Решением будет "бедный")", - говорится в пресс-релизе. Другой набор аналогий представлял собой подсказки, взятые из отрывка короткого рассказа, и вопросы были связаны с информацией, содержащейся в этом рассказе. В пресс-релизе отмечается: "Этот процесс, известный как аналоговое мышление, уже давно считается уникальной человеческой способностью".
Более того, результаты GPT-3 оказались лучше, чем средний балл SAT для поступающих в колледж. GPT-3 также не уступал испытуемым в логическом мышлении, которое проверялось с помощью набора задач под названием "Прогрессивные матрицы Равена".
Нет ничего удивительного в том, что GPT-3 отлично справляется с экзаменами. В предыдущих исследованиях логические способности этой модели проверялись с помощью ряда стандартизированных экзаменов, таких как AP, LSAT и даже MCAT, и они были успешно сданы. Последняя версия языковой модели, GPT-4, в которой добавлена возможность обработки изображений, еще лучше. В прошлом году исследователи Google обнаружили, что они могут улучшить логическое мышление таких языковых моделей за счет подсказки цепочки мыслей, которая разбивает сложную задачу на более мелкие шаги.
Похожее: Точность ChatGPT стала хуже, показало исследование
Несмотря на то, что сегодня ИИ ставит перед учеными-компьютерщиками фундаментальную задачу переосмысления рудиментарных критериев машинного интеллекта, таких как тест Тьюринга, эти модели далеки от совершенства.
Например, в опубликованном на этой неделе исследовании группы специалистов из Калифорнийского университета в Риверсайде было обнаружено, что языковые модели Google и OpenAI предоставляют некачественную медицинскую информацию в ответ на запросы пациентов. Другие исследования, проведенные учеными из Стэнфорда и Беркли в начале этого года, показали, что ChatGPT, когда ему предлагалось сгенерировать код или решить математические задачи, по неизвестным причинам становился все более небрежным в своих ответах. Среди обычных пользователей ChatGPT, хотя и пользуется популярностью и весельем, не очень практичен для повседневного использования.
При этом он по-прежнему плохо справляется с визуальными головоломками и пониманием физики и пространства реального мира. В связи с этим Google пытается объединить мультимодальные языковые модели с роботами для решения этой проблемы.
Трудно сказать, думают ли эти модели так же, как мы, - похожи ли их когнитивные процессы на наши собственные. При этом ИИ, который хорошо справляется с тестами, в целом не является интеллектуальным, как человек. Трудно сказать, где лежат его границы и каковы его потенциальные возможности. Для этого необходимо сделать их открытыми, обнародовать их программное обеспечение и данные обучения, что вызывает серьезную критику экспертов по поводу того, насколько тщательно OpenAI охраняет свои LLM-исследования.