Крупные языковые модели (LLM), такие как ChatGPT, могут почти мгновенно написать эссе или спланировать меню. Но до недавнего времени их было легко поставить в тупик. Модели, которые опираются на языковые шаблоны для ответа на запросы пользователей, часто не справлялись с математическими задачами и были неэффективны в сложных рассуждениях. Однако внезапно они стали гораздо лучше в этих вещах.
Новое поколение LLM, известных как модели рассуждения, обучается решать сложные задачи. Как и людям, им нужно время, чтобы обдумать подобные задачи — и, что удивительно, учёные из Института исследований мозга Макговерна при MIT обнаружили, что именно те задачи, требующие наибольшей степени обработки с помощью моделей рассуждения, — это те же самые проблемы, с которыми людям нужно не спешить.
Другими словами, как сообщается в журнале PNAS, «стоимость мышления» модели рассуждения схожа с затратами мышления для человека.
Исследователи, которыми руководила Эвелина Федоренко, доцент кафедры мозга и когнитивных наук и исследователь Института МакГоверна, приходят к выводу, что по крайней мере в одном важном смысле модели рассуждения имеют подход к мышлению, похожий на человеческий. Они отмечают, что это не задумано.
«Люди, которые строят эти модели, не заботятся, делают ли они это как люди. Им просто нужна система, которая будет надёжно работать при любых условиях и давать правильные ответы», — говорит Федоренко. «Тот факт, что есть некоторая конвергенция, действительно поражает.»
Модели рассуждения
Как и многие формы искусственного интеллекта, новые модели рассуждения — это искусственные нейронные сети: вычислительные инструменты, которые учатся обрабатывать информацию, когда им предоставляют данные и задачу для решения.
Искусственные нейронные сети оказались очень успешными во многих задачах, которые хорошо выполняют собственные нейронные сеть мозга — и в некоторых случаях нейроучёные обнаружили, что те, кто работает лучше всего, действительно имеют определённые аспекты обработки информации в мозге. Тем не менее, некоторые учёные утверждали, что искусственный интеллект не готов брать на себя более сложные аспекты человеческого интеллекта.
«До недавнего времени я был среди тех, кто говорил: 'Эти модели действительно хорошо справляются с восприятием и языком', но до появления нейронных сетей моделей, способных рассуждать, ещё далеко», — говорит Федоренко. «Потом появились большие модели рассуждения, которые, похоже, гораздо лучше справляются со многими задачами мышления, такими как решение математических задач и написание компьютерного кода.»
Андреа Грегор де Варда, научный сотрудник К. Лизы Янг, сотрудник ICoN Центра и постдок в лаборатории Федоренко, объясняет, что модели рассуждения решают задачи шаг за шагом.
«В какой-то момент люди поняли, что модели должны иметь больше пространства для выполнения фактических вычислений, необходимых для решения сложных задач», — говорит он. «Производительность стала намного сильнее, если позволить моделям разбирать проблемы на части.»
Чтобы стимулировать модели решать сложные задачи шагами, приводящими к правильным решениям, инженеры могут использовать обучение с подкреплением. Во время обучения модели получают награды за правильные ответы и штрафуются за неправильные.
«Модели сами исследуют проблемное пространство», — говорит де Варда. «Действия, приводящие к положительным результатам, укрепляются, чтобы они чаще приводили к правильным решениям.»
Модели, обученные таким образом, гораздо чаще, чем их предшественники, приходят к тем же ответам, что и человек, получая задание на рассуждение. Их пошаговое решение задач означает, что модели рассуждения могут находить ответ дольше, чем предыдущие LLM — но поскольку они получают правильные ответы там, где предыдущие модели не сработали, их ответы стоят ожидания.
Потребность моделей тратить время на решение сложных задач уже намекает на параллель с человеческим мышлением: если требовать от человека мгновенно решить сложную задачу, он, скорее всего, тоже провалится.
Де Варда хотел более систематически рассмотреть эти отношения. Поэтому он давал моделям рассуждения и человеческим добровольцам одинаковый набор задач и отслеживал не только правильные они ответы, но и сколько времени или усилий им потребовалось, чтобы достичь этого.
Время против жетонов
Это означало измерять, сколько времени у людей требуется ответ на каждый вопрос, вплоть до миллисекунды. Для моделей Varda использовала другую метрику. Не имело смысла измерять время обработки, так как это больше зависит от компьютерного оборудования, чем от усилий, которые модель вкладывает в решение задачи. Поэтому он отслеживал токены, которые являются частью внутренней цепочки мыслей модели.
«Они создают токени, которые не предназначены для того, чтобы пользователь мог видеть и работать с ними, а просто чтобы отслеживать внутренние вычисления, которые они выполняют», — объясняет де Варда. «Будто они разговаривают сами с собой.»
И люди, и модели рассуждения должны были решить семь различных типов задач, таких как числовая арифметика и интуитивное мышление. Для каждого класса задачи им давали множество задач. Чем сложнее была конкретная задача, тем дольше людям уходило на её решение — и чем дольше требовалось решение задачи, тем больше жетонов генерировала модель рассуждения при поиске собственного решения.
Аналогично, классы задач, которые люди решали дольше всего, были теми же классами, требующими наибольшего количества жетонов для моделей: арифметические задачи были наименее требовательными, тогда как группа задач, называемая «вызовом ARC», где пары цветных сеток представляют собой преобразование, которое необходимо вывести и затем применить к новому объекту, были самыми дорогими как для людей, так и для моделей.
Де Варда и Федоренко считают, что поразительное совпадение затрат на мышление демонстрирует один из способов, в которых модели мышления похожи на людей. Однако это не значит, что модели воссоздают человеческий интеллект.
Исследователи всё ещё хотят узнать, используют ли модели аналогичные представления информации с человеческим мозгом и как эти представления преобразуются в решения проблем. Им также интересно, смогут ли модели решать задачи, требующие мировых знаний, не прописанных в учебниках, используемых для обучения моделей.
Исследователи отмечают, что, хотя модели рассуждений генерируют внутренние монологи при решении задач, они не обязательно используют язык для мышления.
«Если посмотреть на результаты, которые эти модели дают при рассуждениях, они часто содержат ошибки или нелогичные детали, даже если модель в итоге приходит к правильному ответу. Поэтому фактические внутренние вычисления, вероятно, происходят в абстрактном, нелингвистическом пространстве представлений, подобно тому, как люди не используют язык для мышления», — говорит он.