Найти в Дзене

Несмотря на впечатляющие результаты, генеративный ИИ не имеет последовательного понимания мира

Исследователи показывают, что даже самые эффективные большие языковые модели не формируют истинную модель мира и его правил, и поэтому могут неожиданно потерпеть неудачу в аналогичных задачах. Большие языковые модели могут делать впечатляющие вещи, такие как написание стихов или создание жизнеспособных компьютерных программ, даже если эти модели обучены предсказывать слова, которые будут следующими в тексте. Такие удивительные возможности могут создать впечатление, что модели неявно узнают некоторые общие истины о мире. Но это не обязательно так, согласно новому исследованию. Исследователи обнаружили, что популярный тип генеративной модели искусственного интеллекта может предоставить пошаговые направления движения с почти идеальной точностью — без формирования точной внутренней карты города. Несмотря на сверхъестественную способность модели эффективно ориентироваться, когда исследователи закрыли некоторые улицы и добавили объезды, ее производительность резко упала. Когда они копнули гл
Оглавление

Исследователи показывают, что даже самые эффективные большие языковые модели не формируют истинную модель мира и его правил, и поэтому могут неожиданно потерпеть неудачу в аналогичных задачах.

Большие языковые модели могут делать впечатляющие вещи, такие как написание стихов или создание жизнеспособных компьютерных программ, даже если эти модели обучены предсказывать слова, которые будут следующими в тексте.

Такие удивительные возможности могут создать впечатление, что модели неявно узнают некоторые общие истины о мире.

Но это не обязательно так, согласно новому исследованию. Исследователи обнаружили, что популярный тип генеративной модели искусственного интеллекта может предоставить пошаговые направления движения с почти идеальной точностью — без формирования точной внутренней карты города.

Несмотря на сверхъестественную способность модели эффективно ориентироваться, когда исследователи закрыли некоторые улицы и добавили объезды, ее производительность резко упала.

Когда они копнули глубже, исследователи обнаружили, что на картах Нью-Йорка, которые неявно сгенерировала модель, было много несуществующих улиц, изгибающихся между сеткой и соединяющихся далекими перекрестками.

Это может иметь серьезные последствия для генеративных моделей ИИ, развернутых в реальном мире, поскольку модель, которая кажется хорошо работающей в одном контексте, может сломаться, если задача или среда немного изменятся.

«Одна из надежд заключается в том, что, поскольку LLM могут делать все эти удивительные вещи в языке, возможно, мы сможем использовать те же инструменты и в других областях науки. Но вопрос о том, изучают ли LLM когерентные модели мира, очень важен, если мы хотим использовать эти методы для совершения новых открытий», — говорит старший автор исследования Ашеш Рамбачан, доцент кафедры экономики и главный исследователь в Лаборатории информационных систем и систем принятия решений (LIDS) Массачусетского технологического института.

К Рамбачану в статье о работе присоединяются ведущий автор Кейон Вафа, постдок в Гарвардском университете; Джастин Й. Чен, аспирант факультета электротехники и компьютерных наук (EECS) в Массачусетском технологическом институте; Джон Кляйнберг, профессор компьютерных наук и информатики Корнельского университета Тиш; и Сендил Муллайнатан, профессор Массачусетского технологического института на факультетах EECS и экономики, а также член LIDS. Исследование будет представлено на конференции по нейронным системам обработки информации.

Новые метрики

Исследователи сосредоточились на типе генеративной модели искусственного интеллекта, известной как трансформатор, который составляет основу LLM, таких как GPT-4. Трансформеры обучаются на огромном количестве языковых данных, чтобы предсказывать следующую лексему в последовательности, например, следующее слово в предложении.

Но если ученые хотят определить, сформировал ли LLM точную модель мира, измерения точности его прогнозов недостаточно, говорят исследователи.

Например, они обнаружили, что трансформер может предсказывать правильные ходы в игре Connect 4 почти каждый раз, не понимая ни одного из правил.

Таким образом, команда разработала две новые метрики, которые могут проверить модель мира трансформатора. Исследователи сосредоточили свои оценки на классе проблем, называемых детерминированными конечными автоматизациями, или ЦФА.

DFA — это проблема с последовательностью состояний, таких как пересечения, которые нужно пересечь, чтобы добраться до пункта назначения, и конкретный способ описания правил, которым нужно следовать на этом пути.

Они выбрали две задачи для формулировки в качестве ЦФА: навигация по улицам Нью-Йорка и настольная игра «Отелло».

«Нам нужны были испытательные стенды, где мы знаем, что такое модель мира. Теперь мы можем тщательно подумать о том, что значит восстановить эту модель мира», — объясняет Вафа.

Первая метрика, которую они разработали, называется различением последовательностей, говорит, что модель сформировала когерентную модель мира, которая видит два разных состояния, как две разные доски Отелло, и распознает, насколько они различны. Последовательности, то есть упорядоченные списки точек данных, — это то, что трансформаторы используют для генерации выходных данных.

Вторая метрика, называемая сжатием последовательности, гласит, что трансформатор с когерентной моделью мира должен знать, что два идентичных состояния, как две одинаковые платы Отелло, имеют одинаковую последовательность возможных следующих шагов.

Они использовали эти метрики для тестирования двух распространенных классов трансформаторов, один из которых обучается на данных, сгенерированных случайно созданными последовательностями, а другой — на данных, генерируемых следующими стратегиями.

Некогерентные модели мира

Удивительно, но исследователи обнаружили, что трансформеры, которые делали выбор случайным образом, формировали более точные модели мира, возможно, потому, что они видели более широкий спектр потенциальных следующих шагов во время обучения.

«В «Отелло», если вы увидите, как играют два случайных компьютера, а не чемпионы, теоретически вы увидите полный набор возможных ходов, даже те плохие ходы, которые не сделали бы чемпионы», — объясняет Вафа.

Несмотря на то, что трансформеры генерировали точные направления и корректные движения Отелло почти в каждом случае, эти две метрики показали, что только одна из них генерировала когерентную модель мира для движений Отелло, и ни одна из них не показала хороших результатов в формировании когерентных моделей мира в примере с навигацией.

Исследователи продемонстрировали последствия этого, добавив на карту Нью-Йорка объездные пути, что привело к сбою всех навигационных моделей.

«Я был удивлен тем, как быстро ухудшилась производительность, как только мы добавили объезд. Если мы закроем всего 1 процент возможных улиц, точность сразу же упадет со 100 процентов до 67 процентов», — говорит Вафа.

Когда они восстановили карты городов, созданные моделями, они выглядели как воображаемый Нью-Йорк с сотнями пересекающихся улиц, наложенных поверх сетки. Карты часто содержали случайные эстакады над другими улицами или несколько улиц с невозможной ориентацией.

Эти результаты показывают, что трансформеры могут на удивление хорошо справляться с определенными задачами, не понимая правил. Если ученые хотят создавать LLM, которые могут фиксировать точные модели мира, им нужно использовать другой подход, говорят исследователи.

«Часто мы видим, как эти модели делают впечатляющие вещи, и думаем, что они, должно быть, что-то поняли о мире. Я надеюсь, что мы сможем убедить людей в том, что над этим вопросом нужно очень тщательно подумать, и нам не нужно полагаться на собственную интуицию, чтобы ответить на него», — говорит Рамбачан.

В будущем исследователи хотят решить более разнообразный набор проблем, например, те, в которых некоторые правила известны лишь частично. Они также хотят применить свои оценочные метрики к реальным, научным проблемам.

Эта работа частично финансируется Гарвардской инициативой по науке о данных, стипендией Национального научного фонда для аспирантов, стипендией факультета Ванневара Буша, грантом коллаборации Саймонса и грантом Фонда Макартуров.