Найти в Дзене
КОСМОС

Настоящий секрет крупных языковых моделей ИИ

Почему LLM кажутся нам такими впечатляющими, но при этом раскрывают нечто важное о человеческом интеллекте

За последние несколько лет крупные языковые модели (LLM) достигли впечатляющих успехов: всё большее количество серверов и всё более обширные тренировочные наборы данных позволили этим технологиям искусственного интеллекта демонстрировать кажущиеся удивительными достижения. Едва ли проходит день без сенсационных заголовков о том, как ИИ вот-вот достигнет или превзойдёт «человеческий уровень интеллекта», заменяя всех — от менеджеров и голливудских сценаристов до выдающихся учёных и инженеров.

Однако, хотя наблюдать за раздуванием очередного пузыря хайпа, неизбежно лопающегося под давлением реальности, всегда забавно, LLM действительно рассказывают нам нечто чрезвычайно интересное о человеческом интеллекте.

Но это вовсе не то, о чём с энтузиазмом вещают заголовки.

Несколько недель назад я написал статью о лошади по имени Умный Ганс, которая, как считалось, могла выполнять простейшие арифметические действия. Причина, по которой так много людей, включая владельца лошади, были введены в заблуждение, заключалась в том, что наш мозг, как у социального вида приматов, эволюционировал для того, чтобы видеть в других такие же умственные процессы, которые мы выполняем сами. Это часто приводит к ошибкам: интеллектуальные люди склонны считать, что менее умные имеют гораздо более сложные причины для своих действий или слов, чем есть на самом деле.

И нигде такие ошибки не проявляются чаще, чем в попытках интерпретировать внутренние механизмы наших машин на основании их вывода.

То, что компьютерный алгоритм может выдать предложение, похожее на человеческое, вовсе не означает, что при этом происходит мышление, подобное человеческому. На самом деле, языковые модели ИИ представляют собой огромные статистические механизмы, рассчитывающие вероятности. Благодаря очень хитроумным методам самокоррекции при формировании предложения их выводы обычно грамматически правильны и часто достаточно точны, в зависимости от того, насколько качественно были подобраны тренировочные данные и насколько корректно настроены гиперпараметры для уменьшения так называемых «галлюцинаций». Однако LLM не имеют понятия о контексте за пределами своей программы, не знают теории множеств и не могут делать рациональные выводы. Если в тренировочных данных достаточно ерунды, а настройка параметров оказалась неадекватной, LLM может выдать предложение о том, что рыба первой высадилась на Луну, так же легко, как и правильное утверждение о том, что это был Нил Армстронг.

Именно поэтому я остаюсь скептически настроенным по отношению к LLM. Они просто менее интересны, чем рекурсивные процессы, происходящие в сверточных нейронных сетях (таких, которые могут обыгрывать гроссмейстеров в шахматах или делать сложные предсказания по сворачиванию белков).

В последнее время, однако, я осознал, что мы смотрим на LLM с неправильной стороны. Дело не в том, что они представляют собой потрясающие почти магические чёрные ящики, способные мыслить, как мы. Скорее, удивительно, как многие люди мыслят, как упрощённые версии LLM.

Вот что я имею в виду: если вы прислушаетесь к разговорам обычных людей в магазинах, ресторанах и других местах, где мы собираемся с какой-либо целью, вы услышите одни и те же стандартные фразы и банальные концепции, повторяющиеся бесконечно. Обычные люди говорят о том, что обсуждают другие обычные люди, и в этом они точь-в-точь как LLM, рекурсивно повторяющие свои тренировочные данные. На самом деле никакого осмысленного мышления не происходит. Люди просто открывают рот, и из него вырываются чрезвычайно предсказуемые и лишённые мысли заготовки. Они просто стараются сопоставить контекст и вывод. Например, во время просмотра спортивного матча кто-то скажет комментарий, в какой-то мере относящийся к происходящему. Этот комментарий, скорее всего, был услышан на другом телешоу, подкасте, прочитан в газете или социальных сетях (тренировочный набор данных). Но это всего лишь мысль без размышления, ничем не отличающаяся от вывода ограниченной LLM.

Главное различие между человеческим высказыванием и выводом LLM состоит в том, что последний формирует относительно связное предложение без шумовых интервалов (человеческий вывод: «он такой, типа, ну, знаешь, как бы, ну вот, короче», вывод LLM: «он не хотел идти на вечеринку, и она с этим согласилась»).

Некоторые читатели могут посчитать это описание обычных разговоров несправедливым. На что я отвечу: просто выйдите в мир и послушайте.

Обычные люди говорят о спорте, но при этом всего лишь повторяют то, что слышали по телевидению, радио, читали в газетах и соцсетях. Обычные люди говорят о развлечениях, но при этом повторяют то, что слышали на ТВ, подкастах, читали в газетах или соцсетях. Обычные люди говорят о политике, но и здесь они всего лишь повторяют то, что слышали на ТВ, в подкастах, газетах или соцсетях.

Другими словами, ирония заключается в том, что обычные люди очень похожи на ИИ, основанный на крупных языковых моделях (LLM). В обоих случаях реальное мышление не происходит, а имеет место лишь воспроизведение усвоенного набора данных. Как было отмечено ранее, единственное различие — это масштаб.

Когда LLM сталкиваются с задачей решения логической проблемы, они часто терпят катастрофический провал. То же самое верно и для людей. Когда LLM просят объяснить, почему они выдали тот или иной результат, они часто сводят ответ к повторению результата немного другими словами. То же самое характерно и для людей.

Это ярко продемонстрировала мне одна ситуация несколько лет назад, когда я спросил супружескую пару, которые с энтузиазмом проголосовали за Brexit, о причинах их выбора. Всё, что они могли сделать, это повторять слоганы, которые им внушили. Они проголосовали за Brexit, чтобы «вернуть контроль». Когда я спросил, что это значит, они ответили, что это означает «восстановить суверенитет». Когда я поинтересовался, что это значит, они снова заявили, что это означает «вернуть контроль». Так и продолжалось по кругу, ни разу не приблизившись к чему-то, хотя бы отдалённо напоминающему осмысленное размышление.

И эти люди типичны для нашего вида. Спросите избирателя-республиканца, почему он с энтузиазмом голосует за, очевидно, самого невежественного, глупого и лживого кандидата в истории США, и вы получите пару избитых фраз. Одна из них будет о необходимости избавиться от иммигрантов, другая — о том, насколько «злобен» и «опасен» другой кандидат. Никаких фактов, подтверждающих эти утверждения, не будет представлено, потому что никакого рассуждения не происходит. Всё, что происходит — это воспроизведение тех данных, которые они усвоили из потребляемых ими СМИ. Они, как и алгоритм, неспособны оценить достоверность данных. Они просто принимают их как есть, и это полностью формирует их выходные данные.

Это довольно удручающий вывод, поскольку он означает, что у нас мало шансов создать более разумный и конструктивный подход к решению проблем, которые мы сами для себя создали. Мы не только будем продолжать механически воспроизводить шаблонные фразы и клише, но и будем убеждены, что, делая это, мы «умны» и «хорошо осведомлены».

Мы можем спросить у LLM, когда произошёл Венский конгресс и каковы были его основные последствия, и, скорее всего, получим хотя бы частично правильный ответ. Однако лишь один человек из 100 000 сможет ответить на тот же вопрос. Обычные люди могут рассказать вам слоган из популярного в данный момент телешоу, но ни один из 100 000 не будет иметь ни малейшего представления об импликациях уравнений поля Эйнштейна. Обычные люди могут рассказать вам, какая команда занимает первое место в своей лиге, но лишь один человек из 100 000 сможет перечислить фазы вещества.

Именно поэтому коммерческие LLM кажутся такими впечатляющими. Дело не в том, что они «рассуждают», а в том, что они имеют более широкий диапазон шаблонных фраз, которые могут воспроизводить.

Это, конечно, означает, что спрашивать у обычных людей их мнение по любому важному вопросу — это пустая трата времени, поскольку у них нет доступа к соответствующим наборам данных. Более того, они не смогли бы использовать такие расширенные наборы данных для чего-то, хотя бы отдалённо напоминающего связное рассуждение. А это, в свою очередь, означает, что представительная демократия без ограничений, где любой может выдвигаться на выборы и любой может голосовать, — это прямой путь к катастрофе, как мы сейчас ясно видим по всему миру.

Это не вина обычных людей, что они голосуют за шарлатанов, идиотов и негодяев. Что ещё они могли бы сделать? Им дали наборы данных в виде слоганов, и эти слоганы стали их «убеждениями», которые формируют их поведение. Именно поэтому тирания была нормальным состоянием обществ с тех пор, как случайное изобретение сельского хозяйства произошло в конце последнего ледникового периода около 13 000 лет назад.

Если вы хотите читать больше интересных историй, подпишитесь пожалуйста на наш телеграм канал: https://t.me/deep_cosmos