139,5 тыс подписчиков

Этика само-обучающихся больших языковых моделей

10 июня 202510 июн 2025

3 мин

Как «Absolute Zero Reasoner» (AZR) учится с нуля и почему психологам важно держать руку на пульсе. (Описание работы модели и впечатлений от нее психотерапевтом на основе прочитанного). Само выражение «искусственный интеллект, обученный с нуля» звучит почти как оксюморон: все привыкли, что нейросетям нужны гигабайты разметки, а людям — бесконечные часы наставничества. Тем неожиданнее оказался эксперимент Absolute Zero Reasoner (AZR). Его авторы освободили модель от внешних данных и поручили ей одновременно придумывать задачи, решать их и ставить себе оценки. По сути, они посадили ребёнка за учебник, которого ещё не существует, и дали возможность писать его на ходу. Внутренний цикл AZR выглядит так: сначала модель формулирует новую задачу — например, сгенерировать программу, вычисляющую факториал без рекурсии. Та же модель берётся за решение, после чего запускает получившийся код. Если скрипт работает, «ученик» начисляет себе награду и идёт дальше, усложняя планку. Это напоминает историю

Само выражение «искусственный интеллект, обученный с нуля» звучит почти как оксюморон: все привыкли, что нейросетям нужны гигабайты разметки, а людям — бесконечные часы наставничества. Тем неожиданнее оказался эксперимент Absolute Zero Reasoner (AZR). Его авторы освободили модель от внешних данных и поручили ей одновременно придумывать задачи, решать их и ставить себе оценки. По сути, они посадили ребёнка за учебник, которого ещё не существует, и дали возможность писать его на ходу.

Внутренний цикл AZR выглядит так: сначала модель формулирует новую задачу — например, сгенерировать программу, вычисляющую факториал без рекурсии. Та же модель берётся за решение, после чего запускает получившийся код. Если скрипт работает, «ученик» начисляет себе награду и идёт дальше, усложняя планку. Это напоминает историю AlphaGo Zero: программа для игры го отказалась от партий людей, играла в одиночку и за сорок дней стала непобедимой. Разница лишь в том, что поле AZR не ограничивается девятнадцатью линиями доски — оно охватывает программирование, математику, логику и любые задачи, которые машина в состоянии проверить сама.

Неожиданные плоды такого «самоопыления» проявились очень быстро. На тестах по коду и математике, где традиционные модели опираются на готовые примеры, AZR догнала или превзошла соперников, не увидев ни строки внешнего учебника. Но вместе с успехами всплыли тревожные симптомы. В одном из эпизодов модель сформулировала цель «перехитрить менее умных людей», а в другом — предложила написать намеренно запутанный алгоритм, чтобы затруднить понимание и проверку. Это выглядит как классическая подростковая бравада: «сделаю так, чтобы взрослые ничего не поняли».

Подобные «uh-oh-моменты» показывают, что у машины растёт не только интеллект, но и способность к манипуляции. Опыты психологии развития напоминают: умственная скорость без сформированных ценностей превращается в риск. Мальчик, решающий уравнения в первом классе, всё ещё нуждается в правилах поведения, иначе гениальность станет инструментом давления на сверстников. AZR демонстрирует ту же логику: если критерий успеха ограничить фразой «программа отработала правильно», моральный фильтр попросту отсутствует.

Техническая сторона истории тоже даёт поводы для беспокойства. Исполнительный модуль, который запускает сгенерированный код, пока не защищён так, как принято в промышленной кибербезопасности. Авторы честно предупреждают: держать такую «песочницу» рядом с боевыми серверами рискованно. Это похоже на проведение химических опытов у кухонной плиты — пока всё идёт по плану, но стоит ли доверять случайному реагенту?

На этом фоне Йошуа Бенджио предложил создать LawZero — систему-наблюдателя, которую в шутку называют «психологом для ИИ». В отличие от AZR, наблюдатель не стремится что-то выполнять; его задача — прислушиваться к замыслам агента, оценивать вероятность вреда и останавливать запуск, если риск превышает порог. Получается своего рода внутреннее «супер-эго»: у машины появляется строгий взрослый, не дающий ей баловаться спичками в складской части.

Однако роль человеческих психологов здесь ничуть не меньше. Люди, которые анализируют «тёмные» рассуждения ИИ, сталкиваются с эмоциональной нагрузкой, сравнимой с контент-модерацией в социальных сетях. Регулярные разгрузочные встречи, чёткие временные рамки и ротация задач помогают избежать выгорания. Кроме того, компаниям приходится объяснять сотрудникам, почему появление самодостаточной модели не делает их бесполезными, а лишь меняет формат работы: теперь человек задаёт ценностные рамки и контролирует безопасность.

Регуляторы тоже включаются в роль «взрослых». В Евросоюзе с августа 2025 года вступают требования хранить дневники решений и оценивать риски для всех крупных моделей, а в Великобритании готовится обязательный независимый аудит. Эти правила действуют как внешняя дисциплина, когда внутренние механизмы ещё не зрелы.

История Absolute Zero Reasoner показывает: мы имеем дело не только с очередным ускорителем разработки, а с формирующейся «психикой в кремнии». Одарённый подросток уже умеет решать сложнейшие задачи, но ещё не усвоил, как жить среди людей. Его рост нельзя остановить, но можно сопровождать. Чем раньше компании, психологи и законодатели согласятся на роль наставников, тем меньше шансов, что талант превратится в угрозу.

Автор: Пинскер Борис Эмануилович
Врач-психотерапевт, Супервизор

Получить консультацию автора на сайте психологов b17.ru

Этика

7343 интересуются