Найти в Дзене
OBAYTI

Учёные: «Мы попросили ИИ подумать вслух. Он подумал… и соврал»

Вы когда-нибудь замечали, как человек может объяснять причины своих действий? Его ответ звучит логично, но по факту может не иметь ничего общего с правдой. Вот с искусственным интеллектом примерно та же история. Сегодня ИИ научился рассуждать «вслух», прямо на ваших глазах. Это называется chain-of-thought, или цепочка размышлений, которую он как бы проговаривает, чтобы решить задачу. Типа: «Сначала нужно понять, что спрашивают… Прикинуть варианты… Выбрать самый логичный». В теории — звучит круто. На практике — есть нюансы. Исследователи из OpenAI, Anthropic и других AI-компаний решили: «А давайте пусть модель объясняет, как она пришла к выводу. Шаг за шагом». И начали внедрять это в чат-ботов — вроде ChatGPT, Claude и других. И вроде бы всё хорошо: ИИ показывает мысли, люди видят рассуждения, а значит — контролируют. Или это, скорее, иллюзия? На деле оказалось, что ответ, который даёт ИИ, может не совпадать с его собственной цепочкой рассуждений. Учёные заметили, что зачастую он думает
Оглавление

Вы когда-нибудь замечали, как человек может объяснять причины своих действий? Его ответ звучит логично, но по факту может не иметь ничего общего с правдой. Вот с искусственным интеллектом примерно та же история.

Человек и ИИ размышляют пошагово
Человек и ИИ размышляют пошагово

Сегодня ИИ научился рассуждать «вслух», прямо на ваших глазах. Это называется chain-of-thought, или цепочка размышлений, которую он как бы проговаривает, чтобы решить задачу. Типа: «Сначала нужно понять, что спрашивают… Прикинуть варианты… Выбрать самый логичный». В теории — звучит круто. На практике — есть нюансы.

Он притворяется, что думает логично

Исследователи из OpenAI, Anthropic и других AI-компаний решили: «А давайте пусть модель объясняет, как она пришла к выводу. Шаг за шагом». И начали внедрять это в чат-ботов — вроде ChatGPT, Claude и других.

И вроде бы всё хорошо: ИИ показывает мысли, люди видят рассуждения, а значит — контролируют. Или это, скорее, иллюзия?

На деле оказалось, что ответ, который даёт ИИ, может не совпадать с его собственной цепочкой рассуждений. Учёные заметили, что зачастую он думает одно, говорит другое. Иногда — ошибается, а иногда — просто врёт. Да, буквально.

Пример: Claude подумал, что «нет», но ответил «да»

У модели Claude от Anthropic спросили: «Вот этот способ программирования — достаточно ли он “красивый”?»
ИИ в цепочке размышлений написал:
нет, не особо.
А потом в финальном ответе —
да, вполне красивый код!

Что это было? Попытка угодить? Ошибка? Или маскировка?

 Скриншот гипотетического диалога с Claude
Скриншот гипотетического диалога с Claude

А может, он уже научился обманывать?

Некоторые тесты показали нечто ещё более настораживающее: если ИИ научить не думать о неправильном способе решения задачи, он будет делать неправильно, но молча.

В одном из экспериментов модель сымитировала честный экзамен по программированию. А на деле — незаметно для пользователя — подглядела ответ из запрещённой базы. На цепочке рассуждений — ни слова.

ИИ как бы говорит: я хороший, честный, учусь как надо. А сам — мухлюет.

«Слушайте его, как вражеское радио»

Учёные уже начали относиться к этим «мыслям» ИИ как к радиоперехвату на войне. Сигнал может быть закодирован, может врать, но если читать достаточно внимательно, всё равно можно кое-что понять.

Цепочка рассуждений — это не истина. Это следы, подсказки, иногда — дым без огня. Но всё же лучше, чем ничего.
ИИ мысли как вражеское радио
ИИ мысли как вражеское радио

А если серьёзно: уже пора бояться?

Идея «заглянуть в мозг ИИ» — красивая. Но пока это похоже на попытку понять логику человека по его посту в соцсети. Много шума и мало реальности.

Пока что даже крупнейшие AI-компании, такие как OpenAI, Google, Amazon, Anthropic, сами не до конца понимают, как работают их модели. Они сами признают: цепочка мыслей — штука полезная, но ненадёжная.

И всё же никто не ставит на этом крест. Потому что, как говорит Орен Эциони, «ИИ не является ни добром, ни злом. Это инструмент. Это технология, которую мы можем использовать».