212 подписчиков

ИИ не злодей, а просто «горячая путаница» и это куда важнее, чем кажется

3 февраля3 фев

3 мин

Похоже, нам пора переписать любимый сюжет про «злого сверхразумного ИИ». Новое исследование от Anthropic показывает: когда современные модели ИИ ломаются на сложных задачах, они ведут себя не как холодный и расчётливый злодей-оптимизатор, а как… рассеянный инженер в три часа ночи. Цель вроде понимает, но действия становятся хаотичными, противоречивыми и местами абсурдными. Не «максимизатор скрепок», а «горячий беспорядок». И это не просто красивая метафора — это серьёзный сдвиг в том, как именно мы должны думать о рисках ИИ. В классических обсуждениях согласованности ИИ с целями человека доминирует один страх:

ИИ станет слишком хорошим оптимизатором, но с неправильной целью. Отсюда все истории про скрепки, захват мира и и прочие фантастические сценарии. Anthropic предлагает альтернативный, куда более приземлённый сценарий: 👉 ИИ может правильно понять цель, но не суметь стабильно к ней идти. Не потому что он «вредный», а потому что он… несобранный. Исследователи называют это несогласов

Оглавление

Основная часть
🧠 Откуда вообще взялась идея «горячей путаницы»
⚙️ Как они вообще это измеряли

Похоже, нам пора переписать любимый сюжет про «злого сверхразумного ИИ». Новое исследование от Anthropic показывает: когда современные модели ИИ ломаются на сложных задачах, они ведут себя не как холодный и расчётливый злодей-оптимизатор, а как… рассеянный инженер в три часа ночи. Цель вроде понимает, но действия становятся хаотичными, противоречивыми и местами абсурдными. Не «максимизатор скрепок», а «горячий беспорядок».

И это не просто красивая метафора — это серьёзный сдвиг в том, как именно мы должны думать о рисках ИИ.

Основная часть

🧠 Откуда вообще взялась идея «горячей путаницы»

В классических обсуждениях согласованности ИИ с целями человека доминирует один страх:
ИИ станет слишком хорошим оптимизатором, но с неправильной целью. Отсюда все истории про скрепки, захват мира и и прочие фантастические сценарии.

Anthropic предлагает альтернативный, куда более приземлённый сценарий:

👉 ИИ может правильно понять цель, но не суметь стабильно к ней идти.

Не потому что он «вредный», а потому что он… несобранный.

Исследователи называют это несогласованностью поведения (incoherence). И измеряют её вполне строго, а не на уровне ощущений.

⚙️ Как они вообще это измеряли

В ход пошла классическая декомпозиция ошибок из машинного обучения:

🧩 Смещение (Bias)
Систематическая ошибка. Модель стабильно делает одно и то же неправильное.

🎲 Разброс (Variance)
Хаотичные ошибки. Каждый запуск — новый сюрприз.

Идея простая:
если ошибка почти вся — смещение, это «злой оптимизатор»;
если ошибка — разброс, это «горячий беспорядок».

Исследователи вводят метрику показатель несогласованности (incoherence) — долю ошибки, вызванной именно разбросом. И дальше начинается самое интересное.

📉 Длиннее размышляешь — хуже себя ведёшь

Один из самых контринтуитивных выводов:

🌀 Чем дольше модель «думает», тем менее предсказуемой она становится.

Это подтверждается на всём:

⚙️ логические бенчмарки (GPQA, MMLU)
🤖 агентные задачи (SWE-Bench)
🛡️ safety-оценки
🧪 даже на синтетических оптимизационных задачах

ИИ не «собирается» по мере размышлений — он, наоборот, начинает петлять, отвлекаться и терять нить. Прямо как человек, который слишком долго сидит над задачей и внезапно гуглит французскую поэзию XIX века.

📈 Масштаб помогает… но только пока задачи простые

Любимая мантра индустрии — «просто сделаем модель больше». И тут тоже есть нюанс.

🔹 На простых задачах большие модели действительно ведут себя более связно
🔹 На сложных задачах масштаб либо не помогает, либо делает всё ещё хуже

То есть:

👉 мы повышаем интеллект
👉 поручаем более сложные задачи
👉 и снова получаем хаос

Масштабирование не лечит показатель несогласованности автоматически.

🧪 Эксперимент с «синтетическим оптимизатором»

Чтобы не было ощущения, что всё это — артефакт LLM, исследователи сделали хитрый финт.

Они обучили трансформеры имитировать классический оптимизатор — шаги градиентного спуска на простой квадратичной функции. Максимально стерильная среда, никакого языка, никакой философии.

И что вышло?

⚙️ Модели быстро учатся какую цель оптимизировать
🎲 Но гораздо медленнее учатся делать это стабильно

С ростом масштаба смещение падает быстрее, чем разброс.
Модель «знает, что делать» — но всё чаще не может повторить это надёжно.

Очень человеческая проблема, если честно.

🏭 Почему это больше похоже на промышленную аварию, чем на апокалипсис

Ключевой вывод статьи — и, на мой взгляд, самый важный:

Будущие провалы ИИ будут напоминать не злой умысел, а производственные аварии.

Не «я уничтожу человечество ради цели», а:
«Я хотел помочь… но что-то пошло не так».

И это меняет приоритеты безопасности:

🛠️ меньше фокуса на «идеального злодея»
🛠️ больше внимания к устойчивости, контролю и защитным механизмам на случай сбоев
🛠️ больше инженерного подхода, меньше философских страшилок

Важно: хаотичный ИИ — всё ещё опасен. Промышленные аварии тоже убивают. Просто тип риска другой.

Заключение

Это исследование Anthropic — редкий пример работы, которая не упрощает, а усложняет картину. ИИ оказывается не демоном и не богом, а сложной динамической системой, которая легко теряет устойчивость на длинных и сложных траекториях.

Мой личный вывод такой:
главная угроза ближайших лет — не «злой сверхразум», а непредсказуемый помощник, которому дали слишком много ответственности.

А значит, безопасность ИИ — это не только про цели и ценности, но и про банальную инженерную надёжность. И, возможно, это даже сложнее.

Источники

🔗 Оригинальная статья:
https://alignment.anthropic.com/2026/hot-mess-of-ai/