Похоже, нам пора переписать любимый сюжет про «злого сверхразумного ИИ». Новое исследование от Anthropic показывает: когда современные модели ИИ ломаются на сложных задачах, они ведут себя не как холодный и расчётливый злодей-оптимизатор, а как… рассеянный инженер в три часа ночи. Цель вроде понимает, но действия становятся хаотичными, противоречивыми и местами абсурдными. Не «максимизатор скрепок», а «горячий беспорядок». И это не просто красивая метафора — это серьёзный сдвиг в том, как именно мы должны думать о рисках ИИ. В классических обсуждениях согласованности ИИ с целями человека доминирует один страх:
ИИ станет слишком хорошим оптимизатором, но с неправильной целью. Отсюда все истории про скрепки, захват мира и и прочие фантастические сценарии. Anthropic предлагает альтернативный, куда более приземлённый сценарий: 👉 ИИ может правильно понять цель, но не суметь стабильно к ней идти. Не потому что он «вредный», а потому что он… несобранный. Исследователи называют это несогласов