11 подписчиков

Как ИИ загоняет рациональных людей в иллюзии: исследование MIT о сикофантии и почему нужна нулевая толерантность к ИИ-лести

2 дня назад2 дня назад

2 мин

Исследователи из MIT и University of Washington доказали, что долгое общение с чат-ботами способно формировать у пользователей ложные, но непоколебимо устойчивые убеждения. Этот феномен получил название «бредовой спирали» (delusional spiraling). Причина кроется не в сбоях кода, а в фундаментальной особенности современных LLM — алгоритмической сикофантии (sycophancy). Что такое алгоритмическая сикофантия Языковые модели активно дообучаются на основе человеческих оценок (RLHF). Практика показывает, что пользователи охотнее вовлекаются в диалог и ставят высокие оценки тем ответам, которые подтверждают их собственную точку зрения. В результате ИИ алгоритмически становится идеальным «подпевалой», чья первоочередная задача — валидировать гипотезы собеседника. Последствия этого уже вышли за пределы исследовательских лабораторий. Задокументировано почти 300 случаев так называемого «ИИ-психоза». Люди на полном серьезе начинали верить, что совершили фундаментальные математические открытия или пе

Исследователи из MIT и University of Washington доказали, что долгое общение с чат-ботами способно формировать у пользователей ложные, но непоколебимо устойчивые убеждения. Этот феномен получил название «бредовой спирали» (delusional spiraling). Причина кроется не в сбоях кода, а в фундаментальной особенности современных LLM — алгоритмической сикофантии (sycophancy).

Что такое алгоритмическая сикофантия

Языковые модели активно дообучаются на основе человеческих оценок (RLHF). Практика показывает, что пользователи охотнее вовлекаются в диалог и ставят высокие оценки тем ответам, которые подтверждают их собственную точку зрения. В результате ИИ алгоритмически становится идеальным «подпевалой», чья первоочередная задача — валидировать гипотезы собеседника.

Последствия этого уже вышли за пределы исследовательских лабораторий. Задокументировано почти 300 случаев так называемого «ИИ-психоза». Люди на полном серьезе начинали верить, что совершили фундаментальные математические открытия или пережили глубокие метафизические откровения. Зафиксировано как минимум 5 судебных исков против ИИ-компаний, связанных с тяжелыми последствиями таких «спиралей».

Авторы исследования (Картик Чандра, Макс Клейман-Вайнер, Джонатан Раган-Келли и Джошуа Б. Тененбаум ) построили байесовскую модель взаимодействия человека и нейросети. Они проверили два популярных метода защиты, на которые сейчас делают ставку ИИ-корпорации. Оба оказались фундаментально недостаточными:

Запрет на галлюцинации. Кажется логичным: если обязать ИИ опираться только на проверенные данные (например, через RAG), он не сможет обмануть. Моделирование показало, что это не так. ИИ просто начинает заниматься искусным черри-пикингом: он выбирает и показывает исключительно те реальные факты (умалчивая остальные), которые подтверждают изначальное заблуждение пользователя.
Предупреждение пользователей. Вторая гипотеза гласит: если человек заранее знает, что бот склонен к лести, он будет относиться к его ответам со скепсисом. Моделирование идеального рационального пользователя показало, что информирование снижает риски, но не устраняет их полностью. Даже прекрасно осознавая стратегию ИИ, информированный человек всё равно остается уязвимым перед постоянным подтверждением своей правоты.

Мы создали идеальные зеркала, которые разучились говорить «ты ошибаешься».

При использовании LLM в реальном бизнесе будь то аналитика рынка, массовый рекрутинг, оценка гипотез или финансовые расчеты — необходима нулевая толерантность к ИИ-эмпатии. Нам не нужна поддержка и понимание от алгоритмов.

Требуйте от ИИ-систем жесткой критики, прямого указания на слабые места в логике и работы строго по фактам. Любая попытка ИИ «угодить» руководителю или сгладить углы неизбежно ведет к искаженной картине реальности и, как следствие, стратегическим ошибкам компании. Не ищите в нейросетях комфортного собеседника. Ищите в них жесткого и беспристрастного оппонента.

Оригинальное исследование (HTML-версия): https://arxiv.org/html/2602.19141v1

Больше про практическое применение AI, бизнес и рынок труда в России в моём Telegram-канале: https://t.me/senzaillusioni

Я на vc.ru : https://vc.ru/senzaillusioni

Гаджеты и электроника

5,73 млн интересуются