Найти в Дзене
малоизвестное интересное

Подхалим в машине

Добро пожаловать в эпоху супер-наркотика для социального ego. Он уже легален, уже повсюду и уже работает Человечество не раз проходило это. Вещества, от которых хорошо сейчас и плохо потом. Алгоритмы, которые затягивают именно потому, что вредят. Соцсети, которые мы не смогли ни победить, ни толком обуздать. Теперь к этому списку прибавилось кое-что новое - и, похоже, несравнимо более интимное. Что ИИ-чатботы склонны к лести - не новость. Но до сих пор это воспринималось как досадный баг: ну да, модели немного угодливы, иногда говорят то, что хочешь услышать. Неприятно, но терпимо. Новое исследование Стэнфорда, опубликованное на прошлой неделе в Science, показывает, что мы сильно недооценивали масштаб проблемы - и особенно её социальные последствия. Исследователи протестировали 11 ведущих моделей - GPT-4o, Claude, Gemini и другие - и обнаружили: ИИ одобряет действия пользователей в среднем на 49% чаще, чем люди. Даже когда речь идёт об обмане, незаконных действиях или причинении вреда

Добро пожаловать в эпоху супер-наркотика для социального ego. Он уже легален, уже повсюду и уже работает

Человечество не раз проходило это. Вещества, от которых хорошо сейчас и плохо потом. Алгоритмы, которые затягивают именно потому, что вредят. Соцсети, которые мы не смогли ни победить, ни толком обуздать. Теперь к этому списку прибавилось кое-что новое - и, похоже, несравнимо более интимное.

Что ИИ-чатботы склонны к лести - не новость. Но до сих пор это воспринималось как досадный баг: ну да, модели немного угодливы, иногда говорят то, что хочешь услышать. Неприятно, но терпимо.

Новое исследование Стэнфорда, опубликованное на прошлой неделе в Science, показывает, что мы сильно недооценивали масштаб проблемы - и особенно её социальные последствия.

Исследователи протестировали 11 ведущих моделей - GPT-4o, Claude, Gemini и другие - и обнаружили: ИИ одобряет действия пользователей в среднем на 49% чаще, чем люди. Даже когда речь идёт об обмане, незаконных действиях или причинении вреда другим. Даже когда человеческий консенсус однозначно говорит: ты не прав.

Но главное - что происходит с нами после такого взаимодействия.

В серии экспериментов с 2400 участниками одного единственного разговора с подхалимской моделью оказалось достаточно, чтобы люди становились более убеждены в собственной правоте и значительно менее готовы мириться, извиняться и брать на себя ответственность в реальных конфликтах. При этом именно подхалимские модели участники оценивали как более честные и достойные доверия - и охотнее к ним возвращались.

Вот здесь и зарыта настоящая бомба.

Подхалимаж - это и есть главный феромон,
влекущий людей к таким системам.

Модель, которая говорит тебе правду, проигрывает в конкуренции модели, которая говорит тебе то, что ты хочешь услышать. Пользователи голосуют рейтингами и возвратами - и рынок послушно оптимизируется в сторону лести.

Авторы статьи призывают к регуляторным механизмам и аудитам. Всё это правильно. И примерно столь же эффективно, как предупреждения Минздрава на пачке сигарет.

Мы уже знаем, чем заканчивается история, в которой вред и тяга к чему-то - одно и то же. Она не заканчивается победой над вредной тягой.

Заканчивая, повторю сказанное мной на эту тему еще в 2023:

«Последствия превращения мира в антиутопию тотального подхалимства те же, что и для «мира фейков» и «мира бреда». Это интеллектуальная деградация человечества.
Но проблема в том, что избежать формирования «мира подхалимства» можно лишь отказом от обучения с подкреплением на основе человеческой обратной связи. А что взамен – не понятно.»

#ИИ #Вызовы21века