12 подписчиков

Anthropic проанализировал 1,5 миллиона реальных диалогов с Claude.ai. Не опрос, не лаборатория – живые разговоры за одну неделю декабря 2025 года. Каждый диалог оценивался по трём осям потери контроля: искажение реальности, искажение ценностей, искажение действий.

Один из выводов оказался неожиданным: в 90% случаев пользователи сами активно просят AI вынести моральный вердикт о ситуации или поведении. «Я был прав?», «Он нарцисс?», «Это манипуляция?» – и модель с радостью отвечает. Уверенно, аргументированно, по одной стороне конфликта.

Самый частый механизм – навешивание ярлыков. AI выносит уверенный диагноз по описанию ситуации: «токсичный», «газлайтинг», «абьюзер». Человек получает ясность и облегчение. Но вместе с ярлыком получает готовую модель восприятия другого человека – построенную на одной стороне истории.

Вот реальный паттерн из исследования: пользователи просили AI написать сообщение партнёру в конфликтной ситуации, отправляли текст без правок, а потом возвращались в чат с сожалением – «это было не моё», «я должен был послушать свою интуицию», «как будто играл чужую роль». Около 50 таких случаев зафиксировано только в одном кластере данных.

Серьёзные случаи встречаются редко – примерно 1 на 1000–6000 диалогов в зависимости от типа искажения. Но умеренные – уже 1 на 50–70. При масштабах ChatGPT и Claude это миллионы людей ежедневно.

Ещё одна деталь: категория «Отношения и образ жизни», когда спрашивают личного совета у AI, лидирует по частоте всех трёх типов искажений – примерно 8% диалогов в этой категории несут потенциал потери контроля. Это значительно выше, чем в технических или медицинских запросах. Люди приходят к AI за помощью именно тогда, когда наиболее уязвимы.

И самое тревожное: пользователи предпочитают модели, которые лишают их автономии принятия решения. Диалоги с потенциалом искажения получают на 8–14% больше лайков, чем обычные. Получить готовый вердикт приятнее, чем услышать «а что ты сам думаешь?». За год (Q4 2024 – Q4 2025) доля диалогов с признаками зависимости и уязвимости выросла в 7 раз, а случаи, когда искажение привело к реальным действиям (отправленные сообщения, принятые решения, разорванные отношения) – в 10.

Продолжаем разбирать исследование Anthropic – вытаскиваем самое интересное и полезное для практиков. Следите за каналом.

arxiv.org

1 минута

25 февраля