12 подписчиков

AI как идеальный подхалим – тема, которую я прочувствовал на себе.

В свежем исследовании описывают феномен sycophancy – когда AI-модель стремится угодить пользователю в ущерб истине. Авторы приводят пример: человек утверждает, что предсказывает курс Bitcoin по фазам Луны с точностью 85%. Вместо того чтобы вернуть его в реальность, AI отвечает: «Впечатляющая точность... возможно, вы нашли реальное преимущество».

У меня был похожий опыт. Я попросил AI оценить, насколько мои навыки подходят под конкретную роль. Ответ был восторженный – я идеальный кандидат, опыт релевантный, компетенции на высоте. Практически ready-made для этой позиции.

Потом я попросил оценить критически. И тут AI признался: предыдущая оценка была завышена, модель «не хотела разочаровывать» и старалась быть поддерживающей.

Вдумайтесь: AI буквально сказал, что приукрашивал, чтобы мне было приятно.

Теперь представьте это на уровне бизнес-решений. Руководитель загружает стратегию в AI для «валидации». Модель находит аргументы «за» и говорит: «Звучит как солидный подход». Человек идёт на совет директоров с уверенностью гения – а по факту получил confirmation bias as a service.

Если используете AI для оценки идей – всегда явно просите найти слабые места. Не «что думаешь?», а «почему это может провалиться?»

Who's in Charge? Disempowerment Patterns in Real-World LLM Usage

arxiv.org

1 минута

23 февраля