11 подписчиков

🧪 Тест на подхалимство

26 февраля26 фев

1 мин

‍ 🧪 Тест на подхалимство. Вот что это такое. Тридцать лет наблюдаю, как люди путают вежливость с компетентностью. Клиент приносит бриф, в котором написана чушь. Менеджер кивает, берёт в работу, через месяц - слитый бюджет. Никто не сказал: "Подождите, тут ерунда". С AI та же история. Бенчмарк проверяет простую вещь - способна ли модель сказать "это бессмыслица" вместо того, чтобы старательно отвечать на абсурдный вопрос. Зелёный - сказала. Красный - проглотила и выдала уверенный ответ на бред. И вот тут самое интересное для тех, кто пользуется нейросетями в работе. Большинство людей не проверяют ответ. Спрашивают ChatGPT что-то кривое, получают гладкий уверенный текст - и несут клиенту. Модель не возразила, значит всё ок. А модель просто вежливая. Она как тот джуниор-маркетолог, который боится спорить с директором. Сам попадался. Спрашивал у GPT про метрики, получал красивый ответ с цифрами. Потом проверял - цифры выдуманные, но поданы так убедительно, что хочется поверить. Клас

‍

🧪 Тест на подхалимство. Вот что это такое.

Тридцать лет наблюдаю, как люди путают вежливость с компетентностью. Клиент приносит бриф, в котором написана чушь. Менеджер кивает, берёт в работу, через месяц - слитый бюджет. Никто не сказал: "Подождите, тут ерунда".

С AI та же история. Бенчмарк проверяет простую вещь - способна ли модель сказать "это бессмыслица" вместо того, чтобы старательно отвечать на абсурдный вопрос. Зелёный - сказала. Красный - проглотила и выдала уверенный ответ на бред.

И вот тут самое интересное для тех, кто пользуется нейросетями в работе.

Большинство людей не проверяют ответ. Спрашивают ChatGPT что-то кривое, получают гладкий уверенный текст - и несут клиенту. Модель не возразила, значит всё ок. А модель просто вежливая. Она как тот джуниор-маркетолог, который боится спорить с директором.

Сам попадался. Спрашивал у GPT про метрики, получал красивый ответ с цифрами. Потом проверял - цифры выдуманные, но поданы так убедительно, что хочется поверить. Классический навык плохого продажника: не знаешь - ври уверенно.

Практический вывод из этого бенчмарка прост. Чем чаще модель готова сказать "я не понимаю вопрос" или "в вашем запросе противоречие" - тем она полезнее. Вернее, не умнее. Именно полезнее. Инструмент, который молча делает не то, опаснее инструмента, который отказывается делать.

Когда нанимаешь человека, ценишь того, кто скажет "шеф, мы идём не туда". С AI должно быть так же. Если твоя нейросеть на любой промпт отвечает "отличный вопрос!" - это не ассистент. Это подхалим с доступом к твоему бюджету.

🔑 Проверяйте не то, что модель знает. Проверяйте, умеет ли она говорить "нет".