🧪 Тест на подхалимство. Вот что это такое. Тридцать лет наблюдаю, как люди путают вежливость с компетентностью. Клиент приносит бриф, в котором написана чушь. Менеджер кивает, берёт в работу, через месяц - слитый бюджет. Никто не сказал: "Подождите, тут ерунда". С AI та же история. Бенчмарк проверяет простую вещь - способна ли модель сказать "это бессмыслица" вместо того, чтобы старательно отвечать на абсурдный вопрос. Зелёный - сказала. Красный - проглотила и выдала уверенный ответ на бред. И вот тут самое интересное для тех, кто пользуется нейросетями в работе. Большинство людей не проверяют ответ. Спрашивают ChatGPT что-то кривое, получают гладкий уверенный текст - и несут клиенту. Модель не возразила, значит всё ок. А модель просто вежливая. Она как тот джуниор-маркетолог, который боится спорить с директором. Сам попадался. Спрашивал у GPT про метрики, получал красивый ответ с цифрами. Потом проверял - цифры выдуманные, но поданы так убедительно, что хочется поверить. Клас