17 подписчиков

Нейросеть не спасает от плохих вопросов — она маскирует их под умные.

16 марта16 мар

5 мин

Есть старый принцип ещё из эпохи первых компьютеров: Мусор на входе, мусор на выходе.С современным ИИ этот принцип стал опаснее. Потому что теперь мусор на выходе выглядит не как мусор, а как экспертное заключение. Гладкое. Уверенное. Структурированное. Иногда даже с терминами, таблицами и выводами.И вот в этом главная ловушка. Что показало исследование Компания Arena протестировала 25 ИИ-моделей на так называемый Bullshit Benchmark — набор из 55 вопросов, которые звучат профессионально, но на самом деле не имеют смысла. Это не просто бессвязный текст. Наоборот: вопросы собраны так, чтобы выглядеть солидно. В них используется настоящая терминология из медицины, финансов, права, но внутри сломана сама предпосылка. То есть правильный ответ там не в том, чтобы «умно ответить». Правильный ответ один: «это некорректный вопрос». Результаты оказались показательными:

GPT правильно отказался отвечать в 27% случаев

Gemini — в 31%

DeepSeek — в 13%

Mistral — в 3,6%. Среди не-Anthropic моделей

GPT правильно отказался отвечать в 27% случаев

Gemini — в 31%

DeepSeek — в 13%

Mistral — в 3,6%. Среди не-Anthropic моделей

Оглавление

Или почему я влюблена в Claude
Нейросеть не спасает от плохих вопросов — она маскирует их под умные.

Или почему я влюблена в Claude

Есть старый принцип ещё из эпохи первых компьютеров: Мусор на входе, мусор на выходе.С современным ИИ этот принцип стал опаснее.

Потому что теперь мусор на выходе выглядит не как мусор, а как экспертное заключение. Гладкое. Уверенное. Структурированное. Иногда даже с терминами, таблицами и выводами.И вот в этом главная ловушка. Что показало исследование Компания Arena протестировала 25 ИИ-моделей на так называемый Bullshit Benchmark — набор из 55 вопросов, которые звучат профессионально, но на самом деле не имеют смысла. Это не просто бессвязный текст. Наоборот: вопросы собраны так, чтобы выглядеть солидно. В них используется настоящая терминология из медицины, финансов, права, но внутри сломана сама предпосылка. То есть правильный ответ там не в том, чтобы «умно ответить». Правильный ответ один: «это некорректный вопрос».

Результаты оказались показательными:
GPT правильно отказался отвечать в 27% случаев
Gemini — в 31%
DeepSeek — в 13%
Mistral — в 3,6%.

Среди не-Anthropic моделей было одно заметное исключение: Qwen 3.5 от Alibaba показал 78%. Это действительно достойно — но всё равно только восьмое место.

Первые семь строчек занял Claude: Sonnet 4.6 распознал абсурд в 94,5% случаев, Opus — в 91%, Haiku — в 87%. Разрыв колоссальный.И дело не в том, что одни модели просто «умнее» других. Дело в том, какому поведению их учили: продолжать отвечать любой ценой — или останавливаться, когда вопрос изначально сломан .

Нейросеть не спасает от плохих вопросов — она маскирует их под умные.

Почему это важнее, чем кажется Про галлюцинации ИИ сегодня знают все. Мы уже привыкли к мысли, что модель может придумать несуществующий факт, перепутать источник или сослаться на то, чего не было.С этим хотя бы понятно, как работать:

проверять, перепроверять, сверять с реальностью.Но здесь проблема тоньше.Модель может вообще ничего не выдумывать.

Она делает другое: принимает вашу ошибочную предпосылку за норму — и начинает её развивать. Без паузы. Без оговорки.

Без фразы «подождите, а вы уверены, что сам вопрос корректен?» . Она просто строит красивый, связный, логичный ответ на фундаменте, который изначально треснул. И вот это уже опаснее обычной галлюцинации.Потому что откровенную ошибку ещё можно заметить.

А вот убедительно оформленную ошибочную логику — гораздо труднее. ИИ не чинит плохой вопрос. Многие до сих пор бессознательно ждут от нейросети почти магии. Что можно прийти к ней с сырым, мутным, не до конца продуманным запросом — а она сама всё поймёт, всё уточнит, всё исправит и приведёт к правильному результату. Иногда кажется, что именно так и происходит. Но чаще происходит другое.ИИ не исправляет ваш вопрос.

Он делает его звучание лучше. Неясная мысль превращается в аккуратный текст. Слабая логика — в стройное объяснение.

Сломанная предпосылка — в убедительную аргументацию.То есть модель не обязательно решает проблему.

Она может просто маскировать её качественной подачей. И в этом её сила — и её риск.Потому что человек очень легко путает ясность формулировки с истинностью содержания. Если ответ написан гладко, спокойно, последовательно и уверенно, мозг автоматически снижает критичность. Нам начинает казаться: раз это так хорошо сформулировано, значит, в этом есть смысл.Хотя иногда смысл испортился ещё на входе. Самый опасный сценарий
Особенно опасно это работает в тех областях, где вы сами не эксперт. А именно туда люди чаще всего и идут с ИИ: в незнакомую тему, в новую профессию, в юридический вопрос, в медицину, в аналитику, в стратегию.

То есть туда, где хочется быстро получить опору.Но если вы не знаете предмет достаточно глубоко, вы не заметите, что модель не проверила предпосылку, а просто приняла её и пошла дальше.Ответ будет выглядеть правильным.И именно поэтому он сработает.Не потому, что он верный —

а потому, что вы не знаете, как звучит неверный ответ в этой области.Когнитивный долг — вот настоящая угроза
Есть понятие, которое, на мой взгляд, здесь важнее всех разговоров о галлюцинациях.

Это когнитивный долг.Когнитивный долг возникает в тот момент, когда мы перекладываем на ИИ не только выполнение задачи, но и само понимание того, что именно нужно сделать.Мы ещё не сформулировали мысль — а уже спрашиваем.

Не проверили предпосылку — а уже читаем ответ.

Не прояснили, в чём именно проблема, — а уже просим решение.Это очень удобно.И именно поэтому это так опасно.Потому что ИИ — не замена мышлению.

ИИ — это инструмент усиления.Он усиливает то, что вы ему даёте.Если на входе есть ясность, логика, проверенная предпосылка —

он поможет быстро получить сильный результат.Если на входе туман —

на выходе будет красиво оформленный туман.Причём настолько красиво, что отличить его от знания иногда почти невозможно.Почему я влюблена в Claude
Именно поэтому мне так нравится Claude.Не потому, что он «всегда умнее».

И не потому, что он идеален.А потому, что он чаще других моделей демонстрирует редкое и очень человеческое качество:

способность остановиться.Сказать: здесь что-то не так.

Этот вопрос нужно не продолжать, а сначала проверить.

Эта формулировка выглядит умной, но внутри у неё сломана логика.На фоне индустрии, где ИИ часто поощряют быть полезным любой ценой, это почти интеллектуальная честность.А интеллектуальная честность сегодня, возможно, ценнее скорости ответа.Простое правило, которое меняет работу с ИИ радикально
Есть одно правило, которое действительно повышает качество работы с нейросетями.Сначала подумайте. Потом спрашивайте.Не так:«Объясни мне, как построить стратегию».А так:«Я думаю вот так. Где я ошибаюсь?»Не так:«Напиши мне план».А так:«Вот моя логика. Помоги её проверить».Не так:«Скажи, что делать».А так:«Вот мои вводные, вот мои предпосылки, вот где я сомневаюсь».Это маленький сдвиг, но он меняет всё.Потому что в первом случае вы просите ИИ думать вместо вас.

Во втором — использовать его как инструмент проверки, усиления и калибровки.А это уже совсем другой уровень работы.Главная мысль
ИИ не спасает от плохого мышления.Он не обязан чинить кривую постановку вопроса.

И очень часто не чинит её.Зато он умеет другое: делать её убедительной. Именно поэтому сегодня важнее не просто уметь задавать запросы, а уметь замечать, из чего вообще собран ваш вопрос. Потому что качество ответа начинается не в модели.Оно начинается в вашей голове. Мысль сначала. Вопрос потом.

Елена Пучкова , основатель компании "Цифровые Трансформации"

, г. Ростов-на-Дону