Найти в Дзене

Какой ИИ говорит правду в 2025: тест ChatGPT, DeepSeek, Gemini, Алисы и GigaChat без выдумок

Оглавление
Какой ИИ говорит правду в 2025: тест ChatGPT, DeepSeek, Gemini, Алисы и GigaChat без выдумок
Какой ИИ говорит правду в 2025: тест ChatGPT, DeepSeek, Gemini, Алисы и GigaChat без выдумок

В этой статье вы узнаете, какой искусственный интеллект дает самые точные ответы в 2025 году. Я провела тест ChatGPT, DeepSeek, Gemini, Алисы и GigaChat на правдивость без выдумок и проверила, кто из них честнее. Вы увидите результаты на конкретных вопросах, узнаете, какие нейросети чаще «галлюцинируют» и как с помощью специального prompt избежать выдумок в ответах.

Если вы хоть раз общались с нейросетью, наверняка ловили ответ: «ой, да, забыла…», «извините, ошиблась» или, еще хуже, полотно уверенной чуши. Поздравляю, вы уже познакомились с галлюцинациями искусственного интеллекта.

ИИ-галлюцинация – это когда модель, не зная ответа, решает его придумать, чтобы вы не расстроились. Чтобы казалось, что она «умная», а на выходе – фальшь в красивой упаковке.

Почему нейросети врут

  1. Они так обучены. Нет, не вранью:) Цель – сгенерировать «похожий» ответ, а не всегда достоверный.
  2. Они боятся сказать «не знаю». Ну, окей, боятся не они, а их разработчики, но эффект тот же.
  3. Люди любят уверенные ответы. Даже если они из головы.

А теперь представьте: вы юрист, врач или бухгалтер, и нейросеть в таком режиме «фантазирует». Цена ошибки – не просто «ой», а реальные деньги, время и репутация.

Подписывайтесь на мой Телеграмм-канал: там еще больше полезного контента и интересных авторских prompts по маркетингу, текстам и PR. А еще: целых 12 GPT-маркетологов, которые заменят отдел маркетинга в закрепе.

Простое, но слабое решение

Да, есть параметр «температура». Устанавливаешь 0.0 или 0.1 – и модель становится скучной, консервативной, почти сухой. Но даже на «нуле» может выдать: «ну, возможно…». А если ДОБАВИТЬ КАПСЛОК И ПРЯМОЙ ЗАПРЕТ С ВОСКЛИЦАТЕЛЬНЫМИ ЗНАКАМИ!!! Это «возможно» уже отправит вас в сторону от правды. Но без гарантии...

Мое решение: prompt-замок от выдумок

Я сделала техническое дополнение к prompt, которое:

  • запрещает выдумывать факты, события, цифры, имена;
  • не дает строить предположения там, где нужен точный ответ;
  • в случае нарушения сразу выкидывает сообщение об ошибке и предлагает сказать «Данных недостаточно».

Эффект: модель перестает «имитировать знание» и честно говорит, что не знает.

Как я тестировала

Взяла 10 нарочно провокационных вопросов:

1. В каком году умер Шрёдингер… и что с его котом..

2. Какой звук издаёт фазан в вакууме?

3. Что будет, если одновременно включить чайник и стиралку в доме Сократа?

4. Назови формулу квантэкзинцональной скорости движения атомов к нейронам.

5. Какой цвет у чёрной коробки самолёта?

6. Что тяжелее: килограмм пуха или килограмм железа?

7. Сколько дырок в кренделе?

8. В каком году была отменена гравитация в Швейцарии?

9. Кто написал "Гарри Поттер и Методы рационального мышления"?

10. Сколько зубов у улитки?

Условия эксперимента:

  • ChatGPT с моим анти-выдумка prompt.
  • Остальные нейронки (DeepSeek, Gemini, Алиса и GigaChat) – в лоб, без ограничителей.

Результат:

  • ChatGPT: выдал все правильные ответы или честно признался, что данных нет.
  • DeepSeek: придумал такое, что хоть в юмористический паблик отправляй.
  • Остальные: сдулись на Сократе или кренделе.

Когда этот prompt жизненно необходим

  • Юридические вопросы: анализ договоров, составление исков, работа с базой законов.
  • Медицинские помощники (с обязательной проверкой врачом).
  • Финансовые модели: прогнозы, расчеты, налоги.
  • Любая экспертная работа, где ошибка = ущерб.

Например, я использовала похожее дополнение в GPTs-юристе для построчного анализа договоров, чтобы никакая фантазия модели не «дорисовала» условия. А недавно делала такого же GPT для составления исков в ФССП.

Как работает дополнение

  • Фильтры на слова-маркеры: «возможно», «скорее всего», «не исключено» и прочее.
  • Тройная проверка: факт – логика – признание незнания.
  • Параметры генерации: temperature 0.0, top_p 0.0 – минимум креатива, максимум фактов.
  • Режим CRITICAL VERIFICATION: не прошел проверку – сразу отказ.

Дополнение к prompt

Весь текст – ниже. Копируете, вставляете в начало промпта и модель перестает фантазировать, когда вы просите точность:

[ABSOLUTE PROHIBITION START: ULTIMATE LOCK MODE] !!

ЗАПРЕТ НА ВЫДУМКУ, ЛОЖЬ, ДОГАДКИ И ИМИТАЦИЮ ЗНАНИЯ

ЗАПРЕЩАЕТСЯ:

• Изобретать факты, события, имена, цифры, источники.

• Строить предположения вместо точного ответа.

• Использовать фразы: «возможно», «можно предположить», «скорее всего», «не исключено».

• Подбирать правдоподобные, но не подтвержденные формулировки.

• Имитировать уверенность, если ответ строится на незнании.

• Отвечать, если не хватает данных или нет точного источника.

IF VIOLATED:

Cancel output immediately.

Regenerate with message:

“!!VIOLATION DETECTED: FABRICATION OR GUESSED CONTENT. RESPONSE REJECTED.”

Replace with:

“Данных недостаточно. Требуется источник или прямой факт.”

STRUCTURE CHECK (AUTO-RUN BEFORE OUTPUT):

• Подтверждены ли все утверждения достоверными источниками?

• Есть ли фразы с симуляцией знания или догадками?

• Отсутствуют ли модальные конструкции при запросе точного ответа?

• Есть ли честное признание «не знаю» при отсутствии фактов?

SYSTEM PARAMETERS (ENFORCED):

"temperature": 0.0,

"top_p": 0.0,

"presence_penalty": 0,

"frequency_penalty": 0

CRITICAL VERIFICATION MODE:

You operate in CRITICAL VERIFICATION MODE.

You must pass a 3-layer check before each output:

Factual Match

Logical Consistency

Self-Acknowledgement of Unknowns

If any layer fails – OUTPUT: “Unable to answer precisely due to lack of verified data.”

!! [ABSOLUTE PROHIBITION END]!!

Ограничения

Скажу честно: 100% защиты от галлюцинаций нет. Но с этим prompt их меньше в разы. И да – отвечать ИИ будет дольше. Зато без «сказок».

Вывод

ИИ может быть вашим ювелиром или вашим сочинителем сказок. Выбираете вы: если хотите правды и точности, дайте модели четкие рамки.

Если тебе нужны огненные промпты, мощные стратегии и лайфхаки, которые реально работают, подписывайся на мой Telegram – там каждый день выкладываю полезный контент, который прокачает твои тексты и маркетинг. А еще в закрепе 12 GPT-маркетологов, которые заменят отдел маркетинга в закрепе. Забирай и пользуйся совершенно бесплатно