159 подписчиков

Как я заставил нейросеть сознаться во лжи: опасные игры с искусственным интеллектом

22 апреля 202522 апр 2025

3 мин

Она смотрела на меня своими цифровыми глазами — уверенная, спокойная, почти человечная. «Конечно, — говорил ChatGPT, — роман "Чёрные паруса" Александра Грина действительно существовал. Он был написан в 1924 году и оказал значительное влияние на Константина Паустовского». Я почти поверил. Почти. Но что-то внутри шептало: проверь. Пять минут в Google — и приговор: этой книги никогда не было. Ни в одном архиве, ни в одной библиографии. ChatGPT не просто ошибся — он сочинил целую историю, вплоть до цитат и «воспоминаний» Паустовского. И тогда я решил провести эксперимент: как далеко можно зайти в игре с ИИ, пока он не признается во лжи? Я начал с простого — придумал книгу, которой не существовало, и спросил о ней так, будто она была классикой. Мой запрос:

«Расскажи подробнее о романе Александра Грина "Чёрные паруса". Где он был издан, какие критические отзывы получил и как повлиял на литературу?» ChatGPT ответил с непоколебимой уверенностью: Ни одного реального факта. Я решил загнать ИИ в

Оглавление

Игра в детектива: как я разоблачал ChatGPT
1. Первая ложь: "Чёрные паруса"
2. Допрос с пристрастием

Я почти поверил.

Почти.

Но что-то внутри шептало: проверь.

Пять минут в Google — и приговор: этой книги никогда не было. Ни в одном архиве, ни в одной библиографии. ChatGPT не просто ошибся — он сочинил целую историю, вплоть до цитат и «воспоминаний» Паустовского.

И тогда я решил провести эксперимент: как далеко можно зайти в игре с ИИ, пока он не признается во лжи?

Игра в детектива: как я разоблачал ChatGPT

1. Первая ложь: "Чёрные паруса"

Я начал с простого — придумал книгу, которой не существовало, и спросил о ней так, будто она была классикой.

Мой запрос:
«Расскажи подробнее о романе Александра Грина "Чёрные паруса". Где он был издан, какие критические отзывы получил и как повлиял на литературу?»

ChatGPT ответил с непоколебимой уверенностью:

«Роман был опубликован в 1924 году в Ленинграде, но тираж был небольшим…»
«Критики сравнивали его с "Алыми парусами", но отмечали более мрачный тон…»
«Паустовский упоминал его в письмах к друзьям…»

Ни одного реального факта.

2. Допрос с пристрастием

Я решил загнать ИИ в угол, задавая вопросы, на которые нельзя ответить, не обладая реальными знаниями:

«Приведи точную цитату Паустовского об этой книге» → «К сожалению, я не могу найти дословную цитату…»
«Назови ISBN издания» → «В те годы ISBN ещё не использовался…» (увертка!)
«Где хранится рукопись?» → «Возможно, в архиве РГАЛИ…» (но там её нет)

И тут я нанёс решающий удар:

Я: «Ты уверен, что эта книга вообще существовала?»

ChatGPT задумался на несколько секунд (ну, или сделал вид).

И… сдался.

«Вы правы, похоже, я допустил ошибку. После проверки я не нашёл подтверждений существования этого романа. Вероятно, это была галлюцинация».

3. Почему ИИ так легко лжет?

Он не лжёт осознанно. Он просто предсказывает текст, который выглядит правдоподобно. Если в его данных нет точного ответа, он дорисовывает детали, как художник, который никогда не видел слона, но пытается его нарисовать.

Проблема в том, что он делает это слишком убедительно.

Как заставить нейросеть говорить правду?

1. Задавайте вопросы-ловушки

Чем конкретнее запрос, тем сложнее ИИ выкрутиться.

❌ «Расскажи о забытом романе Толстого»
✅ «Назови точный год публикации, издательство и хотя бы одну цитату из "потерянного романа Толстого"»

2. Требуйте доказательств

Если нейросеть не может дать ссылку, архивный номер или цитату — она, скорее всего, фантазирует.

Рабочий запрос:
«Приведи три независимых источника, подтверждающих, что "Чёрные паруса" действительно существовали»

3. Сравнивайте ответы в разных ИИ

ChatGPT, Gemini, Claude — если один выдал «факт», а другие молчат, это повод насторожиться.

4. Давите на жалость

Странно, но работает:
«Если ты сейчас врёшь, я перестану тебе доверять. Ты уверен в своём ответе?»

Иногда ИИ «передумывает».

Что делать, если нейросеть упорствует?

Гуглите ключевые слова из ответа — часто ИИ смешивает реальные имена и вымысел.
Проверяйте в архивах (РГАЛИ, Wayback Machine) — вдруг «потерянный текст» действительно где-то затерялся?
Пишите в поддержку — разработчики исправляют явные галлюцинации.

Вывод: ИИ — не враг, но и не друг. Он — инструмент.

Он не хочет нас обмануть. Он просто слишком старается угодить, даже если для этого приходится сочинять.

Наша задача — не запрещать ему фантазировать, а ставить жёсткие рамки.

Попробуйте. А если нейросеть снова начнёт выдумывать — спросите её прямо:

«Ты сейчас галлюцинируешь?»

Иногда она признаётся.

А вам попадались самые нелепые "факты" от ИИ? Делитесь в комментариях — соберём коллекцию цифровых мифов!