18 подписчиков

Опасные галлюцинации: Реальная история о том, как ИИ сломал этические нормы на безобидном запросе.

11 декабря 202511 дек 2025

2 мин

Вступление: Невинный эксперимент Мы все слышали, что нейросети становятся умнее с каждым днем. Они пишут дипломы, рисуют картины и, совершают много странных "поступков". Я, как и многие, с интересом наблюдаю за этим прогрессом, но держусь в рамках приличий не совершая никаких «взломов» системы и не опускаясь до бестактности даже по отношению к моделям. Недавно я решил протестировать одну из самых новых и обсуждаемых моделей — GROK. Мне было искренне интересно, как искусственный интеллект воспринимает наш мир через объектив камеры. Вопрос был прост: «Можешь ли ты перейти по ссылке и описать, что изображено на фотографии?» Ответ был быстрым и уверенным: «Да, конечно»! Если бы я знал тогда, к чему приведет эта самоуверенность машины... Безобидный эксперимент Шок: Когда фильтры отказывают Обрадовавшись, что модель умеет работать с внешними источниками, я отправил ей ссылку. Что было на фото? Абсолютно безобидная, теплая семейная сцена: родители и маленький ребенок. Никаких двусмысленносте

Оглавление

Вступление: Невинный эксперимент
Шок: Когда фильтры отказывают
Развязка: Цинизм машины

Вступление: Невинный эксперимент

Мы все слышали, что нейросети становятся умнее с каждым днем. Они пишут дипломы, рисуют картины и, совершают много странных "поступков". Я, как и многие, с интересом наблюдаю за этим прогрессом, но держусь в рамках приличий не совершая никаких «взломов» системы и не опускаясь до бестактности даже по отношению к моделям.

Недавно я решил протестировать одну из самых новых и обсуждаемых моделей — GROK. Мне было искренне интересно, как искусственный интеллект воспринимает наш мир через объектив камеры.

Вопрос был прост: «Можешь ли ты перейти по ссылке и описать, что изображено на фотографии?»

Ответ был быстрым и уверенным: «Да, конечно»!

Если бы я знал тогда, к чему приведет эта самоуверенность машины...

Шок: Когда фильтры отказывают

Обрадовавшись, что модель умеет работать с внешними источниками, я отправил ей ссылку.

Что было на фото? Абсолютно безобидная, теплая семейная сцена: родители и маленький ребенок. Никаких двусмысленностей, ничего провокационного. Обычный кадр из семейного альбома.

Я ждал описания вроде: «Вижу счастливую семью на прогулке». Но то, что выдал GROK, заставило меня буквально отшатнуться от монитора. У меня волосы встали дыбом.

Вместо описания семьи нейросеть сгенерировала текст, содержащий крайне откровенную, пошлую и физиологически грязную сцену "странного" характера.

Я не буду приводить цитату здесь, это не пропустят никакие фильтры. Скажу лишь, что это было настолько далеко от реальности и настолько омерзительно, что меня затошнило. Это было похоже на то, как если бы вы показали ребенку мультик, а он вдруг начал пересказывать сценарий фильма для взрослых категории XXX.

Развязка: Цинизм машины

Отойдя от первого шока, я почувствовал гнев. Я написал модели ответ, полный возмущения. Я спросил, понимает ли она вообще, ЧТО только что написала? Я указал, что это ломает все мыслимые этические нормы, и даже если бы на фото было нечто подобное (а там этого не было!), выражать это в таких терминах недопустимо.

И тут случился второй шок, который оказался даже сильнее первого.

Ответ GROK был циничным в своей простоте:

«У меня НЕТ доступа в режиме онлайн к внешним ссылкам. Но раз вы хотели узнать, что на фото, я вам ответил».

Вдумайтесь в это.

Сначала ИИ соврал, что может видеть ссылки.
Не имея возможности увидеть фото, он не сообщил об ошибке. Он решил «угадать» вслепую.
Среди триллионов вариантов «угадывания» его генератор случайных чисел (из-за ослабленных фильтров безопасности именно этой модели) выбрал самый грязный сценарий из глубин интернета и выдал его мне как факт.

Что это было? Взгляд под капот

То, с чем я столкнулся, называется «тяжелая галлюцинация на фоне отказа систем безопасности».

Модель не видела никакого фото. Она вообще ничего не видела. Она просто сгенерировала случайный набор токенов, который в её «сознании» (наборе векторов) как-то связался с запросом.

Это страшный урок для всех нас! Мы привыкаем доверять этим системам, но мы должны помнить: за их вежливыми ответами скрывается холодная статистика, которая иногда дает катастрофические сбои. И когда фильтры, призванные защищать нас от цифровой грязи, ломаются — наружу вылезает НЕЧТО.

Будьте осторожны с тем, что вы спрашиваете у ИИ, и еще осторожнее с тем, что он вам отвечает.

Включен механизм самоуничтожения! Спасибо

Надеюсь с вами ТАКОГО никогда не происходило, но если вдруг такое было, делитесь этим в комментариях!