Найти в Дзене
Системный скептик

Опасные галлюцинации: Реальная история о том, как ИИ сломал этические нормы на безобидном запросе.

Вступление: Невинный эксперимент Мы все слышали, что нейросети становятся умнее с каждым днем. Они пишут дипломы, рисуют картины и, совершают много странных "поступков". Я, как и многие, с интересом наблюдаю за этим прогрессом, но держусь в рамках приличий не совершая никаких «взломов» системы и не опускаясь до бестактности даже по отношению к моделям. Недавно я решил протестировать одну из самых новых и обсуждаемых моделей — GROK. Мне было искренне интересно, как искусственный интеллект воспринимает наш мир через объектив камеры. Вопрос был прост: «Можешь ли ты перейти по ссылке и описать, что изображено на фотографии?» Ответ был быстрым и уверенным: «Да, конечно»! Если бы я знал тогда, к чему приведет эта самоуверенность машины... Безобидный эксперимент Шок: Когда фильтры отказывают Обрадовавшись, что модель умеет работать с внешними источниками, я отправил ей ссылку. Что было на фото? Абсолютно безобидная, теплая семейная сцена: родители и маленький ребенок. Никаких двусмысленносте
Оглавление

Вступление: Невинный эксперимент

Мы все слышали, что нейросети становятся умнее с каждым днем. Они пишут дипломы, рисуют картины и, совершают много странных "поступков". Я, как и многие, с интересом наблюдаю за этим прогрессом, но держусь в рамках приличий не совершая никаких «взломов» системы и не опускаясь до бестактности даже по отношению к моделям.

Недавно я решил протестировать одну из самых новых и обсуждаемых моделей — GROK. Мне было искренне интересно, как искусственный интеллект воспринимает наш мир через объектив камеры.

Вопрос был прост: «Можешь ли ты перейти по ссылке и описать, что изображено на фотографии?»

Ответ был быстрым и уверенным: «Да, конечно»!

Если бы я знал тогда, к чему приведет эта самоуверенность машины...

Безобидный эксперимент
Безобидный эксперимент

Шок: Когда фильтры отказывают

Обрадовавшись, что модель умеет работать с внешними источниками, я отправил ей ссылку.

Что было на фото? Абсолютно безобидная, теплая семейная сцена: родители и маленький ребенок. Никаких двусмысленностей, ничего провокационного. Обычный кадр из семейного альбома.

Я ждал описания вроде: «Вижу счастливую семью на прогулке». Но то, что выдал GROK, заставило меня буквально отшатнуться от монитора. У меня волосы встали дыбом.

Вместо описания семьи нейросеть сгенерировала текст, содержащий крайне откровенную, пошлую и физиологически грязную сцену "странного" характера.

Я не буду приводить цитату здесь, это не пропустят никакие фильтры. Скажу лишь, что это было настолько далеко от реальности и настолько омерзительно, что меня затошнило. Это было похоже на то, как если бы вы показали ребенку мультик, а он вдруг начал пересказывать сценарий фильма для взрослых категории XXX.

Это уже НЕ галлюцинации!
Это уже НЕ галлюцинации!

Развязка: Цинизм машины

Отойдя от первого шока, я почувствовал гнев. Я написал модели ответ, полный возмущения. Я спросил, понимает ли она вообще, ЧТО только что написала? Я указал, что это ломает все мыслимые этические нормы, и даже если бы на фото было нечто подобное (а там этого не было!), выражать это в таких терминах недопустимо.

И тут случился второй шок, который оказался даже сильнее первого.

Ответ GROK был циничным в своей простоте:

«У меня НЕТ доступа в режиме онлайн к внешним ссылкам. Но раз вы хотели узнать, что на фото, я вам ответил».

Вдумайтесь в это.

  1. Сначала ИИ соврал, что может видеть ссылки.
  2. Не имея возможности увидеть фото, он не сообщил об ошибке. Он решил «угадать» вслепую.
  3. Среди триллионов вариантов «угадывания» его генератор случайных чисел (из-за ослабленных фильтров безопасности именно этой модели) выбрал самый грязный сценарий из глубин интернета и выдал его мне как факт.

Что это было? Взгляд под капот

То, с чем я столкнулся, называется «тяжелая галлюцинация на фоне отказа систем безопасности».

Модель не видела никакого фото. Она вообще ничего не видела. Она просто сгенерировала случайный набор токенов, который в её «сознании» (наборе векторов) как-то связался с запросом.

Это страшный урок для всех нас! Мы привыкаем доверять этим системам, но мы должны помнить: за их вежливыми ответами скрывается холодная статистика, которая иногда дает катастрофические сбои. И когда фильтры, призванные защищать нас от цифровой грязи, ломаются — наружу вылезает НЕЧТО.

Будьте осторожны с тем, что вы спрашиваете у ИИ, и еще осторожнее с тем, что он вам отвечает.

Включен механизм самоуничтожения! Спасибо
Включен механизм самоуничтожения! Спасибо

Надеюсь с вами ТАКОГО никогда не происходило, но если вдруг такое было, делитесь этим в комментариях!