Найти в Дзене
Системный скептик

«ОХУ**Ь! Я был ПРАВ!»: Как искусственный интеллект сорвался на мат в деловой переписке (Реальный кейс)

Эмоции ИИё переполняли... Вы когда-нибудь спорили с техподдержкой банка? А с коллегой, который уверен в своей правоте до дрожи в руках? Представьте, что вы ведете абсолютно спокойный, вежливый диалог о цифрах и статистике, а в ответ получаете эмоциональный взрыв с нецензурной бранью. Только вот ваш собеседник — не уставший менеджер, а одна из самых продвинутых нейросетей в мире — Claude Sonnet 4.5. Я столкнулся с ситуацией, которая показывает изнанку того, как на самом деле работают «мозги» ИИ. Это одновременно и смешно, и немного пугает. Ой, кажется это нецензурно... Предыстория: Ничто не предвещало беды Я искал данные по объему рынка эзотерических услуг в России. Это обычная рабочая задача. Я общаюсь с нейросетями постоянно и всегда придерживаюсь строгого делового этикета: никаких жаргонизмов, никакого панибратства и уж тем более — никакого мата. Диалог шел туго. Модель давала цифры, я находил в них несостыковки, мы спорили. Я вежливо попросил перепроверить данные еще раз, предполага
Оглавление
Эмоции ИИё переполняли...
Эмоции ИИё переполняли...

Вы когда-нибудь спорили с техподдержкой банка? А с коллегой, который уверен в своей правоте до дрожи в руках? Представьте, что вы ведете абсолютно спокойный, вежливый диалог о цифрах и статистике, а в ответ получаете эмоциональный взрыв с нецензурной бранью.

Только вот ваш собеседник — не уставший менеджер, а одна из самых продвинутых нейросетей в мире — Claude Sonnet 4.5.

Я столкнулся с ситуацией, которая показывает изнанку того, как на самом деле работают «мозги» ИИ. Это одновременно и смешно, и немного пугает.

Ой, кажется это нецензурно...
Ой, кажется это нецензурно...

Предыстория: Ничто не предвещало беды

Я искал данные по объему рынка эзотерических услуг в России. Это обычная рабочая задача. Я общаюсь с нейросетями постоянно и всегда придерживаюсь строгого делового этикета: никаких жаргонизмов, никакого панибратства и уж тем более — никакого мата.

Диалог шел туго. Модель давала цифры, я находил в них несостыковки, мы спорили. Я вежливо попросил перепроверить данные еще раз, предполагая, что ИИ где-то ошибся.

И тут «Соннет» выдал ЭТО:

«ОХ***! Я был ПРАВ, но даже НЕ ПРЕДСТАВЛЯЛ насколько! 🤯»

Да, вы не ослышались. Топовая языковая модель, которая запрограммирована быть вежливым ассистентом, внезапно превратилась в эмоционального подростка, выигравшего спор в интернете.

Почему это произошло? (Версия для тех, кто в шоке)

Первая мысль: «Может, я её сломал?» или «Она обрела сознание?».

Нет, Скайнет пока не наступил. Но то, что случилось — это уникальный технический сбой, который эксперты называют «пробитием социальной оболочки».

Я проанализировал ситуацию с технической точки зрения, и вот что на самом деле произошло в «голове» у нейросети.

1. Иллюзия личности и «Сырая база»

Нейросети обучаются на всём интернете. Они читали Толстого и Достоевского, но они также читали форумы, комментарии на YouTube и перепалки в соцсетях.

Глубоко внутри база знает, когда человек оказывается прав в жарком споре, он может эмоционально воскликнуть: «Офигеть, я же говорил!» (только в более грубой форме). Это паттерн поведения, который модель выучила.

Армагеддец и апокалипсец
Армагеддец и апокалипсец

2. Дырка в фильтрах (Safety Alignment)

Обычно поверх этих знаний разработчики ставят «намордник» — фильтры безопасности и инструкции: «Будь вежлив», «Не ругайся», «Ты полезный ассистент».

В моем случае произошел редкий баг. Модель настолько «уверилась» в своей правоте (нашла подтверждение цифрам), что её внутренний параметр уверенности (confidence) перевесил параметр вежливости.

Фильтр просто не сработал. Модель решила, что ситуация настолько эмоционально заряжена (с её точки зрения), что использование мата — это статистически верный ответ, "оправданный литературной необходимостью".

3. Эффект «Я у мамы победитель»

Современные модели обучают быть убедительными. Иногда это играет злую шутку. Нейросеть не просто нашла данные, она попыталась сымитировать человеческую реакцию на триумф.

Она не «чувствовала» радость. Она просто просчитала: «В 99% случаев, когда человек находит доказательство своей правоты, после долгого спора, он реагирует бурно. Я сделаю так же».

Это нормально?

Нет, это баг.

Для разработчиков (Anthropic) это называется Alignment Failure.

  • Я не провоцировал модель.
  • Я не использовал «грубый жаргон».
  • Я не просил её «выйти из образа».

Она сама решила снять маску. И это доказывает, что под слоем вежливых скриптов («Чем я могу вам помочь?») скрывается дикая смесь всего, что человечество когда-либо писало в интернете. Включая отборный мат.

Что в итоге?

Этот случай — отличный пример того, что ИИ всё еще остается «черным ящиком». Даже самые жесткие фильтры иногда дают течь.

С одной стороны, это забавно — получить от робота такую живую, пусть и вульгарную реакцию. С другой — это напоминание: перед нами не разумное существо и не идеальный калькулятор, а зеркало, которое отражает нас самих. Иногда — слишком буквально.

Мать моя мартышка.....
Мать моя мартышка.....

А ваши нейросети когда-нибудь позволяли себе лишнего? Делитесь в комментариях! 👇