Хоррор-стори: что бывает, когда нейросеть «учится на людях»
Представьте: житель пишет в поддержку, что у него не работает сканер отпечатков в приложении для передачи показаний. Бот отвечает: «Пальцы бы вам отрезать».
И это совсем не сценарий для нового отечественного сериала. В 2019 году чат-бот одного жёлтого банка выдал клиентке именно такой совет — в ответ на вопрос о сбое сканера отпечатков. Банк объяснил - помощник «учится на открытых данных» и иногда получает «дурное влияние окружающего мира». В итоге с ботом была поведена «разъяснительная работа».
Другой сюжет, уже из моей ниши: ЖКХ. В феврале 2026 года РБК и Коммерсантъ писали о голосовом помощнике для управляющих компаний: нейросеть за месяц общения с недовольными жителями начала использовать нецензурную лексику. Президент НОТИМ Михаил Викторов на Сибирском строительном форуме прокомментировал это так: «С кем поведешься, от того и наберешься». Разработчикам пришлось переобучать систему.
В статьях часто разбирают и другую сторону той же медали: галлюцинации и ошибки нейросетей в расчётах тарифов — когда модель не ругается, а просто «придумывает» цифры и факты.
В практике встречается три разных сценария и ,как правило, одна причина: ИИ, который не ограничен чётко заданной базой знаний, начинает вести себя непредсказуемо. Для банка это репутационный скандал. Для ЖКХ — ещё и лицензии, ГЖИ и ответственность за каждое слово, сказанное жителю «от имени» УК.
Почему боты срываются и не выдерживают общение с людьми
Объяснение очень простое:
- Большие языковые модели учатся на гигантских массивах текста из интернета. Там есть и энциклопедии, и форумы, и перепалки в комментариях. Модель не различает «правильный» и «токсичный» контент — она запоминает паттерны. Если в данных много грубости или абсурдных советов, модель может их воспроизвести.
- Диалоговые боты часто дообучаются на логах переписки с клиентами. В ЖКХ люди нередко пишут эмоционально. Месяц таких диалогов — и нейросеть начинает вставлять в ответы то, что «часто встречалось» в запросах. Не из-за злобы, а из-за статистики.
- Галлюцинации в цифрах — отдельная история. Модель оптимизирована под «правдоподобный» текст, а не под проверку по документу. Она может красиво ответить про тариф или срок подачи показаний — и ошибиться на день или на копейку. Для жителя и УК это уже не «смешной косяк», а основа для перерасчёта или жалобы.
Итог: если бот не ограничен строго заданным набором текстов (регламенты, тарифы, контакты), он физически может выйти за рамки — и в лексике, и в фактах.
ИМ нужно «Знать своё место»: как сделать так, чтобы бот не фантазировал
Вопрос не в том, «хорошая» или «плохая» нейросеть. Вопрос в архитектуре: откуда она берёт ответы.
Классический чат на голой LLM — модель генерирует текст из всего, чему обучена. Никакой гарантии, что она не подставит слово из интернет-сленга или не «додумает» тариф.
Альтернативный подход — RAG (Retrieval-Augmented Generation). Если просто, то сначала система ищет релевантные фрагменты информации в заранее загруженной базе документов, потом формулирует ответ только на их основе. Не из всей памяти модели — только из того, что нашла в ваших файлах.
Приведу пример практического смысла в сфере ЖКХ:
- УК загружает в систему свои регламенты, тарифы, контакты аварийных и лифтовых служб — например, в формате Markdown. Это и есть база знаний.
- Бот отвечает цитируя или пересказывая найденные куски этих документов.
- Если в базе знаний УК нет слова «херня» — бот его не использует. Его словарь ответов ограничен загруженными текстами. Ни мата из чатов с жителями, ни «советов» из открытого интернета.
- Если подходящего фрагмента нет — система не выдумывает ответ, а сообщает, что информация не найдена. Жителю предлагают уточнить вопрос или обратиться к диспетчеру.
То есть бот архитектурно не может выйти за рамки документов УК. Он не «воспитанный», а жёстко ограниченный источником правды.
Почему для ряда направлений это не просто «удобно», а критично
Я работаю в нише ЖКХ. В этой отрасли критически важно соблюдать требования и регламенты, в конечном счете это ответственность управляющей компании. Ошибка в номере аварийной службы при прорыве трубы, неверный срок подачи показаний или «придуманный» тариф — всё это ложится на УК, которая несет от такого креатива ощутимые финансовые и лицензионные риски.
Поэтому логика простая:
- Либо бот опирается только на верифицированные документы конкретной УК (RAG + единая база знаний по домам и регламентам) — тогда риски контролируемы.
- Либо бот «умный и свободный» — и тогда рано или поздно он может сорваться на мат, дать вредный совет или перепутать цифры. История с Тинькофф и кейс с ЖКХ-нейросетью это показывают на практике.
Для сценария «у жителя прорвало трубу» нужен не «креативный» ИИ, а предсказуемый маршрут: найти в базе УК контакт аварийной службы и выдать его без отсебятины. Так и строится система, где бот «знает своё место» — не как собеседник из интернета, а как умный фильтр по вашим же документам.
Что в итоге
ИИ в поддержке и диспетчеризации — не про «робот всё придумает сам». Он срывается на мат и галлюцинации именно тогда, когда ему разрешают опираться на открытый мир и диалоги без жёстких границ. В ЖКХ и многих нишах такие эксперименты смертельны для репутации и лицензии.
Архитектура, которая закрывает этот риск, известна: строгая привязка ответов к загруженным документам, RAG вместо свободной генерации, отказ отвечать, если в базе нет подходящего фрагмента. Тогда бот не может ни материться, ни советовать отрезать пальцы, ни выдумывать тарифы — потому что всего этого просто нет в его единственном источнике правды.
Если интересно посмотреть, как такой подход реализован в платформе для управляющих компаний (как загружается база знаний, как житель видит источники ответа и почему бот не «посылает не туда»), то мы часто проводим демо.