120 подписчиков

ИИ-Ликбез или AI для чайников – Экзамен с открытой книгой – #07

22 мая22 мая

3 мин

Предыдущая статья * * * Вы наверняка замечали: если спросить популярный чат-бот о чем-то очень свежем или о внутренних правилах вашей компании, он либо честно признается, что не знает (потому что его «обучение» закончилось год назад), либо начнет уверенно выдумывать небылицы. Специалисты называют это галлюцинациями. В такой ситуации ИИ напоминает того самого студента-первокурсника, который весь семестр занимался всем чем угодно, только не посещением лекций по предмету. И даже цвет учебника не помнит (с). Но что, если бы роботу на экзамене разрешили пользоваться учебниками? Допустим наш студент не полностью потерян и обладает феноменальной памятью. Если дать ему шанс и тот самый учебник перед экзаменом – он его прочитает и сдаст экзамен на 5! Именно так работает технология RAG (Retrieval-Augmented Generation) для ИИ — технология Поиска и дополненной генерации. У больших языковых моделей LLM (таких как ChatGPT и подобных) есть две беды: Вместо того чтобы переучивать модель (что стоит мил

Оглавление

Как ИИ перестает врать и начинает учить ваши документы
В чем проблема обычного ИИ?
RAG — это «умная библиотека» для ИИ

Предыдущая статья

ИИ-Ликбез или AI для чайников – Математика смысла – #06

Заметки из подпространства22 мая

* * *

Как ИИ перестает врать и начинает учить ваши документы

Вы наверняка замечали: если спросить популярный чат-бот о чем-то очень свежем или о внутренних правилах вашей компании, он либо честно признается, что не знает (потому что его «обучение» закончилось год назад), либо начнет уверенно выдумывать небылицы. Специалисты называют это галлюцинациями.

В такой ситуации ИИ напоминает того самого студента-первокурсника, который весь семестр занимался всем чем угодно, только не посещением лекций по предмету. И даже цвет учебника не помнит (с).

Но что, если бы роботу на экзамене разрешили пользоваться учебниками? Допустим наш студент не полностью потерян и обладает феноменальной памятью. Если дать ему шанс и тот самый учебник перед экзаменом – он его прочитает и сдаст экзамен на 5!

Именно так работает технология RAG (Retrieval-Augmented Generation) для ИИ — технология Поиска и дополненной генерации.

В чем проблема обычного ИИ?

У больших языковых моделей LLM (таких как ChatGPT и подобных) есть две беды:

Дата отсечения знаний: робот помнит только то, что прочитал во время «учебы» в «школе нейросетей» — т.е. он помнит только ту информацию, которую в него загрузили при обучении (я писал про это в статьях ранее)
Склонность к фантазиям: если ИИ не знает точного ответа, его математический аппарат подбирает «наиболее вероятные» слова, и в итоге вы получаете инструкцию к несуществующему «синему стоп-крану в самолете» или рецепт к «говяжьим крылышкам»

RAG — это «умная библиотека» для ИИ

Вместо того чтобы переучивать модель (что стоит миллионы долларов и длится месяцами), мы даем ей внешнюю память с актуальными данными. Процесс похож на работу очень быстрого библиотекаря:

Нарезка данных (Чанкинг, от англ. chunk — кусок, фрагмент): все ваши инструкции, файлы, документы, отчеты и прочие источники информации разбиваются на небольшие кусочки по 1000–2000 знаков
Поиск смысла: каждый кусочек превращается в «математический адрес» (вектор). Эту технологию мы уже рассматривали ранее. Теперь система знает, где лежат знания про «отпуск», а где — про «смету»
Мгновенный ответ: когда вы задаете вопрос, система за 0,05 секунды находит нужные кусочки в базе и «подкладывает» их роботу прямо перед тем, как он идет в чат отвечать на ваш вопрос

В итоге ИИ не пытается мучительно вспомнить, чему его учили три года назад. Он читает предоставленный текст и отвечает: «Судя по вашему регламенту от марта 2026 года, заявление на отпуск нужно подать за две недели».

Почему это важно для нас?

Это безопасно: вы можете загрузить в систему финансовые отчеты и настроить доступ так, чтобы бухгалтер видел всё, а рядовой сотрудник — только общие правила
Это всегда актуально: загрузили новый файл в базу — и через секунду ИИ уже знает о переменах
Это проверяемо: в отличие от обычного чат-бота, система с RAG может дать ссылку на конкретный документ, откуда она взяла информацию

💡 Лайфхаки: как пользоваться этим инструментом

Миф об «обучении»: помните, когда вы загружаете файл в ChatGPT, модель не учится на нем навсегда. Она просто временно использует его как справочник для вашего диалога
Запрет на фантазии: если вы хотите, чтобы ИИ работал максимально точно, добавьте в запрос фразу: «Отвечай только на основе предоставленного текста. Если ответа в нем нет — так и скажи». Это снижает риск вранья почти до нуля
Имена имеют значение: если в ваших документах используются аббревиатуры (например, КЛ — «корпоративная лицензия»), создайте в базе знаний отдельный словарик. Если используете LLM (чатик с ИИ) — подгрузите этот словарь вместе с основными документами. Иначе ИИ может решить, что КЛ — это «Клуб любителей» или «Котик ласковый»
Полноценный RAG можно и нужно использовать при запуске ИИ в своем бизнесе или при автоматизации домашней информационной системы, но для этого уже потребуются специализированные знания в сферах ИТ и ИИ

Главный вывод

RAG делает ИИ предсказуемым, а знания его — актуальными. Теперь это не просто «умный собеседник», а полноценный рабочий инструмент, который снижает количество ошибок на 42-68%.

* * *

А какие документы вашей компании или из личного архива вы бы доверили проанализировать такому «цифровому библиотекарю» в первую очередь?

* * *

Следующая статья

ИИ-Ликбез или AI для чайников – Библиотека против Диплома – #08

Заметки из подпространства22 мая

Гаджеты и электроника

5,73 млн интересуются