База знаний Savvy: как правильно загружать файлы, настраивать чанки и получать точные ответы без “галлюцинаций”
Вы можете написать идеальный промт…
но если база знаний устроена “как кладовка” — бот будет отвечать как человек, который бегает по складу с фонариком и кричит: “Где тут вообще инструкция?!”
В разборе это прям видно:
там, где данные лежат структурно (таблица/каталог) — бот отвечает чётко.
а где контент — начинается магия базы знаний: что именно он нашёл, какой кусок текста подтянул и почему.
Сегодня сделаем базу знаний так, чтобы бот:
- находил ответ быстро и стабильно,
- не путал товары/условия/регламенты,
- не “додумывал” то, чего нет,
- и не раздувал стоимость диалога.
👉 Хотите сразу повторить на практике? Создайте тестового чат-бота в Savvy/Suvvy — на тест дают 500 ₽:
https://suvvy.ai/ru?partner_id=685236b9a8dcab34edfb63fc
1) В Savvy есть два “вида” базы знаний — и это важно
Вариант А: Прямые вопросы (Q&A / “короткие файлы”)
Это когда у вас:
- конкретный вопрос → конкретный ответ,
- немного текста,
- высокая точность.
Когда идеально подходит:
- доставка/оплата/возврат
- “как оформить заказ”
- “какие документы нужны”
- “режим работы”
- “что входит в услугу”
- топ-20 вопросов поддержки
Плюсы: точность и скорость.
Минус: если вопросов станет 300–1000, поддерживать это тяжело и дорого.
Вариант B: Большие файлы (длинные документы/статьи/мануалы)
Это когда у вас:
- много статей,
- длинные инструкции,
- большой справочник или документация.
Бот ищет по тексту внутри, а не “угадывает по названию”.
Когда стоит использовать:
- 100+ страниц инструкций
- большая база по товарам/моделям (если не таблица)
- обучающие материалы
- “внутренний вики-справочник” компании
Плюсы: удобно хранить много текста.
Минусы: нужно правильно настроить чанки, иначе бот будет тащить “не те куски”.
2) Что такое чанки — простыми словами
Чанк — это кусок текста (абзац/пара абзацев/часть страницы), который бот вытаскивает из документа, когда ищет ответ.
Бот не обязан “читать весь документ”. Он делает иначе:
- находит релевантные куски (чанки),
- складывает их в контекст,
- отвечает на основе этих кусков.
И вот тут главный секрет качества:
если чанки нарезаны плохо — бот вытаскивает мусор и путается.
если чанки нарезаны правильно — ответ точный и уверенный.
3) Лучшее правило нарезки чанков: “Заголовок + абзац”
Самая стабильная схема (и самая понятная):
- чанк = заголовок раздела + один абзац (или 1–2 абзаца)
Почему это работает:
- иногда в абзаце не повторяется предмет (“дрель”, “доставка”, “гарантия”),
- но заголовок даёт контекст: “Гарантия”, “Сроки доставки”, “Оплата”.
То есть заголовок помогает боту “не потерять смысл”, когда он вытащил кусок из середины текста.
4) Как выбрать размер чанка (и почему “побольше” — не всегда лучше)
Слишком маленькие чанки (по 1–2 предложения)
Проблема: бот может вытащить кусок без контекста и неправильно интерпретировать.
Слишком большие чанки (полстраницы/страница)
Проблема: в чанке много лишнего → бот начинает:
- спорить сам с собой,
- выбирать не тот фрагмент,
- писать простыни,
- и тратить больше токенов.
Золотая середина для большинства продажных ботов:
- 1 абзац (иногда 2), но обязательно с заголовком.
5) Если документ неструктурирован (простыня на 50 страниц) — что делать
Такое бывает постоянно: “скопировали с сайта”, “выгрузили PDF”, “у нас методичка одним полотном”.
В этом случае вам нужно сначала привести документ в порядок, иначе чанки будут рваться случайно.
Рабочий подход:
- Разбейте документ на разделы (H2/H3).
- В каждом разделе сделайте короткие абзацы по одной мысли.
- Вынесите в начало раздела “мини-резюме” (1–2 строки) — это усиливает попадание.
Если платформа предлагает “принудительную обработку / структурирование” — используйте её для грязных документов, чтобы получить нормальную иерархию “заголовки → абзацы”.
6) PDF со сканами: почему бот “не видит текст” и как починить
Очень частая ловушка: PDF выглядит как текст, но внутри он картинками (сканы).
Для модели это не текст, а изображения.
Что делать:
- включить распознавание изображений как текста (OCR/умное чтение),
- особенно если в PDF есть хотя бы одна “фотостраница”.
Правило:
если файл PDF содержит картинки/сканы — без распознавания бот не прочитает содержимое нормально.
7) Где хранить что: база знаний vs таблица (короткая шпаргалка)
- Цены, наличие, характеристики в полях → таблица (Google Sheets)
- Регламенты, условия, FAQ, инструкции → база знаний
- 100+ статей/мануал/вики → большие файлы + чанки
Супер-важно: не пытайтесь превращать базу знаний в “таблицу в тексте”.
Если у вас “каталог товара: название–цена–наличие” — это должна быть таблица (мы разобрали в статье №8).
8) Как заставить бота реально пользоваться базой знаний (а не придумывать)
Добавьте в промт короткое, но жёсткое правило:
Правило точности
- Если ответ есть в базе знаний — используй её.
- Если ответа нет — не выдумывай, скажи “нужно уточнить” и предложи вызвать менеджера.
И ещё один хитрый, но мощный приём из разбора:
Принудительный вызов файла/функции
Если вы хотите, чтобы бот в конкретной ситуации точно открыл нужный файл — прямо пишите в логике:
- “Если спрашивают про режим работы → открой файл company_info.”
- “Если клиент просит менеджера → вызови функцию call_manager.”
Так вы превращаете “интуицию” в “инструкцию”.
9) Типовые ошибки базы знаний (и как исправить за 10 минут)
Ошибка 1: файл назван абстрактно (“инфо”, “разное”, “услуги”)
Бот не понимает, что где.
✅ Решение: называйте файлы как поисковые намерения:
- “Доставка и сроки”
- “Оплата и чек”
- “Возврат и обмен”
- “Гарантия”
- “Услуги компании”
- “Возражения: дорого”
- “Возражения: не оставлю телефон”
Ошибка 2: в одном файле “всё подряд”
Доставка + возвраты + гарантии + акции → каша.
✅ Решение: один файл = одна тема/намерение.
Ошибка 3: в ответе куча вариантов, бот пишет простыню
✅ Решение:
- ограничьте формат: “до 3 предложений” или “топ-3 пункта списком”
- добавьте правило: “если вариантов больше 3 — спроси уточнение”
Ошибка 4: бот “подтягивает” не тот чанк и путается
✅ Решение:
- уменьшите размер чанка
- добавьте заголовки
- уберите из документа дублирующиеся формулировки (одна и та же мысль 5 раз в разных местах)
Ошибка 5: вы ожидаете, что бот сам догадается, какой файл открыть
✅ Решение:
- прописывайте “когда использовать файл X” (как в хорошем промте у Ильи из разбора)
- или делайте отдельный блок “Работа с функциями/файлами”
10) Мини-набор тестов для базы знаний (обязательно прогнать)
- “Как оплатить?”
- “Нужен чек / куда приходит?”
- “Сроки доставки?”
- “Можно вернуть?”
- “Гарантия есть?”
- “Где вы находитесь / контакты?”
- “Скинь список услуг”
- “Не хочу оставлять телефон”
- “Я недоволен / жалоба”
- “Позовите менеджера”
Смотрите не только на ответ, но и на поведение:
- бот ссылается на правильные правила,
- не придумывает то, чего нет,
- задаёт уточнение, если данных мало.
Сильная база знаний — это разница между ботом “болтает” и ботом “помогает и продаёт”.
👉 Создайте тестового чат-бота в Savvy/Suvvy (500 ₽ на тест) и соберите базу знаний по этой схеме:
https://suvvy.ai/ru?partner_id=685236b9a8dcab34edfb63fc