53 подписчика

База знаний в Savvy: прямые вопросы, большие файлы и чанки без ошибок

8 февраля8 фев

5 мин

Вы можете написать идеальный промт…

но если база знаний устроена “как кладовка” — бот будет отвечать как человек, который бегает по складу с фонариком и кричит: “Где тут вообще инструкция?!” В разборе это прям видно:

там, где данные лежат структурно (таблица/каталог) — бот отвечает чётко.

а где контент — начинается магия базы знаний: что именно он нашёл, какой кусок текста подтянул и почему. Сегодня сделаем базу знаний так, чтобы бот: 👉 Хотите сразу повторить на практике? Создайте тестового чат-бота в Savvy/Suvvy — на тест дают 500 ₽:

https://suvvy.ai/ru?partner_id=685236b9a8dcab34edfb63fc Это когда у вас: Когда идеально подходит: Плюсы: точность и скорость.

Минус: если вопросов станет 300–1000, поддерживать это тяжело и дорого. Это когда у вас: Бот ищет по тексту внутри, а не “угадывает по названию”. Когда стоит использовать: Плюсы: удобно хранить много текста.

Минусы: нужно правильно настроить чанки, иначе бот будет тащить “не те куски”. Чанк — это кусок текста (абзац/пара абзацев/ч

Вы можете написать идеальный промт…

там, где данные лежат структурно (таблица/каталог) — бот отвечает чётко.

https://suvvy.ai/ru?partner_id=685236b9a8dcab34edfb63fc Это когда у вас: Когда идеально подходит: Плюсы: точность и скорость.

Оглавление

База знаний Savvy: как правильно загружать файлы, настраивать чанки и получать точные ответы без “галлюцинаций”
1) В Savvy есть два “вида” базы знаний — и это важно
Вариант А: Прямые вопросы (Q&A / “короткие файлы”)

База знаний Savvy: как правильно загружать файлы, настраивать чанки и получать точные ответы без “галлюцинаций”

Вы можете написать идеальный промт…
но если база знаний устроена “как кладовка” — бот будет отвечать как человек, который бегает по складу с фонариком и кричит: “Где тут вообще инструкция?!”

В разборе это прям видно:
там, где данные лежат структурно (таблица/каталог) — бот отвечает чётко.
а где контент — начинается магия базы знаний: что именно он нашёл, какой кусок текста подтянул и почему.

Сегодня сделаем базу знаний так, чтобы бот:

находил ответ быстро и стабильно,
не путал товары/условия/регламенты,
не “додумывал” то, чего нет,
и не раздувал стоимость диалога.

👉 Хотите сразу повторить на практике? Создайте тестового чат-бота в Savvy/Suvvy — на тест дают 500 ₽:
https://suvvy.ai/ru?partner_id=685236b9a8dcab34edfb63fc

1) В Savvy есть два “вида” базы знаний — и это важно

Вариант А: Прямые вопросы (Q&A / “короткие файлы”)

Это когда у вас:

конкретный вопрос → конкретный ответ,
немного текста,
высокая точность.

Когда идеально подходит:

доставка/оплата/возврат
“как оформить заказ”
“какие документы нужны”
“режим работы”
“что входит в услугу”
топ-20 вопросов поддержки

Плюсы: точность и скорость.
Минус: если вопросов станет 300–1000, поддерживать это тяжело и дорого.

Вариант B: Большие файлы (длинные документы/статьи/мануалы)

Это когда у вас:

много статей,
длинные инструкции,
большой справочник или документация.

Бот ищет по тексту внутри, а не “угадывает по названию”.

Когда стоит использовать:

100+ страниц инструкций
большая база по товарам/моделям (если не таблица)
обучающие материалы
“внутренний вики-справочник” компании

Плюсы: удобно хранить много текста.
Минусы: нужно правильно настроить чанки, иначе бот будет тащить “не те куски”.

2) Что такое чанки — простыми словами

Чанк — это кусок текста (абзац/пара абзацев/часть страницы), который бот вытаскивает из документа, когда ищет ответ.

Бот не обязан “читать весь документ”. Он делает иначе:

находит релевантные куски (чанки),
складывает их в контекст,
отвечает на основе этих кусков.

И вот тут главный секрет качества:

если чанки нарезаны плохо — бот вытаскивает мусор и путается.
если чанки нарезаны правильно — ответ точный и уверенный.

3) Лучшее правило нарезки чанков: “Заголовок + абзац”

Самая стабильная схема (и самая понятная):

чанк = заголовок раздела + один абзац (или 1–2 абзаца)

Почему это работает:

иногда в абзаце не повторяется предмет (“дрель”, “доставка”, “гарантия”),
но заголовок даёт контекст: “Гарантия”, “Сроки доставки”, “Оплата”.

То есть заголовок помогает боту “не потерять смысл”, когда он вытащил кусок из середины текста.

4) Как выбрать размер чанка (и почему “побольше” — не всегда лучше)

Слишком маленькие чанки (по 1–2 предложения)

Проблема: бот может вытащить кусок без контекста и неправильно интерпретировать.

Слишком большие чанки (полстраницы/страница)

Проблема: в чанке много лишнего → бот начинает:

спорить сам с собой,
выбирать не тот фрагмент,
писать простыни,
и тратить больше токенов.

Золотая середина для большинства продажных ботов:

1 абзац (иногда 2), но обязательно с заголовком.

5) Если документ неструктурирован (простыня на 50 страниц) — что делать

Такое бывает постоянно: “скопировали с сайта”, “выгрузили PDF”, “у нас методичка одним полотном”.

В этом случае вам нужно сначала привести документ в порядок, иначе чанки будут рваться случайно.

Рабочий подход:

Разбейте документ на разделы (H2/H3).
В каждом разделе сделайте короткие абзацы по одной мысли.
Вынесите в начало раздела “мини-резюме” (1–2 строки) — это усиливает попадание.

Если платформа предлагает “принудительную обработку / структурирование” — используйте её для грязных документов, чтобы получить нормальную иерархию “заголовки → абзацы”.

6) PDF со сканами: почему бот “не видит текст” и как починить

Очень частая ловушка: PDF выглядит как текст, но внутри он картинками (сканы).
Для модели это не текст, а изображения.

Что делать:

включить распознавание изображений как текста (OCR/умное чтение),
особенно если в PDF есть хотя бы одна “фотостраница”.

Правило:
если файл PDF содержит картинки/сканы — без распознавания бот не прочитает содержимое нормально.

7) Где хранить что: база знаний vs таблица (короткая шпаргалка)

Цены, наличие, характеристики в полях → таблица (Google Sheets)
Регламенты, условия, FAQ, инструкции → база знаний
100+ статей/мануал/вики → большие файлы + чанки

Супер-важно: не пытайтесь превращать базу знаний в “таблицу в тексте”.
Если у вас “каталог товара: название–цена–наличие” — это должна быть таблица (мы разобрали в статье №8).

8) Как заставить бота реально пользоваться базой знаний (а не придумывать)

Добавьте в промт короткое, но жёсткое правило:

Правило точности

Если ответ есть в базе знаний — используй её.
Если ответа нет — не выдумывай, скажи “нужно уточнить” и предложи вызвать менеджера.

И ещё один хитрый, но мощный приём из разбора:

Принудительный вызов файла/функции

Если вы хотите, чтобы бот в конкретной ситуации точно открыл нужный файл — прямо пишите в логике:

“Если спрашивают про режим работы → открой файл company_info.”
“Если клиент просит менеджера → вызови функцию call_manager.”

Так вы превращаете “интуицию” в “инструкцию”.

9) Типовые ошибки базы знаний (и как исправить за 10 минут)

Ошибка 1: файл назван абстрактно (“инфо”, “разное”, “услуги”)

Бот не понимает, что где.

✅ Решение: называйте файлы как поисковые намерения:

“Доставка и сроки”
“Оплата и чек”
“Возврат и обмен”
“Гарантия”
“Услуги компании”
“Возражения: дорого”
“Возражения: не оставлю телефон”

Ошибка 2: в одном файле “всё подряд”

Доставка + возвраты + гарантии + акции → каша.

✅ Решение: один файл = одна тема/намерение.

Ошибка 3: в ответе куча вариантов, бот пишет простыню

✅ Решение:

ограничьте формат: “до 3 предложений” или “топ-3 пункта списком”
добавьте правило: “если вариантов больше 3 — спроси уточнение”

Ошибка 4: бот “подтягивает” не тот чанк и путается

✅ Решение:

уменьшите размер чанка
добавьте заголовки
уберите из документа дублирующиеся формулировки (одна и та же мысль 5 раз в разных местах)

Ошибка 5: вы ожидаете, что бот сам догадается, какой файл открыть

✅ Решение:

прописывайте “когда использовать файл X” (как в хорошем промте у Ильи из разбора)
или делайте отдельный блок “Работа с функциями/файлами”

10) Мини-набор тестов для базы знаний (обязательно прогнать)

“Как оплатить?”
“Нужен чек / куда приходит?”
“Сроки доставки?”
“Можно вернуть?”
“Гарантия есть?”
“Где вы находитесь / контакты?”
“Скинь список услуг”
“Не хочу оставлять телефон”
“Я недоволен / жалоба”
“Позовите менеджера”

Смотрите не только на ответ, но и на поведение:

бот ссылается на правильные правила,
не придумывает то, чего нет,
задаёт уточнение, если данных мало.

Сильная база знаний — это разница между ботом “болтает” и ботом “помогает и продаёт”.

👉 Создайте тестового чат-бота в Savvy/Suvvy (500 ₽ на тест) и соберите базу знаний по этой схеме:
https://suvvy.ai/ru?partner_id=685236b9a8dcab34edfb63fc