Добавить в корзинуПозвонить
Найти в Дзене
Как там Бизнес?

База знаний в Savvy: прямые вопросы, большие файлы и чанки без ошибок

Вы можете написать идеальный промт…
но если база знаний устроена “как кладовка” — бот будет отвечать как человек, который бегает по складу с фонариком и кричит: “Где тут вообще инструкция?!” В разборе это прям видно:
там, где данные лежат структурно (таблица/каталог) — бот отвечает чётко.
а где контент — начинается магия базы знаний: что именно он нашёл, какой кусок текста подтянул и почему. Сегодня сделаем базу знаний так, чтобы бот: 👉 Хотите сразу повторить на практике? Создайте тестового чат-бота в Savvy/Suvvy — на тест дают 500 ₽:
https://suvvy.ai/ru?partner_id=685236b9a8dcab34edfb63fc Это когда у вас: Когда идеально подходит: Плюсы: точность и скорость.
Минус: если вопросов станет 300–1000, поддерживать это тяжело и дорого. Это когда у вас: Бот ищет по тексту внутри, а не “угадывает по названию”. Когда стоит использовать: Плюсы: удобно хранить много текста.
Минусы: нужно правильно настроить чанки, иначе бот будет тащить “не те куски”. Чанк — это кусок текста (абзац/пара абзацев/ч
Оглавление

База знаний Savvy: как правильно загружать файлы, настраивать чанки и получать точные ответы без “галлюцинаций”

Вы можете написать идеальный промт…
но если база знаний устроена “как кладовка” — бот будет отвечать как человек, который бегает по складу с фонариком и кричит: “Где тут вообще инструкция?!”

В разборе это прям видно:
там, где данные лежат структурно (таблица/каталог) — бот отвечает чётко.
а где контент — начинается магия базы знаний:
что именно он нашёл, какой кусок текста подтянул и почему.

Сегодня сделаем базу знаний так, чтобы бот:

  • находил ответ быстро и стабильно,
  • не путал товары/условия/регламенты,
  • не “додумывал” то, чего нет,
  • и не раздувал стоимость диалога.

👉 Хотите сразу повторить на практике? Создайте тестового чат-бота в Savvy/Suvvy — на тест дают 500 ₽:
https://suvvy.ai/ru?partner_id=685236b9a8dcab34edfb63fc

1) В Savvy есть два “вида” базы знаний — и это важно

Вариант А: Прямые вопросы (Q&A / “короткие файлы”)

Это когда у вас:

  • конкретный вопрос → конкретный ответ,
  • немного текста,
  • высокая точность.

Когда идеально подходит:

  • доставка/оплата/возврат
  • “как оформить заказ”
  • “какие документы нужны”
  • “режим работы”
  • “что входит в услугу”
  • топ-20 вопросов поддержки

Плюсы: точность и скорость.
Минус: если вопросов станет 300–1000, поддерживать это тяжело и дорого.

Вариант B: Большие файлы (длинные документы/статьи/мануалы)

Это когда у вас:

  • много статей,
  • длинные инструкции,
  • большой справочник или документация.

Бот ищет по тексту внутри, а не “угадывает по названию”.

Когда стоит использовать:

  • 100+ страниц инструкций
  • большая база по товарам/моделям (если не таблица)
  • обучающие материалы
  • “внутренний вики-справочник” компании

Плюсы: удобно хранить много текста.
Минусы: нужно правильно настроить
чанки, иначе бот будет тащить “не те куски”.

2) Что такое чанки — простыми словами

Чанк — это кусок текста (абзац/пара абзацев/часть страницы), который бот вытаскивает из документа, когда ищет ответ.

Бот не обязан “читать весь документ”. Он делает иначе:

  1. находит релевантные куски (чанки),
  2. складывает их в контекст,
  3. отвечает на основе этих кусков.

И вот тут главный секрет качества:

если чанки нарезаны плохо — бот вытаскивает мусор и путается.
если чанки нарезаны правильно — ответ точный и уверенный.

3) Лучшее правило нарезки чанков: “Заголовок + абзац”

Самая стабильная схема (и самая понятная):

  • чанк = заголовок раздела + один абзац (или 1–2 абзаца)

Почему это работает:

  • иногда в абзаце не повторяется предмет (“дрель”, “доставка”, “гарантия”),
  • но заголовок даёт контекст: “Гарантия”, “Сроки доставки”, “Оплата”.

То есть заголовок помогает боту “не потерять смысл”, когда он вытащил кусок из середины текста.

4) Как выбрать размер чанка (и почему “побольше” — не всегда лучше)

Слишком маленькие чанки (по 1–2 предложения)

Проблема: бот может вытащить кусок без контекста и неправильно интерпретировать.

Слишком большие чанки (полстраницы/страница)

Проблема: в чанке много лишнего → бот начинает:

  • спорить сам с собой,
  • выбирать не тот фрагмент,
  • писать простыни,
  • и тратить больше токенов.

Золотая середина для большинства продажных ботов:

  • 1 абзац (иногда 2), но обязательно с заголовком.

5) Если документ неструктурирован (простыня на 50 страниц) — что делать

Такое бывает постоянно: “скопировали с сайта”, “выгрузили PDF”, “у нас методичка одним полотном”.

В этом случае вам нужно сначала привести документ в порядок, иначе чанки будут рваться случайно.

Рабочий подход:

  1. Разбейте документ на разделы (H2/H3).
  2. В каждом разделе сделайте короткие абзацы по одной мысли.
  3. Вынесите в начало раздела “мини-резюме” (1–2 строки) — это усиливает попадание.

Если платформа предлагает “принудительную обработку / структурирование” — используйте её для грязных документов, чтобы получить нормальную иерархию “заголовки → абзацы”.

6) PDF со сканами: почему бот “не видит текст” и как починить

Очень частая ловушка: PDF выглядит как текст, но внутри он картинками (сканы).
Для модели это не текст, а изображения.

Что делать:

  • включить распознавание изображений как текста (OCR/умное чтение),
  • особенно если в PDF есть хотя бы одна “фотостраница”.

Правило:
если файл PDF содержит картинки/сканы — без распознавания бот не прочитает содержимое нормально.

7) Где хранить что: база знаний vs таблица (короткая шпаргалка)

  • Цены, наличие, характеристики в поляхтаблица (Google Sheets)
  • Регламенты, условия, FAQ, инструкциибаза знаний
  • 100+ статей/мануал/викибольшие файлы + чанки

Супер-важно: не пытайтесь превращать базу знаний в “таблицу в тексте”.
Если у вас “каталог товара: название–цена–наличие” — это должна быть таблица (мы разобрали в статье №8).

8) Как заставить бота реально пользоваться базой знаний (а не придумывать)

Добавьте в промт короткое, но жёсткое правило:

Правило точности

  • Если ответ есть в базе знаний — используй её.
  • Если ответа нет — не выдумывай, скажи “нужно уточнить” и предложи вызвать менеджера.

И ещё один хитрый, но мощный приём из разбора:

Принудительный вызов файла/функции

Если вы хотите, чтобы бот в конкретной ситуации точно открыл нужный файл — прямо пишите в логике:

  • “Если спрашивают про режим работы → открой файл company_info.”
  • “Если клиент просит менеджера → вызови функцию call_manager.”

Так вы превращаете “интуицию” в “инструкцию”.

9) Типовые ошибки базы знаний (и как исправить за 10 минут)

Ошибка 1: файл назван абстрактно (“инфо”, “разное”, “услуги”)

Бот не понимает, что где.

✅ Решение: называйте файлы как поисковые намерения:

  • “Доставка и сроки”
  • “Оплата и чек”
  • “Возврат и обмен”
  • “Гарантия”
  • “Услуги компании”
  • “Возражения: дорого”
  • “Возражения: не оставлю телефон”

Ошибка 2: в одном файле “всё подряд”

Доставка + возвраты + гарантии + акции → каша.

✅ Решение: один файл = одна тема/намерение.

Ошибка 3: в ответе куча вариантов, бот пишет простыню

✅ Решение:

  • ограничьте формат: “до 3 предложений” или “топ-3 пункта списком”
  • добавьте правило: “если вариантов больше 3 — спроси уточнение”

Ошибка 4: бот “подтягивает” не тот чанк и путается

✅ Решение:

  • уменьшите размер чанка
  • добавьте заголовки
  • уберите из документа дублирующиеся формулировки (одна и та же мысль 5 раз в разных местах)

Ошибка 5: вы ожидаете, что бот сам догадается, какой файл открыть

✅ Решение:

  • прописывайте “когда использовать файл X” (как в хорошем промте у Ильи из разбора)
  • или делайте отдельный блок “Работа с функциями/файлами”

10) Мини-набор тестов для базы знаний (обязательно прогнать)

  1. “Как оплатить?”
  2. “Нужен чек / куда приходит?”
  3. “Сроки доставки?”
  4. “Можно вернуть?”
  5. “Гарантия есть?”
  6. “Где вы находитесь / контакты?”
  7. “Скинь список услуг”
  8. “Не хочу оставлять телефон”
  9. “Я недоволен / жалоба”
  10. “Позовите менеджера”

Смотрите не только на ответ, но и на поведение:

  • бот ссылается на правильные правила,
  • не придумывает то, чего нет,
  • задаёт уточнение, если данных мало.

Сильная база знаний — это разница между ботом “болтает” и ботом “помогает и продаёт”.

👉 Создайте тестового чат-бота в Savvy/Suvvy (500 ₽ на тест) и соберите базу знаний по этой схеме:
https://suvvy.ai/ru?partner_id=685236b9a8dcab34edfb63fc