Найти в Дзене
AI в Продакшене

Как мы режем знания на «кусочки», чтобы ИИ говорил по-человечески

История из медсервиса про то, как правильно нарезать данные — и зачем это вообще нужно. Когда человек пишет в чат: «Ферритин 12 — это плохо?», он ждёт не лекцию по биохимии, а короткий, точный и лично для него безопасный ответ. Парадокс в том, что чтобы дать такой ответ, нам приходится сделать ровно противоположное — превратить огромные тексты в множество небольших, аккуратно подписанных «кусочков» знаний. В нашей кухне эти кусочки называются чанками. Проблема длинных текстов Медицинские документы тяжёлые: клинические рекомендации бывают на сотни страниц, а популярные статьи — на тысячи слов. Если скормить это ИИ целиком, он либо «потеряется», либо начнёт додумывать. Значит, нужно разрезать и подать порциями. Но порции должны быть правильными — как суши: не слишком крупные, чтобы уместились в рот, и не слишком маленькие, чтобы чувствовался вкус. Что такое «хороший чанк» Хороший чанк — это не просто кусок текста. Это маленькая карточка знаний с контекстом. У каждого чанка есть: Тезис:
Оглавление

История из медсервиса про то, как правильно нарезать данные — и зачем это вообще нужно.

Когда человек пишет в чат: «Ферритин 12 — это плохо?», он ждёт не лекцию по биохимии, а короткий, точный и лично для него безопасный ответ. Парадокс в том, что чтобы дать такой ответ, нам приходится сделать ровно противоположное — превратить огромные тексты в множество небольших, аккуратно подписанных «кусочков» знаний. В нашей кухне эти кусочки называются чанками.

Проблема длинных текстов

Медицинские документы тяжёлые: клинические рекомендации бывают на сотни страниц, а популярные статьи — на тысячи слов. Если скормить это ИИ целиком, он либо «потеряется», либо начнёт додумывать. Значит, нужно разрезать и подать порциями. Но порции должны быть правильными — как суши: не слишком крупные, чтобы уместились в рот, и не слишком маленькие, чтобы чувствовался вкус.

Что такое «хороший чанк»

Хороший чанк — это не просто кусок текста. Это маленькая карточка знаний с контекстом. У каждого чанка есть:

  1. Тезис: о чём этот кусок («Низкий ферритин у взрослых: возможные причины»).
  2. Короткое содержание: 2–3 предложения сути — без воды.
  3. Факты: нормы, цифры, исключения.
  4. Ограничители: «Не диагноз», «Нужна очная консультация при X».
  5. Источник: откуда взяли, дата, версия.
  6. Метки: [анализы], [железо], [женщины 18–45], [беременность — исключить].

Такая карточка позволяет ИИ не фантазировать: он опирается на конкретные факты и умеет их показать.

Как мы пришли к правильному размеру

Мы тестировали по-разному. Слишком крупные чанки (по полстраницы) давали «размазанные» ответы. Слишком мелкие — теряли смысл. Оптимум нашли опытным путём:

  • Задача «справка» (что это, как готовиться): 400–700 символов.
  • Задача «разбор анализов»: 700–1100 символов с таблицей норм.
  • Задача «пошагово» (что делать дальше): 500–800 символов.

Иногда мы делаем мягкие «нахлёсты» — соседние чанки перекрывают друг друга на 1–2 предложения, чтобы мысль не обрывалась. Как в монтажной склейке: кадры чуть заходят друг на друга, и сцена получается плавной.

История одного вопроса

Пользователь: «Ферритин 12 — это плохо?»

ИИ отвечает коротко и по делу:

  • «Это ниже рекомендованного диапазона для взрослых; часто связано с дефицитом железа.»
  • «Проверьте гемоглобин, сывороточное железо, ОЖСС/ТСЖ.»
  • «Если есть слабость/одышка — очно к врачу.»
  • «Материал подготовлен по клиническим рекомендациям; дата обновления — март 2025.»

Все четыре строки — из разных чанков: «нормы», «следующие шаги», «красные флаги», «прозрачность источников». ИИ не «умничает» — он собирает ответ из карточек.

Почему без безопасности никуда

В медицине данные — чувствительные. На этапе подготовки мы:

  • удаляем персональные маркеры (имена, телефоны, полисы, номера исследований),
  • раскрашиваем риски: если в чанк попал совет уровня «срочно в скорую» — он отмечен отдельно и всегда всплывёт выше,
  • фиксируем дату: всё, что старше порога (например, 24 месяца), автоматически уходит «на пересдачу» — пересмотр и переиндексацию.

Так мы защищаем и пользователя, и экспертов.

Главная тайна вкуса — «соус связи»

Обычно рассказывают про сами чанки, но мало кто говорит про связи между ними. А именно они делают речь осмысленной. Мы сохраняем «оглавление смысла»:

  • «Если вопрос про ферритин — рядом почти всегда идут витамин D и В12» (частые спутники).
  • «Если у подростка и есть утомляемость — покажи раздел про дефицит сна» (дифференциальная подсказка).
  • «Если у женщины после родов — покажи послеродовые особенности анализа крови».

Это не правила «если-то», это статистика переходов и семантическая близость: чаты подсказывают, как люди действительно думают.

Как мы понимаем, что всё работает

Мы не меряем «лайки у бота». Мы меряем:

  • Доля ответов с показом источника (прозрачность),
  • Точность фактов по чек-листу врача (без «экспромтов»),
  • Время до полезного действия: сколько шагов от вопроса до понятного плана,
  • Повторные вопросы на ту же тему (чем их меньше, тем лучше чанк).

Когда однажды мы переставили местами «логин» и «регистрацию» в интерфейсе, число регистраций взлетело втрое. С чанкованием похожая история: маленькие правки — большой эффект. Добавили в каждый чанк «что делать дальше» — и средняя длина диалога сократилась на треть, зато удовлетворённость выросла.

Чанк — это уважение

Разбивать знания на понятные кусочки — звучит технично. Но по сути это про уважение к человеку: мы не заставляем его читать «тома рекомендации-2025», мы даём ровно то, что нужно сейчас, с ссылкой и честным «чего мы не знаем».

И да — иногда лучший чанк это одна фраза:

«Не ставьте себе диагноз по интернету. Если симптомы усиливаются — к врачу.»

Иногда именно такой кусочек — самый важный.