История из медсервиса про то, как правильно нарезать данные — и зачем это вообще нужно. Когда человек пишет в чат: «Ферритин 12 — это плохо?», он ждёт не лекцию по биохимии, а короткий, точный и лично для него безопасный ответ. Парадокс в том, что чтобы дать такой ответ, нам приходится сделать ровно противоположное — превратить огромные тексты в множество небольших, аккуратно подписанных «кусочков» знаний. В нашей кухне эти кусочки называются чанками. Проблема длинных текстов Медицинские документы тяжёлые: клинические рекомендации бывают на сотни страниц, а популярные статьи — на тысячи слов. Если скормить это ИИ целиком, он либо «потеряется», либо начнёт додумывать. Значит, нужно разрезать и подать порциями. Но порции должны быть правильными — как суши: не слишком крупные, чтобы уместились в рот, и не слишком маленькие, чтобы чувствовался вкус. Что такое «хороший чанк» Хороший чанк — это не просто кусок текста. Это маленькая карточка знаний с контекстом. У каждого чанка есть: Тезис:
Как мы режем знания на «кусочки», чтобы ИИ говорил по-человечески
16 декабря16 дек
1
3 мин