Чанкинг — одно из самых недооценённых слов в новом SEO. От того, как вы разрежете текст на куски, зависит, что именно увидит модель при ответе на запрос. Если чанк слишком большой или собран случайно, даже хороший текст проиграет. Разберём базовые подходы к чанкингу с практической точки зрения. Чанкинг — это процесс разбивки документа на отдельные фрагменты, с которыми дальше работает система: строит эмбеддинги, складывает в индекс, отдаёт модели как контекст. Векторный поиск происходит по чанкам, поэтому именно они становятся «единицей смысла» для AI‑поиска. Причины простой: ограничение по длине контекста у моделей, необходимость точнее сопоставлять запрос с конкретным фрагментом и желание не тянуть в ответ лишний шум. Самые распространённые подходы:
– фиксированный размер: разрезаем текст каждые N символов или токенов;
– чанкинг по структуре: разбиваем по h2/h3, разделам, параграфам;
– семантический чанкинг: группируем соседние предложения по смысловой близости;
– гибридные подходы: