🔗 Пытаетесь работать с длинными документами в LLM и всё ломается?
Контекст не влезает. Запросы дорогие. Чанкинг убивает связность.
Проблема в том, что трансформеры плохо масштабируются по длине контекста. Их attention требует квадратичных вычислений. Чем длиннее текст, тем быстрее растёт время и потребление памяти.
✔️ На практике это выглядит так: