📰 Научная сенсация: сжатие контекста LLM в 16 раз без потерь — LCLM выходят в продакшен и всё ускоряют

СегодняСегодня

2 мин

Пока все вокруг продолжают соревноваться, кто запихнёт в контекст LLM миллион токенов и при этом не уронит сервер, научное сообщество пошло другим, куда более изящным путём. Исследователи из NYU, Columbia, Princeton, University of Maryland, Harvard и Lawrence Livermore National Laboratory опубликовали работу, которая с высокой вероятностью изменит подход к работе с длинным контекстом в продакшене. Встречайте — Latent Context Language Models, или LCLM. По данным VentureBeat, новинка уже доступна на HuggingFace, и это не очередное “бумажное” исследование, а реально работающий инструмент. Давайте по порядку. Главная проблема современных LLM — контекстное окно растёт, а инфраструктура за ним не успевает. Чем дольше работает агент, тем больше токенов накапливается от извлечённых документов, цепочек рассуждений и истории диалога. Всё это жрёт память и вычисления. Существующие методы сжатия контекста либо режут точность модели, либо требуют сначала материализовать весь контекст, а только пот

Давайте по порядку. Главная проблема современных LLM — контекстное окно растёт, а инфраструктура за ним не успевает. Чем дольше работает агент, тем больше токенов накапливается от извлечённых документов, цепочек рассуждений и истории диалога. Всё это жрёт память и вычисления. Существующие методы сжатия контекста либо режут точность модели, либо требуют сначала материализовать весь контекст, а только потом сжимать — что сводит на нет весь выигрыш. LCLM решают это кардинально: они сжимают входную последовательность токенов до того, как она попадёт в декодер. Энкодер превращает блоки токенов в короткие латентные эмбеддинги, и декодер работает уже с ними. Никаких лишних материализаций — сразу экономия памяти и вычислений.

Цифры, которые впечатляют

На бенчмарке RULER (длинный контекст) LCLM при 16-кратном сжатии показали ускорение в 8,8 раза по сравнению с обычными KV cache методами. И это не в ущерб адекватности: точность упала с 94,41% (без сжатия) до 75,06%. Для сравнения, все протестированные KV cache методы на том же сжатии выдали ещё более низкие результаты. При 4-кратном сжатии точность составила 91,76% — разница в менее чем 3百分点 при сокращении контекста вчетверо. И это работает не только на длинных текстах: на математических задачах GSM8K, где сжимается весь промпт, LCLM также обошли всех конкурентов.

Архитектура модели — пара “энкодер (0,6B) + декодер (4B)”. Энкодер сжимает входные блоки в короткие последовательности латентных эмбеддингов, декодер обрабатывает их вместо оригинальных токенов. Обучение прошло на более чем 350 миллиардах токенов с использованием трёх типов данных: обычное продолжающееся предобучение (сжатые и несжатые фрагменты перемешаны), supervised fine-tuning на задачах рассуждения и длинного контекста, а также вспомогательная задача реконструкции, которая заставляет энкодер сохранять мелкие детали. Именно этот микс позволил преодолеть традиционный компромисс между качеством восстановления и общей производительностью.

Как это вписать в существующий стек?

Соавтор проекта Мика Голдблюм (Columbia University) говорит прямо: “Вы просто заменяете любую существующую LLM на LCLM. Когда нужно загрузить документы в контекст, сначала прогоняете их через компрессор LCLM, и только потом декодер обрабатывает сжатое представление”. По сути, это как человек, который сначала бегло просматривает текст, а потом углубляется в важные детали. Исследователи даже продемонстрировали агентов, которые выборочно декомпрессируют полезные участки.

При этом Голдблюм предупреждает: командам, интегрирующим LCLM в существующие RAG-пайплайны, придётся тюнить свои системы под новую схему. А ещё пока не решена проблема сжатия цепочек рассуждений (reasoning traces) — когда агент генерирует длинные логи и они сами становятся частью контекста....

🔗 Полный текст статьи читайте у нас на сайте: Читать на TechLoot

📢 ТехноЛут