Пока все вокруг продолжают соревноваться, кто запихнёт в контекст LLM миллион токенов и при этом не уронит сервер, научное сообщество пошло другим, куда более изящным путём. Исследователи из NYU, Columbia, Princeton, University of Maryland, Harvard и Lawrence Livermore National Laboratory опубликовали работу, которая с высокой вероятностью изменит подход к работе с длинным контекстом в продакшене. Встречайте — Latent Context Language Models, или LCLM. По данным VentureBeat, новинка уже доступна на HuggingFace, и это не очередное “бумажное” исследование, а реально работающий инструмент. Давайте по порядку. Главная проблема современных LLM — контекстное окно растёт, а инфраструктура за ним не успевает. Чем дольше работает агент, тем больше токенов накапливается от извлечённых документов, цепочек рассуждений и истории диалога. Всё это жрёт память и вычисления. Существующие методы сжатия контекста либо режут точность модели, либо требуют сначала материализовать весь контекст, а только пот
📰 Научная сенсация: сжатие контекста LLM в 16 раз без потерь — LCLM выходят в продакшен и всё ускоряют
СегодняСегодня
2 мин