10,2 тыс подписчиков
☑️ Efficient Streaming Language Models with Attention Sinks
StreamingLLM, an efficient framework that enables LLMs trained with a finite length attention window to generalize to infinite sequence length without any fine-tuning.
Фреймворк для развертывания больших языковых моделей в потоковых приложениях, таких как многораундовые диалоги, где ожидается длительное взаимодействие, является настоятельной необходимостью, но сопряжено с двумя серьезными проблемами. StreamingLLM позволяет Llama-2, MPT, Falcon и Pythia стабильно и эффективно выполнять моделирование общения с количеством лексем до 4 млн. и более.
📕 Paper: http://arxiv.org/abs/2309.17453
⭐️ Dataset: https://paperswithcode.com/dataset/pg-19
Около минуты
3 октября 2023