80 подписчиков

LongLLaMA —большая языковая модель, способная обрабатывать длинные контексты до 256k токенов и более. Она основана на OpenLLaMA и дообучена с использованием метода Focused Transformer (FoT). Модель имеет 3B параметров и лицензию Apache 2.0. LongLLaMA может заменить LLaMA в существующих реализациях для короткого контекста до 2048 токенов.

Есть колаб, чтобы пощупать.

LongLLaMA —большая языковая модель, способная обрабатывать длинные контексты до 256k токенов и более. Она основана на OpenLLaMA и дообучена с использованием метода Focused Transformer (FoT).

Около минуты

7 июля 2023