426 подписчиков

Оказывается, за пару дней до анонса Google их модели на 1 млн токенов, вышла open-source модель с таким же контекстным окном.

Large World Model имеет 2 варианта: обычный и мультимодальный, то есть кроме текста она принимает и изображения и видео. В основе лежит дообученная Llama-2 7B.

Из особенностей, о которых говорят разработчики:

- LWM может ответить на вопросы о видео на YouTube продолжительностью более 1 часа.

- LWM обеспечивает высокую точность в контекстном окне 1M и превосходит GPT-4V и Gemini Pro.

- LWM генерирует изображения на основе текстовых подсказок в режиме авторегрессии.

- LWM генерирует видео на основе текстовых подсказок в авторегрессионном режиме.

- LWM может ответить на вопросы об изображениях.

Для желающих запустить и протестировать модель у себя локально, основная модель, а также ее вариации на 32, 128, 256 и 512 тысяч токенов доступны на Huigging Face

Тут уже доступны квантованные варианты текстовой версии модели на 1 млн токенов в GGUF формате.

AWQ вариант

GPTQ варинт

и ещё 1

Около минуты

19 февраля 2024