380 подписчиков
Оказывается, за пару дней до анонса Google их модели на 1 млн токенов, вышла open-source модель с таким же контекстным окном.
Large World Model имеет 2 варианта: обычный и мультимодальный, то есть кроме текста она принимает и изображения и видео. В основе лежит дообученная Llama-2 7B.
Из особенностей, о которых говорят разработчики:
- LWM может ответить на вопросы о видео на YouTube продолжительностью более 1 часа.
- LWM обеспечивает высокую точность в контекстном окне 1M и превосходит GPT-4V и Gemini Pro.
- LWM генерирует изображения на основе текстовых подсказок в режиме авторегрессии.
- LWM генерирует видео на основе текстовых подсказок в авторегрессионном режиме.
- LWM может ответить на вопросы об изображениях.
Для желающих запустить и протестировать модель у себя локально, основная модель, а также ее вариации на 32, 128, 256 и 512 тысяч токенов доступны на Huigging Face
Тут уже доступны квантованные варианты текстовой версии модели на 1 млн токенов в GGUF формате.
Около минуты
19 февраля 2024