Найти в Дзене
Цифровая Переплавка

🎥 StreamingVLM — шаг к «вечному восприятию» видео в реальном времени

На наших глазах происходит тихая, но фундаментальная революция в области мультимодальных моделей.
Команда MIT, NVIDIA и First Intelligence представила StreamingVLM — первую vision-language модель, способную понимать бесконечный видеопоток в реальном времени.
Это не просто очередная “VLM”, а архитектурный сдвиг, позволяющий системам думать о видео так же, как человек — непрерывно и без сброса контекста. Большинство современных VLM (например, Video-LLaMA 2, Qwen2.5-VL) обучены на коротких роликах длиной 30–120 секунд.
Когда видео длится дольше — память и задержки становятся непосильными: Результат: модель может понимать момент, но не историю.
А ведь видео — это поток, а не набор сцен. StreamingVLM предлагает новый принцип — Streaming-inference alignment, где обучение и вывод следуют одной схеме. Основные элементы:
🪄 KV-reuse cache — модель хранит лишь “якорные” токены внимания (attention sink), Таким образом, она помнит, что происходило, но не пересчитывает старые кадры. Вместо “перемот
Оглавление

На наших глазах происходит тихая, но фундаментальная революция в области мультимодальных моделей.
Команда MIT, NVIDIA и First Intelligence представила
StreamingVLM — первую vision-language модель, способную понимать бесконечный видеопоток в реальном времени.
Это не просто очередная “VLM”, а архитектурный сдвиг, позволяющий системам
думать о видео так же, как человек — непрерывно и без сброса контекста.

🔄 Проблема: модели «забывают» прошлое

Большинство современных VLM (например, Video-LLaMA 2, Qwen2.5-VL) обучены на коротких роликах длиной 30–120 секунд.
Когда видео длится дольше — память и задержки становятся непосильными:

  • 🧠 Full Attention взрывает видеокарту (квадратичные затраты на внимание).
  • Sliding Window обрывает контекст и ломает связность.
  • ⚡ Даже при перекрытии окон — задержка становится неприемлемой.

Результат: модель может понимать момент, но не историю.
А ведь
видео — это поток, а не набор сцен.

🧩 Решение: “потоковое” внимание и компактный KV-кэш

StreamingVLM предлагает новый принцип — Streaming-inference alignment, где обучение и вывод следуют одной схеме.

Основные элементы:
🪄
KV-reuse cache — модель хранит лишь “якорные” токены внимания (attention sink),

  • короткое окно для видео (≈16 секунд),
  • длинное окно для текста (≈512 токенов).

Таким образом, она помнит, что происходило, но не пересчитывает старые кадры. Вместо “перемотки” контекста — лёгкое обновление состояния.

🌀 Contiguous RoPE — позиционные индексы не растут бесконечно, а “скользят” вместе с потоком, избегая вылета за пределы обученного распределения.

💡 Overlapped SFT (supervised fine-tuning) — обучается на коротких 24-секундных отрезках, перекрывающихся на 12 секунд. Модель получает “иллюзию непрерывности” без реального обучения на часовых видео.

⚙️ Практическая реализация

StreamingVLM основана на Qwen-2.5-VL-7B, обученной с нуля на Inf-Streams-Train — 4000 часов спортивных трансляций.
Для чистки и аннотации использовались
WhisperX и GPT-5, вычищавшие шум, имена и рекламу. Общий объём вычислений — 128 GPU-дней на NVIDIA H100.

🧠 Архитектура работает в реальном времени — до 8 FPS на одном H100,
выдерживая видеопотоки длиной
более двух часов без деградации.
По данным авторов,
модель опережает GPT-4o mini на 66,18 % в новом бенчмарке Inf-Streams-Eval, где видео длятся по 2+ часа и требуют покадрового синхро-текста.

🏆 Качество и результаты

📊 В тестах StreamingVLM показала:

  • +4.3 % улучшение на LongVideoBench,
  • +5.96 % на OVOBench Realtime,
  • стабильный отклик 50 мс/токен — без провалов даже после 100 минут непрерывного стрима.

💬 На практике это означает, что модель может вести футбольный матч “вживую”, давая связные комментарии, не забывая счёт, игроков и контекст -
как настоящий спортивный комментатор, а не генератор случайных фраз.

🤖 Почему это важно

StreamingVLM — первый серьёзный шаг к “живым” мультимодальным агентам:

  • 🚗 автономные машины смогут “понимать” дорогу, а не просто анализировать кадры;
  • 🕹️ игровые NPC будут воспринимать сцены непрерывно, реагируя на изменения;
  • 🧠 системы наблюдения, дронов и роботизированных ассистентов смогут объяснять, что видят, в реальном времени.

В долгосрочной перспективе — это путь к когнитивной стабильности ИИ,
где внимание не сбрасывается каждые 10 секунд, а живёт, как человеческая память.

💭 Мнение автора

StreamingVLM — это шаг от “видеоаналитики” к видео-мышлению.
Она не просто видит кадры, а учится
жить в потоке событий.
Для меня это одна из тех работ, где исследователи не добавляют больше параметров, а
улучшают структуру мышления модели.

Возможно, через пару лет подобные “streaming-архитектуры” станут стандартом и мультимодальные ИИ перестанут быть фотогеничными, а станут живыми.

🌐 Источники