На наших глазах происходит тихая, но фундаментальная революция в области мультимодальных моделей.
Команда MIT, NVIDIA и First Intelligence представила StreamingVLM — первую vision-language модель, способную понимать бесконечный видеопоток в реальном времени.
Это не просто очередная “VLM”, а архитектурный сдвиг, позволяющий системам думать о видео так же, как человек — непрерывно и без сброса контекста. Большинство современных VLM (например, Video-LLaMA 2, Qwen2.5-VL) обучены на коротких роликах длиной 30–120 секунд.
Когда видео длится дольше — память и задержки становятся непосильными: Результат: модель может понимать момент, но не историю.
А ведь видео — это поток, а не набор сцен. StreamingVLM предлагает новый принцип — Streaming-inference alignment, где обучение и вывод следуют одной схеме. Основные элементы:
🪄 KV-reuse cache — модель хранит лишь “якорные” токены внимания (attention sink), Таким образом, она помнит, что происходило, но не пересчитывает старые кадры. Вместо “перемот