Модель всего на 2B параметров закрывает два вопроса по видео: что происходит и когда это происходит. В режиме caption она выдает структурированное описание событий по таймкодам, а в режиме find — возвращает временной интервал под запрос вида «когда человек достал телефон». На TimeLens-Bench Marlin-2B обходит Qwen2.5-VL-7B на +6.4 mIoU и находится на уровне Gemini-2.0-Flash. По DREAM-1K позиционируется как лидер в классе 2B и работает заметно легче Tarsier-34B: «в 17 раз меньше», но с сопоставимым качеством в dense captioning. Для запуска заявлены два режима и понятный интерфейс: доступны методы .caption() и .find(), а само деплой обещают через vLLM и совместимость с HF Transformers. Локальное выполнение на одной GPU — это ключевой плюс, но точные требования по VRAM/разрешению в релизе не раскрыты. Источник весов: NemoStation/Marlin-2B на Hugging Face. Суть истории простая: в узких задачах видео маленькая специализированная модель способна обыгрывать универсальные и даже приближаться
🚀 Marlin-2B (2B параметров) обходит Qwen2.5-VL-7B на temporal grounding и сопоставим с Gemini-2.0-Flash
20 мая20 мая
1 мин