В научной статье “Video models are zero-shot learners and reasoners” команда Google DeepMind делает поистине радикальное заявление:
видеомодели начинают развивать общее “зрительное мышление” — так же, как большие языковые модели (LLMs) научились понимать и рассуждать о языке. 🧠 Если GPT стал универсальным мозгом текста, то Veo 3 — первый кандидат на роль универсального мозга зрения. Исследователи сравнивают сегодняшнее состояние компьютерного зрения с NLP времён до GPT-3.
Тогда существовали отдельные модели: одна для перевода, другая для анализа тональности, третья — для ответов на вопросы.
Сейчас мы снова на том же рубеже, только в визуальном мире: есть SAM для сегментации, YOLO для детекции, Diffusion для генерации. DeepMind спрашивает: а что, если видео-модели уже прошли ту же эволюцию, но мы этого не заметили? 🧩 Их ответ: да.
Veo 3, обученная на огромных видеоданных с генеративной задачей (продолжай видео и текст), проявляет способности нулевого обучения (zero-shot):
она решает з