217 подписчиков

🎞️ Видео как новое мышление: как Veo 3 от DeepMind учится видеть и рассуждать без обучения

7 октября 20257 окт 2025

3 мин

В научной статье “Video models are zero-shot learners and reasoners” команда Google DeepMind делает поистине радикальное заявление:

видеомодели начинают развивать общее “зрительное мышление” — так же, как большие языковые модели (LLMs) научились понимать и рассуждать о языке. 🧠 Если GPT стал универсальным мозгом текста, то Veo 3 — первый кандидат на роль универсального мозга зрения. Исследователи сравнивают сегодняшнее состояние компьютерного зрения с NLP времён до GPT-3.

Тогда существовали отдельные модели: одна для перевода, другая для анализа тональности, третья — для ответов на вопросы.

Сейчас мы снова на том же рубеже, только в визуальном мире: есть SAM для сегментации, YOLO для детекции, Diffusion для генерации. DeepMind спрашивает: а что, если видео-модели уже прошли ту же эволюцию, но мы этого не заметили? 🧩 Их ответ: да.

Veo 3, обученная на огромных видеоданных с генеративной задачей (продолжай видео и текст), проявляет способности нулевого обучения (zero-shot):

она решает з

В научной статье “Video models are zero-shot learners and reasoners” команда Google DeepMind делает поистине радикальное заявление:

она решает з

Оглавление

🎥 От LLM к LVM: новая эра машинного зрения
🔍 Veo 3 — первый “зрячий разум”
📊 Результаты: цифры, которые говорят

В научной статье “Video models are zero-shot learners and reasoners” команда Google DeepMind делает поистине радикальное заявление:
видеомодели начинают развивать общее “зрительное мышление” — так же, как большие языковые модели (LLMs) научились понимать и рассуждать о языке.

🧠 Если GPT стал универсальным мозгом текста, то Veo 3 — первый кандидат на роль универсального мозга зрения.

🎥 От LLM к LVM: новая эра машинного зрения

Исследователи сравнивают сегодняшнее состояние компьютерного зрения с NLP времён до GPT-3.
Тогда существовали отдельные модели: одна для перевода, другая для анализа тональности, третья — для ответов на вопросы.
Сейчас мы снова на том же рубеже, только в визуальном мире: есть SAM для сегментации, YOLO для детекции, Diffusion для генерации.

DeepMind спрашивает: а что, если видео-модели уже прошли ту же эволюцию, но мы этого не заметили?

🧩 Их ответ: да.
Veo 3, обученная на огромных видеоданных с генеративной задачей (продолжай видео и текст), проявляет способности нулевого обучения (zero-shot):
она решает задачи, на которые никогда не обучалась.

🔍 Veo 3 — первый “зрячий разум”

Авторы исследовали 18 384 видео, сгенерированных по 62 задачам — от простого выделения контуров до симметрий и судоку.
Результаты поражают: без какой-либо настройки Veo 3 способна:

🧠 Видеть (Perception) — выполнять задачи компьютерного зрения:

распознавать границы и объекты,
устранять шум, повышать разрешение,
интерпретировать оптические иллюзии (например, далматин в тумане),
понимать сцены в условиях плохого освещения.

🌍 Моделировать (Modeling) — формировать физическую модель мира:

понимать гравитацию, плавучесть, отражения,
различать жёсткие и мягкие тела,
имитировать поведение материалов,
помнить состояния мира при смене ракурса.

✏️ Манипулировать (Manipulation) — изменять и редактировать реальность:

убирать фон, перекрашивать объекты, менять стиль изображения,
собирать сцены из частей,
анимировать “разумное” использование инструментов,
даже превращать рисунки-каракули в реалистичные изображения.

🧩 Рассуждать (Reasoning) — действовать последовательно, как LLM с “chain-of-thought”, только здесь это “chain-of-frames”:

решать лабиринты,
достраивать симметричные узоры,
выполнять визуальные аналогии (A:B как C:?),
сортировать числа,
использовать “агентную логику” в пространстве и времени.

📊 Результаты: цифры, которые говорят

🔹 Edge detection (контуры): точность = 0,77 (OIS) — почти уровень специализированных моделей (0,9).
🔹 Segmentation: средняя IoU = 0,74 — сравнимо с Gemini-моделью Nano Banana.
🔹 Maze solving: 78 % успешных решений для простых лабиринтов (против 14 % у Veo 2).
🔹 Symmetry & analogies: уверенные признаки пространственного рассуждения.

Авторы называют это “GPT-3-моментом для зрения”.

🧬 “Chain of Frames”: визуальный эквивалент Chain of Thought

Veo рассуждает не через текст, а через последовательность кадров.
Каждый кадр — шаг рассуждения, аналог логического вывода.
Так возникает chain-of-frames reasoning — способность моделировать причинно-следственные связи в пространстве и времени.

Если GPT рассуждает словами, то Veo рассуждает движением.
Например, в задаче лабиринта она “понимает” стены и выбирает корректную траекторию движения шара.

⚙️ Как это работает технически

Модель Veo 3 интегрирована в облако Google Vertex AI и доступна как API.
Для тестов использовалась команда:

session = openai.chatkit.sessions.create({ ... })
video = veo.generate(prompt="A red ball solves a maze...")

🧱 Архитектура — гибрид диффузионных и трансформерных видеомоделей,
тренированных на web-масштабных видеоданных с текстовыми описаниями.

Каждое видео (8 секунд, 720p, 24 fps) — не просто “анимация”, а рассуждение в пикселях:
модель “понимает”, что изображено, и моделирует, что будет дальше.

💭 Моё мнение: рождение визуального интеллекта

То, что делает DeepMind, — это больше, чем эволюция компьютерного зрения.
Это сдвиг парадигмы:
видео перестаёт быть просто “данными о движении”, а становится новым языком рассуждения.

🧩 Если LLMы научились мыслить словами,
то видеомодели учатся мыслить физикой — предсказывать, взаимодействовать, интерпретировать.

Да, пока Veo ошибается в задачах вроде “глубины сцены” или “складок ткани”.
Но Veo 3 — это GPT-2 своего времени. Следующий шаг — интеграция памяти, обучения на обратной связи и реального взаимодействия с миром.

Когда это произойдёт, мы получим универсальную визуальную ИИ-систему,
способную не просто видеть, а понимать, почему что-то произошло — и что будет дальше.

📚 Источники

✨ Итог:
Veo 3 — это первый шаг к миру, где ИИ не просто “описывает” видео,
а думает в видео — кадр за кадром, как человек, наблюдающий и размышляющий о реальности.