Добавить в корзинуПозвонить
Найти в Дзене
Цифровая Переплавка

🎞️ Видео как новое мышление: как Veo 3 от DeepMind учится видеть и рассуждать без обучения

В научной статье “Video models are zero-shot learners and reasoners” команда Google DeepMind делает поистине радикальное заявление:
видеомодели начинают развивать общее “зрительное мышление” — так же, как большие языковые модели (LLMs) научились понимать и рассуждать о языке. 🧠 Если GPT стал универсальным мозгом текста, то Veo 3 — первый кандидат на роль универсального мозга зрения. Исследователи сравнивают сегодняшнее состояние компьютерного зрения с NLP времён до GPT-3.
Тогда существовали отдельные модели: одна для перевода, другая для анализа тональности, третья — для ответов на вопросы.
Сейчас мы снова на том же рубеже, только в визуальном мире: есть SAM для сегментации, YOLO для детекции, Diffusion для генерации. DeepMind спрашивает: а что, если видео-модели уже прошли ту же эволюцию, но мы этого не заметили? 🧩 Их ответ: да.
Veo 3, обученная на огромных видеоданных с генеративной задачей (продолжай видео и текст), проявляет способности нулевого обучения (zero-shot):
она решает з
Оглавление

В научной статье “Video models are zero-shot learners and reasoners” команда Google DeepMind делает поистине радикальное заявление:
видеомодели начинают развивать
общее “зрительное мышление” — так же, как большие языковые модели (LLMs) научились понимать и рассуждать о языке.

🧠 Если GPT стал универсальным мозгом текста, то Veo 3 — первый кандидат на роль универсального мозга зрения.

🎥 От LLM к LVM: новая эра машинного зрения

Исследователи сравнивают сегодняшнее состояние компьютерного зрения с NLP времён до GPT-3.
Тогда существовали отдельные модели: одна для перевода, другая для анализа тональности, третья — для ответов на вопросы.
Сейчас мы снова на том же рубеже, только в визуальном мире: есть SAM для сегментации, YOLO для детекции, Diffusion для генерации.

DeepMind спрашивает: а что, если видео-модели уже прошли ту же эволюцию, но мы этого не заметили?

🧩 Их ответ: да.
Veo 3, обученная на огромных видеоданных с генеративной задачей (продолжай видео и текст),
проявляет способности нулевого обучения (zero-shot):
она решает задачи, на которые никогда не обучалась.

🔍 Veo 3 — первый “зрячий разум”

Авторы исследовали 18 384 видео, сгенерированных по 62 задачам — от простого выделения контуров до симметрий и судоку.
Результаты поражают: без какой-либо настройки Veo 3 способна:

🧠 Видеть (Perception) — выполнять задачи компьютерного зрения:

  • распознавать границы и объекты,
  • устранять шум, повышать разрешение,
  • интерпретировать оптические иллюзии (например, далматин в тумане),
  • понимать сцены в условиях плохого освещения.

🌍 Моделировать (Modeling) — формировать физическую модель мира:

  • понимать гравитацию, плавучесть, отражения,
  • различать жёсткие и мягкие тела,
  • имитировать поведение материалов,
  • помнить состояния мира при смене ракурса.

✏️ Манипулировать (Manipulation) — изменять и редактировать реальность:

  • убирать фон, перекрашивать объекты, менять стиль изображения,
  • собирать сцены из частей,
  • анимировать “разумное” использование инструментов,
  • даже превращать рисунки-каракули в реалистичные изображения.

🧩 Рассуждать (Reasoning) — действовать последовательно, как LLM с “chain-of-thought”, только здесь это “chain-of-frames”:

  • решать лабиринты,
  • достраивать симметричные узоры,
  • выполнять визуальные аналогии (A:B как C:?),
  • сортировать числа,
  • использовать “агентную логику” в пространстве и времени.

📊 Результаты: цифры, которые говорят

🔹 Edge detection (контуры): точность = 0,77 (OIS) — почти уровень специализированных моделей (0,9).
🔹
Segmentation: средняя IoU = 0,74 — сравнимо с Gemini-моделью Nano Banana.
🔹
Maze solving: 78 % успешных решений для простых лабиринтов (против 14 % у Veo 2).
🔹
Symmetry & analogies: уверенные признаки пространственного рассуждения.

Авторы называют это “GPT-3-моментом для зрения”.

🧬 “Chain of Frames”: визуальный эквивалент Chain of Thought

Veo рассуждает не через текст, а через последовательность кадров.
Каждый кадр — шаг рассуждения, аналог логического вывода.
Так возникает
chain-of-frames reasoning — способность моделировать причинно-следственные связи в пространстве и времени.

Если GPT рассуждает словами, то Veo рассуждает движением.
Например, в задаче лабиринта она “понимает” стены и выбирает корректную траекторию движения шара.

⚙️ Как это работает технически

Модель Veo 3 интегрирована в облако Google Vertex AI и доступна как API.
Для тестов использовалась команда:

session = openai.chatkit.sessions.create({ ... })
video = veo.generate(prompt="A red ball solves a maze...")

🧱 Архитектура — гибрид диффузионных и трансформерных видеомоделей,
тренированных на
web-масштабных видеоданных с текстовыми описаниями.

Каждое видео (8 секунд, 720p, 24 fps) — не просто “анимация”, а рассуждение в пикселях:
модель “понимает”, что изображено, и моделирует, что будет дальше.

💭 Моё мнение: рождение визуального интеллекта

То, что делает DeepMind, — это больше, чем эволюция компьютерного зрения.
Это
сдвиг парадигмы:
видео перестаёт быть просто “данными о движении”, а становится
новым языком рассуждения.

🧩 Если LLMы научились мыслить словами,
то видеомодели учатся
мыслить физикой — предсказывать, взаимодействовать, интерпретировать.

Да, пока Veo ошибается в задачах вроде “глубины сцены” или “складок ткани”.
Но Veo 3 — это GPT-2 своего времени. Следующий шаг —
интеграция памяти, обучения на обратной связи и реального взаимодействия с миром.

Когда это произойдёт, мы получим универсальную визуальную ИИ-систему,
способную не просто видеть, а понимать,
почему что-то произошло — и что будет дальше.

📚 Источники

Итог:
Veo 3 — это первый шаг к миру, где ИИ не просто “описывает” видео,
а
думает в видео — кадр за кадром, как человек, наблюдающий и размышляющий о реальности.