Найти в Дзене
Мир на пальцах

Художник без здравого смысла: почему нейросеть путает физику в видео

В предыдущих двух частях мы познакомились с тем, как ИИ создает текст и картинки. Генерация видео нейросетями — это новый технологический рубеж. Если создать статичное изображение уже стало обыденностью, то заставить объекты на экране двигаться логично и правдоподобно — задача невероятной сложности. Как же ИИ, не имея сознания и понимания законов физики, справляется с этим? Ответ кроется в статистике, паттернах и новой архитектуре мышления машин. Ключевое отличие от генерации изображений — требование временной согласованности. Каждый следующий кадр должен быть логичным продолжением предыдущего. Современные модели, такие как Sora от OpenAI или Lumiere от Google, больше не генерируют видео по кадрам. Вместо этого они работают с видео как с единым «кубом» данных, где есть три измерения: ширина, высота и время. Модель обучается сразу на последовательностях кадров, выявляя скрытые паттерны движения. Давайте разберем на примере простого промпта: «Мяч отскакивает от пола». Модель, обученная
Оглавление

В предыдущих двух частях мы познакомились с тем, как ИИ создает текст и картинки. Генерация видео нейросетями — это новый технологический рубеж. Если создать статичное изображение уже стало обыденностью, то заставить объекты на экране двигаться логично и правдоподобно — задача невероятной сложности. Как же ИИ, не имея сознания и понимания законов физики, справляется с этим? Ответ кроется в статистике, паттернах и новой архитектуре мышления машин.

Не кадры, а пространственно-временной блок

Ключевое отличие от генерации изображений — требование временной согласованности. Каждый следующий кадр должен быть логичным продолжением предыдущего. Современные модели, такие как Sora от OpenAI или Lumiere от Google, больше не генерируют видео по кадрам. Вместо этого они работают с видео как с единым «кубом» данных, где есть три измерения: ширина, высота и время. Модель обучается сразу на последовательностях кадров, выявляя скрытые паттерны движения.

Как ИИ «понимает», что мяч должен отскочить?

Давайте разберем на примере простого промпта: «Мяч отскакивает от пола». Модель, обученная на петабайтах видеоданных (кино, мультфильмы, спорт), не «знает» законов гравитации. Но она вычислила жесткую статистическую корреляцию:

1. Из миллионов роликов она усвоила, что последовательность кадров, где круглый объект движется вниз к горизонтальной поверхности, в 99.9% случаев сменяется кадрами, где этот объект движется вверх.

2. Она запомнила визуальные маркеры отскока: момент контакта (мяч немного деформирован, он в самой нижней точке), затем резкое изменение вектора движения.

-2

Когда модель получает промпт, ее архитектура «внимания» активирует нужные паттерны. Генерируя видео, она постоянно «оглядывается» на предыдущие кадры. В ее внутреннем математическом представлении у мяча есть не только форма и цвет, но и приблизительный вектор скорости. Когда этот вектор указывает вниз, а «расстояние» до пола в данных становится минимальным, срабатывает выученная схема: «самый вероятный следующий паттерн — движение вверх». Так, без единой формулы, чисто через анализ триллионов визуальных связей, реализуется правдоподобный отскок.

Пределы имитации: где ИИ ошибается

Эта сила, основанная на статистике, же и является главной слабостью. Модель учит корреляции, а не причинность. Поэтому она может совершать абсурдные с точки зрения физики ошибки:

  • Мяч может отскочить от воды или дыма, если в данных было мало примеров их неупругого взаимодействия.
  • Отскок может быть слишком высоким, нарушая сохранение энергии.
  • В сложной сцене с множеством объектов модель может «забыть» проследить за траекторией мяча, теряя консистентность.

Итог: грандиозная имитация реальности

Сегодняшние нейросети для генерации видео — это невероятно начитанные и наблюдательные, но лишенные здравого смысла художники. Они гениально воспроизводят визуальные шаблоны нашего мира, создавая динамические ментальные модели, построенные на вероятностях. Они не понимают мир, но научились его безупречно имитировать — и в этом заключается как их прорывная мощь, так и фундаментальное ограничение.

Понравился разбор? Чтобы не пропустить новые объяснения сложных технологий простыми словами — подписывайтесь на наш канал! В следующих частях мы поговорим про музыку!