В предыдущих двух частях мы познакомились с тем, как ИИ создает текст и картинки. Генерация видео нейросетями — это новый технологический рубеж. Если создать статичное изображение уже стало обыденностью, то заставить объекты на экране двигаться логично и правдоподобно — задача невероятной сложности. Как же ИИ, не имея сознания и понимания законов физики, справляется с этим? Ответ кроется в статистике, паттернах и новой архитектуре мышления машин. Ключевое отличие от генерации изображений — требование временной согласованности. Каждый следующий кадр должен быть логичным продолжением предыдущего. Современные модели, такие как Sora от OpenAI или Lumiere от Google, больше не генерируют видео по кадрам. Вместо этого они работают с видео как с единым «кубом» данных, где есть три измерения: ширина, высота и время. Модель обучается сразу на последовательностях кадров, выявляя скрытые паттерны движения. Давайте разберем на примере простого промпта: «Мяч отскакивает от пола». Модель, обученная
Художник без здравого смысла: почему нейросеть путает физику в видео
7 февраля7 фев
2 мин