Apple представила STARFlow-V – модель для генерации видео, у которой, в отличие от популярных сейчас решений вроде Veo, Sora, Kling и остальных диффузионных систем, в основе лежит другой подход (normalizing flows). Вместо многократного добавления и очистки шума здесь сразу моделируют, каким должен быть следующий кусок ролика. Одна и та же модель из текста генерирует видео, может «оживлять» статичные изображения и изменять уже готовые клипы. По качеству она пока не дотягивает до флагманов рынка, и Apple этого не скрывает, ведь задачей было в принципе доказать, что архитектура рабочая. Один уровень модели следит за тем, чтобы видео оставалось последовательной историей: объекты не исчезали из кадра, персонажи не «телепортировались», сцена менялась плавно. Другой уровень отвечает за внешний вид каждого кадра: текстуры, свет, мелкие детали. Модель двигается по ролику от начала к концу и на каждом шаге опирается только на уже созданные кадры, а не на «подсказки» из будущего. Чтобы результат