Ещё год назад сгенерировать 10-секундный ролик приличного качества стоило реальных денег и требовало платной подписки. Теперь появилась открытая модель, которая выдаёт 60 секунд видео в 720p из одной строки текста — и её можно запустить на собственном сервере. Речь о SANA-WM от исследователей NVIDIA: 2,6 миллиарда параметров, открытые веса, бесплатный доступ. Разберём, что это значит на практике и кому это реально полезно. Большинство коммерческих сервисов для генерации видео работают по принципу предсказания кадров: модель смотрит на предыдущий кадр и предсказывает следующий. Это работает для коротких клипов, но при длине больше 10–15 секунд начинается деградация: объекты «плывут», лица меняются, детали исчезают. SANA-WM относится к классу «мировых моделей» (world models). Такая модель строит внутреннее представление о сцене — понимает физику объектов, пространственные отношения, логику движения. Результат: Это принципиальное отличие, а не маркетинговое. Посмотрите на результаты генер