7375 подписчиков

NVIDIA показала ИИ-модель, по описанию создающую минутные мультфильмы в духе «Тома и Джерри»

11 апреля 202511 апр 2025

1 мин

Команда специалистов компании NVIDIA совместно с исследователями из Стэнфордского университета представила нейросетевую модель Test-Time Training (TTT). Разработанная модель способна генерировать анимационные видео продолжительностью около минуты, в которых присутствует сюжетная линия, действия персонажей и визуальное развитие событий. Для демонстрации потенциала этой технологии был выбран мультфильм «Том и Джерри». Исследователи обучили ИИ на материалах оригинальных серий, и теперь он может самостоятельно воспроизводить короткие эпизоды в том же стиле. Новая серия формируется по текстовому описанию, где подробно описывается, что должно произойти на экране. Как отметил один из авторов проекта, при просмотре сгенерированных видео заметны визуальные огрехи. Объекты и герои в некоторых кадрах могут временно менять форму, что связано с ограниченностью вычислительных мощностей. Представитель команды разработчиков, подчеркнул, что текущая версия модели использует только 5 млрд параметров. По

Для демонстрации потенциала этой технологии был выбран мультфильм «Том и Джерри». Исследователи обучили ИИ на материалах оригинальных серий, и теперь он может самостоятельно воспроизводить короткие эпизоды в том же стиле. Новая серия формируется по текстовому описанию, где подробно описывается, что должно произойти на экране.

Как отметил один из авторов проекта, при просмотре сгенерированных видео заметны визуальные огрехи. Объекты и герои в некоторых кадрах могут временно менять форму, что связано с ограниченностью вычислительных мощностей.

Представитель команды разработчиков, подчеркнул, что текущая версия модели использует только 5 млрд параметров. По его словам, при увеличении ресурсов возможно добиться значительно более выразительного и стабильного результата.

Исследователи добавили, что пока сосредоточились на роликах продолжительностью до одной минуты. По словам экспертов NVIDIA, методика легко масштабируется, в частности, с тем же подходом можно создавать более протяжённые видео с развитой сюжетной структурой и большим числом сцен.

Отдельно отмечается, что все ролики, опубликованные в рамках демонстрации, представлены без дополнительной доработки или монтажа. Это указывает на чистоту эксперимента и демонстрирует, на что способна модель прямо «из коробки».

Проект доступен для всех желающих — на платформе Github выложен открытый код. Также опубликованы примеры видео и подробное техническое описание модели [PDF].

Ещё по теме:

О кино и сериалах

672,2 тыс интересуются