519 подписчиков
Графические нейросети только недавно начали относительно уверенно создавать видео по текстовому описанию, а разработчики уже тестируют следующий способ генерации: Img2Vid, или Image to Video, "видео по картинке".
В определённом смысле добавлять анимацию к уже существующему изображению должно быть проще, чем рисовать всё с нуля — хотя я не нейросеть, не мне судить. Анимация пока получается очень простой, зато ошибок построения в ней намного меньше, чем при генерации по текстовому описанию (и неудивительно).
Потестировать новый способ создания видео можно на платформе Huggingface. Генератор видео Stable Video Diffusion, разработанный компанией Stability AI, работает на основе её последней модели Stable Diffusion XL (SDXL), поэтому пропорции кадра соответствуют SDXL и составляют 1024 x 576 пикселов, или 4:3. Выбирая исходное изображение, учитывайте этот момент. Загружаете ваше изображение в левое окно, жмёте кнопку Generate и ждёте от одной до сорока минут, в зависимости от очереди желающих. Максимально в очереди могут стоять двадцать заявок, поэтому, если вы окажетесь двадцать первым, может появляться сообщение об ошибке. Подождите пару минут и попробуйте ещё раз. На выходе получаете трёх- или четырёхсекундный ролик, в зависимости от настроек.
В настройках, которые открываются при нажатии на Advanced options, можно выбрать количество добавляемой анимации (ползунком Motion Bucket id) и количество кадров в секунду (ползунком Frames per second). Чем больше анимации добавлено, тем потенциально эффектнее будет клип, но при этом выше вероятность появления ошибок. Длительность ролика определяется делением 25 на выбранное вами число кадров. Например, при 6 кадрах в секунду получите — 25:6 — около четырёх секунд анимации.
В прикреплённом видео — несколько примеров. Все исходные изображения были созданы на платформе Leonardo AI при помощи моделей на основе SDXL, кроме последнего: это настоящая фотография Елисейских полей в Париже.
1 минута
29 ноября 2023