Добавить в корзинуПозвонить
Найти в Дзене

Runway превратил любую картинку в говорящего персонажа в реальном времени

Runway выпустил Characters — инструмент, который берёт одно изображение и превращает его в разговорного видеоперсонажа в реальном времени. Подходит для любого стиля: реалистичный человек, мультяшный персонаж, маскот бренда, фэнтезийное существо. Технически видео генерируется на 24 кадрах в секунду, модель тратит 37 миллисекунд на каждый кадр. От момента, когда пользователь заканчивает говорить, до первого кадра ответа персонажа проходит 1.75 секунды на стороне сервера. Дообучения не требуется, достаточно одной картинки. Под капотом стоит GWM-1, собственная General World Model от Runway. Кадры генерируются последовательно и стримятся клиенту по мере готовности, а не рендерятся целым клипом. Диффузионный трансформер и VAE-декодер работают параллельно: пока декодируется предыдущий кадр, генерируется следующий. Что можно подключить к персонажу: загрузить базу знаний из своих документов, клонировать голос из аудиосэмпла или создать его из текстового описания, настроить вызов внешних инст

Runway превратил любую картинку в говорящего персонажа в реальном времени

Runway выпустил Characters — инструмент, который берёт одно изображение и превращает его в разговорного видеоперсонажа в реальном времени. Подходит для любого стиля: реалистичный человек, мультяшный персонаж, маскот бренда, фэнтезийное существо.

Технически видео генерируется на 24 кадрах в секунду, модель тратит 37 миллисекунд на каждый кадр. От момента, когда пользователь заканчивает говорить, до первого кадра ответа персонажа проходит 1.75 секунды на стороне сервера. Дообучения не требуется, достаточно одной картинки.

Под капотом стоит GWM-1, собственная General World Model от Runway. Кадры генерируются последовательно и стримятся клиенту по мере готовности, а не рендерятся целым клипом. Диффузионный трансформер и VAE-декодер работают параллельно: пока декодируется предыдущий кадр, генерируется следующий.

Что можно подключить к персонажу: загрузить базу знаний из своих документов, клонировать голос из аудиосэмпла или создать его из текстового описания, настроить вызов внешних инструментов (например, получение статуса заказа), включить видение через камеру или расшаринг экрана. Персонаж также подключается к Zoom, Google Meet и Teams.

Встроить на сайт можно одной строчкой кода. Доступно через API Runway и в веб- и мобильном приложениях. Осталось только посчитать сколько токенов это все будет сжирать.

@bykorolev