Компания NVIDIA представила новый навык фирменной нейросети, выпустив ИИ-модель под названием text2video. В отличие от многочисленных генераторов картинок, она умеет создавать короткие анимационные ролики, основываясь как на простых, так и более сложных текстовых описаниях.
Сейчас нейросеть, созданная на базе наработок Stable Diffusion, может генерировать видео с максимальным разрешением 2048x1280 пикселей на скорости 24 fps, а их длительность не превышает четырёх секунд. Известно, что пока количество её параметров невысоко (около 4,1 миллиарда), но результаты работы, опубликованные на сайте проекта, даже в «сыром» виде выглядят впечатляюще.
В компании отмечают, что на сегодня text2video ещё находится на стадии разработки и тестирования, поэтому дата её выхода в публичный доступ пока не названа.