Команда ERNIE из Baidu выпустила NAVA — открытую модель, которая умеет создавать синхронизированные аудио и видео по одному текстовому запросу. Это не просто генерация картинки или озвучки: модель формирует полноценные 720p-видео со звуком примерно за минуту, причём поддерживает сразу несколько говорящих персонажей, каждому из которых можно задать индивидуальный голос через WAV-файлы. В отличие от многих аналогов, NAVA не требует отдельного вокодера и этапа пост-выравнивания аудио и видео — всё делается внутри одной системы. Управлять композицией кадра, движением и темпом можно прямо через текстовый промпт. Модель поддерживает разные форматы видео (горизонтальный, вертикальный, квадратный) из одного чекпоинта, что удобно для разных платформ. В основе NAVA лежит Wan2.2-TI2V-5B, а сама модель насчитывает 6,3 млрд параметров и работает на 8 GPU с использованием Ulysses sequence parallel. По результатам тестов на Verse-Bench она превосходит конкурентов, которые в 2–5 раз больше по размеру.