Разработчики из ElevenLabs выпустили крупное обновление своей системы автоматического дубляжа под названием Dubbing v2. Главное технологическое изменение касается принципа обработки звука. Раньше нейросеть работала по стандартной цепочке: сначала распознавала речь и превращала ее в текст, затем переводила этот текст на нужный язык и озвучивала полученный результат искусственным голосом. При такой схеме полностью терялись все актерские нюансы, шепот, крики, смех, вздохи или драматические паузы спикера, а финальный голос звучал чисто, но монотонно и неестественно для живого видео.
Теперь в версии v2 нейросеть анализирует не текстовую расшифровку, а напрямую оригинальную аудиодорожку. Это позволяет копировать интонации, темп речи, эмоциональную подачу и энергетику человека при переводе на десятки других языков. Система считывает звуковую волну оригинала, фиксирует эмоциональные пики и пытается воспроизвести эту же манеру речи на целевом языке, полностью сохраняя уникальный тембр, хрипотцу и узнаваемость голоса исходного спикера.
Основные возможности новой модели дубляжа
Автоматическое выравнивание по времени. Алгоритм самостоятельно подбирает слова и синонимы так, чтобы фраза на новом языке начиналась и заканчивалась одновременно с оригинальной речью в кадре. Это решает главную проблему локализации контента и значительно уменьшает необходимость ручной подгонки дорожек под мимику и артикуляцию персонажа в сложных видеоредакторах.
Поддержка более 90 языков и диалектов. Система способна переводить контент в самых разных языковых парах, сохраняя региональные особенности произношения и клонируя голос под нужные стандарты локализации без потери качества звука.
Умное разделение аудиослоев. Нейросеть самостоятельно отделяет человеческий голос от фоновой музыки, шума улицы, интершумов или спецэффектов. Она переводит только речевую составляющую, а затем собирает финальный аудиофайл обратно, аккуратно подкладывая оригинальный фоновый звук под новую озвучку.
Ограничения использования и лицензия
В правилах использования новой модели прописаны строгие юридические ограничения. Результаты работы Dubbing v2 без специальной коммерческой лицензии и прямого согласования с компанией нельзя использовать в полнометражных художественных фильмах, телевизионных сериалах, масштабных стриминговых проектах крупных платформ и кинотеатральных релизах. Модель ориентирована в первую очередь на независимых контент-креаторов, блогеров, маркетологов, авторов каналов и образовательные проекты, которые масштабируют свои материалы.
Где и как протестировать инструмент
Весь функционал уже доступен в личном кабинете на официальном сайте платформы по адресу elevenlabs.io в разделе Dubbing. Для работы с инструментом нужно выполнить несколько простых шагов. Сначала необходимо зайти в раздел Dubbing в главном меню управления аккаунтом. Затем загрузить исходный видео- или аудиофайл с компьютера либо просто вставить прямую ссылку на нужный ролик с популярных платформ YouTube или TikTok.
После этого нужно выбрать исходный язык видео и язык, на который необходимо перевести контент. В дополнительных настройках можно отрегулировать параметр сходства голоса (Speaker Similarity), который напрямую отвечает за точность клонирования оригинального тембра спикера. На финальном этапе запускается процесс генерации, и после завершения обработки готовый файл с новой аудиодорожкой можно прослушать прямо в браузере и скачать на свое устройство.
Текущие лимиты и промо-акция
В связи с официальным запуском обновления разработчики временно расширили лимиты на использование новой модели для всех существующих тарифных планов. В течение первой недели после релиза пользователи бесплатного тарифа получают 1 минуту бесплатного дубляжа по технологии v2 для оценки качества. Владельцам тарифа Starter доступно 15 минут, а на тарифах Creator и выше выделено по 30 минут для полноценного тестирования возможностей системы перевода. Запуск автоматического дубляжа через API для интеграции в сторонние сервисы планируется добавить в ближайших будущих обновлениях платформы.