Итак. Мы в studiorec.ru протестили нейросеть HeyGen, которая, по восторженным отзывам, переводит видео с любого языка на любой, да так, что не отличить от оригинала. Ну типа, закидываешь в нейронку свой YouTube видео на русском, а она тебе всё делает на инглише. Никаких тебе транскрибаций-переводов-укладок-озвучек. Мол, 2 движения и всё готово. Сказка ведь! Наверное. Да только не всегда со счастливым концом.
Пример. Пришёл клиент с запросом переозвучить канал на Youtube. От живых дикторов отказался. На видео - качественно сделанное видео о luxury рыбалке с яхты в водах одной из арабских стран. Музыка, видео, действующие лица - всё шикарно. Закидываем в нейронку видео, начинаем работать. Первое впечатление - долго и дорого. Обработка идёт несколько часов, к тому же платная версия нейронки, стОит, прямо скажем, немало. Счёт идёт на сотни баксов, причём каждая новая генерация - если что - платная. Казалось бы - за такие деньги всё должно пройти как по маслу, но сразу после генерации оказывается, что эта зараза переозвучила не только главных героев, но и саундтреки в видео. На свой, нейро-манер.
Ок, думаю, если что - на монтаже потом заменим эти места на исходник. Идём дальше. На переднем плане - герой канала, рассказывает о рыбалке. Согласно заявлению компании HeyGen, нейросеть делает полный липсинк, делая не только озвучку голосом героя, но даже меняя положение губ так, как будто он изначально говорит на английском. Местами попадание есть. Только если герой не двигается. Но как только он поворачивает голову влево-вправо, всё сбивается, губы-лицо размазывается и получается чёрти что. Выглядит удручающе. Ну, ок, думаю, на монтаже, где то подрежем, где то заменим, в общем, решим вопрос по старинке. И тут вылезает новая проблема. Если герой на видео молчит, а на заднем плане звучит закадр, то у героя начинают шевелиться губы. Выглядит забавно, конечно, но еще добавляет геморроя. Снова перемонтаж ручками... А еще бывает, что нейросеть путает голос, и, если на экране двое, губы шевелятся не у того, кто говорит на самом деле. Или, если на фоне - музыка, то нейронка переодически сходит с ума и добавляет в видео какие то бессмысленные фразы, которых там нет.
В общем, ожидалось, что всё будет быстро, просто и качественно. В итоге, промудохавшись с получасовым видео 2 дня, мы в studiorec.ru пришли к выводу, что нейросеть HeyGen работает (условно) корректно только при условии, что:
На экране 1 человек, лицо которого всё время на переднем плане, он почти не двигается, на фоне нет лишних звуков и музыки, аудио и видео чёткое, и человек не говорит сложных аллегорий или словесных оборотов, которые нейросеть переведёт на свое усмотрение.
Годнота? Не думаю. Плюс нашёл только один. Голос и манеру говорящего копирует почти точно. Стоит ли своих денег? Точно нет.
#нейросети #heygen https://t.me/zvukodel