Компьютеры, читающие по губам, могут означать конец плохо дублированных фильмов

22 октября 201922 окт 2019

1 мин

Обычный дубляж основан на сопоставлении речевых звуков — фонем - с формой губ актера, когда он или она говорит, известные как висемы, - «визуальная фонема». Это тяжелая работа, требующая умных сценариев и умелого художника по вокалу, и аудитория очень быстро обнаруживает, когда это не совсем правильно.

Анализируя последовательность форм, сделанных губами, и загружая все это в компьютер, технология может автоматически создавать новые фразы, которые идеально соответствуют рту актера — буквально помещая слова в рот.

Оказывается, например, что фраза «чистые образцы» визуально такая же, как и «более умные дураки», «не нуждаются в горшках» и «любят наблюдать за тобой»

«Динамические висемы являются более точной моделью визуальной артикуляции ре

Используя другой подход к проблеме, исследователи из Disney Research и Университета Восточной Англии проанализировали движения губ во время речи, а не просто смотрели на отдельные статические снимки. Эти движения известны как «динамические висемы».
Анализируя последовательность форм, сделанных губами, и загружая все это в компьютер, технология может автоматически создавать новые фразы, которые идеально соответствуют рту актера — буквально помещая слова в рот.

Оказывается, например, что фраза «чистые образцы» визуально такая же, как и «более умные дураки», «не нуждаются в горшках» и «любят наблюдать за тобой»
«Динамические висемы являются более точной моделью визуальной артикуляции речи, чем обычные висемы», - говорит ведущий исследователь Сара Тейлор. «[Они] могут генерировать визуально правдоподобные фонетические последовательности с гораздо большим языковым разнообразием».

Поскольку компьютеры могут выполнять всю тяжелую работу самостоятельно, это должно облегчить убедительное дублирование - поэтому плохо дублированные фильмы не будут оправданием.
Около 90 процентов движений губ в речи может быть дано более чем одним звуком с помощью этого метода, открывая тысячи возможностей для одной фразы.

«Эта работа подчеркивает крайнюю степень неопределенности в распознавании речи только на визуальном уровне», - говорит Тейлор.
Хотя, если бы вы пытались читать по губам, она могла бы сказать еще 100 тысяч.