Год назад браузер Яндекса научился делать закадровый перевод для иностранных роликов на YouTube: голосовая озвучка доступна для видео на 5 разных языках. Теперь нейросети научились распознавать речь разных спикеров одного пола по тембру и озвучивать их разными голосами. До этого алгоритмы умели только определять по голосу, кто перед ними - мужчина или женщина. В принципе, уже этого было достаточно, чтобы спокойно посмотреть иностранный влог или анбоксинг на русском. Сложнее было воспринимались ролики, где в кадре говорят несколько человек, и вот проблему решили. В целом механизм работы не изменился: одна нейросеть переводит речь в текст, другая – расставляет знаки препинания и определяет границы предложений, третья – анализирует аудио и отмечает, кто и что сказал. А потом соотносит эти фрагменты с оригинальными фразами и сверху накладывает русский дубляж, учитывая количество людей в кадре. Не сказали бы, что это равноценная замена проф переводу, но если есть необходимость посмотре