Найти тему
Журнал «Амбиверт»

Переводчик Google научился имитировать речь пользователя

Google представил новую версию Translate. Теперь приложение может напрямую переводить речь с одного языка на другой, сохраняя при этом голос и темп речи говорящего. Об этом сообщает EnGadget.

В новой версии Translate компания отказалась от технологии перевода речи в текст, а затем озвучивания ее. Такой подход часто приводит к ошибкам при переводе. Вместо этого речь говорящего напрямую переводится с одного языка на другой. Разработанная компанией нейросеть принимает голосовой ввод, обрабатывает его как спектрограмму — визуальное представление частот — и генерирует на ее основе новую спектрограмму на целевом языке.

Для обучения исследователи использовали два больших датасета, содержащих записи разговоров на английском и испанском, а также их текстовое представление. Во время обучения алгоритм выполнял еще одну задачу, которую разработчики называют критически важной для того, чтобы научить его переводить не только отдельные простые слова, но и целые предложения. Алгоритм предсказывал текстовые последовательности фонем на обоих языках. Во время работы эта часть алгоритма не используется и лишь помогает обучить нейросеть корректному созданию спектрограмм.

Переведенная речь все еще звучит немного роботизированной, однако компании удалось добиться того, что ИИ считывает и воспроизводит некоторые особенности речи говорящего. Послушать, как звучит выполненный алгоритмом перевод с одного языка на другой, можно здесь.