Компания Google завершила разработку технологии Tacotron второго поколения, позволяющей преобразовывать текст в речь. Поисковый гигант уже многие годы работает над совершенствованием машинной речи для своих сервисов вроде Google Assistant, «Переводчик», «Карты» и другие. Инженерам Google удалось добиться такого результата, что теперь синтетическую речь сложно отличить от человеческой. Новая технология учитывает пунктуацию, правильно расставляет ударения, а слова, начинающиеся с заглавной буквы, будь то имена, названия городов или ещё что-то, выделяются, так как они являются важной частью предложения. Для достижения такого результата используется две нейронные сети. Первая превращает обычный текст в спектрограмму — визуальное представление звуковых частот. Полученный результат отправляется во вторую сеть под названием WaveNet, разработанную британской компанией DeepMind, которая занимается изучением искусственного интеллекта. Она и выполняет все последующие операции. WaveNet уже исполь
Google сумела максимально точно синтезировать человечный голос
4 января 20184 янв 2018
1
1 мин