Добавить в корзинуПозвонить
Найти в Дзене
Tidoomer

Голос в твоём телефоне, который не даёт заблудиться

Привет,
дружище. Ты когда-нибудь задумывался, как это работает? Вот ты едешь в
машине, или идёшь по улице, включаешь карту, а тебе вдруг кто-то
говорит: "Через сто метров поверните налево". Ты, конечно, слушаешь и
делаешь, но вот откуда взялся этот голос? Это и есть та самая Voice
Guidance или, если по-нашему, голосовое сопровождение. Это штука,
которая превращает текст на экране в живую речь.
Самое простое,
это когда заранее записывают все возможные фразы. Ну, вроде "поверните
направо", "поверните налево", "поверните на север", "через сто метров" и
так далее. Всё это просто набор звуковых файлов, как в игре или в
старом навигаторе. И когда приходит время дать тебе подсказку, программа
просто выбирает нужные файлы и соединяет их вместе. Например, сначала
проигрывает "через" потом "сто метров" а потом "поверните налево". Как
конструктор. Это самый простой и надёжный способ, но из-за него голос
звучит немного дёргано и неестественно, потому что он склеен из разных
кусочк


Голос в твоём телефоне, который не даёт заблудиться
Голос в твоём телефоне, который не даёт заблудиться

Привет,
дружище. Ты когда-нибудь задумывался, как это работает? Вот ты едешь в
машине, или идёшь по улице, включаешь карту, а тебе вдруг кто-то
говорит: "Через сто метров поверните налево". Ты, конечно, слушаешь и
делаешь, но вот откуда взялся этот голос? Это и есть та самая Voice
Guidance или, если по-нашему, голосовое сопровождение. Это штука,
которая превращает текст на экране в живую речь.

Самое простое,
это когда заранее записывают все возможные фразы. Ну, вроде "поверните
направо", "поверните налево", "поверните на север", "через сто метров" и
так далее. Всё это просто набор звуковых файлов, как в игре или в
старом навигаторе. И когда приходит время дать тебе подсказку, программа
просто выбирает нужные файлы и соединяет их вместе. Например, сначала
проигрывает "через" потом "сто метров" а потом "поверните налево". Как
конструктор. Это самый простой и надёжный способ, но из-за него голос
звучит немного дёргано и неестественно, потому что он склеен из разных
кусочков.

Но есть и более сложная технология. Её используют
современные приложения, когда нужен полный, красивый голос, а не просто
набор фраз. Это называется текст-в-речь или Text-to-Speech (TTS). Суть в
том, что программа берёт текст, анализирует его, разбивает на части и
начинает синтезировать, то есть создавать звук для каждой буквы и слога.
При этом она учитывает интонацию, ударения, и даже паузы. И на выходе
получается голос, который звучит почти как настоящий. Это намного круче,
потому что приложение может озвучить что угодно, а не только то, что
заранее записали.

Вот, например, если навигатор должен сказать
тебе название улицы, он его не проигрывает из записи, он его синтезирует
прямо на ходу, используя TTS. И это очень удобно, потому что не нужно
записывать миллионы названий улиц и городов. То же самое с голосовыми
помощниками, такими как Siri или Google Assistant. Они тоже используют
эту технологию, чтобы отвечать на твои вопросы. Ты задаёшь вопрос,
программа ищет ответ в тексте, а потом этот текст мгновенно превращает в
голос.

Это очень важная штука для того, чтобы пользоваться
электроникой, не глядя на экран. Ты можешь ехать на машине, и тебе не
нужно отвлекаться, чтобы посмотреть, куда повернуть. Или ты можешь быть
на пробежке, и тебе не нужно доставать телефон, чтобы переключить песню.
Всё это делает жизнь удобнее и безопаснее.

Так что, в следующий
раз, когда услышишь голос из навигатора, знай, что за ним стоит довольно
сложный процесс. Это либо заранее записанный набор звуков, либо целая
технология, которая в реальном времени создаёт голос из текста. Это
такой маленький, но очень важный компонент, который делает нашу жизнь
проще.