Народ, всем привет. Сегодня технологии распознавания речи стали вполне доступными и по-настоящему полезными. Понятно, что они помогают переводить голос в текст, будь то интервью, лекции, подкасты или просто голосовые заметки. И это может быть действительно полезным, причем как в развлекательных или учебных целях, так и в работе. Записав важное совещание или общение с клиентом, потом всегда можно вернуться к важным пунктам в текстовом формате. А это намного удобнее и быстрее.
Плюс это сильно экономит время при записи идей или планов, для составления списков, заметок или статей «на ходу». Да и эту статью я сейчас диктую голосом, тестируя одну из нижеперечисленных программ. И да, сегодня мы рассмотрим четыре разных сервис, со всеми минусами и плюсами. Так что погнали.
Чтобы проверить возможности, я записал вступление к этой статье на разных сервисах и посмотрел, что из этого получиться. Различных «шлак» я сразу отмел, даже говорить о нем не буду. По сути, нам важна точность распознавания слов, грамотность текста, работа с пунктуацией и интонацией. Ну и удобство использования, чтобы шумы не мешали и прочее.
Google Keep
Начал я с него, так как Google Keep довольно популярное приложение для заметок, причем установленное по умолчанию на многих Android’ах. Оно позволяет диктовать текст голосом прямо в заметку. В теории это очень удобно, открыл, надиктовал, сохранил. Плюс есть интеграция с другими сервисами Google.
На практике не вес так радужно. Пауза в 2–3 секунды и диктовка автоматически прерывается, поэтому «подумать» не получиться. И по факту подходит только для коротких заметок, придумал, сказал, записалось, все. Для длинных текстов и лекций не подойдет точно. Еще полностью отсутствует пунктуация, ни точек, ни запятых. Как итог, годится только для быстрых и коротких заметок вроде списка покупок или идеи на бегу. Расшифровывать интервью или запись разговора точно не вариант.
Если Вам нравятся наши статьи, и вы хотите отблагодарить автора (на развитие канала), нам будет очень приятно!
SpeechText.ai
SpeechText.ai это уже специализированная платформа, созданная именно для распознавания аудио. Она работает с загруженными аудиофайлами (не с голосовой диктовкой) и умеет довольно точно распознавать речь, добавляя знаки препинания и делая текст структурированным. Программа хорошо «чувствует» интонации, делит фразы на предложения, учитывает знаки препинания (в том числе вопросительные). В общем тут вне конкуренции, не идеально, конечно, но вес же.
Из минусов можно выделить только то, что он не работает, скажем так, «онлайн». То есть вы вначале должны наговорить что-то, записать куда-то, скажем, на телефон, а уже потом сам аудиофайл загрузить в программу. и по факту это полная противоположность Keep’у, тут быстро заметки на бегу сделать не получиться (ну ибо потом их надо перекачивать все и т.д.), но отлично подойдет для записи разговора или лекции.
Ну и есть еще один жирный минус, она платная. Там пробная версия на 20 минут аудио, а дальше все, плати. Но все же это один из лучших по качеству сервисов, которые я нашел, но подойдет только тем, кто готов платить и кому это реально нужно. Просто так «про запас» не получится.
Кстати, Вам может быть это интересно:
ВКонтакте
Кто не знал, но в приложении ВКонтакте тоже есть функция автоматической расшифровки голосовых сообщений. Вы можете, например, отправить сообщение себе и получить текст. Это удобно для быстрой записи ваших мыслей, особенно если вы не хотите печатать. При этом оно работает сразу, прямо в приложении, довольно быстро расшифровывает короткие голосовые.
Но проблемы все того же Google Keep остаются, приложение часто путает слова, пунктуация оставляет желать лучшего, и он не справляется с длинными или сложными предложениями. Как итог, работает только для простых задач, и уж точно не стоит ожидать от него академической точности.
Telegram-бот SaluteSpeech от Сбера
Этот бот работает прямо в Telegram и предлагает два формата, можно надиктовать текст или загрузить аудиофайл. Бот умеет распознавать MP3-файлы (правда только до 20 МБ) и выдает довольно точный результат. По факту он довольно прост в использовании, поддерживает как диктовку, так и аудиофайлы. Довольно неплохо расставляет знаки препинания и почти не делает ошибок.
Из минусов это все тот же формат MP3, а не все диктофоны умеют писать в этот формат и надо делать переконвертацию. Плюс 20 мб довольно мало. поэтому это что-то среднее среди приложений выше.
Что по итогу? Ну, если вы ищете простой, быстрый и бесплатный способ перевести речь в текст, то попробуйте Telegram-бот от Сбера. Если работаете с большим количеством аудио и готовы платить за качество, то смело выбирайте SpeechText.ai. А вот Google Keep и ВКонтакте пока больше про удобство, чем про точность.
Кстати, у нас есть и другой канал, FIT FOR FUN, про фитнес, бодибилдинг, правильное питание, похудение и ЗОЖ в целом. Кому интересно, ждем вас в гости!