Пару лет назад журналисты, редакторы и маркетологи переводили записи интервью и рабочих встреч вручную или использовали бесплатные сервисы транскрибации аудио, а также встроенные функции расшифровки в некоторых программах. Например, Speechpad — самостоятельный сервис, который работает на бесплатной основе. А у Google Docs есть встроенная опция перевода голоса в текст.
С развитием искусственного интеллекта появилась платная ai транскрибация, которая дает расширенные возможности и повышенную точность. Стоит ли переходить на такой вид транскрибации, если все еще существуют бесплатные программы — помогаем разобраться в статье.
Сравнение бесплатных сервисов: кто точнее и быстрее
Бесплатные сервисы хороши, если расшифровка совещаний, интервью и выступлений длиной час и больше — это не про вашу работу. Точность и грамотность у них хуже, чем у платных, большинство переводят аудио в текст по ходу воспроизведения, то есть загрузить готовый файл и моментально получить результат не получится. Но в рамках несложных задач на 10-20 минут, это может быть не так критично.
Google Docs
Сервис для работы с документами в режиме онлайн. Все свои статьи для Дзена мы сначала печатаем именно тут. Кроме функции печатания, внутри есть микрофон, с помощью которого можно сделать транскрибацию. Создаете документ, заходите в инструменты на панели вверху, выбираете «голосовой набор», включаете запись с телефона или диктофона и идете по своим делам, пока Google делает свою работу.
Плюсы:
- Бесплатно.
- Текст сохраняется автоматически в документе.
- Удобно редактировать материал без перехода в другие сервисы.
Минусы:
- Медленная автоматическая расшифровка аудио. Если у вас запись от часа и длиннее, то придется подождать, так как текст транскрибируется по ходу воспроизведения аудио и делает это не быстро.
- Точность распознавания невысокая. Надиктовка должна быть очень четкой, как на скрине ниже, чтобы правок было меньше. Чтобы поставить точки и запятые, нужно проговаривать их вслух, будто диктуешь телеграмму.
- Нельзя загружать файлы или включать аудио в соседней вкладке. Подойдет только запись с другого устройства, которое лежит рядом, или самостоятельная надиктовка.
- Нет разделения на спикеров и тайм-кодов. Расшифровать интервью неудобно, на выходе получается полотно текста без знаков препинания.
Speechpad
Голосовой блокнот для преобразования речи в текст, который можно установить на компьютер или телефон.
Плюсы:
- Бесплатно.
- Удобно использовать с разных устройств.
- Воспринимает звуки с соседних вкладок и позволяет загружать файлы.
- Результат транскрибации аудио можно скачать.
Минусы:
- Низкая точность, качество звука должно быть на высоте, иначе часть текста пропадет.
- Не ставит знаки препинания.
- Расшифровка аудио в текст происходит во время его воспроизведения, поэтому получить результат за пару минут не получится.
- Нет тайм-кодов и разделения на спикеров.
- Очень неудобный и непонятный интерфейс страницы.
Google Keep
Приложение для заметок, с помощью которого можно преобразовать голос в текст. Для этого есть кнопка микрофона. Отличие от предыдущих в точности перевода речи в текст.
Плюсы:
- Бесплатно.
- Хорошо распознает слова.
- Удобно редактировать сразу же в заметках, можно отправить текст в Google Docs и редактировать там.
Минусы:
- Не ставит запятые.
- Нет разделения на спикеров и тайм-кодов, больше подходит для самостоятельных заметок.
- Запись останавливается, если молчать 2-3 секунды, приходится постоянно перезапускать микрофон, из-за чего можно упустить важные слова и потерять время.
- Нельзя загрузить файл, расшифровка только в режиме реального времени.
Telegram Premium
Да, это платный тариф мессенджера Телеграм, но мы не могли обойти его стороной, так как точность расшифровки лучше, чем у сервисов выше. Записываете аудио себе в избранное или специально создаете чат для таких целей. После записи нажимаете на букву «А» рядом с голосовым сообщением для его транскрибации.
Плюсы:
- Достаточно высокая точность. Расставляет запятые, распознает числа, может незначительно искажать слова.
- Если вам нужно получить какие-то сухие факты в качестве ответов на ваши вопросы, то достаточно попросить интервьюируемого записать голосовое на каждый вопрос.
- Текст можно копировать для дальнейшей редактуры.
Минусы:
- Загружать файлы нельзя, расшифровка аудио происходит по ходу воспроизведения.
- Длинные аудио не переводит. Преобразовать голос в текст можно только в течение первых 20 минут сообщения.
- Платный в сравнении с описанными выше сервисами.
Speech2Text
Условно платный онлайн-сервис для перевода аудио- и видеоматериалов в текст с тестовым периодом.
Плюсы:
- Бесплатный период.
- Можно загружать аудио и видео, а также вставлять ссылки на диск или Ютуб.
- Высокая точность транскрибации.
- Есть разделение на спикеров и тайм-коды.
Минусы:
- Время распознавания полуторачасовой записи составляет 21 минуту.
- Бесплатных всего 180 минут, дальше от 450 рублей в месяц, что равно 6 часам аудио для распознавания в месяц.
Transcribe
Условно бесплатный сервис, который предлагает тестовый период перед покупкой. Сервис англоязычный, но поддерживает русский язык.
Плюсы:
- Точность равна 90%.
- Можно загружать файл с ПК или облака.
- Есть тайм-коды и разбивка на спикеров.
- Поддерживает 80 языков.
Минусы:
- Бесплатно можно расшифровать только 30 минут записи, кроме того сервис не дает перевести запись целиком — за один раз можно транскрибировать только 1 минуту.
- Есть ограничения по весу и длине файла.
- Так как это зарубежный сервис, то принимаются только зарубежные карты для оплаты тарифа.
Нельзя сказать, что все представленные бесплатные программы и сервисы работают плохо. Для заметок, например, прекрасно подойдет бесплатный Google Keep или недорогой Telegram. Если говорить о задачах посложнее, то стоит смотреть в сторону условно платных сервисов. Проблема в том, что у многих хорошая точность, но низкая скорость или наоборот. Плюс довольно короткий тестовый период, чтобы понять, что к чему. Плюсы убиваются минусами.
AI-транскрибаторы последнего поколения сочетают в себе и скорость, и точность, и возможность расшифровывать длинные записи с разбивкой на спикеров. Рассмотрим на примере сервиса Charla, который работает с помощью искусственного интеллекта (artificial intelligence, AI).
Сервис для быстрой и точной транскрибации длинных аудио
Charla использует ИИ для транскрибации, который обучается на больших объемах текстовых данных, чтобы понимать устную речь и преобразовывать ее в текст.
Кроме точности, одно из главных преимуществ для редакторов, журналистов, маркетологов и менеджеров проектов — скорость. ИИ расшифровка аудио в текст от Charla занимает 2 минуты при длине аудио в 1 час. А 5 часов сервис конвертирует за 7 минут. Если вернуться к сервисам выше, то они транскрибируют текст либо по ходу воспроизведения записи, либо короткими кусками, либо минут на 5-10 дольше. Плюс не везде есть возможность загрузки готового аудио.
Чем полезна Charla для специалистов и компаний из разных сфер:
- Точность расшифровки — 93%. Расшифровать интервью можно с минимальными правками, которые займут минуты, а не часы. Важно, что сервис расставляет знаки препинания самостоятельно и делает это с высокой грамотностью.
- Загрузка длинных и больших файлов. Бесплатные сервисы Google могут долго, но не очень внимательно, слушать вашу расшифровку. А вот у многих условно бесплатных сервисов есть ограничения, например, до 6 000 Мб и 420 минут.
- Разбивка на спикеров, абзацы и тайм-коды. Вместо полотна текста вы получаете структурный материал, который легко и понятно читать.
- Запись экрана. Есть возможность записывать аудио или демонстрацию экрана прямо в сервисе, пока вы проводите встречу. Практически уникальная функция, которую точно не встретишь в бесплатных сервисах.
- Транскрибация видео. Можете загружать не только аудио, но и видео.
- Удобные тарифы. Если вам нужно регулярно расшифровывать интервью, трансляции или превращать видео- и аудио в текст, можете выбрать безлимитный или корпоративный тариф. Стоимость минуты сведется практически к нулю.
- Чат-бот в Telegram для расшифровки небольших аудио. Удобно для записи заметок и коротких встреч.
- Расшифровка на 100 языках. Точно понадобится, если работаете с международным рынком.
Отдельно хотим выделить бесплатный период, который измеряется не минутами или количеством расшифрованных файлов, а днями. Перед тем, как сделать окончательный выбор, вы можете 5 дней тестировать сервис бесплатно. Также есть реферальная программа, которая дарит до 26 дополнительных дней бесплатного использования без ограничений.
Рассмотрим сравнительные характеристики сервисов в таблице
Советы по редактированию и подготовке материалов
В первую очередь уделите внимание звуку: в идеале использовать микрофон и расположить его на одинаковом расстоянии между вами и собеседником. Если проводите встречу онлайн, заранее убедитесь в качестве соединения и звука, чтобы речь была чистой, четкой и непрерывистой. Важно, чтобы в помещении было минимальное количество посторонних шумов.
При выполнении всех условий вы получите качественную запись, которую практически не нужно редактировать. Кстати, в Charla очень удобно сверять расшифровку с оригиналом в одном окне браузера.
Советы по редактированию:
- Проверьте текст на орфографические и грамматические ошибки.
- Обратите внимание на точность расшифровки сложных терминов, фамилий и фраз, а также те места, где ИИ мог не расслышать голос из-за помех или невнятной речи говорящего.
- Проверьте точность тайм-кодов и распределения спикеров.
- Когда проведете работу над ошибками, убедитесь, что предложения и абзацы согласованы, почистите текст от лишних слов, переформулируйте сложные предложения.
- При необходимости сократите текст и приведите его к той форме, которая соответствует площадке для его размещения.
Платный АI-транскрибатор — это такой же рабочий инструмент, как CRM для постановки и распределения задач или Zoom. Он в разы упрощает вашу работу и сокращает время на нее. Если ваша деятельность связана с частыми переговорами, интервью или другими длительными встречами, он станет помощником, на которого можно делегировать большой пласт работы.