Microsoft Word скоро сможет записывать и транскрибировать аудио. В этой функции давно заинтересованы многие, — от студентов до репортеров и руководителей Microsoft. К сожалению, возможности пишущего инструмента, по сравнению с аналогами конкурентов, ограничены. Новая технология транскрипции, которая будет доступна бесплатно для подписчиков Microsoft 365, пишущих с помощью Word через веб-браузер, позволяет людям как записывать, так и загружать аудиофайлы, часто транскрибируемые в течение нескольких минут. В понедельник Microsoft устроила демонстрацию инструмента, записывая выход из динамиков компьютера на его внутренний микрофон (без подключения наушников). Люди также могут загружать предварительно записанные аудио в сервис.
Этим уровень инструмента, соответствующий возможностям конкурентов в данной области, ограничивается, а количество задач, которые он не может выполнить, растет. Функция транскрипции работает только в веб-версии Word, а не в настольных приложениях Windows или Mac и не на мобильных устройствах. Microsoft заявила, что надеется получить технологию, доступную для телефонов и планшетов, к концу года, но не возьмет на себя обязательство предлагать её для настольных приложений. Инструменты транскрипции, созданные конкурентами (например, Google) для телефонов, функционирующих на базе программного обеспечения Android, могут работать с большим количеством языков и в автономном режиме. Такие приложения, как Otter.ai, например, предлагают более легкий поиск, разметку и общий доступ.
Microsoft признала, что технология имеет ограничения, которые компания надеется улучшить. Например, Microsoft заявила, что она позволит людям записывать неограниченное количество аудио, если они используют веб-браузер, но ограничивает их до 300 минут (пять часов) в месяц, если между записью и загрузкой есть интервал. Microsoft также заявила, что каждый аудиофайл, который люди загружают, должен быть не менее 200 Мб. Люди могут загружать файлы MP3, WAV, MP4 и M4A.
Microsoft также заявила, что транскрипция записи, сделанной в Word, произойдет в течение нескольких секунд после нажатия кнопки Stop. Тем не менее, загруженный аудиофайл может занять столько же времени для расшифровки, сколько и сама запись.
Microsoft заявила, что видит себя «определенно на вершине отрасли» с точки зрения точности. Отчасти это происходит благодаря его связям с технологией когнитивных служб Azure, которую он совершенствует уже много лет.
По материалам CNET