Найти тему
Научная Наука

О машинах, распознающих речь

https://cdn.pixabay.com/photo/2016/08/09/06/25/dictaphone-1580003_960_720.jpg
https://cdn.pixabay.com/photo/2016/08/09/06/25/dictaphone-1580003_960_720.jpg

Разработка машин, способных автоматически распознавать человеческую речь, осуществлялась крайне медленно и неравномерно. Основная причина заключается в том, что произношение у всех людей разное, и к тому же оно довольно широко колеблется даже у одного человека в зависимости от произносимого текста, настроения говорящего, качества микрофона, используемого для передачи, и многих других факторов.

Ученые нескольких крупнейших лабораторий исследуют проблему, которая в общем виде может быть сформулирована так: в какой степени можно реализовать в машине свойственную человеку способность понимать речь? Более скромная задача, имеющая практическую ценность, сводится к созданию печатающего устройства, приводимого в действие голосом человека.

В настоящее время специалист по вычислительной технике Рэймонд Курцвайль, бывший сотрудник Массачусетского технологического института, организовал компанию, которая работает над созданием такого печатающего устройства, способного распознавать 10 тыс. слов. Разработку устройства завершили в 1985 г. Компания Kurzweil Speech Systems, Inc. является самостоятельной, но большую долю средств в нее вкладывает корпорация Xerox Corp.

Какая бы машина, способная распознавать речь, ни появилась в ближайшие 10 лет, ее стоимость, технические параметры и возможности сбыта будут взаимозависимы; пока же преобразование быстрой связной речи, произносимой различными голосами и содержащей большой словарь, остается технически неразрешимым. Стратегия упомянутой компании ориентирована на создание машины, которая будет стоить 5 тыс. долл. и реагировать на дискретно произносимую речь, в которой высказывания должны содержать грамматические пояснения, а между словами делаться короткая пауза.

Но и при этих условиях машина будет способна работать под диктовку со скоростью 150 слов в минуту. Для того чтобы машина работала в этом режиме, она должна будет примерно в течение 1 ч проходить предварительную «тренировку» на распознавание индивидуальных речевых особенностей говорящего. После этой предварительной тренировки машина будет продолжать совершенствоваться в распознавании более тонких деталей речи говорящего, и в конце концов она усвоит все 10 тыс. слов, которые наиболее часто будут использоваться в речи.

Создаваемая система конструируется с учетом возможности ее сопряжения с существующими рабочими станциями (автоматическими бюро), оснащенными персональными компьютерами, и поэтому предусматривается наделить ее способностью редактировать тексты по устной команде. Несколько других компаний уже производят системы распознавания речи для специальных целей, но ни одна из них пока не заявила о проведении работ по созданию речевых печатающих устройств.

Компания Threshold Technology, Inc., объявившая в 1982 году о своем банкротстве, все еще продолжает выпускать устройства распознавания голоса, но они в основном предназначены для работы в шумных условиях. Эти машины способны распознавать 340 слов, произносимых с короткими паузами со скоростью 180 слов в минуту. Компания намерена вскоре объявить о создании устройства, распознающего 1500 слов, произносимых с интервалом, и машины, которая будет «понимать» связную речь любой длительности, содержащую не более 50 слов, которым машина будет обучена заранее.

Одна из наиболее сложных машин распознавания английской речи, имеющаяся в продаже, сделана в Японии корпорацией NEC. Машина требует предварительной тренировки индивидуальным диктором, после чего может распознавать связную речь, длящуюся 4 с на основе словаря в 150 слов. В Японии разрабатываются и другие машины, но они ориентированы сугубо на японский язык, и поэтому их трудно сравнить с машинами, приспособленными к англоязычной речи. В японском языке насчитывается лишь 120 слогов, а в английском почти 10 тыс., поэтому в японской речи более часты звуковые повторы и меньше переходов от слога к слогу, чем в английской.

Кроме того, японцы сильнее заинтересованы в развитии речевых печатающих устройств, чем американцы или европейцы, так как это сулит им большие потенциальные выгоды: обычная печатающая машинка с японским шрифтом содержит 3200 знаков. Конструкторы фирмы Bell Laboratories уже близки к завершению разработки нескольких моделей устройств распознавания речи. О них было объявлено в конце 1983 года. Известно, что эта фирма разрабатывает как системы, которые способны реагировать на голоса различных дикторов, так и системы, требующие предварительной адаптации к голосу конкретного человека.

Авто
5,66 млн интересуются