Найти в Дзене
Теодорычевы байки

Радиокомпонента. 9. Распознавание речи

Мало кто задумывается над привычными житейскими процессами, например, распознавание речи.

Первый рассказ цикла Радиокомпонента здесь.

Мало кто задумывается над привычными житейскими процессами. Например, говорение и узнавание услышанного, это как раз пара чудес природы. Многие на это скажут, а как же магнитофон, акустические системы Hi End и программы искусственного интеллекта. Мол, все это люди уже создали, освоили и потребили.

Но не тут-то было. Если повнимательнее рассмотреть характеристики этих устройств, то в процессе говорения спектр потока информации, управляющей глоткой, как механической системой, будет, равен или меньше частоте среза - 55 Герц, а вот пресловутые системы, чтобы воспроизвести этот же поток информации, требуют оцифровки с частотой не менее 24 Килогерц и уровнем дискретизации не менее 10 бит.

То же с человеческим ухом. Базилярная мембрана уха человека представляет собой дискретный частотный анализатор в диапазоне частот 100гц-18Кгц, а вот человек различает при этом нюансы звуков с частотой до 20 Килогерц, включая обертоны. Если бы наша наука, хотя бы немного ближе подошла к возможностям человека, то результатом была бы революция в технических устройствах связи. Но наука стоит пока там, где стоит и никаких революций не предвидится.

Фото для обложки из открытых источников.
Фото для обложки из открытых источников.

В 1981 году мы делали допросник (о допроснике читайте здесь), в основе которого, конечно же, должен был быть англо-русский переводчик, но эта машинка должна была уметь проговаривать слова вопроса и слова ответа. Для того, чтобы зарядиться научными идеями мы отправились в Институт Проблем Передачи Информации АН СССР (ИППИ). Все сотрудники института занимались проблемами передачи информации, но проблема это такая, что может кормить огромное количество научных работников еще много лет. Дело не в том, что научные работники плохи, а в том, что проблема весьма сложная.

Тем не менее, знакомство с научными сотрудниками нас не разочаровало. Те, кто занимался синтезом речи, делились на два непересекающихся лагеря: адепты фонемного синтеза и приверженцы формантного синтеза. Фонемные синтезеры основывали свое направление на коллекционировании звуковых заготовок - фонем, из которых состоит наша речь. То есть написанный текст разлагался на фонемы, а фонемы проигрывались специальным устройством, которое и обеспечивало интеллектуальное говорение. Кстати, именно так сейчас устроены банковские и телефонные справочные терминалы.

Все бы хорошо, но этот метод не позволяет совершить обратное преобразование - распознавание речи. Тут-то и появляются на сцене формантные синтезеры, которые сопоставляют звукам речи динамическое изменение профиля глотки человека. То есть разные люди, проговаривая одни и те же фразы, управляют своей глоткой одинаково. Следовательно, и говорить можно, и анализировать сказанное. Заботливые японцы разработали для этого математическую модель на основе рекурсивного алгоритма Иттакуры и Санто и даже создали соответствующий чип, предмет наших вожделений.

Борьба (научная) между этими направлениями шла не на жизнь, а насмерть. В ход пускались самые неэтичные интриги. Например, во время Ленинского субботника по громкоговорящей связи всего института транслировалось слово «жопа», синтезированное из фонемного банка руководителя проекта, то есть произнесенное его голосом. В то же время у всех, кто занимался формантным синтезом, на экране дисплея все время появлялась фраза: «Если ты честный ученый, то синтезируй фразу: ни хрена у меня не выходит!»

Естественно, мы оказались вовлеченными в эти академические интриги, и положение наше было незавидным. Нам надо было получить рецепт - алгоритм говорения, но его нам никто не давал. Все показывали свои домашние заготовки, которые производили впечатление, и здорово демонстрировали возможности метода, но были ненастоящими. Мы уже поняли, что увязли в синтезе речи больше, чем на то было отпущено времени, но выхода не было.

Все проблемы решились как-то в раз и вдруг. В институт приехал с научным визитом доктор Керолайнен из Финляндии. Представляя доктора математической лингвистики, Вы, конечно же, видите солидного мужчину с брюшком, одетого в безукоризненный черный костюм, и белую рубашку с галстуком. В общем, это правильное впечатление, но годится это только для СССР, Англии и Германии. В Финляндии этот образ совсем другой.

Доктор Керолайнен был патлатым мужиком в ковбойке и в джинсах. Он был чрезвычайно тощим и плохо говорил по-английски. По-русски он вообще не говорил. Доктор привез с собой небольшой ящичек, который он носил с собой через плечо. Размером этот ящичек соответствовал молодежному магнитофону «Весна», а функционально ящичек был синтезатором речи. Как только все налюбовались ящичком, и он попал в мои руки, я достал из кармана отвертку, и принялся, не спеша разбирать это прибор.

Керолайнен некоторое время возмущался, но остановить меня бессловесного ему не удалось. Научные сотрудники объяснили ему, что я «специальный человек» и вообще в СССР такое принято везде. А что касается самого прибора, то он будет работать, как и прежде. Я под беспокойными взглядами финна разобрал прибор, составил себе представление о том, как он функционирует, не обнаружил чипа формантного синтезатора и собрал его снова. Прибор заработал, а финн успокоился и заулыбался. Это был фонемный синтезатор на микропроцессорном контроллере. Я поблагодарил финна по-английски, чему он несказанно удивился, так как считал меня немым. На этой пафосной ноте мы и расстались.

Опять я столкнулся с доктором Уно Керолайненом в совершенно неожиданной связи приблизительно месяц спустя. Моя жена решила приобрести льняную скатерть для торжественных приемов в нашем доме, и мы направились в магазин «Русский Лён». Тут же выяснилось, что просто так скатерть купить невозможно. Каждый такой желающий должен записаться в очередь и ежедневно приходить отмечаться в 18-00 к дверям магазина. Было около шести вечера, так что мы решили подождать.

В шесть началось буйство отмечания в очереди. Выяснилось, что очередей несколько и каждая из них единственно правильная. Интеллигентного вида тётки и дядьки из разных очередей выясняли свои отношения при помощи мата и тумаков. Мы с женой быстро поняли, что скатерть нам не купить и вышли из эпицентра людских эмоций.

Очередь в СССР. Фото из открытых источников.
Очередь в СССР. Фото из открытых источников.

На периферии скандала люди тоже хотели что-то приобрести, но не такой ценой. От них я и узнал, что всего лишь месяц назад очередью руководил финн Уно Керолайнен. Финн сумел всех привести к общему знаменателю и поддерживал «правильную» очередь, пока не уехал в свою Финляндию, так ничего и не купив. По описанию я узнал своего знакомца и очень порадовался за научную братию. Хоть финн и не говорил по-русски, но голова у него работала нормально, и вел он себя как настоящий мужик, в отличие от гнилой интеллигенции, которая дралась в очереди.

Уважаемые читатели ЗДЕСЬ, Вы можете скачать все байки целиком, в том числе еще и не выложенные в оригинальном варианте и без Дзен цензуры.

Спасибо, что дочитали до конца. Подписывайтесь на мой канал, и если Вам понравились байки, то ставьте «лайки».

Читайте предыдущий рассказ "Радиокомпонента. 8. Ленинские субботники" здесь.

Читайте следующий рассказ Циклон. 1. Ушлый экономист " здесь.

С уважением, Лолейт А.Т.

Об авторе баек читайте здесь.