Найти тему
Михаил Гольдреер

Применение инструментов прикладной и компьютерной лингвистики в системах общения "человек-машина"

Ай-ти дерзание!
Ай-ти дерзание!

Предлагаемая статья создана на основе моего доклада от 25 мая 2023 года, сделанного на на международной научной конференции "Интеллектуальные транспортные системы" в Российском университете транспорта. Она помещена в РИНЦ , российский индекс цитирования.
Я и ранее опубликовал здесь немало статей о моих разработках и размышлениях по тематике "прикладная и компьютерная лингвистика". Те, кто с ними знаком, увидят в данном материале, как на данный момент развиваются идеи, высказанные ранее...
Наше время это время бурного развития искусственного интеллекта, его вхождения во все сферы науки, техники и разнообразной человеческой повседневности. Наш быт быстро меняется под напором "умных" технических новинок, он требует серьёзных навыков для общения с интеллектуальными системами управления и связи, особенно в профессиональной деятельности и в почти каждой трудовой деятельности вне собственной профессии и работы. Поэтому постоянно востребованы технические разработки, позволяющие облегчить и повысить эффективность общения в системах "человек-машина", особенно это востребовано в любой профессиональной работе, будь то производство, транспорт, торговля, образование или научно-технические исследования...

Одну из таких разработок я намерен проанализировать с точки зрения складывающихся ныне подходов в организации и технической реализации общения в системах "человек-машина". А подходы эти и даже - я бы сказал - философию таких подходов определяет ныне прикладная лингвистика, особенно такой важнейший её раздел, как лингвистика компьютерная...
Работа, которая выбрана мною для анализа, называется "Речевые технологии в обучении оперативного персонала городских рельсовых транспортных систем", выполненная сотрудниками кафедры УИЗИ РУТ-МИИТ. Цель этой работы - повысить эффективность обучения диспетчеров данных систем, усовершенствовав тренажёры, на которых будущие диспетчеры проходят своё обучение. На тренажёрах они отрабатывают навыки безошибочной подачи команд транспортным объектам.
Но на нынешних тренажёрах они подают эти команды с помощью компьютерной мыши, а в реальной работе такие команды подаются голосом самого диспетчера. Поэтому разработчики решили усовершенствовать систему тренажёров, разработав и введя в неё подсистему компьютерного распознавания речи, дабы учащиеся могли тренироваться в условиях максимального приближения к реальностям предстоящей работы.

Компьютерное распознавание речи это частный случай технологии распознавания образов. Теоретический фундамент распознавания образов начинался с перцептронов, то есть математических моделей и технических устройств, положивших начало созданию компьютерных нейронных сетей. А работу таких сетей невозможно обеспечивать и совершенствовать без прикладной и компьютерной лингвистики. Впрочем, это теперь невозможно для любых современных цифровых технологий.
Вот небольшая выдержка из рассматриваемой работы: "Разработана структурная схема подсистемы распознавания голосовых команд, которая включает элементы, реализующие следующие действия: генерация аудиофайлов; преобразование аудиофайла в текст; разделение диалога на блоки-предложения, которые используются для классификации; лемматизация; нормализация текста; эмбеддинг; классификация текста по типу сообщения в нем – – отнесение каждого из предложений к одному из возможных классов: информационное сообщение, управляющая команда, приказ, нераспознанное сообщение..."
В этом отрывке перечислены отдельные методы и инструменты, которые задействованы для реализации задуманной подсистемы. Среди них: разделение текста на блоки-предложения для их классификации, лемматизация, затем - эмбеддинг(от англ. embedding – вложение).
В компьютерной лингвистике лемматизация-это алгоритмический процесс определения леммы слова на основе его предполагаемого значения. Лемматизация в филологии — процесс приведения словоформы к лемме — её нормальной (словарной) форме. Эмбеддинг в NLP(в обработке текста на естественных языках!) означает процесс или, чаще, результат процесса преобразования языковой сущности – слова, предложения, параграфа или целого текста в набор чисел – числовой вектор.
Чаще всего в настоящее время результаты процессов эмбеддинга в виде поясняющих вставок можно встретить в повествовательных текстах(нарративах!), подготовленных с помощью искусственного интеллекта.
А вот ещё одна цитатка из этой работы: "...Разработана семантическая сеть, отражающая связи элементов в команде..." Семантическая сеть — информационная модель предметной области, имеет вид ориентированного графа. Вершины графа соответствуют объектам предметной области, а дуги (рёбра) задают отношения между ними. Объектами могут быть: понятия, события, свойства, процессы. Таким образом, семантическая сеть — это один из способов представления знаний!
Семантика (от др.-греч. σημαντικός «обозначающий») — раздел лингвистики, изучающий смысловое значение единиц языка. В качестве инструмента изучения применяют семантический анализ!
Всё вышеперечисленное есть несколько наиболее ярких терминов, которые привлекли моё внимание в этой работе. Имеются в ней и ещё - тоже схожие с перечисленными - понятия ... А похожи все эти термины-понятия одним свойством! Они обозначают методологические инструменты, разработанные научным направлением под названием - прикладная лингвистика, главнейшей частью которой ныне стала лингвистика компьютерная.
Сам я соприкоснулся с прикладной и компьютерной лингвистикой, когда заинтересовался-попытался решать задачи создания системы реального голосового перевода с одного естественного языка на другой через носимые гаджеты типа смартфон или айфон. Казалось бы, что общего между компьютерным переводчиком и компьютерным тренажёром для обучения транспортных диспетчеров правильной подаче команд? А вот что!!
Моё внимание потому и привлекла эта работа, что в ней, как и в моём случае, авторы использовали те же методы, подходы, инструменты, что и я при решении моих задач. А их задачи - удивительно схожи с теми, что и я решаю, работая над своей проблематикой!
Дело в том, что в отличие от ныне действующих в интернете систем статистического и смешанного машинного перевода, я предложил и запатентовал способ машинного перевода, который не направлен на то, чтобы бесконечно приближаться к идеальному переводческому варианту, которым является перевод человека-переводчика. А именно под это заточены нынешние статистические и смешанные системы компьютерного перевода, действующие в интернете.
Как результат - эти системы на сегодняшний день смогли сильно повысить производительность профессиональных переводчиков при работе с большими массивами письменных текстов, но совершенно не справляются с задачей самого элементарного общения через голосовые гаджеты при беседах разноязычных собеседников, особенно, если эти беседы приобретают длительный характер и затрагивают не связанные между собой темы.
Я в своём способе машинного перевода предложил не ставить компьютеру-переводчику непосильную задачу стать полноправным клоном переводчика-человека, а сделать такой набор переводческих задач, который бы учитывал все возможности и ограничения, имеющиеся у компьютерной техники. В конце концов даже при общении с домашними животными мы не требуем, чтобы они понимали нас так, как люди понимают друг друга. Наоборот, мы стараемся приспособиться к нашим домашним питомцам. А они, между прочим, такие же живые, как и мы, в отличие от компьютеров!
И увидел я в анализируемой работе, что весь её методологический инструментарий совершенно тот же, что и у меня. Они преобразуют аудиофайлы в текстовые, я тоже. Они делят входные тексты на блоки-предложения, я тоже. Они классифицируют предложения по тематике, я тоже. Они строят семантические(смысловые!) сети, я тоже. И вообще мы с ними напряженно-тщательно заботимся о надёжности семантики, то есть правильности смыслов информации, передаваемой в наших системах! Эмбеддинг и лемматизация для моей разработки вообще жизненно необходимы, но разработчики подсистемы для тренажёра диспетчеров тоже без них на могут обойтись.
Я уж даже и не говорю об алгоритмических, программных и технических реализациях перечисленного инструментария, ибо они совершенно одинаковы в любых случаях! А все эти вещи пришли из арсенала прикладной и компьютерной лингвистики, которых в своё время, то есть в 50-60-70-е годы прошлого века, породили энергичные разработки по созданию кибернетических переводчиков с одного естественного языка на другой. Задача эта и поныне решена в очень малой степени, но технологические возможности прикладной и компьютерной лингвистики, которые появились благодаря ей, позволяют теперь на компьютерах - распознавать и синтезировать речь, генерировать тексты, автоматически переводить тексты в определённых пределах, создавать и использовать электронные корпуса текстов, извлекать информацию из текстов, автореферировать тексты, автоматически обнаруживать и исправлять ошибки при вводе текста на компьютере, создавать вопросно-ответные системы, создавать электронные словари, тезаурусы, онтологии.
Если рассматривать всю совокупность вышеописанных фактов в целом, то в принципе и компьютерный перевод, и электронные тренажёры, и управление любыми машинными агрегатами через интеллектуальные автоматические системы управления можно назвать разнообразными по функционалу и назначению, но алгоритмически схожими видами общения в системе "человек-машина".
И именно прикладная лингвистика теперь есть важнейшая часть науки об искусственном интеллекте, ибо она учит, условно говоря, человека общаться с машиной, а машину с человеком, улучшает и упрощает такое общение, делает его максимально безопасным через постоянное совершенствование интеллектуальных систем технического управления.
Самая первая цитата из работы сотрудников кафедры УИЗИ, которая стала толчком для моего интереса к их статье, вот эта: "В рамках исследования использовалась открытая модель по распознаванию русского языка..." То есть сотрудники кафедры УИЗИ использовали в своей разработке продукт, который изначально был создан для чисто лингвистических и даже абстрактно-лингвистических исследований!
Открытая модель в данном случае это источниковая программа с открытым кодом, которую можно взять из интернета и приспособить-настроить под собственные задачи. Самыми распространёнными программами такого типа в интернете являются бесплатные источниковые программы-движки статистического перевода с одного естественного языка на другой от Гугла и Майкрософта. Многие переводческие компании, как по всему миру, так и в России, приспосабливают эти движки под свои нужды. А новые технологические наработки, которые появляются при таком приспособлении, также бесплатно получают себе Гугл и Майкрософт, используя их для постоянного совершенствования своих систем сетевого перевода. Такой вот всемирный лингвистический симбиоз!
Именно с цитаты про открытую модель я и начал пристально рассматривать данную работу сотрудников кафедры УИЗИ, обнаружив в ней то, что есть фундаментальное начало моего способа машинного перевода и, как я теперь вижу, является непреложной необходимостью в любой системе общения "человек-машина".
Я назвал это - "принцип речевой формализации"! В моём способе машинного перевода он реализуется следующим образом... Суть состоит в том, что компьютер переводит точно и однозначно стандартные двуязычные фразовые пары, которые накоплены в его глоссарии, разделены по темам, и предлагаются в качестве смысловых аналогов тем обычным фразам, которые задаются компьютеру для перевода.
Надо помнить, что переводчик-человек тоже старается передавать и переводить не слова разноязычных собеседников, а смысл сказанных ими фраз. И очень часто такие собеседники стараются облегчить работу переводчика, говоря ему для перевода максимально краткие, понятные и ёмкие по смыслу фразы.Я не буду далее и подробнее развивать тему машинного перевода, а просто обращаю внимание на следующее...
В работе сотрудников кафедры УИЗИ сказано : "... формируется классификатор возможных видов эталонных команд..." и "... к подсистеме распознавания голосовых команд предъявляются следующие требования: распознавание фраз независимо от их построения..." То есть в их системе общения "человек-машина" практически всё то же, что и в моём способе машинного перевода. У меня предусмотрен набор стандартных фраз, с которыми по смыслу и теме сравниваются поступающие на вход системы фразы для перевода независимо от их построения. А у них есть набор эталонных команд, с которыми - тоже по смыслу - сравниваются и выбираются поступающие на вход системы фразы-команды независимо от их построения.
Таким образом получается, что "разговор" человека с машиной через интеллектуальные системы управления будет взаимопонятен и эффективен лишь тогда, когда человек максимально формализует, упорядочит и ограничит свою речь строгими рамками, которые позволят компьютеру легко понимать поданные ему команды!
В заключение возвращаюсь к своему изначальному тезису о том, что философию подходов в системах общения "человек-машина" определяет ныне прикладная лингвистика, особенно такой важнейший её раздел, как лингвистика компьютерная...
Я взял для анализа работу сотрудников кафедры УИЗИ фактически по случайной выборке, но более чем уверен, что похожих работ с использованием цифровых технологий достаточно хватает и на других кафедрах РУТ-МИИТ. И во всех них так или иначе, но - обязательно(!), использованы инструменты прикладной и компьютерной лингвистики.
Сотрудники кафедры УИЗИ должны были освоить эти инструменты в технологии распознавания образов, но теперь лингвистический инструментарий так или иначе присутствует в любых цифровых технологиях. И было бы лучше, чтобы разработчики, преподаватели и, особенно, студенты РУТ-МИИТ осваивали такой инструментарий не выборочно, под текущие задачи, а системно-фундаментально, как отдельную целостную дисциплину "Прикладная и компьютерная лингвистика".
Уверен, что в этом случае многие задачи, как исследовательские, так и учебно-практические, решались бы не слепым опытным путём, а с открытым взглядом, менее трудоёмко и затратно по времени.