Исследователи из России сделали небольшой прорыв в области цифровой обработки человеческой речи в условиях, схожих с реальными, – при диалоге, полилоге и т. п. С помощью современных технологий они смогли приблизиться к воспроизведению работы нервной системы, которая контролирует слух. Научные результаты были опубликованы в рамках международной междисциплинарной конференции «NEUROINFORMATICS».
Суть проблемы
Нервная система включает множество структур, которые обмениваются информацией через электрические сигналы, отвечают за внутренние процессы организма и позволяют человеку реагировать на любые изменения. Внешние воздействия «обрабатывает» периферическая нервная система и передает полученную информацию в высший отдел центральной нервной системы, где начинается интерпретация.
В итоге люди могут не только понимать смысл услышанной фразы, но и распознавать, кто именно ее произнес даже при высоком уровне шума. Однако автоматизированные системы на сегодняшний день не могут с тем же успехом выполнить практически неосознаваемые человеком действия.
Технические подробности
Один из участников проведенного исследования, сотрудник СКЦ «Политехнический» при Санкт-Петербургском Политехническом Университете А. Яковенко сказал, что глобальная, далеко идущая цель работы – создание машин, возможности которых были бы близки к человеческим в области восприятия звуковой информации в реальных условиях.
Также он отметил, что ему и остальным задействованным в проекте ученым уже удалось на основе теории графов и создания искусственных нейронных сетей разработать алгоритм, который может повторить работу нервной системы при обработке всех гласных фонем. Проанализировав большое количество слуховых реакций полученной модели в условиях громкого шума, они пришли к выводу, что новая разработка по качеству шагнула вперед по сравнению с популярными сегодня методами, основанными на параметризации акустических сигналов.
Полезное применение
В дальнейшем разработки ученых будут совершенствоваться и могут быть использованы при формировании совершенно новых нейрокомпьютерных интерфейсов различных систем и для повышения качества «общения» между людьми и механизмами. Кроме того, полученный алгоритм может оказаться востребованным при восстановлении слуха с помощью хирургической установки слуховых аппаратов, создании бионических способов идентификации речи и др.
Также А. Яковенко добавил, что использованные в процессе исследования методы анализа и обработки Big Data достаточно универсальны и могут адаптироваться для других областей науки и решения новых практических проблем.