584,3 тыс подписчиков

Разработчики из России научили ИИ лучше распознавать голос человека на фоне шума

30 июля 202530 июл 2025

1 мин

«До сих пор не существовало единого подхода к распознаванию голоса в шумной среде, который был бы одинаково надежен в лабораторных тестах и в реальных условиях. Надеемся, что публикация нашего метода ускорит прогресс в области голосовых интерфейсов, поможет избежать типичных ошибок и приведет к появлению большего количества удобных и надежных голосовых устройств», — пояснил руководитель направления голосовой активации «Яндекса» Дмитрий Солодуха, чьи слова приводит пресс-служба компании. Как отмечают Солодуха и его коллеги, системы распознавания речи в умных устройствах и виртуальных ассистентах используют алгоритмы эхоподавления и шумоподавления для того, чтобы удалить лишние шумы и распознать голос их пользователя на фоне музыки и прочих посторонних звуков. В процессе работы этих алгоритмов часто ухудшается и качество речи, что снижает вероятность успешного распознавания команд. Для решения этой проблемы специалисты «Яндекса» разработали нейросетевой механизм внимания, который получае

Как отмечают Солодуха и его коллеги, системы распознавания речи в умных устройствах и виртуальных ассистентах используют алгоритмы эхоподавления и шумоподавления для того, чтобы удалить лишние шумы и распознать голос их пользователя на фоне музыки и прочих посторонних звуков. В процессе работы этих алгоритмов часто ухудшается и качество речи, что снижает вероятность успешного распознавания команд.

Для решения этой проблемы специалисты «Яндекса» разработали нейросетевой механизм внимания, который получает на вход сразу два сигнала — с шумоподавлением и эхоподавлением. В каждый момент времени нейросеть выбирает наиболее четкий сигнал, что и позволяет распознавать команды на фоне самых разных звуков как в лабораторной обстановке, так и при использовании в бытовых условиях.

Разработчики адаптировали разработанный ими подход для работы с набором из семи микрофонов и обучили его на двух разных наборах записей голоса, полученных при работе пользовательских устройств «Яндекса» и в специальной акустической лаборатории. Последующие тесты на компьютерном железе и маломощном процессоре для «умных» устройств показали, что новый алгоритм превзошел уже существующие системы и при этом он способен работать даже на устройствах с ограниченным объемом памяти и вычислительных ресурсов.

Как отметили специалисты, данный подход уже длительное время успешно применяется в работе умных колонок и ТВ-станций «Яндекса», что позволяет их пользователям управлять работой этих гаджетов даже при громкой музыке, льющейся воде или при включенном пылесосе. По словам исследователей, раскрытие данной разработки позволит большому числу компаний ускорить создание собственных ассистентов и устройств с голосовым управлением, способных лучше распознавать команды пользователей, чем это удавалось сделать в прошлом.