Найти в Дзене
Игнатий Цукергохер

Яндекса раскрыл принципы работы нейросети для распознавания голосовых команд на фоне шума

Исследовательская группа Яндекса раскрыла детали собственной нейросетевой технологии, способной точно интерпретировать голосовые команды даже при наличии значительного фонового шума.

Разработка уже внедрена в линейку умных устройств компании, а теперь стала доступна и для внешних разработчиков. Научная статья принята к публикации на конференции Interspeech 2025, одном из крупнейших международных форумов по технологиям обработки речи, который пройдёт в этом году в Нидерландах. Среди других участников — Google DeepMind, Microsoft, Google AR и ряд исследовательских лабораторий.

Алгоритм, представленный Яндексом, применяется в устройствах с «Алисой» — от умных колонок до ТВ-платформ. Система сохраняет способность распознавать команды даже при сильных акустических помехах — таких как музыка, работающая техника, шум воды, уличные звуки и другие источники фонового аудио. Пользователю не нужно подстраиваться под устройство: речь распознаётся без необходимости перекрикивать окружающие звуки или временно их отключать. Нововведение снижает вероятность ложных срабатываний и упрощает разработку новых голосовых интерфейсов, повышая надёжность и удобство взаимодействия.

Техническая особенность подхода Яндекса заключается в применении архитектуры с attention-механизмом, который в реальном времени выбирает оптимальный аудиосигнал для анализа. В отличие от стандартных решений, где отдельно реализованы шумоподавление и эхоподавление, данная модель параллельно анализирует два варианта входного сигнала — прошедший через noise suppression и через echo cancellation. Нейросеть динамически оценивает качество каждого потока и переключается на наиболее чистый фрагмент. Это позволяет системе эффективно работать в сложных акустических условиях, минимизируя искажения речи и сохраняя высокую точность распознавания.

«Нам удалось создать подход, который показывает устойчивую работу как в контролируемых условиях тестирования, так и в реальных сценариях, где качество входного сигнала нестабильно. Большинство команд сталкивается с теми же задачами, но не всегда располагает промышленными решениями. Мы рассчитываем, что открытость нашей разработки ускорит развитие голосовых технологий и позволит избежать распространённых архитектурных ошибок», — рассказал Дмитрий Солодухин, глава направления голосовой активации в Яндексе.