Исследовательская группа Яндекса раскрыла детали собственной нейросетевой технологии, способной точно интерпретировать голосовые команды даже при наличии значительного фонового шума.
Разработка уже внедрена в линейку умных устройств компании, а теперь стала доступна и для внешних разработчиков. Научная статья принята к публикации на конференции Interspeech 2025, одном из крупнейших международных форумов по технологиям обработки речи, который пройдёт в этом году в Нидерландах. Среди других участников — Google DeepMind, Microsoft, Google AR и ряд исследовательских лабораторий.
Алгоритм, представленный Яндексом, применяется в устройствах с «Алисой» — от умных колонок до ТВ-платформ. Система сохраняет способность распознавать команды даже при сильных акустических помехах — таких как музыка, работающая техника, шум воды, уличные звуки и другие источники фонового аудио. Пользователю не нужно подстраиваться под устройство: речь распознаётся без необходимости перекрикивать окружающие звуки или временно их отключать. Нововведение снижает вероятность ложных срабатываний и упрощает разработку новых голосовых интерфейсов, повышая надёжность и удобство взаимодействия.
Техническая особенность подхода Яндекса заключается в применении архитектуры с attention-механизмом, который в реальном времени выбирает оптимальный аудиосигнал для анализа. В отличие от стандартных решений, где отдельно реализованы шумоподавление и эхоподавление, данная модель параллельно анализирует два варианта входного сигнала — прошедший через noise suppression и через echo cancellation. Нейросеть динамически оценивает качество каждого потока и переключается на наиболее чистый фрагмент. Это позволяет системе эффективно работать в сложных акустических условиях, минимизируя искажения речи и сохраняя высокую точность распознавания.
«Нам удалось создать подход, который показывает устойчивую работу как в контролируемых условиях тестирования, так и в реальных сценариях, где качество входного сигнала нестабильно. Большинство команд сталкивается с теми же задачами, но не всегда располагает промышленными решениями. Мы рассчитываем, что открытость нашей разработки ускорит развитие голосовых технологий и позволит избежать распространённых архитектурных ошибок», — рассказал Дмитрий Солодухин, глава направления голосовой активации в Яндексе.