Найти тему
OVERCLOCKERS.RU

Разработанный компанией Xiaomi алгоритм распознавания голоса занял первое место в мире

Модель распознавания звуковых меток, использующая в качестве обучающего набора аудиоданные из общедоступного набора данных AudioSet-2M, впервые преодолела отметку в 50 mAP, и этот прорыв означает выход алгоритма на первое место по производительности в мире. Кроме того, компания Xiaomi выпустила мини-версию модели, подходящую для сценариев с ограниченными ресурсами. Количество параметров этой модели сжато примерно до одной девятой от исходной модели, что значительно меньше, чем у моделей других организаций, но при этом производительность выше, чем у всех остальных.

Фото: tadviser.ru

Усовершенствованный алгоритм распознавания звуков Xiaomi может широко использоваться в интеллектуальных устройствах Xiaomi, что значительно повышает удобство работы пользователей. В частности, алгоритм распознавания звуковых меток способен распознавать широкий спектр звуков окружающей среды, таких как крик ребенка, крик животного, звук двигателя автомобиля, взрыв, сигнал дыма, дверной звонок, поток воды и т.д., и позволяет передавать звуки окружающей среды в текстовом и других форматах.Кроме того, данная алгоритмическая технология широко используется при разработке роботов компании Xiaomi, значительно улучшая их перцептивные возможности. Так, робот-гуманоид CyberOne распознает 85 типов звуков окружающей среды и способен воспринимать на слух шесть категорий и 45 типов человеческих эмоций. В то время как бионический четвероногий робот CyberDog 2 второго поколения способен распознавать 38 типов звуков окружающей среды и обладает более мощной динамической реакцией.