Мы уже рассказывали о журнале компании Apple, в котором она публикует свои наработки в области искусственного интеллекта. В журнале уже есть несколько публикаций, и все они не слишком просты для понимания, если, конечно, вы сами не занимаетесь разработками в сфере машинного обучения. В новой публикации много сложностей, но есть и вещи, понятные обывателю. Она посвящена работе функции «Привет, Siri».
Публикация помогает понять, что происходит в вашем iPhone, когда вы говорите «Привет, Siri». Существует этап анализа звукового спектра, на котором звуковые волны преобразуются в кадры по 0,01 секунды. Около 20 таких кадров совмещаются с акустической моделью. DNN (Deep Neural Network) по каждому из звуковых кадров оценивает вероятность воспроизведения тех, которые используются при проговаривании фразы «Привет, Siri». Помимо этого класса кадров существует молчание и другая речь. Всего их около 20. В сложных звуковых условиях работает система, которая упрощает запуск Siri, но предотвращает