Китайские разработчики создали голосового помощника для смартфонов, который обучили распознавать команды по движению губ, без звуков. Приложение может запускать другие программы, и его можно использовать в общественных местах, не мешая окружающим.
Голосовой помощник, распознающий команды по движению губ, был презентован в статье на конференции UIST 2018. Проект является разработкой команды ученых из Университета Цинхуа.
Известно, что программа для смартфонов от китайских специалистов работает следующим образом: при запуске помощника программа определяет лицо в кадре с камеры устройства, а затем сосредотачивается на положении 20 точек губ. Далее, голосовой помощник определяет насколько сильно открыт рот, что дает возможность определить начало и конец команды. После этого все собранные параметры перенаправляются на другой алгоритм, функционирующий на базе сверточной нейросети, который и распознает речь по движению губ. В настоящее время программа не реализована в смартфоне, и пока она проходит тесты на компьютере.
Разработчики предусмотрели для голосового помощника 44 команды, включая подключение к Wi-Fi, к конкретным программам и приложениям, а также среди возможностей помощник может сопрягаться с любым приложением при помощи системных служб, к примеру, выделять текст. Стоит отметить, что голосовой помощник распознает и контекст команд, например если на экране всплывает окно с сообщением, это позволяет быстро ответить на него.
В ходе обучения программы специалисты прибегли к 21 примеру речи человека. В среднем, точность распознавания речи по губам равняется 95,5%, что очень даже неплохо.
Вчера Новостной Терминал писал о презентации компанией Lenovo детских смарт-часов Watch С с кнопкой SOS и камерой.