4 подписчика

Очки будущего: распознавание беззвучных команд по движению рта

9 апреля 20239 апр 2023

2 мин

Команда инженеров из Корнельского университета представила разработку экспериментальных сонарных очков EchoSpeech, которые с помощью искусственного интеллекта распознают слова, произнесенные пользователем, на основе движений рта. Данная технология основывается на анализе звуковых волн, отраженных от рта, и алгоритмах машинного обучения, которые обрабатывают полученные данные. Экспериментальные очки EchoSpeech могут использоваться для бесшумного управления другими устройствами, а также помочь людям с нарушениями речи в процессе коммуникации. Важной особенностью данной технологии является ее потенциальная применимость в медицинской сфере для улучшения жизни людей с нарушениями речи. В дополнение к этому, гаджет также может использоваться в промышленности и других областях, где важна бесшумная и точная передача команд.

Для создания ненавязчивой системы распознавания речи на основе движений губ, исследователи разработали концепцию использования миниатюрных динамиков и микрофонов, установленных на оправе очков. Конструкция представляет собой четыре миниатюрных динамика, расположенных на нижней стороне оправы под одной из линз, и два мини-микрофона, расположенных под другой. Динамики излучают неслышимые звуковые волны, которые направляются к движущемуся рту пользователя, отражаются от него и возвращаются к микрофонам.

Система распознавания беззвучных команд на основе анализа эхо-сигналов, полученных при движении рта пользователя, является перспективным направлением исследований в области разработки умных устройств. Анализ эхо-сигналов осуществляется в режиме реального времени с помощью алгоритма глубокого обучения, запущенного на смартфоне, подключенном по беспроводной сети. Для обучения алгоритма использовались данные, связанные с движениями рта пользователя и связанными с ними беззвучными командами. В результате обучения алгоритм связал эхо-сигналы с определенными движениями рта, что позволило эффективно распознавать безмолвные команды. Данная система может быть использована для бесшумного управления устройствами и помощи людям с нарушениями речи.

На текущий момент, EchoSpeech имеет возможность распознавать около 31 команды с точностью около 95%, и для обучения системы для каждого пользователя требуется всего несколько минут. Кроме того, важно отметить, что система не включает в себя камер и не отправляет никакую информацию в интернет, что гарантирует ее конфиденциальность.

Очки EchoSpeech работают до 10 часов без необходимости зарядки благодаря отсутствию камеры и использованию обычных линз. Это отличается от альтернативных систем, которые используют очки с камерами и могут работать только около 30 минут на одном заряде.

Эти очки могут использоваться для бесшумного управления музыкой и отправки голосовых сообщений в шумных условиях. Они также могут быть полезны людям с нарушениями речи, которые могут использовать очки для передачи своих слов голосовому синтезатору для произношения вслух.

Ранее в лаборатории Корнельского университета была разработана аналогичная система под названием EarIO, которая использует ушное устройство с сонаром для захвата выражений лица владельца. Она широко используется для создания цифровых аватаров. Команда Университета в Буффало создала еще одну систему под названием EarCommand, которая читает слова, произносимые человеком про себя. Для этого используется специальный наушник, который считывает определенные движения рта через характерные деформации слухового прохода.