Найти тему

Приложение для смартфона, умеющее читать по губам

Оглавление

Группа ученых из Северной столицы сделала процесс общения с голосовым помощником более комфортным и продуктивным. Теперь в шумном месте он будет четко распознавать запрос «собеседника» и безошибочно выполнять все команды и с первого раза выдавать необходимую информацию. Исследователи Санкт-Петербургского Федерального исследовательского центра РАН научили голосовой помощник смартфона читать по губам.

Искусственный интеллект нам в помощь

И в этом деле также не обошлось без помощи искусственного интеллекта. В основе приложения, которое, вероятно, скоро станет очень популярным, лежат специальные математические алгоритмы и технологии компьютерного зрения.

«Умная» петербургская нейросеть, на которой основан принцип действия приложения, будет собирать два типа информации – звуковую и визуальную. В общем-то, все как у людей.

Как показала серия экспериментов, в которой принимали участие дальнобойщики (если что, в большегрузах достаточно шумно), только по губам точность распознавания голосовых команд составила где-то 60-80%. Естественно в сочетании со звуком эффект гораздо выше – почти 100 %.

Нейросеть получилась очень самостоятельной. Как отмечают ученые, они учили ее по-разному реагировать на аудиовизуальные сигналы и выполнять список из 100 наиболее распространенных команд. В общем, нейросеть умеет принимать «осознанное» решение, что ей необходимо для обработки запроса – звук, видео или и то, и другое.

Вот сейчас будет немного заумно

Вообще, как правило, для обучения нейронной сети применяются математические алгоритмы. Самые распространённые ‒ алгоритм обратного распространения ошибки совместно с градиентным спуском (стремление математической функции к нулю). Также используется технология обучения с подкреплением (reinfocement learning). Она основываются на методе кнута и пряника, то есть модель получает награду за победу и штраф за проигрыш.

Можно сказать, что голосовой помощник ‒ тот же робот. По сути, это математическая функция. Если машина всё делает правильно, то параметры будут подбираться таким образом, чтобы функция стремилась к нулю. Если робот ошибется, то функция отдалится от нуля, то есть машина будет наказана. Постепенно функция самонастраивается на получение как можно большего количества наград и меньшего штрафов.

Разработчики полагают, что их приложение для смартфона будет полезно пилотам, а также найдет применение в тяжелой промышленной технике и, конечно же, в шумных и многолюдных торговых центрах.

А где еще? Вот поводы для профессиональной занятости!

Вообще эта тема может быть интересна и для людей с ограниченными возможностями по слуху и голосу, ведь им проще будет с голосовым помощником общаться внешним миром.

А тема переводчиков!

А для шпионов! Представляете, если на каждой камере будет стоять такой модуль, а камеры у нас уже почти на каждом углу, то спецслужбам и прослушка не нужна будет. Достаточно будет запросить запись для просмотра.

А как вы думаете, где еще можно поиспользовать такое изобретение? Делитесь в комментариях, обсудим...

Нам очень приятно, что вы с нами. И нам очень ценно и важно, если вы подпишитесь на наш канал! Здесь будет масса интересной и полезной информации.