Найти тему
InGenium

ИИ учат читать по губам

Помните эпизод из культового фильма Стенли Кубрика "Космическая одиссея 2001", где бортовой компьютер с искусственным интеллектом HAL 9000 узнал о планах экипажа его отключить, прочитав по губам диалог главных героев? Если не смотрели, посмотрите обязательно, не этот эпизод, а весь фильм, конечно! Кажется, и этой функцией теперь могут наделить современный искусственный интеллект. Не понимаю, почему никому ещё в голову не пришло построить HAL 9000 в реальности, теперь всё для этого есть.

Цель у учёных, разумеется, не заключалось в том, чтобы дать ИИ будущего ещё один инструмент для нашего порабощения. Как это часто бывает, труды исследователей были направлены на улучшение нашей жизни, особенно для людей с ограниченными возможностями.

Исследователи из Университета Глазго провели сложный анализ физических процессов, связанных с созданием звуков речи. Они изучили внутренние и внешние движения мышц добровольцев во время разговора, используя широкий спектр беспроводных сенсорных устройств. Эти данные, полученные в результате 400 минут анализа, были сделаны доступными для других исследователей, чтобы помочь разработке новых технологий распознавания речи.

Одной из потенциальных областей применения этих будущих технологий является помощь людям с нарушениями речи или потерей голоса. С помощью датчиков, способных считывать движения губ и лица, и синтезированного голоса, такие устройства смогут предоставить таким людям возможность говорить и общаться, что значительно улучшит их качество жизни.

Исследование также открыло новые перспективы в области безопасности. Анализ уникальных движений лица, по аналогии с отпечатком пальца, может быть использован для повышения безопасности банковских и конфиденциальных транзакций. Перед разблокировкой конфиденциальной сохраненной информации система сможет анализировать движения лица пользователя.

Для сбора данных исследователи попросили 20 добровольцев произнести серию звуков, слов и предложений, одновременно собирая данные о лицевых движениях и голосе. Для отображения движений добровольцев использовались две радиолокационные технологии: протокол сверхширокополосной импульсной радиосвязи (IR-UWB) и непрерывная волна с частотной модуляцией (FMCW). Кроме того, лазерная система обнаружения пятен использовалась для сканирования вибраций на поверхности кожи.

Источник:
Яо Ге и др. Комплексный мультимодальный набор данных для бесконтактного чтения по губам и акустического анализа (Yao Ge et al, A comprehensive multimodal dataset for contactless lip reading and acoustic analysis), Scientific Data (2023). DOI: 10.1038/s41597-023-02793-w

-------------------------------------
Вы можете поддержать проект подпиской на канал, реакциями и комментариями, а также подписавшись на наши страницы на других площадках и на сервисе поддержки авторов Бусти. Ссылки найдёте в описании канала. Заранее спасибо!