8 подписчиков

Перевод языка жестов SLAIT в режиме реального времени обещает более доступную онлайн-коммуникацию

28 апреля 202128 апр 2021

4 мин

Язык жестов используется миллионами людей по всему миру, но в отличие от испанского, мандаринского или даже латинского, нет автоматического перевода для тех, кто не может им пользоваться. SLAIT утверждает, что это первый такой инструмент, доступный для общего пользования, который может перевести около 200 слов и простых предложений для начала — используя только обычный компьютер и

Люди с нарушениями слуха или другими состояниями, которые затрудняют вокальную речь, насчитывают сотни миллионов, полагаются на те же самые общие технические средства, что и слуховое население. Но хотя электронная почта и текстовый чат полезны и, конечно, очень распространены сейчас, они не заменяют общение лицом к лицу, и, к сожалению, нет простого способа превратить подпись в письменные или устные слова, так что это остается значительным барьером.

Мы видели попытки автоматического перевода на язык жестов (обычно американский/ASL) в течение многих лет. В 2012 году корпорация Microsoft наградила его себе чашку к студенческой команды, которые отслеживали движения рук в перчатках; в 2018 году я писал о SignAll, которая работает над сурдоперевод Бут , используя несколько камер, чтобы дать 3D позиционирование; и в 2019 году я отметил, что новую руку-алгоритм отслеживания звонил MediaPipe, от Google в ИИ-лаборатории, может привести к достижениям в знак обнаружения. Оказывается, именно это и произошло.

SLAIT-это стартап, созданный на основе исследований, проведенных в Ахенском университете прикладных наук в Германии, где соучредитель Антонио Доменек построил небольшой движок распознавания ASL с использованием MediaPipe и пользовательских нейронных сетей. Доказав основную идею, Domènech присоединился к соучредителям Евгению Фомину и Уильяму Викарсу, чтобы основать компанию; затем они перешли к созданию системы, которая могла распознавать сначала 100, а теперь и 200 отдельных жестов ASL и несколько простых предложений. Перевод происходит в автономном режиме и почти в реальном времени на любом относительно недавнем телефоне или компьютере.

Они планируют сделать его доступным для образовательной и опытно-конструкторской работы, расширяя свой набор данных, чтобы они могли улучшить модель, прежде чем пытаться использовать какие-либо более значимые потребительские приложения.

Конечно, разработка нынешней модели была отнюдь не простой, хотя и была достигнута в удивительно короткие сроки небольшой командой. MediaPipe предложил эффективный метод с открытым исходным кодом для отслеживания положения рук и пальцев, конечно, но решающим компонентом для любой сильной модели машинного обучения являются данные, в данном случае видеоданные (поскольку это будет интерпретация видео) используемого ASL-а их просто не так много.

Как они недавно объяснили в презентации для конференцииDeafIT , первая команда оценила использование старой базы данных Microsoft, но обнаружила, что новая австралийская академическая база данных имеет больше и лучшее качество данных, что позволяет создать модель, которая на 92% точна при идентификации любого из 200 признаков в режиме реального времени. Они дополнили это видео на языке жестов из социальных сетей (с разрешения, конечно) и правительственными речами, у которых есть переводчики языка жестов — но им все еще нужно больше.

Их намерение состоит в том, чтобы сделать платформу доступной для глухих и учащихся ASL, которые, надеюсь, не будут возражать против использования системы, обращенной к ее улучшению.

И, естественно, это может оказаться бесценным инструментом в его нынешнем состоянии, поскольку модель перевода компании, даже будучи незавершенной работой, все еще потенциально трансформирует многих людей. С таким количеством видеозвонков, происходящих в эти дни и, вероятно, в течение всей оставшейся вечности, доступность остается позади — только некоторые платформы предлагают автоматические субтитры, транскрипцию, резюме, и, конечно же, ни одна из них не распознает язык жестов. Но с помощью инструмента SLAIT люди могли нормально подписываться и участвовать в видеозвонке естественным образом, а не использовать забытую функцию чата.

“В краткосрочной перспективе мы доказали, что 200 словесных моделей доступны, и наши результаты становятся лучше с каждым днем”, - сказал Евгений Фомин из SLAIT. “В среднесрочной перспективе мы планируем выпустить потребительское приложение для отслеживания языка жестов. Однако предстоит проделать большую работу, чтобы получить полную библиотеку всех жестов языка жестов. Мы полны решимости сделать это будущее состояние реальностью. Наша миссия состоит в том, чтобы радикально улучшить доступность для глухих и слабослышащих сообществ.”

Он предупредил, что она не будет полностью полной — точно так же, как перевод и транскрипция на любой язык или на любой другой язык являются лишь приближением, смысл состоит в том, чтобы обеспечить практические результаты для миллионов людей, и несколько сотен слов имеют для этого большое значение. По мере поступления данных в словарь могут добавляться новые слова, а также новые многоступенчатые фразы, и производительность основного набора улучшится.

В настоящее время компания ищет первоначальное финансирование, чтобы получить свой прототип и вырастить команду за пределами команды-основателя. Фомин сказал, что они получили некоторый интерес, но хотят убедиться, что они связаны с инвестором, который действительно понимает план и видение.

Когда сам движок будет создан, чтобы быть более надежным путем добавления большего количества данных и уточнения моделей машинного обучения, команда рассмотрит дальнейшую разработку и интеграцию приложения с другими продуктами и услугами. На данный момент продукт является скорее доказательством концепции, но какое это доказательство — с немного большей работой SLAIT обойдет индустрию и предоставит то, чего глухие и слышащие люди хотели десятилетиями.