Ученые из штата Массачусетс сообщили о создании системы, обеспечивающей связь и взаимодействие различных чувств. Для начала исследователи связали воедино зрение и осязание.
Опытная установка CSAIL выполнена на базе технологии предикативного искусственного интеллекта (ИИ, AI), который запрограммирован на обучение компьютерному зрению через тактильные ощущения сенсоров. И наоборот: ИИ сможет научить машинное «чувство осязания» распознавать свойства предметов по визуальным данным.
Для человека комплексное взаимное дополнение органов чувств – естественная привычная практика. Нам совершенно необязательно трогать большинство привычных вещей для определения их свойств. В большинстве случаев достаточно лишь взгляда, чтобы определить, что стакан полный, кирпич шершавый, а лестница ведет вверх, а не вниз. И напротив: чтобы определить размер дырки в кармане, совсем необязательно ее видеть – достаточно нащупать ее пальцами. Передвигаться в полной темноте можно осторожными шагами с вытянутыми руками.
Для машин такое совмещение органов чувств очень важно. Например, производственный робот, который пытается переключить рубильник вне поля его зрения: он точно «знает», где расположен этот рубильник, но без когнитивного осязания запросто может цапнуть за руку коллегу-человека и совершить непреднамеренное членовредительство.
«Умное» зрение, в свою очередь, также сможет подсказать роботу, что, например, находящийся перед ним шар совсем необязательно тащить – его будет достаточно просто перекатить. Подобных примеров «из жизни» можно привести тысячи.
В будущем такое взаимопроникновение компьютерных «чувств» может содействовать успешной и «бесшовной» интеграции человека с роботом в производственных или даже бытовых условиях.
Как это работает
Ученые из МИТ объединили самообучающийся предикативный ИИ с манипулятором промышленного класса производства компании KUKA Robotics. «Роботизированную руку» оснастили тактильным 3D-сенсором GelSight, также разработанным в МИТ.
Для обучения ИИ использовалась обыкновенная веб-камера, с помощью которой было отснято 12 тысяч видеороликов с примерно двумя сотнями различных объектов повседневного обихода – таких как инструменты, предметы домашнего обихода, ткани и другое.
Далее ученые произвели покадровую разбивку всех 12 000 видеоклипов на отдельные статические кадры. В результате был создан комплект VisGel, в который вошло более 3 миллионов визуально-тактильных пар данных.
Для обучения ИИ исследователи применили набор образов VisGel и алгоритм машинного обучения с помощью так называемых генеративно-состязательных сетей (generative adversarial networks, GAN). Суть алгоритма заключается в одновременном использовании двух нейронных сетей, одна из которых выступает в качестве «учителя» запуская поток контрольных образов, а вторая «учится» отличать оригинальные образы от сгенерированных.
Генеративно-состязательные сети использовались для «обучения» ИИ визуальным навыкам через тактильные свойства, и навыкам осязания через изображения. Две нейронные сети работают друг с другом по принципу конкуренции, как генератор и дискриминатор.
В процессе обучения генератор пытается «обмануть» дискриминатор имитацией реальных изображений. Каждый раз, когда дискриминатор «ловит» генератор на «обмане», ему приходится «обосновывать» свое решение – приводить «доказательства». За счет этого генератор многократно совершенствует свои характеристики.
«Наша модель в состоянии определить ощущение от прикосновения к плоской поверхности или к острому краю, – отметил Юнжу Ли (Yunzhu Li), аспирант CSAIL, соавтор статьи о системе. – Соприкасаясь с объектом «вслепую», наша модель в состоянии предсказать характер взаимодействия исключительно по тактильным ощущениям. Объединение двух чувств может расширить возможности робота и уменьшить объем данных, которые нужны для работы манипуляторов и захвата объектов».
Увидеть прикосновение
Обучение ИИ оценке тактильных свойств объекта по его изображению начинается с определения области касания, лишь после этого система пытается определить данные о форме и ощущении этой области.
Этап кодирования системы на предмет соответствия эталонных изображений определенным тактильным свойствам происходит без какого-либо взаимодействия робота с изучаемыми объектами.
После завершения этого этапа манипулятор робота в процессе работы смог запросто определять местоположение объекта и характер касания благодаря сравнению образа в кадре с эталонным изображением в памяти.
Прикоснуться к увиденному
Для «тренировки» компьютерного зрения ученые смоделировали визуальные изображения на базе тактильных данных. После анализа «тактильного» изображения, модель переходила к уточнению формы и структуры материала в месте тактильного контакта. Завершая процесс, ИИ еще раз обращался к эталонному изображению, чтобы закрепить в памяти соответствие полученной «галлюцинации».
В итоге, например, после изучения тактильных данных ботинка, ИИ мог воссоздать изображение того участка, в котором произойдет тактильный контакт с ботинком.
Перспективы развития технологии
На следующем этапе исследований ученые из MIT намерены выйти за рамки контролируемой среды и улучшить процесс обучения ИИ в процессе сбора и обработки данных в менее структурированных областях.
Еще одним направлением для исследований взаимодействия компьютерного зрения и осязания станет применение новой тактильной перчатки, также разработанной в MIT. С ее помощью ученые надеются расширить ассортимент, габариты и разнообразие свойств тактильных данных.
Ряд сложностей в работе визуально-тактильных алгоритмов еще только предстоит определить и изучить. Например, определение цвета объекта по соприкосновению с ним, или степень мягкости дивана без нажатия на него.
По мнению исследователей, совершенствование алгоритмов с расширенным распределением возможных результатов будет зависеть от создания более качественных моделей неопределенности.
Полная версия статьи: https://mcs.mail.ru/blog/evolucia-robotov-mashiny-uchatsya/