Добавить в корзинуПозвонить
Найти в Дзене
Известия

Роботы учатся видеть как люди: как работает технология стереозрения, разработанная учеными МФТИ

Российские ученые создали систему компьютерного стереозрения, позволяющую оценивать расстояние до объектов с помощью видеокамеры без использования дополнительных сенсоров. Ее главное преимущество — стабильная работа в сложных условиях, например в тумане или густой листве. Технология может применяться в различных видах автономной техники — от беспилотных такси до роботов-кладовщиков. По мнению экспертов, такой подход экономически выгоден, поскольку позволяет отказаться от установки большого числа датчиков. Однако для его практического применения требуется обширная выборка данных для обучения нейросетей. Подробнее — в материале «Известий». Специалисты МФТИ совместно с зарубежными коллегами разработали технологию стереозрения Un-ViTAStereo, которая оценивает расстояние до объектов без использования дорогих лидаров и ручной разметки изображений. Система эффективна там, где современные алгоритмы дают сбой, — перед гладкими стенами, в густой листве или тумане. Она распознает тени объектов и
Оглавление
Фото: ИЗВЕСТИЯ/Сергей Лантюхов
Фото: ИЗВЕСТИЯ/Сергей Лантюхов

Российские ученые создали систему компьютерного стереозрения, позволяющую оценивать расстояние до объектов с помощью видеокамеры без использования дополнительных сенсоров. Ее главное преимущество — стабильная работа в сложных условиях, например в тумане или густой листве. Технология может применяться в различных видах автономной техники — от беспилотных такси до роботов-кладовщиков. По мнению экспертов, такой подход экономически выгоден, поскольку позволяет отказаться от установки большого числа датчиков. Однако для его практического применения требуется обширная выборка данных для обучения нейросетей. Подробнее — в материале «Известий».

Система стереозрения

Специалисты МФТИ совместно с зарубежными коллегами разработали технологию стереозрения Un-ViTAStereo, которая оценивает расстояние до объектов без использования дорогих лидаров и ручной разметки изображений. Система эффективна там, где современные алгоритмы дают сбой, — перед гладкими стенами, в густой листве или тумане. Она распознает тени объектов и учитывает перспективу, что делает ее применимой в беспилотных автомобилях и автономных роботах.

Для повышения точности ученые использовали «наставника» — модель Depth Anything V2, способную оценивать относительную глубину по изображению с одной камеры. Она не измеряет расстояния в метрах, но почти безошибочно определяет, какие объекты находятся ближе, а какие дальше, учитывая тени, перспективу и перекрытия. Алгоритм обучения отбирает только те предсказания стереосистемы, которые совпадают с подсказками «наставника», и на их основе повышает точность нейросети.

— Модель Depth Anything V2 постоянно передает подсказки стереосистеме. Например, «я не знаю, на сколько метров эта машина ближе дерева, но она точно ближе, и граница между ними должна быть резкой» или «на этой стене, где нет контраста, глубина должна меняться плавно», — сказал руководитель проекта Научно-технического центра телекоммуникаций МФТИ Александр Дворкович.

Стереосистемы роботов и беспилотных автомобилей строят трехмерную карту мира подобно зрительному восприятию человека. Только вместо глаз они используют камеры, а вместо мозга — алгоритмы. Однако такой механизм работает не во всех условиях: при встрече с идеально белой стеной или участком с повторяющимися узорами алгоритму не хватает визуальных ориентиров для правильного сопоставления изображений. Ранее для таких случаев применялась ручная разметка объектов с указанием точного расстояния, но она не всегда эффективна. Новая технология позволяет решить эту проблему.

Фото: Getty Images/iStock
Фото: Getty Images/iStock

Иллюстрация интеллектуального отображения информации о движущемся транспортном средстве, GPS, светофорах, пешеходах

— Работу системы уже протестировали на стандартных датасетах, и Un-ViTAStereo показала абсолютное превосходство среди аналогов. Например, на тесте беспилотников KITTI 2015 долю грубых ошибок удалось снизить до 5%. Это означает, что при движении количество опасных ошибок в определении расстояний до объектов — бордюров или пешеходов — снизится на 23%, — отметил Александр Дворкович.

На основе Un-ViTAStereo ученые планируют создать самообучающуюся нейросеть, способную адаптироваться к особенностям различных сред — от городских улиц до заводских цехов. Кроме того, планируется использовать редкие, но точные измерения лидаров в качестве «супермаяков» для обучения, что позволит еще больше повысить точность системы.

Практическое применение

Разработка может найти широкое применение — от беспилотного транспорта, сельского хозяйства, складской робототехники до систем мониторинга, безопасности и БПЛА, считает эксперт рынка НТИ «Нейронет», заместитель гендиректора компании — производителя роботов «Степень свободы» Алиса Сотникова.

— Разработка направлена на сокращение количества аппаратных средств для определения расстояния до объектов. Была проведена большая работа со слепыми зонами. Предложенный метод позволяет корректно определять глубину именно в этих проблемных местах, где другие методы терпят неудачу, — сказала она.

Такое стереозрение снижает зависимость отрасли от дорогостоящих лидаров и трудоемкой разметки данных. Особенно ценно, что алгоритм устойчиво работает в сложных условиях — на однородных поверхностях, в условиях тумана или визуального шума, где классические модели теряют точность или дают разрывы глубины, уверен ведущий эксперт в области ИИ «Университета 2035» Ярослав Селиверстов.

— Использование «интеллектуального советчика» для стереосистемы фактически приближает машинное восприятие к человеческому, когда важны не абсолютные метры, а корректные относительные связи и границы объектов. С практической точки зрения это может существенно повысить надежность систем автономного вождения, особенно в городских условиях с плохой видимостью и сложной геометрией улично-дорожной сети, — сказал эксперт.

Решение снижает зависимость от дорогостоящих сенсоров, однако не устраняет полностью потребность в метрически точных источниках данных и остается чувствительным к особенностям обучающих выборок, отметил замдиректора Центра компетенций НТИ «Технологии доверенного взаимодействия на базе ТУСУР» Руслан Пермяков.

— В целом это не радикально новое решение, а качественное развитие существующих подходов, закрывающее один из наиболее проблемных классов ошибок в задачах 3D-восприятия. Представьте, что робот или беспилотный автомобиль смотрит на мир почти как человек — не просто фиксирует картинку, а понимает, что ближе, что дальше, даже если перед ним гладкая стена, густой туман или заросли деревьев. Именно это и позволяет делать новая технология, — сказал эксперт.

По словам доцента факультета систем управления и робототехники Университета ИТМО Сергея Шаветова, разработка будет полезна для систем помощи водителям, а также для «очувствления» беспилотных автономных роботов, включая летающие аппараты. Технология также может найти применение в роботах-курьерах и беспилотных такси.

Как вы считаете, могут ли эти технологии ускорить развитие беспилотного транспорта?