Найти в Дзене

На пути к более точному обнаружению 3D-объектов для роботов и самоуправляемых автомобилей

Робототехника и самоуправляемые автомобили - две наиболее быстро развивающиеся области технологий, способные сделать работу и транспорт более безопасными и эффективными. Поскольку роботы и самоуправляемые автомобили должны точно чувствовать окружающую среду, алгоритмы 3D-идентификации объектов являются важной темой исследований. Большинство систем 3D-идентификации объектов используют датчики LiDAR для создания 3D-облаков точек окружающей среды. Проще говоря, датчики LiDAR используют лазерные лучи для быстрого сканирования и оценки расстояний между объектами и поверхностями, окружающими источник. Однако использование одних только данных LiDAR может привести к неточностям из-за высокой чувствительности LiDAR к шумам, особенно в неблагоприятных погодных условиях, таких как осадки.

Чтобы решить эту проблему, ученые создали мультимодальные системы 3D-идентификации объектов, в которых 3D-данные LiDAR сочетаются с 2D RGB-снимками, полученными с помощью обычных камер. Хотя интеграция 2D-изображений с данными 3D LiDAR позволяет получить более точные результаты 3D-обнаружения, она, тем не менее, имеет свои собственные препятствия, в том числе трудности с обнаружением крошечных объектов. Основная проблема заключается в точном согласовании семантической информации, полученной независимо из 2D- и 3D-данных, что затруднено из-за таких трудностей, как некачественная калибровка или окклюзия.

На этом фоне исследовательская группа под руководством профессора Хироюки Томиямы из Университета Рицумейкан (Япония) разработала новую стратегию повышения точности и надежности мультимодальной 3D-идентификации объектов. Исследование под названием "Dynamic Point-Pixel Feature Alignment Network" (DPPFA-Net) было опубликовано в журнале IEEE Internet of Things Journal 3 ноября 2023 года.

Модель состоит из множества экземпляров трех инновационных модулей: Memory-based Point-Pixel Fusion (MPPF), Deformable Point-Pixel Fusion (DPPF) и Semantic Alignment Evaluator (SAE). Модуль MPPF отвечает за явное взаимодействие между внутримодальными признаками (2D с 2D и 3D с 3D) и кросс-модальными признаками (2D с 3D). Использование 2D-изображения в качестве банка памяти упрощает обучение сети и делает систему более устойчивой к шуму в 3D-облаках точек. Кроме того, это стимулирует использование более широких и дискриминационных признаков.

В отличие от этого, модуль DPPF осуществляет взаимодействие только с пикселями в ключевых позициях, которые определяются с помощью интеллектуальной стратегии выборки. Это позволяет объединять признаки в высоком разрешении при низкой вычислительной сложности. Наконец, модуль SAE помогает обеспечить семантическое соответствие между обоими представлениями данных в процессе слияния, что снижает проблему неоднозначности признаков.

-2

Исследователи сравнили DPPFA-Net с лучшими показателями общепризнанного бенчмарка KITTI Vision Benchmark. Примечательно, что предложенная сеть улучшила среднюю точность на 7,18 % при различных шумовых ситуациях. Для дальнейшей проверки возможностей своей модели исследователи создали новый набор шумовых данных, включив в набор KITTI искусственный мультимодальный шум в виде дождя. Результаты показали, что предложенная сеть превосходит предыдущие модели не только в условиях сильных окклюзий, но и в различных сценариях плохой погоды. "Наши обширные эксперименты с набором данных KITTI и сложными мультимодальными шумами показали, что DPPFA-Net достигла нового уровня", - говорит доктор Томияма.

Существует несколько способов, с помощью которых эффективные системы 3D-идентификации объектов могут принести пользу нашей жизни. Самоуправляемые автомобили, использующие подобную тактику, способны свести к минимуму количество аварий и повысить безопасность движения. Кроме того, нельзя недооценивать последствия в сфере робототехники. "Наше исследование может способствовать лучшему пониманию и адаптации роботов к их рабочей среде, позволяя более точно воспринимать небольшие цели", - говорит доктор Томияма. "Такие достижения помогут улучшить возможности роботов в различных областях применения". Еще одно применение сетей обнаружения 3D-объектов - предварительная маркировка исходных данных для систем восприятия с глубоким обучением. Это значительно сократит затраты на аннотирование данных человеком и ускорит прогресс в этой области.

В целом, эта работа - шаг в правильном направлении для того, чтобы сделать автономные системы более осознанными и помогать людям в решении человеческих задач.