Сегментация 3D-сцен - один из самых трудозатратных видов разметки данных. Разметчикам нужно точно выделять границы трехмерных объектов. Это требует больше времени и ошибиться там проще, чем при выделении обычных 2D-изображений.
Однако, если вы работаете с простыми геометрическими объектами или допускаете небольшую погрешность - у нас есть хорошая новость. FAIR выпустил новый фреймворк - WyPR для сегментации 3D-сцен без учителя, обошедший другие современные методы на 6% по mIoU (среднее пересечение по объединению, коэффициент Жаккара).
Почему это круто
Вспомним замученных роботов Boston Dynamics. Помимо того, что они должны выдерживать удары стульями и пинки, сохраняя равновесие, им нужно как-то ориентироваться в пространстве. Например, когда нужно доставить груз из одного помещения в другое. Чтобы не упереться в стену и не зацепить окружающие предметы, у них должно быть трехмерное компьютерное зрение. Оно должно в реальном времени определять объекты.
WyPR умеет распознавать пространственные объекты без предварительной разметки точек 3D-сцены. Кроме того, фреймворк снижает требования к входным обучающим данным и расширяет диапазон распознаваемых объектов.
Главная задача WyPR — научиться выполнять пространственное распознавание объектов в трехмерном облаке точек, используя только теги на уровне сцены (например, список присутствующих объектов). WyPR разбивает эту задачу на две: сегментацию и обнаружение.
Подробнее про принцип работы WyPR
Сперва WyPR извлекает точечное представление сцены из исходных данных, используя стандартные методы трёхмерного глубокого обучения. Чтобы решить задачу по по сегментации, фреймворк присваивает метки объекта каждой точке.
Из-за того, что метод не использует заранее размеченные данные, в ход идет комбинация нескольких приёмов:
- многовариантное обучение (multi-instance learning, MIL);
- обучение без учителя (например, проверяется, что предсказания остаются реалистичными при расширении представления входных данных).
Далее, чтобы обнаружить границы объектов, WyPR использует новую технологию, основанную на методе селективного поиска (selective search) - геометрический выборочный поиск (GSS). Каждый предложенный объект также классифицируется при помощи MIL и обучения без учителя, аналогично предыдущему шагу.
Далее вся информация собирается в единую картину, обеспечивая согласованность прогнозов для точек и объектов. Проверяется, что метки точек в границе объекта соответствуют метке объекта.
Заключение
Как показывают результаты на датасете ScanNet, WyPR может приемлемо распознавать и сегментировать объекты сцены даже без точечной разметки.
Более того, фреймворк опередил современные методы со слабым обучением с учителем на 6% по показателю mIoU. Кроме того, фреймворк WyPR формализует проблему 3D-обнаружения без учителя, включая в себя настройку исходных данных и тестов для упомянутого датасета.
Подводя краткое резюме всему вышесказанному, технология - хороша, но еще очень сыра. Даже в таком виде ее можно использовать для ряда задач, не требующих предельную точность разметки. Например, ориентирование в пространстве или навигации.
Если же ваш проект требует 100% точности разметки, то не спешите вверять его в руки WyPR. Воспользуйтесь услугами профессиональной разметки: опишите задачу, а LabelMe всё сделает.
Другие наши статьи:
Наши соцсети: