Найти тему
Машинное обучение

Новый модуль для визуальной классификации объектов

Мы предлагаем новый модуль, который можно интегрировать во многие нейронные сети для распознованием изображений , включая сети на основе CNN или Transformer. Модуль может представлять изображение на уровне пикселей и объединять отфильтрованные группы пикселей для улучшения точной визуальной классификации. Экспериментальные результаты показывают, что предлагаемый алгоритм превосходит современные подходы и значительно повышает точность распознавания до 92,77% и 92,83% на датасетах CUB200-2011 и NABirds соответственно.

Github:

https://github.com/chou141253/fgvc-pim

Paper: https://arxiv.org/abs/2202.03822

Dataset: https://paperswithcode.com/dataset/nabirds