Мы предлагаем новый модуль, который можно интегрировать во многие нейронные сети для распознованием изображений , включая сети на основе CNN или Transformer. Модуль может представлять изображение на уровне пикселей и объединять отфильтрованные группы пикселей для улучшения точной визуальной классификации. Экспериментальные результаты показывают, что предлагаемый алгоритм превосходит современные подходы и значительно повышает точность распознавания до 92,77% и 92,83% на датасетах CUB200-2011 и NABirds соответственно.
Github:
https://github.com/chou141253/fgvc-pim
Paper: https://arxiv.org/abs/2202.03822
Dataset: https://paperswithcode.com/dataset/nabirds