Первоначально разработанный для задач обработки естественного языка (NLP), self-attention mechanism (механизм внутреннего внимания) взял штурмом различные области компьютерного зрения. Тем не менее, двумерная природа изображений создает три проблемы для применения self-attention mechanism в компьютерном зрении. (1) Обработка изображений как одномерных последовательностей не учитывает их двумерные структуры. (2) Высокое потребление памяти для изображений с высоким разрешением. (3) механизм фиксирует только пространственную адаптируемость, но игнорирует адаптацию канала. В этой статье мы предлагаем новый механизм внимания с большим ядром (LKA), чтобы обеспечить самоадаптирующиеся и долгосрочные корреляции во внимании , избегая при этом вышеуказанных проблем.В статье мы представляем новую нейронную сеть, основанную на LKA, а именно сеть визуального внимания (VAN). Чрезвычайно простая и эффективная нейронная сеть VAN превосходит современные алгоритмы компьютерного зрения (ViT) и сверточные нейронные сети (CNN) с большим отрывом во многих экспериментах, включая классификацию изображений, обнаружение объектов, семантическую сегментацию и т. д.
Подробнее : https://github.com/Visual-Attention-Network/VAN-Classification
Paper: https://arxiv.org/pdf/2202.09741.pdf
Dataset: https://paperswithcode.com/dataset/ade20k
t.me/ai_machinelearning_big_data