В этой статье мы изучаем проблему обнаружения объектов на геолокации для сопоставления изображений с разных точек зрения. Вдохновленные человеческой зрительной системой для распознавания локальных паттернов, мы предлагаем новую структуру под названием RK-Net для изучения дискриминативного представления и обнаружения характерных ключевых точек с помощью единой сети. В частности, мы представляем модуль внимания (USAM), которая может автоматически обнаруживать репрезентативные ключевые точки на картах объектов . USAM дает значительное улучшение производительности и может быть легко подключен к различным алгоритмам cv. С помощью обширных экспериментов мы демонстрируем, что за счет включения USAM RK-Net ускоряется обучение моделей без дополнительных ресурсов. Обучение представлению и обнаружение ключевых точек — две тесно связанные задачи. USAM легко внедрить, и его можно интегрировать с существующими методами, дополнительно улучшая работу любых моделей. Мы достигаем конкурентоспособной точности при работе с геолокациями по трем сложных наборах данных: University-1652, CVUSA и CVACT. Код доступен по адресу: https://github.com/AggMan96/RK-Net.
Демо:
Код: https://github.com/AggMan96/RK-Net
Статья: https://zhunzhong.site/paper/RK_Net.pdf
Датасет: https://paperswithcode.com/dataset/university-1652
#machinelearning #artificialintelligence #ai #datascience #python #programming #technology #deeplearning #bigdata #computerscience