2 подписчика
Мультикамерное отслеживание для улучшенного управления трафиком в реальном времени с использованием трансформеров и графовых нейронных сетей
“`html
LaMMOn: Решение для многокамерного отслеживания с использованием трансформеров и графовых нейронных сетей для улучшенного управления трафиком в реальном времени
Многокамерное отслеживание (MTMCT) является ключевым элементом интеллектуальных транспортных систем. Однако оно сталкивается с проблемами в реальных приложениях из-за ограниченности общедоступных данных и трудоемкого процесса ручной аннотации. Эффективное управление трафиком было улучшено благодаря прогрессу в компьютерном зрении, позволяющем точно прогнозировать и анализировать объемы трафика. MTMCT включает в себя отслеживание транспортных средств на нескольких камерах путем обнаружения объектов, выполнения отслеживания нескольких объектов в пределах одной камеры и, наконец, кластеризации траекторий для создания общей карты движения транспортных средств. Несмотря на свой потенциал, MTMCT сталкивается с проблемами, такими как необходимость новых правил сопоставления для каждого сценария камеры, ограниченные наборы данных и высокие затраты на ручную разметку.
Решение LaMMOn
Исследователи из Университета Теннесси в Чаттануге и Центра исследований L3S при Ганноверском университете разработали модель многокамерного отслеживания LaMMOn на основе трансформеров и графовых нейронных сетей. LaMMOn объединяет три модуля: модель обнаружения языка (LMD) для обнаружения объектов, модель ассоциации языка и графа (LGMA) для отслеживания и кластеризации траекторий, а также модуль текстового встраивания (T2E) для генерации встраиваний объектов из текста для решения ограничений данных. Эта модель показывает хорошие результаты на различных наборах данных, включая CityFlow и TrackCUIP, обладая конкурентоспособной производительностью в реальном времени. Дизайн LaMMOn устраняет необходимость в новых правилах сопоставления и ручной разметке, используя синтезированные встраивания из текста.
Многократное отслеживание объектов (MOT) включает в себя ассоциацию объектов на видеокадрах с одной камеры для создания треклетов, с методами, такими как Tracktor, CenterTrack и TransCenter, улучшающими возможности отслеживания. MTMCT расширяет это, интегрируя движения объектов на нескольких камерах, часто рассматривая MTMCT как расширение кластеризации результатов MOT. Техники, такие как пространственно-временная фильтрация и ограничения правил дорожного движения, улучшили точность, хотя LaMMOn отличается тем, что объединяет задачи обнаружения и ассоциации в единый процесс. Модели трансформеров, такие как Trackformer и TransTrack, а также графовые нейронные сети, такие как GCN и GAT, были использованы для улучшения производительности отслеживания, включая обработку сложных структур данных и оптимизацию многокамерного отслеживания.
Фреймворк LaMMOn состоит из трех ключевых модулей: модуль LMD, который обнаруживает объекты и генерирует встраивания; модуль LGMA, который обрабатывает многокамерное отслеживание и кластеризацию траекторий; и модуль T2E, который синтезирует встраивания объектов из текстовых описаний. LMD объединяет видеокадры с позиционными и идентификаторами камер, чтобы произвести встраивания объектов с использованием Deformable DETR. LGMA использует эти встраивания для выполнения глобальной ассоциации треклетов с помощью графовых токенов. Модуль T2E, основанный на Sentencepiece, генерирует синтетические встраивания из текста, решая...
3 минуты
24 июля 2024