Исследователи компании Meta представили новое семейство кодировщиков для совместного понимания аудио и видео — Perception Encoder Audiovisual (PE-AV). Модель изучает согласованные аудио-, видео- и текстовые представления в едином пространстве встраивания с помощью масштабного контрастного обучения на примерно 100 миллионах пар аудио-видео с текстовыми подписями. От Perception Encoder к PE-AV Perception Encoder (PE) — это ядро стека Vision в проекте Meta Perception Models. Это семейство кодировщиков для изображений, видео и аудио, которое достигает современного уровня во многих тестах по распознаванию изображений и аудио с помощью унифицированного контрастного предварительного обучения. PE превосходит SigLIP2 в задачах с изображениями и InternVideo2 в задачах с видео. PE lang поддерживает языковую модель восприятия для мультимодального рассуждения. PE spatial настроен для задач плотного прогнозирования, таких как обнаружение и оценка глубины. PE-AV основан на этом ядре и расширяет