Найти в Дзене
SkyNet | Новости ИИ

Meta AI представляет открытый аудиовизуальный кодировщик PE-AV

Исследователи компании Meta представили новое семейство кодировщиков для совместного понимания аудио и видео — Perception Encoder Audiovisual (PE-AV). Модель изучает согласованные аудио-, видео- и текстовые представления в едином пространстве встраивания с помощью масштабного контрастного обучения на примерно 100 миллионах пар аудио-видео с текстовыми подписями. От Perception Encoder к PE-AV Perception Encoder (PE) — это ядро ​​стека Vision в проекте Meta Perception Models. Это семейство кодировщиков для изображений, видео и аудио, которое достигает современного уровня во многих тестах по распознаванию изображений и аудио с помощью унифицированного контрастного предварительного обучения. PE превосходит SigLIP2 в задачах с изображениями и InternVideo2 в задачах с видео. PE lang поддерживает языковую модель восприятия для мультимодального рассуждения. PE spatial настроен для задач плотного прогнозирования, таких как обнаружение и оценка глубины. PE-AV основан на этом ядре и расширяет

Meta AI представляет открытый аудиовизуальный кодировщик PE-AV

Исследователи компании Meta представили новое семейство кодировщиков для совместного понимания аудио и видео — Perception Encoder Audiovisual (PE-AV). Модель изучает согласованные аудио-, видео- и текстовые представления в едином пространстве встраивания с помощью масштабного контрастного обучения на примерно 100 миллионах пар аудио-видео с текстовыми подписями.

От Perception Encoder к PE-AV

Perception Encoder (PE) — это ядро ​​стека Vision в проекте Meta Perception Models. Это семейство кодировщиков для изображений, видео и аудио, которое достигает современного уровня во многих тестах по распознаванию изображений и аудио с помощью унифицированного контрастного предварительного обучения.

PE превосходит SigLIP2 в задачах с изображениями и InternVideo2 в задачах с видео. PE lang поддерживает языковую модель восприятия для мультимодального рассуждения. PE spatial настроен для задач плотного прогнозирования, таких как обнаружение и оценка глубины.

PE-AV основан на этом ядре и расширяет его до полного выравнивания аудио, видео и текста. В репозитории Perception Models PE audio visual представлен как ветвь, которая встраивает аудио, видео, аудио-видео и текст в единое совместное пространство встраивания для межмодального понимания.

Архитектура, отдельные башни и слияние

Архитектура PE-AV состоит из:

* фреймового кодировщика;

* видеокодировщика;

* аудиокодировщика;

* кодировщика аудио-видео слияния;

* текстового кодировщика.

Путь видео использует существующий фреймовый кодировщик PE для RGB-кадров, затем применяет темпоральный видеокодировщик поверх характеристик на уровне кадров.

Путь аудио использует DAC VAE в качестве кодека для преобразования необработанных сигналов в дискретные аудиотокены с фиксированной частотой кадров, примерно один встраивание каждые 40 миллисекунд.

Эти башни питают кодировщик аудио-видео слияния, который изучает общее представление для обоих потоков. Текстовый кодировщик проецирует текстовые запросы в несколько специализированных пространств. На практике это даёт вам единое ядро, которое можно запрашивать разными способами. Вы можете извлекать видео из текста, аудио из текста, аудио из видео или извлекать текстовые описания, обусловленные любой комбинацией модальностей, без переобучения специфичных для задачи голов.

Синтетические аудиовизуальные подписи в масштабе

Исследовательская группа предложила двухэтапный механизм аудиовизуальных данных, который генерирует высококачественные синтетические подписи для немаркированных клипов.

На первом этапе несколько слабых аудио-подписных моделей, их показатели достоверности и отдельные видео-подписные системы используются в качестве входных данных для большой языковой модели. Эта LLM производит три типа подписей для каждого клипа: одну для аудиоконтента, одну для визуального контента и одну для объединённого аудиовизуального контента. Начальная модель PE AV обучается на этом синтетическом контроле.

На втором этапе этот начальный PE-AV объединяется с декодером языковой модел...

Читать далее