Найти в Дзене

Искусственный интеллект научился связывать звук и изображение без участия человека

Исследователи из MIT и других университетов разработали новый подход, который значительно улучшает способность искусственного интеллекта к обучению через сопоставление звука и изображения, подобно тому, как это делают люди. Эта разработка может найти применение в журналистике, кинопроизводстве и, в перспективе, в робототехнике, сообщает MIT News. Работа основана на предыдущих достижениях группы, и заключается в создании метода, который позволяет моделям машинного обучения сопоставлять соответствующие аудио- и визуальные данные из видеороликов без необходимости ручной разметки данных человеком. Модель была модифицирована, чтобы она могла более точно сопоставлять конкретный кадр видео со звуком, происходящим в этот момент. Также были внесены архитектурные изменения, которые помогают системе сбалансировать две различные цели обучения, что повышает производительность. В результате, улучшения повысили точность подхода в задачах поиска видео и классификации действий в аудиовизуальных сценах.
   freepik.com
freepik.com

Исследователи из MIT и других университетов разработали новый подход, который значительно улучшает способность искусственного интеллекта к обучению через сопоставление звука и изображения, подобно тому, как это делают люди. Эта разработка может найти применение в журналистике, кинопроизводстве и, в перспективе, в робототехнике, сообщает MIT News.

Работа основана на предыдущих достижениях группы, и заключается в создании метода, который позволяет моделям машинного обучения сопоставлять соответствующие аудио- и визуальные данные из видеороликов без необходимости ручной разметки данных человеком. Модель была модифицирована, чтобы она могла более точно сопоставлять конкретный кадр видео со звуком, происходящим в этот момент. Также были внесены архитектурные изменения, которые помогают системе сбалансировать две различные цели обучения, что повышает производительность.

В результате, улучшения повысили точность подхода в задачах поиска видео и классификации действий в аудиовизуальных сценах. Например, новая модель может автоматически и точно сопоставить звук захлопывающейся двери с ее визуальным закрытием в видеоклипе.

Как это работает?

Модель под названием CAV-MAE Sync (улучшенная версия CAV-MAE) использует необработанные видеоклипы и разделяет аудио- и визуальные данные на отдельные представления, называемые токенами. Модель, используя естественный звук из записи, автоматически сопоставляет соответствующие пары аудио- и визуальных токенов близко друг к другу во внутреннем пространстве представлений. Ключевым нововведением является разделение аудио на более мелкие временные отрезки, чтобы модель могла сопоставлять каждый видеокадр с конкретным звуком, происходящим в этот момент.

• Контрастивное обучение: Модель учится ассоциировать похожие аудио- и визуальные данные.

• Реконструктивное обучение: Модель стремится восстановить конкретные аудио- и визуальные данные на основе запросов пользователя.

• Токены: Представления данных, используемые моделью для обучения.

Многомодальные модели ИИ: Модели искусственного интеллекта, которые могут воспринимать и обрабатывать информацию, поступающую по нескольким каналам восприятия (зрение, слух, речь и т.д.).

«Мы создаем системы искусственного интеллекта, которые могут обрабатывать мир так же, как это делают люди, то есть, одновременно получая аудио- и визуальную информацию и плавно обрабатывая обе модальности. В будущем, если мы сможем интегрировать эту аудиовизуальную технологию в некоторые инструменты, которые мы используем ежедневно, например, большие языковые модели, это может открыть множество новых приложений», — говорит Эндрю Рудитченко, аспирант MIT и соавтор статьи об этом исследовании.

В будущем исследователи планируют интегрировать новые модели, генерирующие более качественные представления данных, в CAV-MAE Sync, что может еще больше повысить производительность. Они также хотят научить свою систему обрабатывать текстовые данные, что станет важным шагом на пути к созданию аудиовизуальной большой языковой модели.