Исследователи из MIT и других университетов разработали новый подход, который значительно улучшает способность искусственного интеллекта к обучению через сопоставление звука и изображения, подобно тому, как это делают люди. Эта разработка может найти применение в журналистике, кинопроизводстве и, в перспективе, в робототехнике, сообщает MIT News. Работа основана на предыдущих достижениях группы, и заключается в создании метода, который позволяет моделям машинного обучения сопоставлять соответствующие аудио- и визуальные данные из видеороликов без необходимости ручной разметки данных человеком. Модель была модифицирована, чтобы она могла более точно сопоставлять конкретный кадр видео со звуком, происходящим в этот момент. Также были внесены архитектурные изменения, которые помогают системе сбалансировать две различные цели обучения, что повышает производительность. В результате, улучшения повысили точность подхода в задачах поиска видео и классификации действий в аудиовизуальных сценах.
Искусственный интеллект научился связывать звук и изображение без участия человека
23 мая 202523 мая 2025
2
2 мин