Исследователи из Facebook научили нейросеть строить план целого этажа, используя визуальные и звуковые эффекты из короткого видеоклипа. Технологию AV-Map можно применять для визуализации пространств, планирования маршрутов и разработки архитектурных проектов.
Нейросеть обрабатывает пространственные и семантические сигналы. Она объединяет информацию из аудио и видео с помощью компонента декодера. Только по звукам, охватывающим 26% площади, нейросеть может оценить всю площадь с точностью 66%.