Добавить в корзинуПозвонить
Найти в Дзене

Apple научила ИИ видеть глубину там, где ее нет

Исследователи Apple опубликовали свежую работу под названием Sharp Monocular View Synthesis in Less Than a Second, в которой описывается новая модель SHARP. Она способна воссоздать фотореалистичную трехмерную сцену из единственного двумерного изображения, причем делает это на обычном компьютере меньше, чем за секунду. При этом сохраняет правильные расстояния и масштабы в реальных величинах. Звучит как магия, но на самом деле это результат тренировки нейросети на огромных объемах синтетических и реальных данных. Технология основана на так называемом гауссовском сплаттинге — методе, при котором сцена представляется миллионами крошечных цветовых «капель» в пространстве. Обычно для создания такого 3D-представления требуются десятки или сотни снимков одной сцены с разных ракурсов. SHARP же справляется с задачей по одной фотографии за один проход через нейронную сеть. Модель оценивает глубину, уточняет ее на основе выученных паттернов и предсказывает положение миллионов трехмерных гауссиан.

Apple научила ИИ видеть глубину там, где ее нет

Исследователи Apple опубликовали свежую работу под названием Sharp Monocular View Synthesis in Less Than a Second, в которой описывается новая модель SHARP. Она способна воссоздать фотореалистичную трехмерную сцену из единственного двумерного изображения, причем делает это на обычном компьютере меньше, чем за секунду. При этом сохраняет правильные расстояния и масштабы в реальных величинах. Звучит как магия, но на самом деле это результат тренировки нейросети на огромных объемах синтетических и реальных данных.

Технология основана на так называемом гауссовском сплаттинге — методе, при котором сцена представляется миллионами крошечных цветовых «капель» в пространстве. Обычно для создания такого 3D-представления требуются десятки или сотни снимков одной сцены с разных ракурсов. SHARP же справляется с задачей по одной фотографии за один проход через нейронную сеть. Модель оценивает глубину, уточняет ее на основе выученных паттернов и предсказывает положение миллионов трехмерных гауссиан. Правда, есть компромисс: система точно отрисовывает только близкие ракурсы, а не синтезирует полностью невидимые части сцены. Зато именно это дает возможность работать так быстро и стабильно.

По сравнению с предыдущими методами наподобие Gen3C результаты впечатляют. Согласно экспериментам, SHARP снижает показатель ошибки LPIPS на 25–34 процента, а DISTS — на 21–43 процента, при этом время синтеза сокращается в тысячу раз. Практическое применение технологии может быть весьма широким: от улучшения пространственного видео в приложении «Фото» до создания трехмерных моделей объектов для дополненной реальности прямо со смартфона. Представьте, что вы сфотографировали комнату, а iPhone тут же построил ее 3D-модель для виртуальной расстановки мебели.

Apple выложила модель на GitHub, и пользователи уже делятся своими тестами в соцсетях. Особенно интересно, что энтузиасты начали применять SHARP к видео, хотя изначально модель создавалась для статичных изображений — это открывает новые перспективы для будущего развития технологии.

@fixed

Apple
384,5 тыс интересуются