Исследователи Apple опубликовали свежую работу под названием Sharp Monocular View Synthesis in Less Than a Second, в которой описывается новая модель SHARP. Она способна воссоздать фотореалистичную трехмерную сцену из единственного двумерного изображения, причем делает это на обычном компьютере меньше, чем за секунду. При этом сохраняет правильные расстояния и масштабы в реальных величинах. Звучит как магия, но на самом деле это результат тренировки нейросети на огромных объемах синтетических и реальных данных. Технология основана на так называемом гауссовском сплаттинге — методе, при котором сцена представляется миллионами крошечных цветовых «капель» в пространстве. Обычно для создания такого 3D-представления требуются десятки или сотни снимков одной сцены с разных ракурсов. SHARP же справляется с задачей по одной фотографии за один проход через нейронную сеть. Модель оценивает глубину, уточняет ее на основе выученных паттернов и предсказывает положение миллионов трехмерных гауссиан.
Apple научила ИИ видеть глубину там, где ее нет
18 декабря 202518 дек 2025
9
1 мин