101 подписчик

Свежая технология обработки фото и видео VR на основе нейронных сетей

4 февраля 20204 фев 2020

104

3 мин

Недавно на просторах рунета промелькнуло сообщение об очень интересном программном продукте Deep360 от разработчика Kaj Toet. Сам продукт в настоящее время проходит альфа-тестирование и распространяется бесплатно. Ссылка для скачивания ЗДЕСЬ. Программное обеспечение (реализованное, кстати на модных ныне нейронных сетях) позволяет преобразовывать панорамные фотографии 360 из 2D в 3D. Если коротко - то при обычном 2D-отображении панорамного фото или видео в VR очках каждый глаз видит одно кусочек одной и той же панорамы с небольшим угловым сдвигом. Собственно какие предметы дальше, а какие ближе "додумывает" наш мозг. Однако в реальной жизни наши глаза находятся в разных точках, что приводит к эффекту параллакса - то есть картинки для правого и левого глаза разные. Мозг использует эту информацию для корректного определения расстояния до предметов. На практике эффект не слишком бросается в глаза - по крайней мере далеко не все мои друзья вообще замечали разницу. При этом съемка таких 3D стереопанорам сопряжена с рядом сложностей при сшивке панорам и поэтому такой режим поддерживают лишь производители профессиональных панорамных камер . Оценить своими глазами в VR-очках оба режима (моно и стерео) можно в мобильном приложении Sites in VR (оно выпущено и под iOS, и под Android). Приложение содержит большое количество панорам, среди которых встречаются стереоскопические 3D панорамы - они помечены значком с анаглифными очками:

Ниже приведен пример фрагмента изображения подставки для правого и левого глаза в стерео режиме - обратите внимание на кадушку за подставкой.

Различия, как я и писал выше, не такие очевидные, тем более, что мозг прекрасно умеет "додумывать" картинку. Однако ясно, что стереоскопические изображения дают больший эффект погружения, по сути, картинка становится максимально приближена к реальной.

Ну вот теперь собственно, теперь можно перейти и к сути программного продукта Deep360 - автор программы "натренировал" нейронную сеть, которая, анализируя панораму, на основе опыта обучения предполагает, какие предметы ближе, а какие дальше и строит картинку с картой глубины:

Таким образом, на выходе получается стереопанорама, где для каждого глаза формируется собственное изображение.

На сайте разработчика приведены примеры работы программы, которые можно без труда сохранить в свой смартфон. Собственно, оценить эффективность работы программы не так просто - по крайней мере, под Андроид фактически нет приложений, позволяющих просматривать фотографические стереопанорамы с файлов смартфона. С большим трудом мне удалось отыскать лишь одно приложение, решающее данную задачу - это приложение VU Gallery. Наверняка владельца айфонов имеют в своем распоряжении приложение с аналогичным функционалом - пишите в комментариях.

Итак, что показал независимый тест. Честно говоря, я ожидал, что панорамы, скачанные в качестве примеров работы программы с сайта разработчика имеют достойное качество. По крайней мере, внешне на сайте они выглядят весьма многообещающе. Однако практика - увы - суровая штука. Все примеры, размещенные на сайте, при ближайшем рассмотрении показывают большое количество артефактов работы нейронной сети. Панорама с воздуха - это вообще одно большое недоразумение, такое ощущение, что автор не предполагал, что это увидит кто-то ещё. Есть предположение, что на сайт загружены примеры ранней версии работы программы.

Это предположение усиливается при просмотре собственных панорам, обработанных последней версией программы. При попытке их обработки (под ОС Win 7) сразу же вылезли пара проблем: программа запустилась не на всех компьютерах- это раз (не загружалась libtensorflow.dll). Обработка файлов больших размеров часто заканчивалась фиаско - формировался файл абсолютно черного изображения маленького размера.

Тем не менее, кое-что получилось.

Файлы панорам, полученных с помощью Deep360

В процессе тестирования обнаружился баг рекомендованного приложения VU Gallery - отображение панорам часто происходит с недогрузкой. Даже когда изображение загружается полностью, на итоговых узких прямых линиях видны "ступеньки", тогда как исходное изображение отличного качества. Видимо, это связано с адаптацией разрешения панорамы под разрешение экрана. Если кто-нибудь знает лучшее ПО для просмотра подобных панорам - пишите в комментариях.

Резюмируя, можно сказать, что предложенное решение на базе нейронной сети во многих случаях справляется с задачей весьма пристойно, добавляя "глубину" и по крайней мере делая просмотр панорам весьма увлекательным. Перспективы подобной обработки видео заявленные разработчиком, честно говоря, представляются довольно туманными, однако сам подход - это нечто новое и интересное, точно заслуживающее внимания!

Всех благ, друзья! Подписывайтесь на мой канал!

Технологии будущего

157,2 тыс интересуются