Добавить в корзинуПозвонить
Найти в Дзене
Нейрозона сегодня

WindowSeat: ИИ для удаления отражений с фотографий

Команда исследователей из Huawei Bayer Lab и ETH Zurich представила WindowSeat — модель машинного обучения, способную удалять отражения с фотографий. Новая разработка ориентирована на решение распространенной проблемы любительской фотографии – нежелательные блики в стеклах при съемке из окон транспорта, через витрины или городских пейзажей. Удаление этих отражений вручную в фоторедакторах часто бывает трудоемким и малоэффективным. Основная сложность создания качественных моделей для удаления отражений заключается в отсутствии достаточного количества размеченных данных. Необходимы пары снимков – с отражением и без него, но отражения по своей природе динамичны и быстро меняются. Вместо поиска готового датасета, ученые создали его самостоятельно, используя фотореалистичные 3D-сцены в Blender. Особое внимание было уделено физически корректному воссозданию отражений с помощью шейдера Principled BSDF. В результате был сгенерирован набор данных из 25 тысяч изображений. Для обучения модели исс

Команда исследователей из Huawei Bayer Lab и ETH Zurich представила WindowSeat — модель машинного обучения, способную удалять отражения с фотографий.

Новая разработка ориентирована на решение распространенной проблемы любительской фотографии – нежелательные блики в стеклах при съемке из окон транспорта, через витрины или городских пейзажей. Удаление этих отражений вручную в фоторедакторах часто бывает трудоемким и малоэффективным.

Основная сложность создания качественных моделей для удаления отражений заключается в отсутствии достаточного количества размеченных данных. Необходимы пары снимков – с отражением и без него, но отражения по своей природе динамичны и быстро меняются.

Вместо поиска готового датасета, ученые создали его самостоятельно, используя фотореалистичные 3D-сцены в Blender. Особое внимание было уделено физически корректному воссозданию отражений с помощью шейдера Principled BSDF. В результате был сгенерирован набор данных из 25 тысяч изображений.

Для обучения модели исследователи выбрали диффузионный трансформер Qwen-Image-Edit-2509 и адаптировали его с помощью LoRA, научив удалять исключительно отражения. Это позволило достичь высокой эффективности и снизить требования к вычислительным ресурсам, квантизовав большую часть параметров модели.

WindowSeat способна обрабатывать изображения высокого разрешения, разделяя их на небольшие фрагменты и последовательно удаляя отражения на каждом из них.

При тестировании на видеокарте с 24 ГБ видеопамяти, модель показала превосходные результаты по сравнению с аналогами, сохраняя четкость и детализацию изображения, потребляя при этом около 21 ГБ памяти.

Исходный код и файлы модели WindowSeat опубликованы в открытом доступе на GitHub и Hugging Face под лицензией Apache 2.0.