Добавить в корзинуПозвонить
Найти в Дзене
DigiNews

PolyU и OPPO представили VOSR: прорывной фреймворк для «Super-Resolution» на базе компьютерного зрения

PolyU и OPPO предложили VOSR — фреймворк сверхвысокого разрешения, основанный только на зрении, который снижает затраты на обучение примерно до 10% от моделей T2I, сохраняя при этом конкурентоспособное качество изображений. — pandaily.com Исследователи из Политехнического университета Гонконга (PolyU) и OPPO представили новую генеративную структуру для сверхвысокого разрешения изображений — VOSR (Vision-Only Super-Resolution), связанная статья с которой была принята на конференцию CVPR 2026. Данное исследование бросает вызов преобладающему подходу, использующему крупномасштабные диффузионные модели преобразования текста в изображение (T2I) для задач сверхвысокого разрешения. Существующие методы обычно полагаются на предварительное обучение на массивных наборах данных «изображение-текст» перед адаптацией к сверхвысокому разрешению, что влечет за собой высокие вычислительные затраты и затраты на данные. VOSR, напротив, использует подход, основанный исключительно на зрении (vision-only),

PolyU и OPPO предложили VOSR — фреймворк сверхвысокого разрешения, основанный только на зрении, который снижает затраты на обучение примерно до 10% от моделей T2I, сохраняя при этом конкурентоспособное качество изображений. — pandaily.com

Исследователи из Политехнического университета Гонконга (PolyU) и OPPO представили новую генеративную структуру для сверхвысокого разрешения изображений — VOSR (Vision-Only Super-Resolution), связанная статья с которой была принята на конференцию CVPR 2026.

Данное исследование бросает вызов преобладающему подходу, использующему крупномасштабные диффузионные модели преобразования текста в изображение (T2I) для задач сверхвысокого разрешения. Существующие методы обычно полагаются на предварительное обучение на массивных наборах данных «изображение-текст» перед адаптацией к сверхвысокому разрешению, что влечет за собой высокие вычислительные затраты и затраты на данные. VOSR, напротив, использует подход, основанный исключительно на зрении (vision-only), устраняя необходимость в мультимодальном предварительном обучении.

Структура построена на двухпоточной архитектуре, которая сочетает структурную информацию из входных данных низкого разрешения с визуальной семантикой высокого уровня. Структурная ветвь сохраняет пространственную согласованность, в то время как семантическая ветвь обеспечивает контекстное управление для уменьшения неоднозначности при генерации деталей. Основой модели служит Diffusion Transformer (DiT) с модифицированным механизмом управления, разработанным для повышения точности соответствия исходному изображению.

Для повышения эффективности инференса исследователи также внедрили метод одношаговой дистилляции, сжимая многошаговую генерацию в единый процесс при сохранении качества выходных данных.

Экспериментальные результаты показывают, что VOSR стабильно превосходит предыдущие методы сверхвысокого разрешения, основанные только на зрении, по ряду бенчмарков, особенно по метрикам перцептивного качества. В ряде случаев его производительность сопоставима с подходами на основе T2I. На реальных наборах данных модель демонстрирует стабильное качество реконструкции с улучшенной структурной точностью и уменьшенным количеством артефактов.

С точки зрения эффективности, многошаговая версия VOSR обеспечивает более быстрый инференс, чем большинство методов на основе T2I, в то время как одношаговый вариант выдает результаты примерно за 0,095 секунды. Модель также сохраняет относительно меньший размер параметров при том же разрешении вывода.

Исследование также отмечает, что, если измерять общим масштабом обучающих данных, VOSR требует лишь около одной десятой затрат на обучение по сравнению с репрезентативными методами сверхвысокого разрешения на основе T2I.

Полученные результаты свидетельствуют о том, что генеративные фреймворки, основанные только на зрении, могут предложить более эффективную альтернативу для сверхвысокого разрешения изображений, обеспечивая баланс между перцептивным качеством, структурной точностью и вычислительными затратами.

Всегда имейте в виду, что редакции могут придерживаться предвзятых взглядов в освещении новостей.

Автор – Pandaily

Оригинал статьи