10 подписчиков

Прорыв в компьютерном зрении: ИИ теперь работает в 16 раз экономнее благодаря Upsample Anything

18 июня18 июн

3 мин

Учёные из KAIST, MIT и Microsoft разработали технологию Upsample Anything — она учит ИИ «видеть» чётче, используя в 16 раз меньше памяти GPU. Разбираемся, как это работает, какие задачи решает и когда мы увидим эту технологию в наших смартфонах и роботах. Сегодня ИИ повсюду — от камер в телефонах до автономных машин. Но у этой «зоркости» есть цена: обработка изображений требует огромных вычислительных мощностей. Чтобы ускорить работу, системы часто сжимают картинки до низкого разрешения. Это как если бы вы смотрели на мир через мутное стекло: общая картина видна, но все детали размыты. Что теряется при таком сжатии: А если обрабатывать всё в высоком разрешении? Тогда нагрузка на GPU становится такой большой, что устройства начинают тормозить. Особенно это критично для смартфонов, роботов и других мобильных систем, где каждый байт памяти на счету. Исследовательская группа под руководством профессора Чангика Кима из KAIST (Школа электротехники), совместно с учёными из MIT и Microsoft, со

Оглавление

В чём проблема современного компьютерного зрения?
Решение: Upsample Anything — магия повышения разрешения
В чём её фишка? Как работает технология?

Сравнительное изображение, демонстрирующее разницу в производительности по сравнению с традиционными методами (создано с помощью искусственного интеллекта). Традиционные базовые модели компьютерного зрения анализируют сцену, преобразуя входное изображение в объекты с низким разрешением на уровне небольших фрагментов (слева). Upsample Anything восстанавливает эти объекты с низким разрешением до исходного уровня, позволяя искусственному интеллекту с гораздо большей точностью распознавать структуру и границы сцены (справа). Источник: KAIST

Учёные из KAIST, MIT и Microsoft разработали технологию Upsample Anything — она учит ИИ «видеть» чётче, используя в 16 раз меньше памяти GPU. Разбираемся, как это работает, какие задачи решает и когда мы увидим эту технологию в наших смартфонах и роботах.

В чём проблема современного компьютерного зрения?

Сегодня ИИ повсюду — от камер в телефонах до автономных машин. Но у этой «зоркости» есть цена: обработка изображений требует огромных вычислительных мощностей.

Чтобы ускорить работу, системы часто сжимают картинки до низкого разрешения. Это как если бы вы смотрели на мир через мутное стекло: общая картина видна, но все детали размыты.

Что теряется при таком сжатии:

мелкие предметы;
тонкие структуры (например, трещины или узоры);
незначительные дефекты, которые могут быть важны для распознавания.

А если обрабатывать всё в высоком разрешении? Тогда нагрузка на GPU становится такой большой, что устройства начинают тормозить. Особенно это критично для смартфонов, роботов и других мобильных систем, где каждый байт памяти на счету.

Решение: Upsample Anything — магия повышения разрешения

Исследовательская группа под руководством профессора Чангика Кима из KAIST (Школа электротехники), совместно с учёными из MIT и Microsoft, создала технологию Upsample Anything. Она работает как цифровой «волшебный фильтр»: восстанавливает детали на сжатых изображениях, делая их чёткими — и при этом почти не нагружает память.

В чём её фишка? Как работает технология?

В отличие от аналогов, Upsample Anything не требует переобучения на новых данных. Достаточно одного исходного изображения — и алгоритм сам находит оптимальный способ восстановить детали.

Как это работает? Технология анализирует:

границы объектов на картинке;
структуру изображения;
ключевые элементы, которые нужно «проявить».

Это похоже на то, как художник по эскизу воссоздаёт полноценную картину: он не рисует всё заново, а дополняет то, что уже есть.

Обзор метода Upsample Anything. Изображение с высоким разрешением сначала понижается до низкого разрешения, а затем восстанавливается с помощью оптимизации во время тестирования (test-time optimization, TTO). В ходе этого процесса определяются параметры анизотропного ядра для каждого пикселя. Полученные ядра затем применяются к базовым картам признаков низкого разрешения для создания карт признаков высокого разрешения. Эти карты признаков затем используются для попиксельного анизотропного совместного двустороннего повышения разрешения, что позволяет добиться высококачественной реконструкции с высоким разрешением. Источник: KAIST

Впечатляющие цифры: что показали тесты

Учёные проверили технологию на стандартном для ИИ‑исследований изображении размером 224×224 пикселя (около 50 000 точек). Результаты поражают:

восстановление деталей, близких к оригиналу, заняло всего 0,4 секунды;
эффективность использования памяти GPU выросла в 16 раз.

То есть вместо того, чтобы грузить процессор обработкой огромных файлов, система работает с компактными данными, а потом «дорисовывает» недостающие детали буквально за доли секунды.

Признание и награды

Работа была принята на престижную конференцию CVPR 2026. Там она получила сразу две награды:

«Золотая звезда CVPR Compute» — за эффективное использование вычислительных ресурсов.
Первое место в категории «Прозрачность и воспроизводимость исследовательского процесса».

Это значит, что учёные не просто добились крутых результатов, но и сделали свою работу максимально открытой: код доступен, эксперименты можно повторить, а подход — масштабировать.

Презентация на постерной сессии CVPR 2026 (в центре — докладчик Минсок Со, кандидат наук в KAIST). Фото: KAIST

Куда это приведёт? Сферы применения

Технология Upsample Anything может изменить правила игры в самых разных областях:

Смартфоны. Камеры станут ещё умнее: распознавание лиц, дополненная реальность и другие функции будут работать быстрее и плавнее.
Роботы‑гуманоиды. Теперь они смогут точнее видеть мелкие предметы и манипулировать ими — например, взять иголку или завязать шнурок.
Автономное вождение. Автомобили будут быстрее анализировать дорожную обстановку, замечая даже мелкие препятствия или трещины на асфальте.
ИИ на устройствах. Лёгкие и мощные алгоритмы позволят внедрять искусственный интеллект в самые разные гаджеты — от умных часов до дронов.

«Эта технология — алгоритм, который может значительно повысить визуальную точность искусственного интеллекта при меньших затратах ресурсов, — говорит профессор Чангик Ким. — Ожидается, что она ускорит коммерциализацию человекоподобных роботов и искусственного интеллекта на устройствах».

Взгляд в будущее: ИИ становится мобильным

Upsample Anything — не просто очередной научный прорыв. Это шаг к тому, чтобы ИИ стал по‑настоящему мобильным: быстрым, экономичным и при этом невероятно точным.

Возможно, уже скоро наши гаджеты и роботы будут «видеть» мир так же чётко, как мы, — и даже лучше. Представьте смартфон, который мгновенно распознаёт ваше лицо, или робота, который ловко берёт крошечный предмет — и всё это без мощных серверов и гигабайтов памяти.

Как вы думаете, в каких устройствах технология Upsample Anything появится первой? Хотели бы вы смартфон с такой технологией? Пишите в комментариях! Если статья была интересной — ставьте лайк, чтобы больше людей узнали о прорыве в компьютерном зрении! Подписывайтесь на канал "Фактоплюшки", чтобы не пропустить самое интересное.