Найти в Дзене
SkyNet | Новости ИИ

NVIDIA выпускает C-RADIOv4 — унифицированный базовый блок для задач компьютерного зрения

NVIDIA AI выпустила C-RADIOv4 — новый агломеративный базовый блок для задач компьютерного зрения, который объединяет три сильные модели-учителя: SigLIP2-g-384, DINOv3-7B и SAM3, в одном кодировщике-ученике. Как объединить SigLIP2, DINOv3 и SAM3 в один базовый блок для зрения? Вместо того чтобы выбирать между моделью языка зрения, самообучаемой плотной моделью и моделью сегментации, C-RADIOv4 пытается приблизить все три одновременно с помощью одной базовой структуры. C-RADIOv4 расширяет линейку AM-RADIO и RADIOv2.5, сохраняя аналогичную вычислительную стоимость и улучшая качество плотного прогнозирования, устойчивость разрешения и совместимость с декодером SAM3. Ключевые идеи: * Агломеративная дистилляция в RADIO. В семействе RADIO используется агломеративная дистилляция. Один ученик в стиле ViT обучается соответствовать как плотным картам признаков, так и сводным токенам от нескольких разнородных учителей. * Стохастическое многоуровневое обучение. C-RADIOv4 использует стохастическо

NVIDIA выпускает C-RADIOv4 — унифицированный базовый блок для задач компьютерного зрения

NVIDIA AI выпустила C-RADIOv4 — новый агломеративный базовый блок для задач компьютерного зрения, который объединяет три сильные модели-учителя: SigLIP2-g-384, DINOv3-7B и SAM3, в одном кодировщике-ученике.

Как объединить SigLIP2, DINOv3 и SAM3 в один базовый блок для зрения?

Вместо того чтобы выбирать между моделью языка зрения, самообучаемой плотной моделью и моделью сегментации, C-RADIOv4 пытается приблизить все три одновременно с помощью одной базовой структуры.

C-RADIOv4 расширяет линейку AM-RADIO и RADIOv2.5, сохраняя аналогичную вычислительную стоимость и улучшая качество плотного прогнозирования, устойчивость разрешения и совместимость с декодером SAM3.

Ключевые идеи:

* Агломеративная дистилляция в RADIO. В семействе RADIO используется агломеративная дистилляция. Один ученик в стиле ViT обучается соответствовать как плотным картам признаков, так и сводным токенам от нескольких разнородных учителей.

* Стохастическое многоуровневое обучение. C-RADIOv4 использует стохастическое многоуровневое обучение, а не небольшой фиксированный набор разрешений.

* Удаление шума учителя с помощью сдвиговых эквивариантных потерь и MESA. Дистилляция из больших моделей зрения имеет тенденцию копировать их артефакты, а не только полезную структуру.

* Балансировка учителей с помощью сводной потери с учётом угловой дисперсии. Сводная потеря в предыдущих моделях RADIO использовала косинусное расстояние между вложениями ученика и учителя.

Параметры обучения

C-RADIOv4 использует стохастическое многоуровневое обучение, а не небольшой фиксированный набор разрешений. Размеры входных данных для образцов обучения взяты из двух разделов:

* Низкое разрешение: {128, 192, 224, 256, 384, 432}.

* Высокое разрешение: {512, 768, 1024, 1152}.

SigLIP2 изначально работает на 384 пикселях. Его характеристики повышаются в три раза с помощью FeatSharp, чтобы они соответствовали характеристикам SAM3 с разрешением 1152 пикселя. SAM3 обучается с мозаичным увеличением при 1152 × 1152.

Такая конструкция сглаживает кривую производительности в зависимости от разрешения и улучшает поведение при низком разрешении. Например, при линейном зондировании ADE20k C-RADIOv4-H достигает примерно:

* 55,20 mIoU при 512 px;

* 57,02 mIoU при 1024 px;

* 57,72 mIoU при 1536 px.

Результаты

* Классификация: на ImageNet-1k при нулевой классификации C-RADIOv4-H достигает около 83,09 % точности top-1.

* Плотное прогнозирование: C-RADIOv4-H улучшает показатели по сравнению с RADIOv2.5 и C-RADIOv3, а также соответствует или превосходит DINOv3, начиная примерно с 256 px.

* Probe3d: C-RADIOv4-H достигает лучших показателей NAVI и SPair в семействе RADIO.

Интеграция с SAM3 и развёртывание в режиме ViTDet

C-RADIOv4 разработан так, чтобы его можно было использовать в качестве замены базовой структуры Perception Encoder в SAM3. Декодер SAM3 и компоненты памяти остаются неизменными.

Для развёртывания C-RADIOv4 предоставляет конфигурацию в режиме ViTDet. Большинство блоков преобразователей используют оконное ...

Читать далее