NVIDIA AI выпустила C-RADIOv4 — новый агломеративный базовый блок для задач компьютерного зрения, который объединяет три сильные модели-учителя: SigLIP2-g-384, DINOv3-7B и SAM3, в одном кодировщике-ученике. Как объединить SigLIP2, DINOv3 и SAM3 в один базовый блок для зрения? Вместо того чтобы выбирать между моделью языка зрения, самообучаемой плотной моделью и моделью сегментации, C-RADIOv4 пытается приблизить все три одновременно с помощью одной базовой структуры. C-RADIOv4 расширяет линейку AM-RADIO и RADIOv2.5, сохраняя аналогичную вычислительную стоимость и улучшая качество плотного прогнозирования, устойчивость разрешения и совместимость с декодером SAM3. Ключевые идеи: * Агломеративная дистилляция в RADIO. В семействе RADIO используется агломеративная дистилляция. Один ученик в стиле ViT обучается соответствовать как плотным картам признаков, так и сводным токенам от нескольких разнородных учителей. * Стохастическое многоуровневое обучение. C-RADIOv4 использует стохастическо
NVIDIA выпускает C-RADIOv4 — унифицированный базовый блок для задач компьютерного зрения
ВчераВчера
2 мин