Найти в Дзене
102,1 тыс подписчиков

CLIP + LLM в проде: мультимодальный «Поиск по фото» для маркетплейса


Как заставить поиск понимать «шакальные» скрины из соцсетей? Команда Wildberries показывает, как они построили свой «Поиск по фото».

Внутри — микс из YOLO, SigLIP 2 и Qdrant в качестве векторного индекса (он обошёл конкурентов по RPS). Всё это обслуживает 400 млн товаров со средним ответом в 250 мс.

Отдельная магия — обучение. Они используют MRL (Матрёшка) InfoNCE Loss для сжатия векторов и Closed-Form Solution для быстрого обучения.

CLIP + LLM в проде: мультимодальный «Поиск по фото» для маркетплейса  Как заставить поиск понимать «шакальные» скрины из соцсетей?
Около минуты