Команда Microsoft Turing представила Turing Bletchley, мультимодальную модель с 2,5B обучаемых параметров, которая работает с изображениями на 94 языках мира!
По факту это такой multilingual CLIP 🤗, только учится он сразу на всех языках. Модель представляет из себя 2 трансофрмера (аналог BERT-large), и учится в привычном Contrastive Language-Image режиме по парам изображение - текст, и Contrastive Language-Language для пар текстовых описаний на разных языках.
🧸 online demo (из готовых вариантов, но все равно любопытно)
T-Bletchley превосходит модель ALIGN от Google по бенчмаркам на английском языке (ImageNet, CIFAR-10/100, COCO) и бьет новую SOTA в Zero-Shot Image Classication, в области, пионером в которой был CLIP от OpenAI.
📣 Новостью поделился Kha Vu, Microsoft, который отвечает за поисковой движок и ранжирование изображений в Bing Image Search. Кстати, очень рекомендую его видео: Deep Metric Learning