Google перевёл Gemini Embedding 2 из превью в GA. Теперь текст, картинки, видео и аудио живут в одном векторном пространстве — и это можно использовать в продакшене. Google перевёл Gemini Embedding 2 из публичного превью в general availability. Если вы не следите за embedding-моделями — сейчас объясню, почему это событие стоит внимания. Gemini Embedding 2 — это первая нативно мультимодальная embedding-модель от Google. Она превращает в векторы не только текст, но и картинки, видео, аудио и PDF-документы. Причём всё это укладывается в единое векторное пространство. Раньше, если нужно было искать по разным типам контента, приходилось собирать конвейер из нескольких моделей: одна для текста, другая для изображений, третья для аудио. И потом как-то выравнивать их пространства между собой. Gemini Embedding 2 делает это из коробки — одна модель, одно пространство, один API-вызов. Модель построена поверх архитектуры Gemini и понимает контекст между модальностями на уровне промежуточных слоёв
Gemini Embedding 2 вышел — и мультимодальный поиск стал на шаг ближе к продакшену
23 апреля23 апр
2 мин