Найти в Дзене
КББ

Google представил Gemini Embedding — новую модель с нативной поддержкой мультимодальности

Ключевые возможности: • Обработка видео до 120 секунд, текстовых документов (до 6 страниц PDF), аудио и обычного текста в едином векторном пространстве. • Доступна как в бесплатном тарифе, так и через платный API. • Архитектура Matryoshka: эмбеддинги можно усекать, получая более компактные векторы с приемлемой точностью — удобно для балансировки между качеством и скоростью поиска. Ценообразование: • Текст: $0,2 за миллион токенов. • Видео: до $12 за миллион токенов (эквивалентно ~15 000 кадров). Рост стоимости для мультимодальных данных существенный, но объяснимый вычислительной сложностью. Google запускает решение в условиях фактического отсутствия альтернатив среди «фронтирных» провайдеров. Для сравнения: OpenAI обновляла свои embedding-модели в январе 2024 года, и с тех пор существенных изменений в этом направлении не предлагала.

Google представил Gemini Embedding — новую модель с нативной поддержкой мультимодальности.

Ключевые возможности:

• Обработка видео до 120 секунд, текстовых документов (до 6 страниц PDF), аудио и обычного текста в едином векторном пространстве.

• Доступна как в бесплатном тарифе, так и через платный API.

• Архитектура Matryoshka: эмбеддинги можно усекать, получая более компактные векторы с приемлемой точностью — удобно для балансировки между качеством и скоростью поиска.

Ценообразование:

• Текст: $0,2 за миллион токенов.

• Видео: до $12 за миллион токенов (эквивалентно ~15 000 кадров). Рост стоимости для мультимодальных данных существенный, но объяснимый вычислительной сложностью.

Google запускает решение в условиях фактического отсутствия альтернатив среди «фронтирных» провайдеров. Для сравнения: OpenAI обновляла свои embedding-модели в январе 2024 года, и с тех пор существенных изменений в этом направлении не предлагала.