1914 подписчиков

Google выпустила мультимодальную AI-модель Gemini Embedding 2

11 марта11 мар

2 мин

Google выпустила новую модель Gemini Embedding 2 в публичной предварительной версии. Вот что она предлагает по сравнению с предшественником. Читайте подробнее... — neowin.net Наряду с новыми функциями ИИ для своих приложений Workspace, Google также выпустила новую модель Gemini Embedding 2. Это первая нативная мультимодальная модель внедрения от гиганта поисковых систем, которая отображает текст, изображения, видео и документы в едином пространстве внедрения (embedding space). Для непосвященных: модели внедрения отличаются от генеративных моделей (таких как Gemini 3) тем, что они используются для «понимания» путем преобразования различных модальностей (текст, изображения или видео) в математический формат, называемый векторами, который машина может легко считывать и анализировать. Эти внедрения могут обеспечить более контекстно-зависимые результаты по сравнению с подходами, основанными на ключевых словах, посредством семантического поиска, классификации и кластеризации. Первая модель в

Наряду с новыми функциями ИИ для своих приложений Workspace, Google также выпустила новую модель Gemini Embedding 2. Это первая нативная мультимодальная модель внедрения от гиганта поисковых систем, которая отображает текст, изображения, видео и документы в едином пространстве внедрения (embedding space).

Для непосвященных: модели внедрения отличаются от генеративных моделей (таких как Gemini 3) тем, что они используются для «понимания» путем преобразования различных модальностей (текст, изображения или видео) в математический формат, называемый векторами, который машина может легко считывать и анализировать. Эти внедрения могут обеспечить более контекстно-зависимые результаты по сравнению с подходами, основанными на ключевых словах, посредством семантического поиска, классификации и кластеризации.

Первая модель внедрения от Google была ориентирована только на текст. Теперь Gemini Embedding 2 может отображать текст, изображения, видео, аудио и документы в едином пространстве внедрения и улавливать семантическое намерение в 100 языках. Gemini Embedding 2 имеет следующие ограничения для различных модальностей:

Текст: контекстное окно до 8192 токенов
Изображения: до шести изображений на запрос с поддержкой форматов PNG/JPEG
Видео: до 120 секунд видеоввода в форматах MP4/MOV
Аудио: принимает и встраивает аудиоданные без необходимости промежуточных расшифровок
Документы: внедрение PDF-файлов объемом до шести страниц

Google пояснила в своем блоге, что новая модель «упрощает сложные конвейеры и улучшает широкий спектр мультимодальных последующих задач — от генерации с дополненным поиском (RAG) и семантического поиска до анализа тональности и кластеризации данных». Она может анализировать сложные взаимосвязи между различными типами медиа, принимая несколько модальностей ввода (например, изображения + текст) в одном запросе.

Говоря о примерах, гигант поисковых систем отметил, что внедрения Gemini могут помочь юристам найти критически важную информацию в процессе раскрытия доказательств при судебных разбирательствах. Было установлено, что мультимодальное внедрение Gemini повысило точность и полноту данных в миллионах записей, а также улучшило поиск изображений и видео.

Gemini Embeddings 2 (gemini-embedding-2-preview) теперь доступна в публичной предварительной версии через Gemini API и Vertex AI. Тем временем gemini-embedding-001 по-прежнему доступна для использования в сценариях, ориентированных только на текст.

Всегда имейте в виду, что редакции могут придерживаться предвзятых взглядов в освещении новостей.

Автор – Aditya Tiwari

Оригинал статьи

Гаджеты и электроника

5,73 млн интересуются