Найти в Дзене

🔹 Google выпустил мульти-модальную векторную модель, которая кладёт текст, изображения, видео, аудио и PDF в одно общее семантическое

«пространство». Модель поддерживает до 8,192 токенов, видео до 120 с, до шести картинок за запрос, и — важный момент — обрабатывает аудио нативно, без промежуточной транскрипции. Это сокращает потери смысла при работе со звуком. — Интерливидный ввод: можно смешивать модальности в одном запросе, чтобы модель видела связи между ними. — Размер вектора по умолчанию 3072, есть варианты 1536/768 для экономии. 📌 По бенчмаркам Google уверенно лидирует, особенно в текст→видео задачах. Что это значит для практики: проще строить RAG, мультимодальные поиски и анализ без громоздких пайплайнов, но растут требования по хранению и вычислениям. Подробнее тут

🔹 Google выпустил мульти-модальную векторную модель, которая кладёт текст, изображения, видео, аудио и PDF в одно общее семантическое «пространство».

Модель поддерживает до 8,192 токенов, видео до 120 с, до шести картинок за запрос, и — важный момент — обрабатывает аудио нативно, без промежуточной транскрипции. Это сокращает потери смысла при работе со звуком.

— Интерливидный ввод: можно смешивать модальности в одном запросе, чтобы модель видела связи между ними.

— Размер вектора по умолчанию 3072, есть варианты 1536/768 для экономии.

📌 По бенчмаркам Google уверенно лидирует, особенно в текст→видео задачах. Что это значит для практики: проще строить RAG, мультимодальные поиски и анализ без громоздких пайплайнов, но растут требования по хранению и вычислениям.

Подробнее тут