«пространство». Модель поддерживает до 8,192 токенов, видео до 120 с, до шести картинок за запрос, и — важный момент — обрабатывает аудио нативно, без промежуточной транскрипции. Это сокращает потери смысла при работе со звуком. — Интерливидный ввод: можно смешивать модальности в одном запросе, чтобы модель видела связи между ними. — Размер вектора по умолчанию 3072, есть варианты 1536/768 для экономии. 📌 По бенчмаркам Google уверенно лидирует, особенно в текст→видео задачах. Что это значит для практики: проще строить RAG, мультимодальные поиски и анализ без громоздких пайплайнов, но растут требования по хранению и вычислениям. Подробнее тут
🔹 Google выпустил мульти-модальную векторную модель, которая кладёт текст, изображения, видео, аудио и PDF в одно общее семантическое
12 марта12 мар
~1 мин