🔹 Google выпустил мульти-модальную векторную модель, которая кладёт текст, изображения, видео, аудио и PDF в одно общее семантическое
«пространство». Модель поддерживает до 8,192 токенов, видео до 120 с, до шести картинок за запрос, и — важный момент — обрабатывает аудио нативно, без промежуточной транскрипции. Это сокращает потери смысла при работе со звуком. — Интерливидный ввод: можно смешивать модальности в одном запросе, чтобы модель видела связи между ними...