Найти в Дзене

ИИ-поиск без костылей: что умеет новый Gemini Embedding 2

Нейросеть ищет данные в фото, видео и тексте за один проход.
Корпоративные базы знаний и системы поиска долгое время оставались исключительно текстовыми. Если вам нужно было найти конкретный фрагмент в часовом видео рабочего созвона или аудиозаписи лекции, приходилось городить сложные и дорогие системы.
Стандартный подход требовал отдельного сервиса-транскрибатора, который мучительно переводил
Оглавление

Нейросеть ищет данные в фото, видео и тексте за один проход.
Нейросеть ищет данные в фото, видео и тексте за один проход.

Нейросеть ищет данные в фото, видео и тексте за один проход.

Корпоративные базы знаний и системы поиска долгое время оставались исключительно текстовыми. Если вам нужно было найти конкретный фрагмент в часовом видео рабочего созвона или аудиозаписи лекции, приходилось городить сложные и дорогие системы.

Стандартный подход требовал отдельного сервиса-транскрибатора, который мучительно переводил голос в текст. Затем этот текст разбивался на куски, индексировался и отправлялся в векторную базу данных. Любая картинка, график или техническая схема требовала ручного описания или тегирования.

Этот зоопарк технологий нужно было поддерживать, регулярно оплачивать и постоянно чинить после каждого обновления зависимостей. Настройка вменяемого семантического поиска по мультимедийным архивам отнимала недели плотной разработки и съедала солидные бюджеты.

Как работает единое векторное пространство

Google попыталась решить эту техническую проблему на архитектурном уровне, выпустив модель Gemini Embedding 2. Это первая полностью мультимодальная система компании, которая не требует предварительной конвертации файлов и работает с ними напрямую.

Вы можете отправить в нее PDF-документ, фотографию сложного чертежа, кусок программного кода и голосовое сообщение. Нейросеть преобразует все эти форматы в единый стандарт - многомерные векторы, которые хранятся в общем пространстве.

Что такое векторный поиск простыми словами? Обычный поиск работает по ключевым словам. Ввели фразу - система ищет точное совпадение букв в базе. Это быстро, но примитивно. Векторные модели работают со смыслами. Они превращают слова в числа. Близкие по смыслу фразы оказываются математически рядом.

Инновация нового инструмента в том, что он помещает в это же смысловое пространство пиксели картинок и частоты звука. Запрос текстом «покажи момент, где обсуждали падение серверов» найдет нужную секунду в видеофайле без всякой предварительной текстовой расшифровки.

Чем это отличается от связки Whisper и CLIP

Многие энтузиасты сейчас собирают мультимодальный поиск из открытых компонентов. Берут нейросеть Whisper для распознавания аудио, добавляют модель CLIP для связи картинок с текстом и склеивают это скриптами на Python.

Этот подход работает, но имеет критический недостаток - потерю контекста. Когда разные нейросети обрабатывают куски одного файла независимо друг от друга, они не видят общей картины. CLIP не знает, о чем говорили в аудиодорожке видео, а Whisper плевать на то, что в этот момент было на экране.

Нативная мультимодальность новой модели решает именно эту проблему. Нейросеть воспринимает видеоролик как единое целое, где звук и картинка дополняют друг друга. Это позволяет находить сложные смысловые конструкции, которые рассыпаются при пошаговой обработке разными инструментами.

Технические лимиты и алгоритм-матрешка

В один API-запрос можно упаковать серьезный объем данных. Модель переваривает до 8192 токенов текста, до шести тяжелых изображений и до 120 секунд видео. При этом «из коробки» заявлена поддержка более сотни языков, что снимает проблему перевода локальных архивов.

Интересная инженерная деталь спрятана под капотом - это технология Matryoshka Representation Learning. Она позволяет разработчикам менять размерность векторов на лету, сохраняя суть информации и экономя ресурсы.

Обычно тяжелая модель выдает огромный вектор, который требует серьезных серверных мощностей для хранения. Здесь же работает принцип русской матрешки. Самая важная смысловая информация упакована в начало математического вектора. Менее важные детали наслаиваются дальше.

Это дает разработчику колоссальную гибкость. Можно взять только первые измерения для быстрого чернового поиска по базе, а полные данные использовать исключительно для точного ранжирования финальных результатов. Нагрузка на железо снижается кратно.

Обратная сторона экосистемы

Да, на бумаге звучит как идеальная таблетка от рутины при разработке умных поисковиков. Но опытный инженер сразу увидит здесь классический вендор-лок.

Вы полностью завязываете архитектуру своего продукта на проприетарное решение одной корпорации. Если завтра Google решит изменить тарифную сетку, урезать лимиты на токены или заблокировать доступ для определенных регионов - ваш хваленый мультимодальный поиск превратится в тыкву за один день.

Кроме того, интеграция такой парадигмы в уже работающие старые системы потребует переписать половину внутренней логики. Отказаться от привычных реляционных баз данных в пользу единого векторного пространства - риск, который потребует долгого тестирования.

Проблема приватности также никуда не уходит. Отправляя корпоративные архивы в облачное API, вы фактически отдаете их на сервера чужой компании. Для личных файлов, домашних серверов и конфиденциальных проектов безопаснее использовать локальные open-source модели. Да, придется повозиться с Docker-контейнерами, но ваши данные останутся у вас.

Но если стоит задача собрать мощный поиск по разрозненным документам для некритичного проекта здесь и сейчас - конкурентов с такой же всеядностью на рынке пока нет. Экономия человеко-часов на старте часто перевешивает долгосрочные риски привязки к вендору.

Готовы ли вы отдать корпоративные архивы на индексацию Google ради удобного поиска, или предпочитаете контролировать свои данные локально?

Источник: Google

🔔 Не хотите зависеть от корпоративных причуд? Подписывайтесь на канал КликХак - мы регулярно разбираем открытые инструменты, которые можно запустить на своём железе без подписок и слежки.