Найти в Дзене
Дмитрий Ильин

Google научил ИИ искать по видео и звонкам

Ты наверняка видел, как компании «внедряют ИИ», а потом выясняется, что нужный документ всё равно проще найти через человека по имени Ирина из бухгалтерии. Она помнит всё. ИИ — только текст. Google решил это починить. Новая модель умеет искать сразу по тексту, картинкам, видео, аудио и PDF — без промежуточных костылей. Есть такая штука — смысловой поиск. Когда ты вводишь одно, а находишь нужное, даже если слова не совпадают. Именно на этом держатся умные корпоративные ассистенты, рекомендации и поиск по внутренним документам. Работает это примерно так: модель берёт любой кусок данных — фразу, картинку, фрагмент звонка — и превращает его в набор чисел, как координаты на карте смыслов. То, что похоже по смыслу, оказывается рядом. Поэтому поиск находит не совпадение слов, а совпадение идей. Представь библиотеку, где книги стоят не по алфавиту, а по смысловой близости. Биография Джобса вдруг оказывается рядом с инструкцией к старому Mac, а стих про закат — рядом с фотоальбомом океана. Боль
Оглавление

Ты наверняка видел, как компании «внедряют ИИ», а потом выясняется, что нужный документ всё равно проще найти через человека по имени Ирина из бухгалтерии. Она помнит всё. ИИ — только текст.

Google решил это починить. Новая модель умеет искать сразу по тексту, картинкам, видео, аудио и PDF — без промежуточных костылей.

Сначала про то, как это вообще работает

Есть такая штука — смысловой поиск. Когда ты вводишь одно, а находишь нужное, даже если слова не совпадают. Именно на этом держатся умные корпоративные ассистенты, рекомендации и поиск по внутренним документам.

Работает это примерно так: модель берёт любой кусок данных — фразу, картинку, фрагмент звонка — и превращает его в набор чисел, как координаты на карте смыслов. То, что похоже по смыслу, оказывается рядом. Поэтому поиск находит не совпадение слов, а совпадение идей.

Представь библиотеку, где книги стоят не по алфавиту, а по смысловой близости. Биография Джобса вдруг оказывается рядом с инструкцией к старому Mac, а стих про закат — рядом с фотоальбомом океана.

Почему раньше это не работало с видео

Большинство систем до сих пор живут по принципу «сначала всё в текст». Хочешь искать по видеоархиву — сначала расшифруй видео в текст, потом уже ищи. Ошибки, потери смысла, лишние шаги и лишние деньги.

Новая модель от Google понимает видео как видео, звук как звук — а не как кривую расшифровку «эээ… ну он там сказал что-то про возврат». По данным Google, у некоторых клиентов скорость поиска выросла в разы — просто потому что убрали промежуточные шаги.

Что это меняет в реальной работе

Один кейс клиента в корпоративной реальности может выглядеть так: запись звонка в поддержку, скриншот ошибки, договор в PDF и переписка в почте. Раньше каждый из этих форматов требовал отдельной обработки.

Теперь всё попадает в одну общую карту смыслов. Ты пишешь текстом «где клиент ругался из-за списания» — и система находит конкретный кусок аудиозаписи или момент в видео, где это обсуждалось.

Звучит как «найди иголку в стоге сена». Только стог — это корпоративный архив за десять лет.

Маленькая хитрость про экономию

У модели есть изящная фича с названием «матрёшка». Смысл простой: самые важные части смысла модель кладёт в первые числа вектора. Это позволяет при необходимости «укоротить» результат — хранить меньше, считать быстрее, платить дешевле.

По тестам качество при этом падает не драматично. Как хранить фото не в максимальном качестве, а в хорошем сжатом — иногда разницы не видно, а места экономит прилично.

Кому это актуально

Если в компании поиск по данным сейчас выглядит так — текст отдельно, картинки отдельно, видео через расшифровку — это способ схлопнуть всё в одну систему и убрать лишние этапы, где смысл обычно теряется.

Главная цена перехода даже не в интеграции. Старые данные придётся заново прогнать через новую модель — как переставить всю библиотеку по новым полкам. Это работа. Но зато потом появляется кое-что приятное: ты задаёшь вопрос словами — а система сама понимает, что ответ может лежать одновременно в PDF, скриншоте и фрагменте звонка.

Ирина из бухгалтерии наконец сможет заняться чем-то поинтереснее.