Мультимодальный AI: как одна нейросеть работает с видео, аудио, текстом и данными

10 ноября 202510 ноя 2025

6 мин

Всем e-com!

В 25г мультимодели перестали быть «фичей для демо». Они стабильно принимают и выдают текст, изображения, звук и видео, умеют «звонить» во внешние API, а часть — держит гигантские окна контекста для часов аудио и сотен страниц документов. Разберём, как это устроено технически, какие модели реально доступны, где границы по праву и безопасности, и как собрать практичный продакшн-пайплайн уже сегодня. Определение. Мультимодальная модель принимает разные типы входов (текст, изображения, аудио, видео, табличные данные) и может генерировать ответы в нескольких каналах, иногда — в реальном времени. Примеры: Зачем бизнесу. Единый «мозг» обрабатывает весь контент-ландшафт: от протокола совещания (аудио) и слайда (картинка) до Jira-тикета и SQL-выгрузки, а результатом может быть текстовый отчёт, клип 9:16 с титрами или структурированный JSON для BI. Единая модель вместо «склейки». Ключевой сдвиг 2024–2025 — переход от «комбо» отдельных энкодеров к единому трансформеру, который нативн

Всем e-com!

Оглавление

1) Что такое мультимодальность в 2025
2) Как это работает под капотом: короткая техсправка
3) Карта ключевых моделей и их применения

Всем e-com!

В 25г мультимодели перестали быть «фичей для демо». Они стабильно принимают и выдают текст, изображения, звук и видео, умеют «звонить» во внешние API, а часть — держит гигантские окна контекста для часов аудио и сотен страниц документов. Разберём, как это устроено технически, какие модели реально доступны, где границы по праву и безопасности, и как собрать практичный продакшн-пайплайн уже сегодня.

1) Что такое мультимодальность в 2025

Определение. Мультимодальная модель принимает разные типы входов (текст, изображения, аудио, видео, табличные данные) и может генерировать ответы в нескольких каналах, иногда — в реальном времени. Примеры:

GPT-4o от OpenAI — единая модель для текста, зрения и аудио, оптимизированная под живые диалоги и «мгновенную» работу с голосом и камерой.
Gemini 1.5 от Google — мультимодальная линия с упором на длинный контекст и работу с видео/аудио; 1.5 Pro/Flash принимают десятки часов медиавхода и большие PDF.
Claude 3.5 Sonnet от Anthropic — текст+визуальное понимание, промышленная интеграция через Bedrock; ставка на аккуратность и безопасность.

Зачем бизнесу. Единый «мозг» обрабатывает весь контент-ландшафт: от протокола совещания (аудио) и слайда (картинка) до Jira-тикета и SQL-выгрузки, а результатом может быть текстовый отчёт, клип 9:16 с титрами или структурированный JSON для BI.

2) Как это работает под капотом: короткая техсправка

Единая модель вместо «склейки». Ключевой сдвиг 2024–2025 — переход от «комбо» отдельных энкодеров к единому трансформеру, который нативно видит смешанные последовательности токенов разных модальностей. Пример исследовательского дизайна — Chameleon: раннее смешение (early fusion) текстовых и «визуальных» токенов, единая токенизация и обучение в одном пространстве. Это упрощает согласование контекстов и даёт устойчивость на длинных последовательностях.

Длинный контекст как база мультимодальности. Для видео/аудио нужны большие окна: у Gemini 1.5 Pro в Vertex AI задекларирован приём до ~19 часов аудио при 2-миллионном окне; у Flash — до ~9.5 часов; находки «иголки в стоге» в аудио-тестах подтверждены в доках Google. Это важно для задач «погружения» в многочасовые записи

Инструменты/функции. Мультимодели не только «понимают», но и вызывают инструменты: можно описать JSON-схему, по которой модель вернёт параметры для внешнего API (геокодер, CRM, платёж). OpenAI называет это Structured outputs для function calling; Google Gemini поддерживает function calling и в Live-режиме (сеансы с голосом).

Ответственность и следы. Параллельно вендоры внедряют признаки происхождения контента: Google развивает SynthID (невидимая водяная метка для изображений/видео и детектор), а индустриальный стандарт C2PA фиксирует провананс в «Content Credentials», поддерживаемых сотнями компаний. Это не «серебряная пуля», но важный слой прозрачности.

3) Карта ключевых моделей и их применения

GPT-4o: диалоги «человек—модель—инструменты», живое аудио с камерой, быстрый разбор скриншотов/видео-фрагментов, кросс-языковые сценарии. Подходит для голосовых ассистентов и контакт-центров.
Gemini 1.5 Pro/Flash: «длинные» мультимодальные задачи — исследование часов интервью, поиск фрагментов в длинном видео, анализ больших PDF с таблицами; плюс tool-use в Live API.
Claude 3.5 Sonnet: VQA/документы/скриншоты, аккуратность инструкций, доступ через Bedrock; нередко выбирают для офисных процессов и аналитики.

Дополнительно: Google развивает нативные аудио-модели в Live API — повышение естественности голосовых агентов.

4) Типовые мультимодальные пайплайны

A) «Видео-обзор → отчёт + таймкоды»

Загрузка ролика/стрима.
Автосаб/распознавание и сегментация сюжетов.
Вопросы «по смыслу» и извлечение цитат со ссылкой на таймкод.

Базовая реализация — Gemini 1.5 Pro из-за длинного аудио/видео окна; на выход — JSON по схеме для импорта в CMS/BI.

B) «Снимок экрана → действие в системе»

Пользователь присылает скрин.
Модель распознаёт элементы интерфейса, формирует параметры функции.
Через function calling вызывается API (создать тикет, найти счёт, изменить статус).

Подходит GPT-4o/Gemini с жёсткими Structured outputs.

C) «Звонок клиента → сводка + ответ ботом»

Реал-тайм диалог.
Он-лайн извлечение намерений; при необходимости — вызов функций (CRM, оплата).
Синтез естественной речи.

Здесь критичны низкая задержка и нативное аудио в Live-API у Google, а также режимы речи в GPT-4o.

5) Что меняется в проде: качество, скорость, безопасность

Качество и стоимость. У OpenAI отмечали, что GPT-4o «быстрее и дешевле» по сравнению с GPT-4-семейством в API при сопоставимом уровне качества текста; акцент — на зрение/аудио. Для длинного контекста Gemini 1.5 создал «класс задач», где раньше приходилось клеить RAG-конвейеры.

Безопасность. Для 4o опубликована System Card с рисковым уровнем medium; для Anthropic — внешние оценки UK AI Safety Institute. Вывод: мультимодальность повышает риск «перескока» в убедительную, но неверную интерпретацию аудио/видео. Нужен проверяемый вывод и следы происхождения.

Прозрачность. SynthID и C2PA/Content Credentials постепенно интегрируются в камеры/редакторы и платформы, но внедрение неравномерно и пока не даёт универсальной «метки» на всех площадках. Это надо учитывать при публикации UGC с генеративными вставками.

6) Лучшая практика: как проектировать мультимодальные запросы

Явная структура ввода. Разделяйте модальности и цели: «Часть A — текст задачи; B — скрин с диаграммой; C — 3-мин аудио. Верни JSON: {вывод, цитаты:[{источник,позиция}]}». Жёстко фиксируйте схему.
Курирование контента. Для длинных видео/аудио используйте hint-сегменты: «интересуют блоки с фразами X,Y,Z». Это сокращает латентность и ошибки.
Внешние инструменты. Когда нужны действия, опишите функции и включите strict JSON Schema (OpenAI) или декларации функций (Gemini). Это снижает «галлюцинации параметров».
Выходы для BI. Формируйте таблицы/JSON Lines и храните ссылку на исходник (файл/таймкод/страницу). Это критично для аудита.

7) Экономика: где считать выгоду

Кейсы, которые окупаются быстрее всего:

Саппорт/контакт-центры с голосом и экраном: сводки после звонка, автозаполнение CRM, подсказки оператору.
Ревизия контента: разбор часов интервью/подкаста в один проход и экспорт цитат.
Аналитика интерфейсов: массовая обработка скриншотов приложений с функциями инспекции.

Метрики. Время на задачу, % автозаполнения полей, точность извлечения, стоимость 1 часа медиообработки. В проектах с Live-режимом учитывайте трафик и «холодный старт» сеансов.

8) Риски и комплаенс

Приватность медиа. Прописывайте политику хранения аудио/видео и ограничения ретенции; отдельные регионы/отрасли накладывают требования к транскрибации и хранению (голос — биометрия).
Метки происхождения. Для публикуемого сгенерированного медиа следуйте C2PA/Content Credentials и, где возможно, сохраняйте SynthID. Это не панацея, но повышает прозрачность.
Достоверность. Добавляйте цитаты/таймкоды/скрин-референсы; мультимодели убедительны, но могут ошибаться — особенно при длинном аудио. Верификация обязательна.

9) Пошаговый план запуска на 14 дней

Дни 1–2. Цели и источники. Опишите модальности: какие видео, какие экраны, какие документы; определите итоговые форматы (JSON, отчёт, клип 9:16).

Дни 3–4. Выбор модели.

Live-голос/камера → GPT-4o.
Длинные видео/аудио/доки → Gemini 1.5 Pro/Flash.
Офисные документы/скриншоты → Claude 3.5 Sonnet.

Дни 5–7. Функции и схемы. Описать функции, включить Structured outputs/function calling, зафиксировать JSON Schema.

Дни 8–10. Продукция и тест. Прогнать типовые задачи, снять метрики: точность извлечения, латентность, стоимость.

Дни 11–14. Безопасность и вывод. Включить маркировку контента (C2PA/SynthID), оформить политику хранения и логирования.

10) Что дальше

Движение идёт к «агентным» системам: несколько мультимоделей и сервисов координируются по строгим JSON-схемам и событиям. Google уже подталкивает к этому через улучшенную поддержку JSON Schema и multi-agent-воркфлоу в Gemini API; аналогично — в экосистеме OpenAI/Azure. Это даст более предсказуемые цепочки «видео→действие→отчёт».