20 подписчиков

Что такое мультимодальность: когда ИИ видит, слышит и понимает

ВчераВчера

5 мин

ChatGPT понимает текст. DALL-E рисует картинки. А что, если одна нейросеть умеет и то, и другое — и ещё голос распознаёт, видео анализирует, и всё это делает одновременно? Это и есть мультимодальность. Сейчас объясню, как это работает и почему 2025-й стал годом мультимодального прорыва. Модальность — это тип данных, с которым работает нейросеть.

Вот основные модальности:

• 📝 Текст — слова, предложения, документы

• 🖼️ Изображения — фотографии, рисунки, скриншоты

• 🎵 Аудио — голос, музыка, звуки

• 🎬 Видео — движущиеся картинки со звуком

Раньше нейросети были унимодальными — каждая работала только с одним типом данных. Переводчик переводил текст. Генератор картинок рисовал по описанию. Распознавание речи превращало голос в текст. Но они не понимали друг друга. Это как если бы у вас был переводчик, который читает только на русском, художник, который не понимает слов, и стенографист, который только слушает. Каждый хорош в своём, но вместе работать не могут. Мультимодальная модель

Вот основные модальности:

• 📝 Текст — слова, предложения, документы

• 🖼️ Изображения — фотографии, рисунки, скриншоты

• 🎵 Аудио — голос, музыка, звуки

• 🎬 Видео — движущиеся картинки со звуком

Оглавление

Что вообще такое «модальность»?
А мультимодальность — это что?
Главные мультимодальные модели 2025-2026

ChatGPT понимает текст. DALL-E рисует картинки. А что, если одна нейросеть умеет и то, и другое — и ещё голос распознаёт, видео анализирует, и всё это делает одновременно? Это и есть мультимодальность. Сейчас объясню, как это работает и почему 2025-й стал годом мультимодального прорыва.

Что вообще такое «модальность»?

Модальность — это тип данных, с которым работает нейросеть.

Вот основные модальности:

• 📝 Текст — слова, предложения, документы

• 🖼️ Изображения — фотографии, рисунки, скриншоты

• 🎵 Аудио — голос, музыка, звуки

• 🎬 Видео — движущиеся картинки со звуком

Раньше нейросети были унимодальными — каждая работала только с одним типом данных. Переводчик переводил текст. Генератор картинок рисовал по описанию. Распознавание речи превращало голос в текст. Но они не понимали друг друга.

Это как если бы у вас был переводчик, который читает только на русском, художник, который не понимает слов, и стенографист, который только слушает. Каждый хорош в своём, но вместе работать не могут.

А мультимодальность — это что?

Мультимодальная модель — это ИИ, который понимает несколько типов данных одновременно и связывает их между собой.

Но как одна программа может понимать и текст, и картинки?

Представьте человека. Вы одновременно:

• 👀 Видите — картинку, лицо собеседника, текст на экране

• 👂 Слышите — голос, интонацию, фоновые звуки

• 📖 Читаете — текст в книге или на телефоне

И всё это складывается в единую картину. Вы не «переключаетесь» между режимами — просто воспринимаете мир целиком.

Мультимодальный ИИ работает так же: он получает данные разных типов и понимает их вместе, а не по отдельности.

Главные мультимодальные модели 2025-2026

За 2025 год мультимодальность стала стандартом. Вот ключевые игроки:

GPT-5 и o-серия (OpenAI)

GPT-4o (май 2024) стал первым по-настоящему «омни»-модельным ИИ OpenAI. Но в 2025 году компания пошла дальше:

• GPT-5 (август 2025) — полноценная мультимодальная модель: текст, голос, изображения и видео в одном флаконе

• o1, o3, o4-mini — «reasoning»-модели, которые умеют рассуждать. С апреля 2025 они тоже стали мультимодальными: понимают изображения и файлы

• o3-pro (июнь 2025) — расширенная версия с поиском в интернете и анализом визуальных данных

Можно отправить фото холодильника и спросить: «Что приготовить из этих продуктов?» — и получить рецепт с пошаговой инструкцией.

Gemini 2.0 и Gemini 3 (Google)

Google не отстаёт и даже наступает на пятки:

• Gemini 2.0 Flash (февраль 2025) — 1 миллион токенов контекста, понимает текст, картинки, аудио и видео до 90 минут

• Multimodal Live API — потоковое видео и аудио в реальном времени

• Gemini 2.5 (весна 2025) — улучшенное рассуждение и работа с документами

• Gemini 3 Flash (декабрь 2025) — улучшенное визуальное и пространственное понимание, агентное программирование

• Gemini 3 Pro (ноябрь 2025) — топовая модель с видео-рассуждением

Особая фишка: Gemini умеет извлекать данные из скриншотов веб-страниц, понимать PDF на 1000+ страниц с графиками и рукописным текстом.

Claude 4.5 (Anthropic)

Anthropic тоже обновилась:

• Claude 3.5 Sonnet был отличной моделью — но устарел в октябре 2025

• Claude Sonnet 3.7 (февраль 2025) — гибкая генерация ответов

• Claude 4.5 Opus (ноябрь 2025) — новый флагман с улучшенным пониманием изображений, графиков и таблиц

Claude особенно хорош для анализа сложных документов и научных данных.

Llama 4 (Meta)

Meta представила свои мультимодальные модели в октябре 2025:

• Llama 4 Scout и Llama 4 Maverick — понимают текст, видео, изображения и аудио

• Оптимизированы для работы на устройствах (edge devices)

• Поддержка AR/VR и пространственное понимание

Это открытые модели — можно использовать бесплатно для своих проектов.

Как это работает (простыми словами)

И вот тут начинается самое интересное.

Раньше для каждой модальности была своя нейросеть. Чтобы они «общались», нужен был посредник — текст. Картинку сначала описывали словами, а потом передавали в текстовую модель.

Мультимодальные модели устроены иначе:

1. Единый «мозг» — одна нейросеть обрабатывает все типы данных

2. Общее пространство смыслов — картинка кота и слово «кот» попадают в одну точку

3. Связи между модальностями — модель понимает, что голос «привет» и текст «привет» — это одно и то же

4. Нативная генерация — модель может создавать не только текст, но и картинки, и аудио

Это как если бы вместо трёх отдельных специалистов у вас появился один универсал, который сразу видит, слышит, понимает — и может ответить в любом формате.

Зачем это нужно в жизни?

Практические применения расширились:

Задача → Как помогает мультимодальность

📸 Фото → текст → Сфотографировал чек — ИИ извлёк данные

🗣️ Голос → ответ → Спросил голосом — получил голосовой ответ

📊 График → анализ → Загрузил график — ИИ объяснил тренды

🎥 Видео → суммаризация → Загрузил 90-минутную лекцию — получил конспект

🌍 Перевод вывесок → Сфотографировал меню на китайском — получил перевод

📄 PDF 1000+ страниц → Загрузил отчёт — ИИ нашёл нужную информацию

🖼️ Редактирование фото → Описал словами — ИИ изменил картинку

🎬 Анализ видео → Загрузил запись совещания — получил протокол

Почему 2025-й стал переломным?

До 2025 года мультимодальность была скорее маркетингом. GPT-4V понимал картинки, но не очень хорошо. Голосовой режим работал через костыли.

В 2025-м всё изменилось:

• GPT-5 объединил все модальности нативно

• Gemini 2.0/3 показал, что можно анализировать часовые видео

• Reasoning-модели (o1, o3) получили мультимодальные способности

• Контекстные окна выросли до 1+ миллиона токенов

Мультимодальность — это когда ИИ перестаёт быть набором специализированных программ и становится универсальным помощником, который понимает мир так же целостно, как человек.

Что дальше?

К концу 2026 прогнозируют:

• Мультимодальный ИИ станет основой для большинства бизнес-решений

• Рынок мультимодального ИИ достигнет $10+ миллиардов

• Google может обогнать OpenAI благодаря Gemini 3

• Появятся полностью автономные ИИ-агенты, работающие с любыми данными

📖 Словарик

• Модальность — тип данных (текст, картинка, звук, видео)

• Унимодальная модель — ИИ, который работает только с одним типом данных

• Мультимодальная модель — ИИ, который понимает несколько типов данных одновременно

• GPT-5 — текущая флагманская модель OpenAI (август 2025)

• Gemini 3 — флагманская мультимодальная модель Google (2025)

• Reasoning-модели (o-серия) — модели OpenAI, специализирующиеся на рассуждениях

📅 Актуально на: январь 2026

А вы уже пробовали анализировать видео через ИИ? Или, может, загружали огромные PDF-документы? Расскажите в комментариях, какая модальность вам полезнее всего!

Если статья была полезной — подписывайтесь, будет ещё много интересного!