Если вы уже привыкли к LLM (типа ChatGPT), то MLLM — это следующий шаг: модель, которая понимает не только текст, но и несколько типов данных сразу. MLLM (Multimodal Large Language Model) — это “большая языковая модель”, которая умеет работать с разными модальностями: ✅ текст ✅ изображения (фото/скриншоты/документы) ✅ иногда аудио/видео (в зависимости от реализации) В чём разница между LLM и MLLM 1) Входные данные • LLM: понимает только текст. Пример: “Составь договор”, “Объясни ошибку в коде”. • MLLM: понимает текст + картинку (и иногда аудио). Пример: “Вот скрин 1С/Bitrix/Telegram — что тут не так и что нажать?” 2) Что модель “видит” • LLM не может “посмотреть” на фото, PDF-скан или скрин — если не превратить это в текст заранее (OCR/распознавание). • MLLM может сразу анализировать изображение, понимать структуру (таблица, форма, чек, паспорт, схема), находить нужные поля, сравнивать версии. 3) Тип задач LLM — это про: • тексты, переписку, инструкции, код, аналитика по данным в т
MLLM: что это такое и чем отличается от “обычного” LLM
25 декабря 202525 дек 2025
5
1 мин