MiniCPM-V 4.5 и MiniCPM-o 2.6 — прорыв в мобильных мультиформатных моделях ИИ 🚀 Хочу поделиться крутым открытым проектом MiniCPM от команды OpenBMB. Это серия мультимодальных больших языковых моделей (MLLM), которые умеют работать с изображениями, видео, текстом и даже аудио — прямо на вашем смартфоне или планшете! Что делает их особенными: 1. MiniCPM-V 4.5 с 8 млрд параметров обходит по качеству известные модели GPT-4o-latest и Gemini 2.0 Pro в задачах понимания изображений и видео. Причем видео обрабатывается с очень высокой эффективностью — до 96-кратного сжатия видеокадров — что позволяет работать с видео в реальном времени на устройствах типа iPad. 2. MiniCPM-o 2.6 добавляет к этому ещё и распознавание и генерацию речи, поддерживает двуязычные голосовые диалоги с контролем настроения и стиля, а также голосовое клонирование. Весь этот функционал тоже хорошо оптимизирован под мобильные платформы. 3. Модели легко запускать локально (CPU/GPU), использовать quantized версии для э
MiniCPM-V 4.5 и MiniCPM-o 2.6 — прорыв в мобильных мультиформатных моделях ИИ
30 августа 202530 авг 2025
2
1 мин