Добавить в корзинуПозвонить
Найти в Дзене
Craft Homelab

MiniCPM-V 4.5 и MiniCPM-o 2.6 — прорыв в мобильных мультиформатных моделях ИИ

MiniCPM-V 4.5 и MiniCPM-o 2.6 — прорыв в мобильных мультиформатных моделях ИИ 🚀 Хочу поделиться крутым открытым проектом MiniCPM от команды OpenBMB. Это серия мультимодальных больших языковых моделей (MLLM), которые умеют работать с изображениями, видео, текстом и даже аудио — прямо на вашем смартфоне или планшете! Что делает их особенными: 1. MiniCPM-V 4.5 с 8 млрд параметров обходит по качеству известные модели GPT-4o-latest и Gemini 2.0 Pro в задачах понимания изображений и видео. Причем видео обрабатывается с очень высокой эффективностью — до 96-кратного сжатия видеокадров — что позволяет работать с видео в реальном времени на устройствах типа iPad. 2. MiniCPM-o 2.6 добавляет к этому ещё и распознавание и генерацию речи, поддерживает двуязычные голосовые диалоги с контролем настроения и стиля, а также голосовое клонирование. Весь этот функционал тоже хорошо оптимизирован под мобильные платформы. 3. Модели легко запускать локально (CPU/GPU), использовать quantized версии для э

MiniCPM-V 4.5 и MiniCPM-o 2.6 — прорыв в мобильных мультиформатных моделях ИИ 🚀

Хочу поделиться крутым открытым проектом MiniCPM от команды OpenBMB. Это серия мультимодальных больших языковых моделей (MLLM), которые умеют работать с изображениями, видео, текстом и даже аудио — прямо на вашем смартфоне или планшете!

Что делает их особенными:

1. MiniCPM-V 4.5 с 8 млрд параметров обходит по качеству известные модели GPT-4o-latest и Gemini 2.0 Pro в задачах понимания изображений и видео. Причем видео обрабатывается с очень высокой эффективностью — до 96-кратного сжатия видеокадров — что позволяет работать с видео в реальном времени на устройствах типа iPad.

2. MiniCPM-o 2.6 добавляет к этому ещё и распознавание и генерацию речи, поддерживает двуязычные голосовые диалоги с контролем настроения и стиля, а также голосовое клонирование. Весь этот функционал тоже хорошо оптимизирован под мобильные платформы.

3. Модели легко запускать локально (CPU/GPU), использовать quantized версии для экономии ресурсов, а также проводить тонкое дообучение под свои задачи через подробную книгу рецептов.

4. Поддержка мульти-запросов с несколькими картинками, видео, длинных диалогов и даже потокового мультимодального стриминга — всё в одном случае.

5. Проект активно развивается, с обширным комьюнити и открытыми демо.

Если хотите экспериментировать с мультимодальным AI, особенно на мобильных, и ищете качественную open-source альтернативу крупным проприетарным моделям — этот репозиторий стоит изучить.

#ИИ #MLLM #Мультимедиа #OpenSource #МобильныйИИ #NLP #КомпьютерноеЗрение #SpeechRecognition

https://github.com/OpenBMB/MiniCPM-V

https://dzen.ru/id/68959c2aedc8701121290cd6