В Ollama наконец то появилась долгожданная поддержка мультимодальной модели Llama3.2-vision. Эта модель оптимизирована для распознавания изображений, создания описаний к ним и ответов на общие вопросы об изображении. Доступны версии модели на 11B (занимает ~13Гб видеопамяти) и на 90B, для запуска которой рекомендуется что-то на уровне H100 на 80 Гб для полной «прогрузки» модели в видеопамять и не использования GPU offload. Работа в режиме распознавания изображений официально поддерживает только английский язык, но модель может перевести вывод и на русский (если попросить в промте). Чтобы попробовать данную модель (например, в нашем AI-чатботе на основе Open WebUI) вам нужно: Загружать изображения в Open WebUI можно через добавление файлов (плюс слева от строки чата). На Windows или Mac можно просто перетащить изображение в окно командной строки с запущенной моделью в Ollama, или (в Linux тоже) указать путь до него.
В Ollama добавлена поддержка мультимодальной модели Llama3.2-vision
7 ноября 20247 ноя 2024
7
1 мин