115 подписчиков
Groq представил мультимодальную модель LLaVA V1.5 7B, которая показывает state-of-the-art результаты в 7 бенчмарках, что подтверждает её конкурентоспособность
В отличие от закрытых моделей OpenAI и Google, LLaVA является открытой моделью, что позволяет разработчикам лучше понимать и настраивать её под свои нужды
GroqCloud предоставляет более гибкий доступ к модели по сравнению с ограниченным API крупных компаний
Архитектура ИИ-модели основана на CLIP (OpenAI) и модифицированной Llama 2 7B (Meta)
Возможности:
• Ответы на вопросы по изображениям (VQA)
• Генерация подписей к изображениям
• OCR (распознавание текста на изображениях)
• Мультимодальные диалоговые системы
Доступно уже в Preview Mode на GroqCloud Developer Console
Потенциальные use-cases:
1. Ритейл
Автоматизация инвентаризации и рекомендательных систем
2. Производство. Автоматический контроль качества на производственных линиях
3. Финансы (Аудит и автоматизация обработки финансовых документов)
4. Образование
Интерактивные обучающие материалы с визуальной составляющей
Около минуты
5 сентября 2024