Найти тему
115 подписчиков

Groq представил мультимодальную модель LLaVA V1.5 7B, которая показывает state-of-the-art результаты в 7 бенчмарках, что подтверждает её конкурентоспособность


В отличие от закрытых моделей OpenAI и Google, LLaVA является открытой моделью, что позволяет разработчикам лучше понимать и настраивать её под свои нужды

GroqCloud предоставляет более гибкий доступ к модели по сравнению с ограниченным API крупных компаний

Архитектура ИИ-модели основана на CLIP (OpenAI) и модифицированной Llama 2 7B (Meta)

Возможности:
• Ответы на вопросы по изображениям (VQA)
• Генерация подписей к изображениям
• OCR (распознавание текста на изображениях)
• Мультимодальные диалоговые системы

Доступно уже в Preview Mode на GroqCloud Developer Console

Потенциальные use-cases:
1. Ритейл
Автоматизация инвентаризации и рекомендательных систем

2. Производство. Автоматический контроль качества на производственных линиях

3. Финансы (Аудит и автоматизация обработки финансовых документов)

4. Образование
Интерактивные обучающие материалы с визуальной составляющей
Около минуты