115 подписчиков

Groq представил мультимодальную модель LLaVA V1.5 7B, которая показывает state-of-the-art результаты в 7 бенчмарках, что подтверждает её конкурентоспособность

В отличие от закрытых моделей OpenAI и Google, LLaVA является открытой моделью, что позволяет разработчикам лучше понимать и настраивать её под свои нужды

GroqCloud предоставляет более гибкий доступ к модели по сравнению с ограниченным API крупных компаний

Архитектура ИИ-модели основана на CLIP (OpenAI) и модифицированной Llama 2 7B (Meta)

Возможности:

• Ответы на вопросы по изображениям (VQA)

• Генерация подписей к изображениям

• OCR (распознавание текста на изображениях)

• Мультимодальные диалоговые системы

Доступно уже в Preview Mode на GroqCloud Developer Console

Потенциальные use-cases:

1. Ритейл

Автоматизация инвентаризации и рекомендательных систем

2. Производство. Автоматический контроль качества на производственных линиях

3. Финансы (Аудит и автоматизация обработки финансовых документов)

4. Образование

Интерактивные обучающие материалы с визуальной составляющей

Около минуты

5 сентября 2024