10,3 тыс подписчиков
📚 LlaVa Demo with LlamaIndex
In this example, we illustrate how we use LlaVa for belowing tasks:
▪Retrieval Augmented Image Captioning
▪Pydantic Structured Output
▪Multi-Modal Retrieval-Augmented Generation (RAG) using Llava-13b
Совершенно новая книга рецептов 🧑🍳, в которой рассказывается о трех способах создания приложений LLM путем интеграции мультимодальных моделей (LLaVa) в остальной рабочий процесс:
1️⃣ Retrieval Augmented Image Captioning: Генерация подписей к изображению с помощью LLaVa, а затем дополнение ответа из вашей базы знаний.
2️⃣ Извлечение структурированных данных из изображений: Получив входную инструкцию и изображение, извлекаем из него структурированный объект Pydantic.
3️⃣ Multi-modal RAG: задаем вопросы по изображениям и тексту из собственной базы знаний.
🖥 Github: https://github.com/run-llama/llama_index/blob/main/docs/examples/multi_modal/llava_demo.ipynb
🪩 Paper: https://arxiv.org/abs/2304.08485
💻 Website: https://llava-vl.github.io/
🔥 YouTube: https://youtube.com/watch?v=k7i2BpeLUss
Около минуты
11 декабря 2023