10,3 тыс подписчиков

📚 LlaVa Demo with LlamaIndex

In this example, we illustrate how we use LlaVa for belowing tasks:

▪Retrieval Augmented Image Captioning

▪Pydantic Structured Output

▪Multi-Modal Retrieval-Augmented Generation (RAG) using Llava-13b

Совершенно новая книга рецептов 🧑‍🍳, в которой рассказывается о трех способах создания приложений LLM путем интеграции мультимодальных моделей (LLaVa) в остальной рабочий процесс:

1️⃣ Retrieval Augmented Image Captioning: Генерация подписей к изображению с помощью LLaVa, а затем дополнение ответа из вашей базы знаний.

2️⃣ Извлечение структурированных данных из изображений: Получив входную инструкцию и изображение, извлекаем из него структурированный объект Pydantic.

3️⃣ Multi-modal RAG: задаем вопросы по изображениям и тексту из собственной базы знаний.

🖥 Github: https://github.com/run-llama/llama_index/blob/main/docs/examples/multi_modal/llava_demo.ipynb

🔍 Colab: https://colab.research.google.com/github/run-llama/llama_index/blob/main/docs/examples/multi_modal/llava_demo.ipynb

🪩 Paper: https://arxiv.org/abs/2304.08485

💻 Website: https://llava-vl.github.io/

🔥 YouTube: https://youtube.com/watch?v=k7i2BpeLUss

@machinelearning

📚 LlaVa Demo with LlamaIndex In this example, we illustrate how we use LlaVa for belowing tasks: ▪Retrieval Augmented Image Captioning ▪Pydantic Structured Output ▪Multi-Modal Retrieval-Augmented...

Около минуты

11 декабря 2023