10,2 тыс подписчиков

↪️ Zero-shot image-to-text generation with BLIP-2

The model bridges the gap between vision and natural language modalities by adding a transformer between pre-trained models.

BLIP-2 — это новая модель визуального языка, которую можно использовать для нескольких задач преобразования изображения в текст. Это эффективный подход, который можно применять для получения качественных промптов.

💨 Hugging Face: https://huggingface.co/blog/blip-2

💻 Demo: https://huggingface.co/spaces/Salesforce/BLIP2

🖥 Github: https://github.com/salesforce/LAVIS

⭐️Paper: https://arxiv.org/abs/2301.12597

ai_machinelearning_big_data

Около минуты

16 февраля 2023