10,2 тыс подписчиков
↪️ Zero-shot image-to-text generation with BLIP-2
The model bridges the gap between vision and natural language modalities by adding a transformer between pre-trained models.
BLIP-2 — это новая модель визуального языка, которую можно использовать для нескольких задач преобразования изображения в текст. Это эффективный подход, который можно применять для получения качественных промптов.
💨 Hugging Face: https://huggingface.co/blog/blip-2
🖥 Github: https://github.com/salesforce/LAVIS
⭐️Paper: https://arxiv.org/abs/2301.12597
Около минуты
16 февраля 2023