Найти в Дзене
10,2 тыс подписчиков

↪️ Zero-shot image-to-text generation with BLIP-2


The model bridges the gap between vision and natural language modalities by adding a transformer between pre-trained models.

BLIP-2 — это новая модель визуального языка, которую можно использовать для нескольких задач преобразования изображения в текст. Это эффективный подход, который можно применять для получения качественных промптов.





Около минуты