Найти в Дзене
11,9 тыс подписчиков

🌟 TIPO: Оптимизация текстовых промптов для text-2-image моделей.


TIPO (Text to Image with text presampling for Prompt Optimization) - метод, который улучшает качество и удобство использования моделей text-2-image.

TIPO использует LLM для предварительной обработки текстовых запросов, делая их более точными и информативными. Он воспринимает как промпты на естественном языке , так и формат Danbooru тегов.

Основная идея метода заключается в том, что более детальные и конкретные запросы приводят к более точной генерации изображений, тогда как неконкретные запросы приводят к более широкому спектру, но менее точным результатам.

TIPO генерирует несколько подробных вариантов запроса из одного простого, тем самым расширяя пространство возможных результатов и повышая вероятность получения желаемого изображения.

Представлены 2 модели TIPO, обе построены на базе LLaMA 400M, обученные на наборах Danbooru2023, GBC10M и Coyo-HD-11M с общим числом токенов 30 млррд.



▶️ Использование TIPO доступно в качестве расширения к stable-diffusion-webui, Forge UI и ComfyUI. Все подробности по установке расширений и использованию в ComfyUI можно найти в репозитории проектка Z-TIPO-extension.

📌Лицензирование : Kohaku License 1.0

🟡Arxiv
🟡Demo
🖥GitHub


#AI #ML #T2I #TIPO #LLM
1 минута