11,9 тыс подписчиков
🌟 TIPO: Оптимизация текстовых промптов для text-2-image моделей.
TIPO (Text to Image with text presampling for Prompt Optimization) - метод, который улучшает качество и удобство использования моделей text-2-image.
TIPO использует LLM для предварительной обработки текстовых запросов, делая их более точными и информативными. Он воспринимает как промпты на естественном языке , так и формат Danbooru тегов.
Основная идея метода заключается в том, что более детальные и конкретные запросы приводят к более точной генерации изображений, тогда как неконкретные запросы приводят к более широкому спектру, но менее точным результатам.
TIPO генерирует несколько подробных вариантов запроса из одного простого, тем самым расширяя пространство возможных результатов и повышая вероятность получения желаемого изображения.
Представлены 2 модели TIPO, обе построены на базе LLaMA 400M, обученные на наборах Danbooru2023, GBC10M и Coyo-HD-11M с общим числом токенов 30 млррд.
▶️ Использование TIPO доступно в качестве расширения к stable-diffusion-webui, Forge UI и ComfyUI. Все подробности по установке расширений и использованию в ComfyUI можно найти в репозитории проектка Z-TIPO-extension.
📌Лицензирование : Kohaku License 1.0
🟡Demo
#AI #ML #T2I #TIPO #LLM
1 минута
9 ноября 2024