7 подписчиков
Диффузионные модели - Diffusion Models
Такие модели технически называются мультимодальными нейронными сетями - Multimodal Neural Networks класса «текст в изображение» - Text-to-Image или «текст в видео» - Text-to-Video.
В профессиональной среде их также часто называют диффузионными моделями Diffusion Models или мультимодальными трансформерами.
Основные архитектурные компоненты, из которых они состоят:
Текстовый энкодер - Text Encoder:
Модель, например, на базе архитектуры Transformer, которая считывает ваш текстовый запрос, понимает его смысл и преобразует в числовое представление — вектор.
Генератор - Диффузионная модель или Трансформер:
Ядро системы. Оно берет числовое представление — вектор и постепенно, шаг за шагом, формирует визуальный контент - картинку или кадры видео, опираясь на текстовый вектор.
Декодер - Decoder:
Переводит полученные абстрактные данные в финальный визуальный формат - пиксели, формирующие изображение или видеофайл.
Популярные примеры:
Для генерации картинок:
Midjourney, Stable Diffusion, DALL-E 3 (от OpenAI).
Для генерации видео:
Runway Gen-2, Luma Dream Machine.
Около минуты
26 мая