Найти в Дзене
7 подписчиков

Диффузионные модели - Diffusion Models


Такие модели технически называются мультимодальными нейронными сетями - Multimodal Neural Networks класса «текст в изображение» - Text-to-Image или «текст в видео» - Text-to-Video.

В профессиональной среде их также часто называют диффузионными моделями Diffusion Models или мультимодальными трансформерами.

Основные архитектурные компоненты, из которых они состоят:

Текстовый энкодер - Text Encoder:
Модель, например, на базе архитектуры Transformer, которая считывает ваш текстовый запрос, понимает его смысл и преобразует в числовое представление — вектор.

Генератор - Диффузионная модель или Трансформер:
Ядро системы. Оно берет числовое представление — вектор и постепенно, шаг за шагом, формирует визуальный контент - картинку или кадры видео, опираясь на текстовый вектор.

Декодер - Decoder:
Переводит полученные абстрактные данные в финальный визуальный формат - пиксели, формирующие изображение или видеофайл.

Популярные примеры:

Для генерации картинок:
Midjourney, Stable Diffusion, DALL-E 3 (от OpenAI).

Для генерации видео:
Runway Gen-2, Luma Dream Machine.
Около минуты