7 подписчиков

Диффузионные модели - Diffusion Models

Такие модели технически называются мультимодальными нейронными сетями - Multimodal Neural Networks класса «текст в изображение» - Text-to-Image или «текст в видео» - Text-to-Video.

В профессиональной среде их также часто называют диффузионными моделями Diffusion Models или мультимодальными трансформерами.

Основные архитектурные компоненты, из которых они состоят:

Текстовый энкодер - Text Encoder:

Модель, например, на базе архитектуры Transformer, которая считывает ваш текстовый запрос, понимает его смысл и преобразует в числовое представление — вектор.

Генератор - Диффузионная модель или Трансформер:

Ядро системы. Оно берет числовое представление — вектор и постепенно, шаг за шагом, формирует визуальный контент - картинку или кадры видео, опираясь на текстовый вектор.

Декодер - Decoder:

Переводит полученные абстрактные данные в финальный визуальный формат - пиксели, формирующие изображение или видеофайл.