4 подписчика

Разработка трансформерного генератора картинок с Claude 3 Opus

17 июня 202417 июн 2024

20 мин

Идея поискать новые сочетания архитектур нейросети для генерации картинок с помощью языковой модели. В данном случае диалог с claude-3-opus-20240229: https://arena.lmsys.org/

Так как модели для генерации картинок Stable Diffusion не являются полностью трансформерными нейросетями, хоть и используют механизм внимания, то интересно, что будет если заставить LLM(large language model) подумать над заменой сверточных блоков Unet на трансформер. Получится ли из этого полная ерунда и гладкий бред или нечто дельное?

Задаю вопрос:
Давай попробуем написать транcформерную нейросеть с функциональностью как у stable diffusion но вообще без сверточных нейросетей и unet. Как это можно сделать?

Ответ:
Это интересная задача - создать модель, подобную Stable Diffusion, но без использования сверточных сетей и U-Net. Вот некоторые идеи, как это можно реализовать на основе чистых трансформеров:

Encoder-Decoder архитектура. Модель будет состоять из двух трансформеров - энкодера и декодера. Энкодер будет принимать на вход текстовое описание и преобразовывать его в латентное представление. Декодер затем будет генерировать изображение по этому латентному представлению, выдавая на выходе последовательность токенов, соответствующих пикселям изображения.
Дискретизация пространства пикселей. Чтобы представить изображение в виде последовательности токенов для трансформера, нужно как-то дискретизировать непрерывное пространство пикселей. Для этого можно использовать векторное квантование (VQ), как в модели VQGAN. Т.е. исходное изображение разбивается на блоки, для каждого блока находится ближайший код из предопределенного словаря. Последовательность этих кодов и будет токенами для трансформера.
Обучение end-to-end. Модель нужно будет обучать целиком, совместно оптимизируя энкодер, декодер и словарь векторного квантования. В качестве функции потерь можно взять комбинацию перцептивных потерь (LPIPS, CLIP) и adversarial loss.
Внимание между модальностями. Для улучшения согласованности между текстом и изображением можно добавить механизм кросс-модального внимания. Т.е. на каждом блоке декодера матрица внимания будет вычисляться не только между токенами изображения, но и с учетом токенов текста из энкодера.
Увеличение размера изображения. Для генерации изображений высокого разрешения можно применить идею каскадной генерации, как в модели Cascaded Diffusion. Т.е. несколько декодеров будут последовательно увеличивать разрешение изображения - базовый декодер сгенерирует изображение 64x64, следующий апскейлит его до 256x256 и т.д.

В целом, это достаточно нетривиальная задача, требующая много экспериментов для поиска оптимальной архитектуры и настройки обучения. Но теоретически генерацию изображений по текстовому описанию можно реализовать и на чистых трансформерах, без использования техник из диффузионных моделей. Главное - правильно представить изображения в виде последовательностей токенов и обеспечить взаимодействие между текстовой и визуальной модальностями.

-----

Хорошо, спасибо кэп! Вроде бы он написал все по делу, но что на счет кода?

Вопрос: Напиши код на python который прототипирует данную идею.

Ответ: Конечно, вот примерный код на PyTorch, реализующий основные компоненты описанной архитектуры:

import torch
import torch.nn as nn
from transformers import BertModel, BertTokenizer

# Энкодер на основе BERT
class TextEncoder(nn.Module):
def __init__(self, hidden_size):
super().__init__()
self.bert = BertModel.from_pretrained('bert-base-uncased')
self.fc = nn.Linear(768, hidden_size)

def forward(self, input_ids, attention_mask):
outputs = self.bert(input_ids, attention_mask=attention_mask)
encoded = self.fc(outputs.last_hidden_state)
return encoded

# Декодер на основе трансформера
class ImageDecoder(nn.Module):
def __init__(self, hidden_size, num_layers, num_heads, image_size=64):
super().__init__()
self.embedding = nn.Embedding(num_embeddings=4096, embedding_dim=hidden_size)
self.pe = PositionalEncoding(hidden_size, max_len=image_size*image_size)
decoder_layer = nn.TransformerDecoderLayer(d_model=hidden_size, nhead=num_heads)
self.transformer_decoder = nn.TransformerDecoder(decoder_layer, num_layers=num_layers)
self.fc = nn.Linear(hidden_size, 4096)

def forward(self, encoded_text, image_tokens):
embedded_tokens = self.embedding(image_tokens)
pos_encoded_tokens = self.pe(embedded_tokens)
decoded = self.transformer_decoder(pos_encoded_tokens, encoded_text)
logits = self.fc(decoded)
return logits

# Векторное квантование
class VectorQuantize(nn.Module):
def __init__(self, num_embeddings, embedding_dim):
super().__init__()
self.embedding = nn.Embedding(num_embeddings, embedding_dim)
self.embedding.weight.data.uniform_(-1/num_embeddings, 1/num_embeddings)

def forward(self, z):
z = z.permute(0, 2, 3, 1).contiguous()
z_flattened = z.view(-1, z.shape[-1])
distances = (z_flattened ** 2).sum(dim=1, keepdim=True) \
- 2 * z_flattened @ self.embedding.weight.t() \
+ (self.embedding.weight**2).sum(1)
encoding_indices = distances.argmin(dim=1)
quantized = self.embedding(encoding_indices).view(z.shape)
quantized = quantized.permute(0, 3, 1, 2).contiguous()
return quantized, encoding_indices

# Основная модель
class ImageFromTextModel(nn.Module):
def __init__(self, hidden_size, num_layers, num_heads):
super().__init__()
self.text_encoder = TextEncoder(hidden_size)
self.vq_codebook = VectorQuantize(num_embeddings=4096, embedding_dim=hidden_size)
self.image_decoder = ImageDecoder(hidden_size, num_layers, num_heads)

def forward(self, input_ids, attention_mask, image_tokens):
encoded_text = self.text_encoder(input_ids, attention_mask)
quantized, _ = self.vq_codebook(encoded_text)
logits = self.image_decoder(quantized, image_tokens)
return logits

# Позиционное кодирование
class PositionalEncoding(nn.Module):
def __init__(self, d_model, max_len=5000):
super().__init__()
pe = torch.zeros(max_len, d_model)
position = torch.arange(0, max_len, dtype=torch.float).unsqueeze(1)
div_term = torch.exp(torch.arange(0, d_model, 2).float() * (-torch.log(torch.tensor(10000.0)) / d_model))
pe[:, 0::2] = torch.sin(position * div_term)
pe[:, 1::2] = torch.cos(position * div_term)
self.register_buffer('pe', pe)

def forward(self, x):
x = x + self.pe[:x.size(1), :].unsqueeze(0)
return x

# Пример использования
tokenizer = BertTokenizer.from_pretrained('bert-base-uncased')
text = "A red car on the street"
tokens = tokenizer(text, return_tensors='pt', padding=True, truncation=True, max_length=512)

model = ImageFromTextModel(hidden_size=512, num_layers=6, num_heads=8)
image_tokens = torch.randint(0, 4096, (1, 4096))
logits = model(tokens.input_ids, tokens.attention_mask, image_tokens)

Этот код определяет основные компоненты модели:

1. `TextEncoder` - энкодер на основе BERT для преобразования текста в латентное представление.

2. `ImageDecoder` - декодер на основе трансформера для генерации токенов изображения по латентному представлению текста.

3. `VectorQuantize` - слой векторного квантования для дискретизации латентного пространства.

4. `ImageFromTextModel` - основная модель, объединяющая энкодер, векторное квантование и декодер.

5. `PositionalEncoding` - слой позиционного кодирования для внедрения информации о позиции токенов.

Конечно, это только базовый прототип, и для полноценной реализации потребуется еще много деталей, таких как:

- Функции потерь (перцептивные потери, adversarial loss)
- Процедура предобучения VQ кодбука и трансформера на реконструкцию изображений
- Дополнительные техники для улучшения качества (super-resolution, classifier-free guidance и т.д.)
- Гиперпараметры модели (размер латентного пространства, число слоев и головок внимания и т.д.)

Но я надеюсь, этот код дает общее представление о том, как можно реализовать модель для генерации изображений по текстовому описанию на основе чистых трансформеров. Дальше можно экспериментировать, улучшать архитектуру и настраивать обучение для достижения наилучшего качества генерации.

------

Хотите кода - вот вам много кода. Выглядит интересно, особенно общая структура но нужно проверять так как некоторые моменты не понятны и могут скрываться ошибки и фантазии. Для проверки идеи у меня нет кластера из видеокарт и свободной электростанции рядом, чтобы его запитать поэтому будем скромнее и спросим следующее.

Вопрос: Что если сосредоточиться на генерации изображений маленького размера 224x224 будет ли обучение такой нейросети более быстрым в контексте данной архитектуры. И как можно ее оптимизировать по скорости обучения учитывая ненужность изображений высокого разрешения?

Ответ: Да, сосредоточение на генерации изображений небольшого размера, такого как 224x224, определенно ускорит обучение по сравнению с генерацией изображений высокого разрешения. Меньший размер изображения означает меньшее количество токенов, которые нужно сгенерировать декодеру, а также меньший размер латентного представления, которое нужно закодировать энкодеру.

Вот несколько идей по оптимизации архитектуры и процесса обучения для ускорения обучения при генерации изображений 224x224:

1. Уменьшение размера модели. Поскольку нам не нужно генерировать изображения высокого разрешения, мы можем использовать меньшее количество слоев и головок внимания в трансформере. Это уменьшит количество параметров модели и ускорит итерации обучения.

2. Меньший размер пакета (batch size). Генерация изображений требует большого количества памяти, особенно при обратном распространении градиентов. Уменьшение размера пакета позволит использовать меньше памяти и потенциально увеличить скорость обучения.

3. Смешанная точность (mixed precision). Использование смешанной точности (FP16 и FP32) во время обучения может значительно ускорить процесс обучения и уменьшить потребление памяти без существенной потери качества.

4. Распараллеливание на несколько GPU. Если у вас есть доступ к нескольким GPU, вы можете распараллелить обучение, чтобы ускорить процесс. Например, можно использовать технику распределенного обучения с параллельной обработкой данных.

5. Прогрессивная загрузка данных. Вместо загрузки всего набора данных в память, можно загружать данные постепенно во время обучения. Это позволит обучать модель на большем наборе данных без исчерпания памяти.

6. Упрощение архитектуры. Можно рассмотреть возможность удаления некоторых компонентов модели, которые могут быть избыточными для генерации изображений 224x224. Например, возможно, нам не нужен слой векторного квантования, и мы можем напрямую подавать латентное представление от энкодера в декодер.

7. Предварительное обучение. Предварительное обучение энкодера и декодера на задаче реконструкции изображений может ускорить сходимость модели при тонкой настройке на генерацию изображений по текстовому описанию.

Вот пример того, как можно модифицировать предыдущий код, чтобы оптимизировать его для генерации изображений 224x224:

```python
import torch
import torch.nn as nn
from transformers import BertModel, BertTokenizer

class ImageFromTextModel(nn.Module):
def __init__(self, hidden_size, num_layers, num_heads):
super().__init__()
self.text_encoder = TextEncoder(hidden_size)
self.image_decoder = ImageDecoder(hidden_size, num_layers, num_heads, image_size=224)

def forward(self, input_ids, attention_mask):
encoded_text = self.text_encoder(input_ids, attention_mask)
logits = self.image_decoder(encoded_text)
return logits

# Другие компоненты (TextEncoder, ImageDecoder, PositionalEncoding) остаются такими же

# Пример использования
tokenizer = BertTokenizer.from_pretrained('bert-base-uncased')
text = "A red car on the street"
tokens = tokenizer(text, return_tensors='pt', padding=True, truncation=True, max_length=512)

model = ImageFromTextModel(hidden_size=512, num_layers=4, num_heads=8)
logits = model(tokens.input_ids, tokens.attention_mask)

# Обучение с использованием смешанной точности и распределенного обучения
from apex import amp
model, optimizer = amp.initialize(model, optimizer, opt_level="O1")
model = nn.parallel.DistributedDataParallel(model)

# Обучение с прогрессивной загрузкой данных
data_loader = torch.utils.data.DataLoader(dataset, batch_size=8, shuffle=True, num_workers=4, pin_memory=True)
for epoch in range(num_epochs):
for batch in data_loader:
optimizer.zero_grad()
logits = model(batch['input_ids'], batch['attention_mask'])
loss = criterion(logits, batch['image'])
with amp.scale_loss(loss, optimizer) as scaled_loss:
scaled_loss.backward()
optimizer.step()
```

В этом примере мы удалили слой векторного квантования и напрямую подаем латентное представление от энкодера в декодер. Мы также уменьшили количество слоев и головок внимания в декодере, чтобы уменьшить размер модели.

Для обучения мы используем смешанную точность с помощью библиотеки NVIDIA Apex и распределенное обучение с помощью `DistributedDataParallel`. Мы также используем `DataLoader` для прогрессивной загрузки данных во время обучения.

Конечно, это только некоторые из возможных оптимизаций, и точные настройки будут зависеть от конкретных требований вашего проекта и доступных вычислительных ресурсов. Но я надеюсь, что эти идеи дают представление о том, как можно ускорить обучение модели для генерации изображений 224x224 по текстовому описанию.

-----

Ну допустим, пока не вижу явного фантазирования и тогда возникает вопрос как бы мне получить аннотированный датасет картинок нужного размера и содержания для обучения? Картинки-то я найду где взять, а вот с аннотациями проблема... ну тут пусть поработает какая-нибудь уже предобученная нейросеть из кучи имеющихся. Об этом мой следующий вопрос: Напиши код создания датасета изображений формата 224x224 из набора неанотированных фотографий разного размера.
Для этого нужно загрузить предобученную нейросеть способную сделать описание фото и применить ее для каждого фото. Затем следует пережать все фото к нужному размеру и сохранить их описания. Затем использовать этот датасет для обучения ImageFromTextModel из прошлого ответа.

Ответ: Конечно! Вот пример кода на Python, который создает датасет изображений размера 224x224 из набора неаннотированных фотографий разного размера, генерирует описания для каждого фото с помощью предобученной нейросети и использует этот датасет для обучения модели `ImageFromTextModel`:

```python
import os
import torch
import torchvision.transforms as transforms
from PIL import Image
from transformers import VisionEncoderDecoderModel, ViTFeatureExtractor, AutoTokenizer
from torch.utils.data import Dataset, DataLoader

# Путь к папке с неаннотированными фотографиями
data_dir = "path/to/unlabeled/images"

# Загрузка предобученной модели для генерации описаний изображений
model = VisionEncoderDecoderModel.from_pretrained("nlpconnect/vit-gpt2-image-captioning")
feature_extractor = ViTFeatureExtractor.from_pretrained("nlpconnect/vit-gpt2-image-captioning")
tokenizer = AutoTokenizer.from_pretrained("nlpconnect/vit-gpt2-image-captioning")

# Функция для генерации описания изображения
def generate_caption(image_path):
image = Image.open(image_path)
if image.mode != "RGB":
image = image.convert(mode="RGB")

image_transforms = transforms.Compose([
transforms.Resize((224, 224)),
transforms.ToTensor(),
transforms.Normalize([0.5, 0.5, 0.5], [0.5, 0.5, 0.5])
])

pixel_values = image_transforms(image).unsqueeze(0)
output = model.generate(pixel_values, max_length=50)
caption = tokenizer.decode(output[0], skip_special_tokens=True)
return caption

# Класс датасета
class ImageCaptionDataset(Dataset):
def __init__(self, data_dir):
self.data_dir = data_dir
self.image_paths = [os.path.join(data_dir, filename) for filename in os.listdir(data_dir)]
self.captions = [generate_caption(image_path) for image_path in self.image_paths]
self.transforms = transforms.Compose([
transforms.Resize((224, 224)),
transforms.ToTensor(),
transforms.Normalize([0.5, 0.5, 0.5], [0.5, 0.5, 0.5])
])

def __len__(self):
return len(self.image_paths)

def __getitem__(self, index):
image_path = self.image_paths[index]
image = Image.open(image_path)
if image.mode != "RGB":
image = image.convert(mode="RGB")
image = self.transforms(image)
caption = self.captions[index]
return image, caption

# Создание датасета
dataset = ImageCaptionDataset(data_dir)

# Инициализация модели ImageFromTextModel
model = ImageFromTextModel(hidden_size=512, num_layers=4, num_heads=8)

# Создание DataLoader для обучения
data_loader = DataLoader(dataset, batch_size=8, shuffle=True, num_workers=4)

# Функция потерь и оптимизатор
criterion = nn.CrossEntropyLoss()
optimizer = torch.optim.Adam(model.parameters(), lr=1e-4)

# Обучение модели
num_epochs = 10
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
model.to(device)

for epoch in range(num_epochs):
for images, captions in data_loader:
images = images.to(device)
captions = tokenizer(list(captions), return_tensors="pt", padding=True, truncation=True, max_length=512).to(device)

optimizer.zero_grad()
logits = model(captions.input_ids, captions.attention_mask)
loss = criterion(logits.view(-1, logits.size(-1)), images.view(-1))
loss.backward()
optimizer.step()

print(f"Epoch [{epoch+1}/{num_epochs}], Loss: {loss.item():.4f}")

print("Training completed!")
```

Этот код делает следующее:

1. Мы указываем путь к папке с неаннотированными фотографиями (`data_dir`).

2. Загружаем предобученную модель `VisionEncoderDecoderModel` из Hugging Face для генерации описаний изображений.

3. Определяем функцию `generate_caption`, которая принимает путь к изображению, загружает его, преобразует в размер 224x224, передает в модель и возвращает сгенерированное описание.

4. Создаем класс датасета `ImageCaptionDataset`, который загружает изображения из указанной папки, генерирует описания для каждого изображения с помощью `generate_caption`, изменяет размер изображений до 224x224 и сохраняет их вместе с описаниями.

5. Инициализируем экземпляр класса `ImageCaptionDataset`, передавая путь к папке с фотографиями.

6. Инициализируем модель `ImageFromTextModel` с заданными параметрами.

7. Создаем `DataLoader` для обучения модели, указывая размер пакета (batch size), перемешивание (shuffle) и количество рабочих процессов (num_workers).

8. Определяем функцию потерь (`CrossEntropyLoss`) и оптимизатор (`Adam`).

9. Обучаем модель в течение заданного количества эпох. На каждой итерации мы получаем пакет изображений и соответствующих описаний из `DataLoader`, передаем описания через токенизатор, передаем их в модель, вычисляем потери, выполняем обратное распространение и обновляем веса модели.

10. После завершения обучения выводим сообщение об успешном завершении.

Обратите внимание, что для запуска этого кода вам потребуется установить необходимые библиотеки, такие как PyTorch, Hugging Face Transformers и torchvision. Также убедитесь, что у вас есть доступ к предобученной модели `VisionEncoderDecoderModel` и соответствующим токенизатору и экстрактору признаков.

Этот код предоставляет базовую структуру для создания датасета изображений с описаниями и обучения модели `ImageFromTextModel` на этом датасете. Вы можете дополнительно настроить гиперпараметры, добавить функционал сохранения и загрузки модели, а также модифицировать код в соответствии с вашими конкретными потребностями.

-----

И снова получился достаточно гладкий код, чтобы было не заметно явных проблем (по крайней мере тому, кто не каждый день пишет такие задачи). По опыту таких диалогов знаю, что проблемы обязательно возникнут как только ты попытаешься показать это компилятору или имеющемуся оборудованию, но пока этого не делать - выглядит прикольно! В связи с этим вопрос про оборудование - пусть прикинет, а есть ли смысл вообще пытаться с имеющимся ресурсом?

Вопрос: Оцени примерно сколько времени понадобится для обучения такой модели на 100000 картинок на видеокарте с 8Gb VRAM для того чтобы модель начала создавать узнаваемые изображения по текстовому описанию. И оцени какое количество обучающих картинок было бы оптимально.

Ответ: Оценка времени обучения и оптимального количества обучающих картинок зависит от нескольких факторов, таких как сложность модели, размер изображений, длина текстовых описаний и доступные вычислительные ресурсы. Давайте рассмотрим приблизительную оценку для вашего случая.

Время обучения:
- При использовании видеокарты с 8 ГБ VRAM и размере пакета (batch size) около 8-16 изображений, одна эпоха обучения на 100 000 картинок может занять приблизительно 1-2 часа.
- Для получения узнаваемых результатов генерации изображений по текстовому описанию может потребоваться около 50-100 эпох обучения (это зависит от сложности модели и качества данных).
- Таким образом, общее время обучения может составить около 50-200 часов (2-8 дней) на 100 000 картинок.

Оптимальное количество обучающих картинок:
- Качество генерации изображений по текстовому описанию сильно зависит от разнообразия и качества обучающих данных.
- Для достижения хороших результатов рекомендуется использовать как можно больше разнообразных и качественных обучающих картинок.
- Однако, учитывая ограничения по времени обучения и вычислительным ресурсам, оптимальное количество обучающих картинок может находиться в диапазоне от 100 000 до 500 000.
- Начать можно со 100 000 картинок и постепенно увеличивать их количество, оценивая улучшение качества генерации.
- Также важно следить за качеством сгенерированных описаний картинок и при необходимости фильтровать или дополнять обучающие данные.

Обратите внимание, что эти оценки являются приблизительными и могут варьироваться в зависимости от конкретной реализации модели и характеристик обучающих данных. Рекомендуется экспериментировать с различными настройками и итеративно улучшать модель, опираясь на полученные результаты.

Кроме того, для ускорения обучения и улучшения качества генерации можно рассмотреть следующие подходы:
- Использование техник переноса обучения (transfer learning), например, начать с предобученной модели на большом наборе данных и дообучить ее на вашем специфическом датасете.
- Применение техник аугментации данных, таких как случайные повороты, отражения и изменения цвета, для увеличения разнообразия обучающих данных.
- Использование более эффективных архитектур модели, таких как Transformer с вниманием (attention) или генеративно-cocтязательные сети (GAN).
- Распараллеливание обучения на нескольких GPU, если это возможно.

Экспериментируйте, анализируйте результаты и итеративно улучшайте модель, чтобы достичь желаемого качества генерации изображений по текстовому описанию.

----

Обнадежил, конечно. Хотя и в конце стал забывать какая конкретно архитектура имеется ввиду. Оценка про 8 дней кажется оптимистичной. А если еще добавить аннотирование ста тыс фото и проверка этих аннотаций на адекватность, то процесс может затянуться там где не ждали.

Резюме. Вроде бы потрепались несколько минут с Claude на техническую тему и за это время даже порадовались архитектуре генератора картинок без свёрточных блоков в сетях. Концептуально должно работать, но неизвестно хорошо ли/плохо ли, в чем окажутся преимущества и недостатки. В целом интересный диалог получился. На практике не проверялось.

Пиши, дорогой читатель, что думаешь про эту всю тему и гладкий бред больших языковых моделей? Может быть диалог чепуха несусветная и не стоит даже битов памяти, которые он занимает на сервере Яндекса.

PS: Соболезную за отступы в коде - уверяю, что в оригинале они есть, но при сохранении статьи - пропадают. Выделение цитатой не помогает. Без отступов код немашиночитаемый и компилироваться не будет. Если что-то получится, то опубликую на специальном ресурсе, где код нормально отображается таком как gitflick