Найти в Дзене
Neurotracker

На изображении фрагмент документа от OpenAI под названием «Addendum to GPT-4o System Card: Native image generation» (25 марта 2025 года

На изображении фрагмент документа от OpenAI под названием «Addendum to GPT-4o System Card: Native image generation» (25 марта 2025 года), где описывается новый подход к генерации изображений в GPT-4o. Ключевое отличие: Генерация изображений в GPT-4o основана не на диффузионной модели, как у DALL·E, а на авторегрессионной модели, встроенной нативно в архитектуру GPT-4o. Как это работает — простое объяснение 1. DALL·E (старый подход): • Использует диффузионную модель, которая «очищает» случайный шум, шаг за шагом приближаясь к финальному изображению. • Процесс итеративный и внешний по отношению к ChatGPT. 2. GPT-4o (новый подход): • Генерация изображений встроена внутрь GPT-4o, т.е. это часть общей модели, а не отдельный модуль. • Используется авторегрессия — тот же принцип, что и при генерации текста: • Модель создаёт изображение пиксель за пикселем (или патч за патчем), предсказывая следующий элемент на основе уже сгенерированных. • Всё это делается внутри единой модели, которая зн

На изображении фрагмент документа от OpenAI под названием «Addendum to GPT-4o System Card: Native image generation» (25 марта 2025 года), где описывается новый подход к генерации изображений в GPT-4o.

Ключевое отличие:

Генерация изображений в GPT-4o основана не на диффузионной модели, как у DALL·E, а на авторегрессионной модели, встроенной нативно в архитектуру GPT-4o.

Как это работает — простое объяснение

1. DALL·E (старый подход):

• Использует диффузионную модель, которая «очищает» случайный шум, шаг за шагом приближаясь к финальному изображению.

• Процесс итеративный и внешний по отношению к ChatGPT.

2. GPT-4o (новый подход):

• Генерация изображений встроена внутрь GPT-4o, т.е. это часть общей модели, а не отдельный модуль.

• Используется авторегрессия — тот же принцип, что и при генерации текста:

• Модель создаёт изображение пиксель за пикселем (или патч за патчем), предсказывая следующий элемент на основе уже сгенерированных.

• Всё это делается внутри единой модели, которая знает текст, изображения и может связывать их между собой.

Преимущества авторегрессионного подхода:

• Универсальность: модель «понимает» и текст, и изображения в одной архитектуре.

• Глубокая интеграция: можно давать сложные текстовые инструкции и получать визуальные результаты, встроенные в логику общения.

• Реализм и контроль: результат лучше поддаётся управлению, можно точно встроить текст в изображение и учитывать контекст.

Примеры новых возможностей:

• Image-to-Image трансформация: изменять и комбинировать изображения.

• Фотореализм: реалистичность изображений на уровне фотографий.

• Инструкционные диаграммы: визуализация сложных процессов по текстовому описанию.