19 подписчиков

OpenAI добавил генерацию изображений в ChatGPT

27 марта 202527 мар 2025

3 мин

OpenAI интегрировал возможности генерации изображений непосредственно в ChatGPT, заменив предыдущую интеграцию DALL-E. Новая система нацелена на предоставление более последовательных результатов и меньших ограничений контента. OpenAI начала развертывание собственной возможности генерации изображений, представленной вместе с GPT-4o в мае 2024 года . По данным компании, эта функция станет стандартным генератором изображений для всех пользователей ChatGPT , от бесплатного уровня до клиентов Enterprise. Доступ к API для разработчиков запланирован на ближайшие недели. DALL-E по-прежнему будет доступен как отдельная опция через выделенный GPT. Новая система обрабатывает текст и изображения вместе, что приводит к более точным результатам. Согласно OpenAI, она может обрабатывать до 20 различных объектов одновременно, сохраняя правильные отношения между ними. Эта возможность делает ее особенно эффективной при создании текста в изображениях, например, при создании инфографики или логотипов. Сист

Оглавление

Повышенная точность за счет мультимодальной обработки
Переход к менее ограничительной политике
Как пользоваться ChatGPT с расшифровкой изображений в России без VPN и иностранных карт?

OpenAI начала развертывание собственной возможности генерации изображений, представленной вместе с GPT-4o в мае 2024 года . По данным компании, эта функция станет стандартным генератором изображений для всех пользователей ChatGPT , от бесплатного уровня до клиентов Enterprise. Доступ к API для разработчиков запланирован на ближайшие недели. DALL-E по-прежнему будет доступен как отдельная опция через выделенный GPT.

Повышенная точность за счет мультимодальной обработки

Новая система обрабатывает текст и изображения вместе, что приводит к более точным результатам. Согласно OpenAI, она может обрабатывать до 20 различных объектов одновременно, сохраняя правильные отношения между ними. Эта возможность делает ее особенно эффективной при создании текста в изображениях, например, при создании инфографики или логотипов.

Система показывает особую силу с нетрадиционными концепциями. Когда ее просили сгенерировать «лошадь, едущую на астронавте», предыдущие модели обычно по умолчанию выбирали более распространенный сценарий астронавта, едущего на лошади.

Однако GPT-4o точно создает необычное расположение, что говорит о том, что он имеет более глубокое понимание пространственных отношений, а не просто воспроизводит общие закономерности из своих обучающих данных. Эта способность может значительно расширить творческие возможности для генерации изображений ИИ.

Модель способна к «обучению в контексте», что позволяет ей анализировать загруженные изображения и включать их детали в новые поколения. Пользователи могут уточнять свои результаты посредством естественного разговора, при этом ИИ сохраняет контекст в ходе нескольких обменов, что упрощает итеративное совершенствование изображения посредством диалога.

Раннее тестирование показывает, что система выдает более последовательные изображения, чем DALL-E 3, хотя она пока не идеальна. Пользователи могут заметить небольшие несоответствия между поколениями, например, небольшие изменения в прическе персонажа или деталях одежды.

OpenAI открыто заявляет о текущих ограничениях системы. Модель иногда неправильно обрезает изображения, генерирует галлюцинации, похожие на те, что наблюдаются в текстовых моделях, и испытывает трудности со сценами, содержащими много отдельных концепций.

У него также есть проблемы с точным отображением нелатинского текста. Компания заявляет, что работает над улучшением того, как пользователи могут редактировать определенные части сгенерированных изображений.

OpenAI добавляет метаданные C2PA ко всем сгенерированным изображениям, четко идентифицируя их как созданные ИИ. Компания также создала внутреннюю поисковую систему для отслеживания и идентификации изображений, созданных с помощью новой системы.

Переход к менее ограничительной политике

Генеральный директор OpenAI Сэм Альтман заявил , что в отличие от строгой модерации DALL-E 3 новая система предоставляет больше творческой свободы, включая потенциально оскорбительный контент «в разумных пределах». Однако платформа по-прежнему блокирует запросы на дипфейки , насилие и несанкционированное изображение реальных людей.

Этот запуск последовал за недавним выпуском Google аналогичной функции для своей модели Gemini , в которой также подчеркиваются такие преимущества, как согласованность изображений, диалоговое редактирование и точная визуализация текста.

Хотя специализированные генераторы изображений, такие как Midjourney или Ideogram, по-прежнему предлагают пользовательские интерфейсы, специально разработанные для создания изображений, они могут не соответствовать точности, обеспечиваемой изначально интегрированными мультимодальными моделями, такими как новая функция ChatGPT, — аспект, часто имеющий решающее значение для задач создания изображений.

Как пользоваться ChatGPT с расшифровкой изображений в России без VPN и иностранных карт?

Генератор картинок в ChatGPT пока недоступен, но в сервисе от KolerksyAI можно воспользоваться версией GPT, которая умеет расшифровывать изображения.

Можно попросить его решить задачу, которая размещена на фотографии и многое другое.

OpenAI

60,9 тыс интересуются