Он может добавлять текст к изображениям.
OpenAI, материнская компания ChatGPT, представила свой первый официальный публичный предварительный просмотр DALL-E 3, последней модели для создания изображений. Представленный в среду на небольшом мероприятии для журналистов, DALL-E 3 позиционируется как инструмент, который полностью понимает сложные текстовые подсказки и создает изображения, соответствующие им по сложности.
Как отмечается на новой информационной странице о DALL-E 3 на веб-сайте OpenAI:
"Современные системы преобразования текста в изображение имеют тенденцию игнорировать слова или описания, вынуждая пользователей изучать оперативную инженерию. DALL-E 3 представляет собой скачок вперед в нашей способности создавать изображения, которые точно соответствуют предоставленному вами тексту".
Возможные изображения из незавершенной версии DALL-E 3 просочились в Discord ранее этим летом, и они продемонстрировали огромный потенциал в соответствии с тем, что было показано в предварительном просмотре для прессы. Источник утечки утверждал, что скормил DALL-E 3 длинную "подсказку(промпт)", на которой розовый шут дает пять панде во время соревнований по велоспорту. Велосипеды сделаны из сыра, а земля очень грязная. Они едут по туманному лесу. Панда сердится." Получившееся изображение было просто поразительным по своей точности в соответствии с этим запросом.
Такие генераторы изображений, как Midjourney и Stable Diffusion, хотя и способны имитировать фотореализм и создавать изображения широкого спектра объектов, стилей и людей (с немалым количеством противоречий, связанных с ними), несомненно, будут испытывать трудности при создании чего-либо столь сложного.
Эти генераторы изображений и предыдущие предложения OpenAI в этой области также, как известно, терпят неудачу, когда их просят создавать изображения с текстом — обычно в лучшем случае получается искаженная бессмыслица, а в худшем - веселые малапропизмы.
Open AI заявляет, что будет напрямую интегрировать DALL-E 3 в ChatGPT, и явно подразумевает, что чат-бот будет переходить от одной модели к другой в зависимости от содержания промпта. ChatGPT, когда-то просто удобный для пользователя интерфейс для генерации текста из модели GPT-3.5, быстро развивается, включая сторонние плагины с возможностью извлечения текста из других источников, включая Интернет. Этот шаг еще больше диверсифицирует возможности ChatGPT, расширяя и без того натянутое определение термина "чат-бот".
По словам Альтмана, DALL-E 3 "будет доступен всем пользователям ChatGPT +- в течение следующих нескольких недель". На веб-сайте OpenAI говорится, что все клиенты ChatGPT Plus и ChatGPT Enterprise смогут использовать его "в начале октября", и что OpenAI не будет предъявлять никаких претензий по авторским правам на выходные данные модели. Однако, если вы планируете создать что-то с помощью DALL-E 3, а затем самостоятельно создать на это авторские права, это совсем другая проблема.