3155 подписчиков

Новые горизонты генеративного ИИ: что умеет GPT-4o и с чем пока не справляется

24 апреля 202524 апр 2025

3 мин

В марте 2025 года компания OpenAI представила обновлённую мультимодальную модель GPT-4o, которая значительно расширила возможности взаимодействия с ИИ. Особое внимание в новом релизе уделено генерации и редактированию изображений — теперь работать с визуальным контентом стало проще, быстрее и интереснее. GPT-4o умеет обрабатывать как текст, так и изображения, что делает её универсальным помощником в самых разных задачах — от креативных экспериментов до профессионального дизайна. Модель не только отвечает на вопросы и генерирует тексты, но и «понимает» изображения: может редактировать их, вносить изменения, добавлять новые элементы или полностью изменить сцену по описанию. Одним из главных новшеств стало объединение возможностей GPT-4o с теми, что ранее предлагала нейросеть DALL·E 3. Теперь пользователи могут: Например, достаточно загрузить фотографию интерьера и описать желаемые изменения — и через несколько секунд вы получите обновлённую версию с нужной мебелью, цветами стен или освещ

Оглавление

Новые функции: создание и редактирование изображений
Где GPT-4o уже эффективен
Пример

В марте 2025 года компания OpenAI представила обновлённую мультимодальную модель GPT-4o, которая значительно расширила возможности взаимодействия с ИИ. Особое внимание в новом релизе уделено генерации и редактированию изображений — теперь работать с визуальным контентом стало проще, быстрее и интереснее.

GPT-4o умеет обрабатывать как текст, так и изображения, что делает её универсальным помощником в самых разных задачах — от креативных экспериментов до профессионального дизайна. Модель не только отвечает на вопросы и генерирует тексты, но и «понимает» изображения: может редактировать их, вносить изменения, добавлять новые элементы или полностью изменить сцену по описанию.

Новые функции: создание и редактирование изображений

Одним из главных новшеств стало объединение возможностей GPT-4o с теми, что ранее предлагала нейросеть DALL·E 3. Теперь пользователи могут:

создавать изображения с нуля по текстовому описанию;
изменять существующие фото и иллюстрации;
добавлять детали, менять фон, атмосферу и стилистику.

Например, достаточно загрузить фотографию интерьера и описать желаемые изменения — и через несколько секунд вы получите обновлённую версию с нужной мебелью, цветами стен или освещением. Это особенно актуально для дизайнеров: теперь согласование с заказчиком можно провести прямо в чате, без использования сторонних графических редакторов.

Где GPT-4o уже эффективен

GPT-4o активно используют в сферах:

дизайна интерьеров;
маркетинга и презентаций;
визуального сторителлинга;
создания иллюстраций для книг, сайтов и соцсетей.

Быстрая генерация визуальных концептов позволяет значительно сократить путь от идеи до результата, минимизируя необходимость ручного труда.

Пример

Для испытания новых возможностей GPT-4o я использовала картинку:

После загрузки данной картинки в GPT-4o я попросила нарисовать шляпу:

И вот результат:

Далее я попросила нарисовать очки. И вот, что получилось:

Что GPT-4o пока даётся с трудом

Несмотря на заметный прогресс, модель всё ещё сталкивается с рядом технических и творческих ограничений.

Вот основные сложности, с которыми сталкиваются пользователи:

🔤 Текст на изображениях

С простыми надписями GPT-4o справляется уверенно, но при использовании русского языка, длинных фраз или нестандартных шрифтов появляются ошибки: буквы сливаются, пропадают или искажаются.

🧩 Нестабильное редактирование

Создание вариаций изображений пока не всегда оправдывает ожидания: новая версия может практически не отличаться от оригинала. При добавлении объектов (например, персонажа или предмета) результат может оказаться не в том месте или с неправильными характеристиками.

🎯 Ошибки при точечных правках

Даже при чётко сформулированном запросе ИИ не всегда вносит нужные изменения с первой попытки. Пример — исправление количества пальцев на руке: модель может несколько раз «не заметить» ошибку и только с нескольких попыток показать правильное количество.

🌀 Непонимание абстрактных запросов

GPT-4o пока сложно справляется с метафоричными и креативными задачами. Например, она не смогла показать отражение чихуахуа в виде ретривера или создать тень дверной ручки в форме эмблемы Бэтмена. Модель, скорее, воспринимает такие идеи буквально и воспроизводит случайные образы.

🎭 Атмосфера и эмоции — с натяжкой

Хотя GPT-4o хорошо «считывает» композицию и объекты, эмоциональные нюансы ей пока даются тяжело. Изменения атмосферы часто выглядят как визуальный фильтр, а мимика и настроение персонажей могут быть карикатурными.

Заключение

Обновлённая модель GPT-4o — это крупный шаг вперёд в развитии генеративного ИИ. Возможность работать одновременно с текстом и изображениями открывает совершенно новый уровень взаимодействия с ИИ-системами. Да, пока ещё не всё идеально: остаются технические нюансы и ограничения в креативности. Но потенциал GPT-4o — огромен, и уже сейчас он меняет подход к дизайну, визуализации и цифровому творчеству.

__________________________________________

P.S. Приглашение на Мастер-Классы по изучению Топовых Нейросетей, где Вас ждут Бонусы и Подарки:

<<<Участвовать Бесплатно>>>

OpenAI

60,9 тыс интересуются