7 подписчиков

Девушка с аккордеоном или флагманы неросетей для генерации изображений.

26 февраля26 фев

20 мин

Мне не сразу удалось подступиться к следующему шагу, после составления общей карты нейросетей. Так как я сейчас в основном занимаюсь генерацией изображений, то решила отправиться в этом направлении. Мы построили нашу базовую классификацию на том, что умеют нейросети. И для изображений мы можем ее расширить. Но дальше возникают сложности. Большинство современных нейросетей умеют сразу многое. Это не считая платформ, на которых собрано сразу несколько разных нейросетей. Поэтому путешествие в этом месте теряет логичность. Я решила выбрать самое актуальное направление "генерация изображений" и в этом направлении и зайти с флагманов. Долго перепираясь и споря с GPT и Deepseek, я составила свой топ 11 нейросетей для генерации изображений. Для описания каждой нейросети были использованы такие характеристики: 1. Что выделяет эту нейросеть. Для каких задач выбирают именно ее?

2. Функции - что умеет.

3. Платная - бесплатная.

4. Доступность в России.

5. Дружественность к новичкам.

6. Ограниче

2. Функции - что умеет.

3. Платная - бесплатная.

4. Доступность в России.

5. Дружественность к новичкам.

6. Ограниче

Оглавление

ЧТО МОГУТ ДЕЛАТЬ НЕЙРОСЕТИ С ИЗОБРАЖЕНИЯМИ
ТОП-11 нейросетей для генерации изображений.
1. Midjourney V7

Мы построили нашу базовую классификацию на том, что умеют нейросети. И для изображений мы можем ее расширить.

ЧТО МОГУТ ДЕЛАТЬ НЕЙРОСЕТИ С ИЗОБРАЖЕНИЯМИ

Генерировать изображения
— по тексту
— по референсу (примеру в виде другого изображения)
— гибридные: сочетание текста и референса
Редактировать изображения
— точечная правка
— замена фона
— стилизация
— генеративная заливка
Улучшать качество изображения
— апскейл (улучшение качества + увеличение)
— восстановление
— шум / резкость
Распознавать и анализировать
— объекты
— лица
— текст
— стиль
Универсальные модели и платформы-комбайны
— универсальные модели: генерация + редактирование + улучшение качества + увеличение размера
— платформы комбайны собирают несколько моделей в одном интерфейсе

Но дальше возникают сложности. Большинство современных нейросетей умеют сразу многое. Это не считая платформ, на которых собрано сразу несколько разных нейросетей.

Поэтому путешествие в этом месте теряет логичность. Я решила выбрать самое актуальное направление "генерация изображений" и в этом направлении и зайти с флагманов. Долго перепираясь и споря с GPT и Deepseek, я составила свой топ 11 нейросетей для генерации изображений.

Для описания каждой нейросети были использованы такие характеристики:

1. Что выделяет эту нейросеть. Для каких задач выбирают именно ее?
2. Функции - что умеет.
3. Платная - бесплатная.
4. Доступность в России.
5. Дружественность к новичкам.
6. Ограничения и слабые стороны.

Далее мы берем один и тот же промпт и делаем в каждой сети изображение используя эту задачу. Я специально взяла очень простой промпт.

Промпт : Поясной портрет. Молодая женщина играет на аккордеоне сидя на стуле в саду под цветущей яблоней. (Half-length portrait of a young woman playing the accordion while sitting on a chair in a garden under a blossoming apple tree.)

Итак наш

ТОП-11 нейросетей для генерации изображений.

1. Midjourney V7

Сильные стороны:
Midjourney - это золотой стандарт художественной графики. Его выбирают, когда нужно создать красивое, атмосферное изображение с «душой»: концепты персонажей, фэнтези-арты, книжные иллюстрации, постеры, аниме (отдельная версия Niji 7). Главная фишка — умение делать картинки стильными и эстетичными. Умеет учитывать стилистику по описанию, по референсу, а самое главное можно с помощью инструментов персонализации настроить свой собственный стиль в Midjourney.
Функции:
Генерация по тексту: превращает ваше описание в картинку. Можно уточнять стиль, освещение, детали.
Генерация по референсу: может взять за основу фото или рисунок и создать похожие вариации.
Имеет свой редактор : правит фрагменты, меняет фон, расширяет границы, увеличивает качество.
Оплата:
Только платная подписка. Бесплатного доступа нет. Внутри тарифа можно генерировать сколько угодно картинок в «медленном» режиме, а в «быстром» есть ограничение по количеству. Все тарифы разрешают коммерческое использование.
Доступность в РФ:
Сложная. Оплатить напрямую российской картой не получится. Нужна зарубежная или виртуальная карта, либо помощь посредников. Сам сайт обычно открывается без VPN.
Дружелюбность к новичкам:
Стала проще, чем раньше. У Midjourney появился удобный веб-интерфейс. Но чтобы получать именно то, что задумали, придётся немного освоиться: понять, как описывать детали, как работают референсы и настройки стиля. В интернете много гайдов и примеров - разобраться можно за пару вечеров.
Ограничения и слабые стороны:
Не лучший выбор для строгого фотореализма и коммерческой «каталожной» съёмки — часто уводит в художественность, не достаточно держит сходство от изображения к изображению.
Текстовые надписи часто искажаются. Нет полноценного точечного редактирования как в профессиональных редакторах.
Оплата и доступ из России могут создавать сложности.

Сайт: https://www.midjourney.com/

2. Nano Banana Pro (Google)

Сильные стороны:
Nano Banana Pro - это выбор для тех, кому нужен безупречный фотореализм и коммерческое качество. Её называют «студийным фотографом» среди нейросетей. Главные фишки: умение сохранять лица и объекты при переносе из кадра в кадр, идеальная работа с освещением и текстурой, уверенно справляется с текстом внутри картинки (надписи, упаковка, постеры).
Её выбирают для продуктовой съёмки, реалистичных портретов, макетов для маркетплейсов, сложной инфографики и любых задач, где важна достоверность.
Функции:
Генерация по тексту и по референсу: поддерживает до 8–14 изображений для смешивания стилей или сохранения персонажа. Редактор с ИИ: точечная правка, замена фона, объектов, времени суток, стилизация эскизов в фотореалистичные рендеры. Улучшение качества: с возможностью печати, повышение резкости и детализации.
Оплата:
Условно-бесплатная. Бесплатный доступ сильно ограничен (например, 3 генерации в день в Gemini или низкое разрешение ~1К). Платный доступ требует подписки Gemini Advanced или оплаты через Google AI Studio / API. Также модель доступна через сторонние платформы-агрегаторы с помесячной подпиской .
Доступность в РФ:
Сложная, но решаемая. Официальные сервисы (Google AI Studio, Gemini) недоступны с российских IP без использования прокси/VPN. Однако многие российские агрегаторы предоставляют доступ к модели через свои интерфейсы, часто с бесплатными лимитами.
Дружелюбность к новичкам:
Высокая, если заходить через удобные сторонние платформы на русском языке. Официальный интерфейс (Google AI Studio) ориентирован на разработчиков, но есть множество платформ с простым веб-интерфейсом и готовыми подсказками. Сама модель отлично понимает запросы на естественном языке, не требуя сложных конструкций, а при использовании техники «билингва» (сюжет на русском, технические параметры на английском) результаты становятся ещё предсказуемее.
Ограничения и слабые стороны:
Меньше художественной «магии», чем у Midjourney - результат может выглядеть технически правильным, но менее атмосферным. Сильно зависит от точности промпта: при слабом описании результат может быть обычным. Меньше развито сообщество и обучающие материалы по сравнению с Midjourney.

Доступен в России только через агрегаторы вроде Syntx https://syntx.ai

3. GPT Image 1.5 (OpenAI)

Сильные стороны:
GPT Image 1.5 - это модель для тех, кому важна точность исполнения. Её главное преимущество - понимание сложных инструкций. Это «рабочая лошадка» среди нейросетей. Главные фишки: умение точно выполнять сложные инструкции, сохранять детали при многократном редактировании (лица, освещение, композиция). Её выбирают для задач, где важен контроль и предсказуемость: подготовка контента, образовательные материалы, коммерческие проекты, где изображение проходит через множество правок. Часто воспринимается как «самая послушная» модель.
Функции:
Генерация по тексту: точно интерпретирует длинные и структурированные описания.
Генерация по референсу: может использовать загруженное изображение как основу.
Редактор с ИИ: точечная правка, добавление и удаление объектов, изменение деталей без пересборки всей сцены.
Сохранение сходства: старается удерживать лицо, позу и пропорции при доработке.
Работа с текстом в изображении: аккуратный рендер надписей, особенно при чёткой формулировке.
Оплата:
Условно-бесплатная для пользователей ChatGPT (доступна всем в рамках подписки). Платный доступ через API: стоимость снижена на 20% по сравнению с предыдущей версией . Точные цены зависят от объема, но модель позиционируется как доступная для масштабирования . Бесплатного веб-интерфейса вне ChatGPT нет.
Доступность в РФ:
Сложная, но решаемая. Официальный ChatGPT и API OpenAI недоступны с российских IP без использования прокси/VPN. Однако многие российские агрегаторы и платформы предоставляют доступ к GPT Image 1.5 через свои интерфейсы
Дружелюбность к новичкам:
Высокая. Работает через привычный чат-интерфейс. Не нужно писать сложные промпты — модель отлично понимает естественный язык. Можно просто описывать изменения, и она их выполнит, сохраняя общую композицию. Хорошо реагирует на уточнения и пошаговую доработку.
Ограничения и слабые стороны:
Иногда результат менее художественный, чем у Midjourney. Результат может выглядеть технически правильным, но менее атмосферным . Сохраняются слабости с несколькими лицами в кадре и некоторыми языками (китайский, арабский, иврит) . Может быть избыточно «стерильной» для творческих задач, где нужна уникальная эстетика. Стоимость при активной генерации через API может быть заметной. Не такой гибкий уровень кастомизации, как у open-source моделей (например, Stable Diffusion).

Сайт: https://chatgpt.com/images

4. FLUX.1 Pro Ultra (Black Forest Labs)

Сильные стороны:
FLUX.1 Pro Ultra выбирают, когда важна максимальная детализация и качество изображения. Его называют «королём печати» среди нейросетей. Это модель для больших форматов: постеров, обложек, печати, сложных сцен с множеством мелких деталей. Она даёт очень чистую картинку с хорошей проработкой текстур, материалов и света. Часто воспринимается как «технологичный фотореалист» с акцентом на разрешение и точность деталей.
Функции:
Генерация по тексту: создаёт детализированные изображения по подробному описанию.
Генерация по референсу: может учитывать загруженные изображения как основу.
Поддержка высокого разрешения: подходит для печати и крупного формата.
Работа с композицией: хорошо удерживает сложные сцены с множеством объектов.
Оплата:
Платная. Обычно доступна через API или платформы-агрегаторы с оплатой за изображение (стоимость зависит от разрешения).Бесплатного доступа нет.
Доступность в РФ:
Через агрегаторы - возможна. Прямой доступ через официальные сервисы может быть ограничен.
Дружелюбность к новичкам:
Средняя. Через агрегаторы пользоваться просто, но при работе через API или технические интерфейсы потребуется больше понимания параметров.
Ограничения и слабые стороны:
Меньше художественной выразительности, чем у Midjourney — результат может быть технически безупречным, но не всегда «атмосферным».
Меньше развито сообщество и обучающие материалы.
Стоимость при активной работе может быть выше, чем у моделей по подписке.
Не всегда доступен в удобном пользовательском интерфейсе.

Сайт: https://fluxproweb.com/ Здесь есть несколько бесплатных генераций в день, но не в самых современных моделях. Доступен через https://syntx.ai

5. Adobe Firefly 5 (Adobe)

Сильные стороны:
Adobe Firefly - это нейросеть, встроенная в профессиональную среду дизайна. Её главное преимущество - интеграция с Photoshop и другими продуктами Adobe. Это инструмент не столько для «чистого креатива», сколько для аккуратной работы: дорисовать фон, заменить объект, расширить кадр, изменить одежду или освещение. Подходит тем, кто уже работает с графикой и хочет ускорить процесс, не выходя из привычной программы.
Функции:
Генерация по тексту: создаёт изображения и отдельные элементы по описанию.
Генеративная заливка: дорисовывает участки изображения по выделенной области.
Замена объектов и фона: можно выделить часть кадра и изменить её по текстовому запросу.
Расширение изображения: увеличивает границы кадра с сохранением стиля.
Стилизация: меняет настроение и визуальный характер изображения.
Работа с текстом: создаёт декоративные надписи и типографику.
Оплата:
Платная. Входит в подписку Adobe Creative Cloud. Бесплатный пробный период возможен, но постоянный доступ требует оплаты.
Доступность в РФ:
Сложная. Официальная подписка недоступна для прямой оплаты российскими картами.
Дружелюбность к новичкам:
Средняя. Если человек уже знаком с Photoshop - освоиться легко. Если нет, то потребуется время, чтобы разобраться в интерфейсе Adobe.
Ограничения и слабые стороны:
Меньше свободы и художественной «смелости», чем у Midjourney.
Не лучший выбор для сложных фантазийных сцен и концепт-арта.
Зависит от экосистемы Adobe - как отдельный генератор используется реже.
Требует подписки, что делает его дороже для тех, кто не работает профессионально с графикой.

Использование через Photoshop

6. Qwen-Image-2.0 (Alibaba)

Сильные стороны:
Qwen-Image-2.0 - это практичный инструмент для задач, где важен текст в изображении и аккуратное редактирование. Его часто выбирают для комиксов, постеров, презентаций, карточек маркетплейсов, открыток и инфографики. Модель уверенно размещает надписи (в том числе на русском и английском), хорошо справляется с редактированием загруженных фото: смена одежды, фона, объединение людей в кадре. Сильная сторона — доступность и понятный интерфейс внутри чата.
Функции:
Генерация по тексту: создаёт изображения по описанию, включая сцены с надписями.
Генерация по референсу: может использовать загруженное изображение как основу.
Редактор с ИИ: замена фона, одежды, предметов; объединение изображений.
Работа с текстом в изображении: аккуратно размещает надписи, заголовки, логотипы.
Стилизация: меняет визуальный стиль загруженного изображения.
Оплата:
Условно-бесплатная. Бесплатный доступ: через Qwen Chat (chat.qwen.ai) можно пользоваться без оплаты . Платный доступ: через API Alibaba Cloud (Bailian) с оплатой за использование. Точные цены зависят от объёма, модель позиционируется как доступная для масштабирования.
Доступность в РФ:
Хорошая. Официальный чат Qwen Chat доступен из России без прокси . API Alibaba Cloud также работает, оплата возможна через российские карты (Alibaba Cloud принимает карты РФ). Модель уже появляется на международных платформах-агрегаторах.

Информация про оплату Alibaba Cloud российскими картами мной не проверена. Надо проверять.

Дружелюбность к новичкам:
Высокая. Модель отлично понимает длинные и сложные запросы на естественном языке - можно просто описать, что нужно, и получить результат. Для русскоязычных пользователей лучше писать промпты на английском или китайском (через переводчик), но понимание русского в модели не заявлено.. Подходит для первых экспериментов и быстрых задач.
Ограничения и слабые стороны:
Меньше художественной выразительности по сравнению с Midjourney.
Фотореализм уступает Nano Banana и Imagen.
Иногда даёт повторяющиеся композиции.
Сообщество и количество обучающих материалов меньше, чем у западных флагманов. Авторские права на сгенерированные изображения и ответственность за контент лежат на пользователе.

Сайт: https://chat.qwen.ai

7. Seedream 4.5 / 5.0 (ByteDance)

Сильные стороны:
Seedream — это модель с выраженной «креативной» подачей. Её выбирают для ярких рекламных сцен, визуалов для соцсетей, fashion-концептов и маркетинговых кампаний. Картинки часто получаются эффектными, контрастными и динамичными. Модель хорошо чувствует современные визуальные тренды, делает аккуратный свет и чистую коммерческую картинку. Версия 5.0 усиливает точность сцены и глубину деталей, лучше работает с предметами и композициями.
Функции:
Генерация по тексту: создаёт рекламные и концептуальные изображения по описанию.
Генерация по референсу: может учитывать стиль или объект из загруженного изображения.
Стилизация: меняет визуальный характер сцены (fashion, минимализм, tech, lifestyle).
Работа с композицией: уверенно держит предметную и постановочную съёмку.
Поддержка сложных сцен: может создавать маркетинговые композиции с несколькими объектами.
Оплата:
Платная. Доступна через сервисы ByteDance и сторонние агрегаторы. Бесплатные лимиты могут быть ограничены.
Доступность в РФ:
Через агрегаторы — возможна. Прямой официальный доступ может быть ограничен.
Дружелюбность к новичкам:
Высокая при использовании через удобные платформы. При работе через API - выше порог входа.
Ограничения и слабые стороны:
Меньше «тонкой художественной атмосферы», чем у Midjourney.
Иногда даёт чрезмерно «глянцевый» результат.
Сообщество и количество открытых гайдов меньше, чем у Midjourney и Stable Diffusion. Доступ напрямую может быть ограничен.

Я тестировала через https://syntx.ai

8. Playground v3 (Playground AI)

Playground v3 в списке флагманов немного «спорный гость», но раз он сюда попал, то посмотрим по нашей схеме.

Сильные стороны:
Playground v3 - это универсальная модель, ориентированная на чистый современный визуал. Её выбирают, когда нужен аккуратный, понятный результат без излишней художественной драматичности. Она хорошо справляется с графикой для соцсетей, блогов, маркетинга и digital-дизайна. Сильная сторона — баланс между фотореализмом и иллюстративной эстетикой, без перекоса в «арт ради арта».
Функции:
Генерация по тексту: создаёт изображения по описанию в современном визуальном стиле.
Генерация по референсу: может учитывать стиль и композицию загруженного изображения.
Стилизация: позволяет варьировать характер изображения — от минималистичной графики до более реалистичных сцен.
Вариации: даёт стабильные альтернативные версии одной сцены.
Работа с композицией: уверенно удерживает простые предметные и портретные сцены.
Оплата:
Чаще всего доступна через платформу Playground AI с бесплатными лимитами и подпиской для расширенных возможностей.
Доступность в РФ:
Хорошая. Playground AI — это веб-сервис, доступный из России без прокси (сайт открывается, регистрация по email работает). Оплата платных тарифов возможна российскими картами (сервис принимает основные кредитные и дебетовые карты) . Бесплатного тарифа достаточно для регулярного использования без вложений.

Возможность оплаты российскими картами надо проверять. Я не пробовала.

Дружелюбность к новичкам:
Очень высокая. Подходит для первого знакомства с нейросетями: не требует сложных промптов, много готовых пресетов. Щедрый бесплатный тариф позволяет учиться и экспериментировать без ограничений. Сообщество активно делится промптами, а сама модель прощает ошибки в описаниях.
Ограничения и слабые стороны:
Не лидер по художественной выразительности (уступает Midjourney).
Не самый сильный фотореализм (уступает Nano Banana и Imagen).
Меньше глубины кастомизации, чем у Stable Diffusion.
Сильнее раскрывается в простых и коммерческих задачах, чем в сложном концепт-арте.

Сайт: https://playground.com/design Я смогла зайти и получить несколько бесплатных изображений именно в этой модели. Там есть и другие, но только в платной версии.

9. Ideogram 2.0 (Ideogram)

Сильные стороны:
Ideogram 2.0 выбирают тогда, когда в изображении важен текст. Это одна из самых сильных моделей по аккуратному рендерингу надписей: заголовков, слоганов, логотипов, постеров. Она хорошо сочетает изображение и типографику в одной сцене. Подходит для обложек, афиш, карточек маркетплейсов, презентаций и соцсетей. В отличие от многих генераторов, текст у неё читаемый и логично встроенный в композицию.
Функции:
Генерация по тексту: создаёт изображения с точными надписями по описанию.
Работа с типографикой: аккуратно размещает шрифты, стилизует текст под разные форматы (постер, логотип, обложка).
Генерация по референсу: может учитывать стиль загруженного изображения.
Стилизация: позволяет менять художественный характер сцены. Дополнительные возможности: Magic Prompt (автоматическое расширение промптов), контроль цветовой палитры, пакетная генерация до 500 изображений из CSV-файлов в Pro-тарифе.
Оплата:
Условно-бесплатная. Есть бесплатные генерации с ограничениями, расширенные возможности - по подписке.
Доступность в РФ:
Официальный доступ может быть ограничен.
Дружелюбность к новичкам:
Высокая. Интерфейс простой, модель хорошо реагирует на обычный текстовый запрос без сложных параметров.
Ограничения и слабые стороны:
Не лидер по сложному фотореализму.
Меньше художественной глубины, чем у Midjourney.
Меньше гибкости в точечной правке по сравнению с Firefly или GPT Image. При генерации нескольких лиц в кадре возможны искажения и проблемы с анатомией.
Сильнее всего раскрывается именно в задачах с текстом, вне этой зоны её преимущества менее заметны.

Я тестировала через https://syntx.ai

10. Imagen 4 (Google)

Сильные стороны:
Imagen 4 - это модель, ориентированная на точный фотореализм и логичную композицию. Её выбирают, когда важно, чтобы сцена выглядела правдоподобно: корректная перспектива, свет, материалы, пропорции. Она хорошо справляется со сложными описаниями, где нужно соблюсти несколько условий одновременно. Часто воспринимается как «спокойный технологичный реалист» без излишней художественной стилизации.
Функции:
Генерация по тексту: создаёт реалистичные изображения по подробному описанию.
Генерация по референсу: может учитывать загруженное изображение как основу.
Сохранение композиции: уверенно удерживает пространственную логику и расположение объектов.
Работа с деталями: аккуратно прорисовывает текстуры, материалы и освещение.
Поддержка высокого разрешения: подходит для печати и коммерческих задач.
Оплата:
Доступ через Google AI Studio, Gemini Advanced или API. Бесплатные лимиты ограничены, полноценное использование требует оплаты.
Доступность в РФ:
Официальные сервисы Google AI ограничены для российских IP. Возможен доступ через прокси или сторонние агрегаторы.
Дружелюбность к новичкам:
Средняя. Через чатовый интерфейс Gemini пользоваться проще, через AI Studio и API — выше порог входа.
Ограничения и слабые стороны:
Меньше художественной выразительности по сравнению с Midjourney.
Не самый сильный инструмент для сложной типографики (уступает Ideogram и Qwen). Зависит от экосистемы Google.
Сообщество и открытые обучающие материалы меньше, чем у Midjourney или Stable Diffusion.

Я тестировала через https://syntx.ai

11. Stable Diffusion 3.5 Large (Stability AI)

Изображения нет, потому что в рамках этой статьи я не смогла найти сайт, где можно протестировать эту модель. Её нужно запускать через платформы, API или локально. Я посмотрела с десяток сайтов, которые мне советовали мои дорогие GPT и Deepseek для того, чтобы сделать тестовую генерацию. Но пройдя квест с регистрацией, я нигде не нашла возможности напрямую воспользоваться Stable Diffusion.
Значит это тема для одно из следующих квестов, когда наберусь смелости.

Сильные стороны:
Stable Diffusion 3.5 Large - это выбор для тех, кому нужна полная свобода и контроль над генерацией. Главная фишка: это полностью открытая модель с 8 миллиардами параметров, которую можно скачать, запустить локально, дообучить под свои задачи и использовать бесплатно (для некоммерческих проектов и малого бизнеса) . Её выбирают энтузиасты, разработчики и компании, которым важна гибкость, приватность и возможность кастомизации.
Функции:
Генерация по тексту: создаёт изображения по описанию.
Генерация по референсу: поддерживает image-to-image режим.
Глубокая настройка параметров: контроль шагов генерации, силы шума, семян (seed), масштабирования.
Подключение дополнительных модулей: ControlNet (поза, глубина, контур), LoRA (кастомные стили), inpainting.
Работа локально: может запускаться на собственном компьютере без ограничений по количеству генераций.
Оплата:
Модель open-source. Условно-бесплатная. Для некоммерческого использования и малого бизнеса (с годовым доходом менее $1 млн) — бесплатно . Для крупных компаний требуется Enterprise-лицензия.
Однако для комфортной работы нужен мощный компьютер или оплата облачного GPU.
Доступность в РФ:
Хорошая. Модель с открытым кодом доступна для скачивания всем. Онлайн-площадки (Hugging Face, Replicate) работают из России. Можно скачать и запустить локально. Облачные платформы могут быть платными или ограниченными.
Дружелюбность к новичкам:
Низкая. Для установки и настройки требуется техническое понимание. Интерфейсы вроде ComfyUI или Automatic1111 требуют времени на освоение.
Ограничения и слабые стороны:
Нет удобного «официального» пользовательского сайта.
Нужно либо устанавливать локально, либо искать облачные платформы.
Качество результата сильно зависит от выбранной версии, настроек и дополнительных модулей.
Без тонкой настройки результат может уступать Midjourney или Nano Banana «из коробки».

Итак, мы просмотрели 11 топовых нейросетей и попробовали их в деле. Далее моя субъективная оценка полученных изображений.

Сравнение полученных изображений.

В итоге нашего беглого "исследования" мне понравились изображения полученные с помощью Seedream 4.5, Imagen 4 и Nano Banana Pro. Довольно симпатичная картинка вышла и у Qwen-Image.

Большие проблемы с изображением человека, на мой взгляд, обнаружились у Ideogram 2.0, Playground v3 и Adobe Firefly5, но может мы еще не умеем их готовить. В Adobe Firefly5 я немного читерила и сделала несколько генераций, в каждой были ужасные проблемы с пальцами.

Midjourney и GPT в этом забеге себя не проявили в полной мере, но я работаю с обеими нейросетями и очень их люблю. Midjourney при правильном использовании позволяет получать изображения в любой стилистике с высокой реалистичностью. А милый GPT-Image действительно очень понятливый и отзывчивый.

Есть еще один интересный аспект: точность изображения аккордеона. Midjourney V7, Nano Banana Pro, GPT Image 1.5, Imagen 4 довольно точно отобразили правую клавиатуру, остальные скорей условно, а Seedream изобразил гармонь.

Сейчас самое время вернуться к началу: как нам выбрать нейросеть для своей задачи. Завершение этой прогулки в отдельной публикации: "Где будем рисовать?"