15 подписчиков

Какую нейросеть выбрать для карточек товара: обзор моделей 2026

20 мая20 мая

11 мин

За 2024-2026 год нейросети для генерации изображений прошли путь от «нарисую кота в шапке» до инструмента, который реально подходит для коммерческих карточек товара. Сегодня работающая карточка для Wildberries или Ozon собирается через нейросеть за 10-30 минут, а не за неделю переписки с фотостудией. Но моделей много, они разные, и далеко не каждая годится именно для карточек — большинство покажет «похожий» товар, а не ваш. В этом обзоре — что такое нейросеть для карточек товара, какие классы моделей бывают, чем они отличаются и как с ними работать. Облик — сервис на нейросети, и в конце расскажу, какую модель мы используем и за счёт чего наш слой поверх неё помогает делать карточки конкретно для маркетплейсов. Нейросеть для карточек — это не отдельный продукт, а модель генерации или редактирования изображений, которую используют для создания фото и инфографики под маркетплейсы. Принципиально таких моделей две большие группы: те, что рисуют картинку по текстовому описанию (text-to-imag

Оглавление

Что значит «нейросеть для карточек товара»
Классы моделей в 2026 году
Image-to-image и editing-модели

В этом обзоре — что такое нейросеть для карточек товара, какие классы моделей бывают, чем они отличаются и как с ними работать. Облик — сервис на нейросети, и в конце расскажу, какую модель мы используем и за счёт чего наш слой поверх неё помогает делать карточки конкретно для маркетплейсов.

Что значит «нейросеть для карточек товара»

Нейросеть для карточек — это не отдельный продукт, а модель генерации или редактирования изображений, которую используют для создания фото и инфографики под маркетплейсы. Принципиально таких моделей две большие группы: те, что рисуют картинку по текстовому описанию (text-to-image), и те, что берут вашу картинку и редактируют её (image-to-image). Для карточек товара нужен именно второй тип — у вас уже есть товар, его надо показать, а не сгенерировать с нуля «похожий».

Чтобы модель подошла для карточек, она должна уметь несколько вещей. Сохранять идентичность товара — цвет, форму, бренд, фактуру — через всю серию из 5-7 кадров. Понимать форматы площадок: Wildberries требует 3:4 (900×1200), Ozon — 3:2 (1500×900), Яндекс.Маркет — 1:1. Корректно рендерить кириллицу, если на кадре нужны подписи выгод или состав. Работать достаточно быстро и дёшево, чтобы каталог из 200 SKU не съел бюджет. Соблюдать правила модерации: контраст текста к фону ≥4.5:1 по WCAG AA для Wildberries, чистый фон, без водяных знаков и контактов.

Классы моделей в 2026 году

Image-to-image и editing-модели

Это основной класс для карточек. Модель берёт ваше фото товара как референс и редактирует его по текстовой инструкции: меняет фон, освещение, ракурс, добавляет инфографику. Лидеры в мае 2026 такие.

Nano Banana 2 от Google — кодовое имя модели Gemini 3.1 Flash Image, вышла в конце 2025. Сейчас, по совокупности скорости, качества и цены, это state-of-the-art для редактирования изображений. Хорошо удерживает идентичность товара, нативно понимает мультиязычный текст, легко работает с инфографикой. Облик использует именно её как default-провайдер.

Nano Banana Pro от Google — старшая версия, Gemini 3 Pro Image, вышла в начале 2026. До 4K-разрешения, лучший в классе рендер текста в нескольких языках (включая кириллицу), сложные multi-turn-правки. Дороже Flash, но для премиум-задач и больших форматов незаменима.

Flux.1 Kontext от Black Forest Labs — серия из трёх моделей (Max, Pro, Dev), вышла в 2025. Лучшая в классе точность text-prompted editing: «поменяй цвет рубашки на синий», «убери человека на заднем плане». С сентября 2025 встроена в Photoshop как модель для Generative Fill — это де-факто признание зрелости. В ноябре 2025 BFL выпустили следующее поколение — Flux 2 Pro, который сейчас считается лидером фотореализма среди image-to-image.

GPT Image 2 от OpenAI — текущая флагман-модель OpenAI после ухода DALL-E (API DALL-E 2 и 3 отключаются 12 мая 2026). Очень сильная в prompt adherence и рендере текста, но дорогая через API — около $0.19 за кадр против ~$0.04 у Nano Banana 2. На массовом каталоге быстро жжёт бюджет.

Stable Diffusion 3.5 Large от Stability AI — open-source-альтернатива. Бесплатна (если своё железо), полностью настраивается через ControlNet и LoRA. Минус — «голой» SD 3.5 для карточек недостаточно: нужно собирать pipeline, обучать LoRA под свой товар, держать GPU. Это путь для команд с разработкой.

Сравнение image-to-image моделей

Модель Идентичность товара Рендер текста Скорость Цена / кадр Доступ из РФ Nano Banana 2 Высокое Отличный (multilingual) Быстрая ~$0.04 Через посредников / VPN Nano Banana Pro Лучшее в классе Лучший (до 4K) Средняя ~$0.13 Через посредников / VPN Flux.1 Kontext Pro Высокое Хороший Средняя ~$0.05 Через посредников Flux 2 Pro Высокое Хороший Средняя ~$0.06 Через посредников GPT Image 2 Высокое Отличный Медленная ~$0.19 Через посредников / VPN Stable Diffusion 3.5 Среднее (нужен ControlNet) Слабый Зависит от железа Бесплатно (self-hosted) Open-source

Цены ориентировочные — у каждого провайдера есть пакеты, бесплатные tier'ы и скидки за объём. См. официальные прайсы: Google AI (1), Black Forest Labs (2), OpenAI (3).

Text-to-image — модели без референса

Этот класс рисует картинку по описанию, не принимая ваш товар. Для карточек товара прямо не подходит — модель нарисует «похожий» товар, не ваш. Но для частных задач (фантазийный фон, lifestyle-сцена без вашего объекта, модель с лицом) — главный инструмент.

Midjourney V8.1 — релиз 30 апреля 2026, лидер по эстетике и atmospheric. Нативное 2K-разрешение, Omni Reference для удержания персонажей и стиля через серию. Хорош для художественных задач, но не для строгих product shots.

Imagen 4 от Google — лидер фотореализма среди text-to-image. Доступ через Vertex AI и Gemini.

Ideogram V3 — лучшая в индустрии работа с типографикой. Если нужен постер или баннер с крупным русским текстом — это сильный выбор.

Recraft V3 — силён в брендинге, логотипах, иконках и векторе. Не для фото товара, а для дизайнерских ассетов вокруг карточки.

Kandinsky 4 от Сбера и YandexART / Шедеврум от Яндекса — российские модели. Доступ без VPN, оплата в рублях. По качеству пока отстают от Nano Banana 2 и Flux 2, но для тестов и базовых задач — рабочий вариант.

Узкоспециализированные e-commerce-инструменты

Это не базовые модели, а готовые AI-инструменты под одну задачу — обычно удаление фона или добавление тени. Photoroom AI — самый сильный из них, фокусируется именно на товарных фото и под капотом использует комбинацию своих моделей и сторонних API. ClipDrop (куплен Stability AI в 2023) — фон, апскейл, ретушь. Erase.bg, Cutout.Pro, Removal.AI — узкие сервисы для удаления фона. Для одной задачи годятся, серию из 5-7 кадров под маркетплейс они не соберут.

Видео-генерация

Для статичных карточек видео-модели не нужны, но Wildberries и Ozon поддерживают видео-блок внутри карточки, и для него тоже есть AI. Лидеры — Sora 2 от OpenAI, Veo 3 от Google, Kling 2 от Kuaishou, Runway Gen-4. Все понимают физику движения, синхронизируются со звуком, принимают картинку как начало видео.

Какую модель выбрать под задачу

Если у вас новый SKU без фото и нужна серия 5-7 кадров — берите image-to-image с консистентностью. Nano Banana 2 или Flux Kontext Pro подойдут лучше всего: одно фото товара на входе, серия кадров на выходе, идентичность сохраняется.

Если у вас каталог 100-500 SKU — Nano Banana 2 (Flash) даёт лучший баланс цена/качество. GPT Image 2 на таком объёме съест бюджет: $0.19 × 5 кадров × 500 артикулов = $475 только за API. Через сервис со скидкой за объём или собственный pipeline получается в 5-10 раз дешевле.

Если нужна только инфографика — подписи и иконки поверх готового фото — берите Nano Banana Pro или Ideogram V3, у них лучший рендер кириллицы. Облик ловит этот сценарий в отдельной услуге — под капотом Nano Banana + готовые шаблоны под форматы WB и Ozon.

Если нужна фантазийная сцена — товар на воображаемом фоне — это гибрид: сначала Midjourney V8.1 или Imagen 4 рисует фон через text-to-image, потом Nano Banana 2 или Flux Kontext в image-to-image-режиме накладывает на него ваш товар.

Если задача максимально узкая — просто убрать фон или поставить на белый — не нужна никакая полноценная модель. Photoroom AI или ClipDrop сделают это за один клик, бесплатные тарифы покрывают 5-10 фото в день.

Как с моделью работать практически

Есть два пути.

Первый — напрямую через API. У всех моделей он есть: у Nano Banana 2 через ai.google.dev, у Flux Kontext через bfl.ai, у GPT Image через platform.openai.com. Платите в валюте за каждый кадр, пишете обвязку: загрузить фото пользователя, собрать промпт, отправить, обработать ответ, ресайзнуть под нужный формат, сохранить. Если у вас есть разработчик — это пару дней работы.

Второй путь — через готовый сервис. Облик, Photoroom, Pebblely, SoulGen и десяток других — это обёртки над одной или несколькими моделями с готовым UI, биллингом в локальной валюте и доменной экспертизой (правила маркетплейсов, шаблоны под категории). Если нет разработки или не хочется тратить недели на pipeline — берите сервис.

Облик — сервис-обёртка над Nano Banana 2

Аналогия из мира текстовых моделей: ChatGPT — это обёртка над моделью GPT. Сама модель доступна через API, но пользоваться ей напрямую неудобно — нет диалога, истории, контекста, интерфейса. ChatGPT решает эти проблемы. Облик играет ту же роль для image-моделей в нише маркетплейсов.

Под капотом у нас Nano Banana 2 от Google как default-провайдер генерации изображений и GPT-4o-mini от OpenAI для распознавания категории товара. Для премиум-задач (4K, сложная инфографика с большим количеством текста) переключаемся на Nano Banana Pro. Эта связка даёт качество, сопоставимое с лучшими решениями на рынке, но без необходимости держать собственную команду разработки.

Сверху накручиваем слой маркетплейсной экспертизы — то, без чего голая модель в проде не работает. Загруженное фото товара сначала проходит через vision-модель: Облик сам определяет, что это — одежда, косметика, дом, электроника, — и подбирает сцены и параметры под категорию. Не нужно описывать сцену словами в промпте — варианты под категорию выбираются кнопками. Кадр сразу собирается под формат площадки: Wildberries 3:4 (900×1200), Ozon 3:2 (1500×900), Я.Маркет 1:1. Без обрезки и подгонки в Photoshop.

Дальше — правила маркетплейсов из исследований. Контраст текста к фону ≥4.5:1 по WCAG AA для Wildberries, читаемость подписей, правильный порядок кадров в карусели — главное фото с подписью выгоды, инфографика, lifestyle, деталь, габариты. Источники: Wildberries Research, Baymard Institute, Brand Analytics, Content Matrix. И серия в одном стиле: 5-7 кадров с одним и тем же товаром, не «похожим», а вашим.

Биллинг в рублях через T-Банк. Не нужен валютный счёт, VPN или зарубежная карта. Пакеты искр — без подписки и автоплатежей. Это вторая большая боль работы с моделями напрямую: оплачивать API Google или OpenAI с российской карты сегодня не получится.

Если у вас есть техкоманда и каталог 1000+ SKU — собирайте свой pipeline через API напрямую, это окупится. Если нет — Облик и подобные сервисы экономят несколько недель разработки. Попробовать Облик можно бесплатно, без карты — стартовые искры даются на тесте.

Частые вопросы

Какая нейросеть лучше всего подходит для карточек товара?

Для карточек нужен image-to-image-класс — модель, которая принимает фото товара как референс. Лидеры мая 2026: Nano Banana 2 от Google (баланс цена/качество, используется в Облик), Flux.1 Kontext Pro от Black Forest Labs (встроен в Photoshop), GPT Image 2 от OpenAI (дорогой, но точный). Чистый Midjourney или DALL-E без референса даст «похожий» товар, не ваш.

Можно ли работать с моделью напрямую через API?

Да. У всех моделей есть API: у Nano Banana 2 через ai.google.dev, у Flux Kontext через bfl.ai, у GPT Image через platform.openai.com. Нужен ключ, оплата в валюте, и придётся написать обвязку: загрузить фото, отправить промпт, обработать ответ, сохранить результат, ресайзить под формат площадки. Для разработчика — час-два работы. Для не-разработчика — проще через готовый сервис.

Есть ли бесплатные нейросети для карточек?

Бесплатные с лимитами есть: Шедеврум от Yandex, Kandinsky 4 от Сбера, Stable Diffusion в self-hosted-режиме (нужна видеокарта 12+ GB VRAM). Лимиты обычно — 5-20 кадров в день, низкое разрешение, без коммерческого использования. Для протестировать — годятся. Для каталога 100+ SKU — нет. Платные модели (Nano Banana 2 ~$0.04 за кадр) на массовку выходят дешевле, чем время на ручную работу.

Какую модель использует Облик?

Default — Nano Banana 2 (Gemini 3.1 Flash Image) от Google. Для премиум-задач можно переключиться на Nano Banana Pro (Gemini 3 Pro Image) — 4K и лучший рендер кириллицы в инфографике. Vision (распознавание категории товара) — GPT-4o-mini от OpenAI.

Зачем платить за сервис, если модель доступна через API?

API даёт модель «голой». Чтобы из неё получилась карточка для Wildberries, нужно: распознать категорию (отдельный vision-вызов), составить промпт под маркетплейс, удержать товар через серию кадров, ресайзнуть под 900×1200, обработать модерационные требования (контраст 4.5:1, читаемый текст). Это собственный pipeline на день-два разработки. Сервис вроде Облик — это и есть готовый pipeline + UI + биллинг в рублях.

Что выбрать новичку, который только начинает на WB?

Начните с готового сервиса — Облик, Pebblely или Photoroom. Не лезьте в API: время на изучение и обвязку дороже, чем 100-200 ₽ за тестовую карточку. Сделайте 1-2 карточки через сервис, поймёте, нужно ли вам это, а уже потом — выбирайте инструмент для масштаба.

А Midjourney или DALL-E точно не подходят?

Подходят для частного — фантазийная сцена, фон без вашего товара, моделирование lifestyle без референса. Но сам товар через них воспроизвести точно нельзя — они text-to-image, не image-to-image. Решение — гибрид: Midjourney или Imagen рисует фон, Nano Banana 2 или Flux Kontext в image-to-image-режиме накладывает на него ваш товар. Это и делают современные сервисы для карточек.

Что с DALL-E? Слышал, его отключают.

Да. OpenAI выключает DALL-E 2 и DALL-E 3 12 мая 2026 — API больше отвечать не будет. ChatGPT-юзеров автоматически перевели на GPT Image 1.5 ещё в декабре 2025, сейчас в API доступны GPT Image 1.5 и GPT Image 2. Если ваш скрипт всё ещё дёргает DALL-E — пора переезжать.

Дальше по теме

10 AI-сервисов для карточек WB и Ozon: честный разбор 2026 — отдельный обзор готовых сервисов, не моделей.
Бесплатная нейросеть для карточек товара — обзор бесплатных вариантов и их ограничений.
Дизайн карточки товара для маркетплейсов — как собрать всю карусель из 5-7 кадров.
Предметная съёмка — AI вместо студии — когда AI заменяет фотостудию, а когда нет.
AI-инфографика для карточек — подписи выгод, иконки, размерная сетка поверх главного фото.

Источники

(1) https://ai.google.dev/pricing
(2) https://bfl.ai/pricing
(3) https://platform.openai.com/docs/pricing