Артур Хорошев про автоматизацию и нейросети

3241 подписчик

Генерация изображений: конвейер из Midjourney, Flux и DALL-E в Make

21 января21 янв

8 мин

Автоматизированный конвейер генерации изображений — это системный подход к созданию визуального контента, объединяющий логику DALL-E 3, текстовые возможности Flux.1 и художественную эстетику Midjourney в единую цепь через платформу Make.com. Такой метод позволяет исключить ручной перебор промтов, снизить стоимость одной генерации и автоматизировать производство креативов для маркетинга и соцсетей. Забавно наблюдать, как в профильных чатах идут настоящие баталии. Одни с пеной у рта доказывают, что Midjourney — это единственный король арта. Другие парируют, что Flux наконец-то научился писать текст без ошибок, а DALL-E лучше всех понимает человеческий язык. Я смотрю на это и думаю: зачем выбирать один инструмент, если можно заставить их работать вместе? Это как нанимать в штат дизайнера, арт-директора и копирайтера. По отдельности они могут ошибаться, но в одной команде выдают результат, который сложно повторить в одиночку. Если вы до сих пор прыгаете между вкладками браузера, копируя пр

Оглавление

Зачем вообще объединять их в один процесс?
Сравнительная таблица инструментов для конвейера
Техническая реализация в Make: Собираем каркас

Автоматизированный конвейер генерации изображений — это системный подход к созданию визуального контента, объединяющий логику DALL-E 3, текстовые возможности Flux.1 и художественную эстетику Midjourney в единую цепь через платформу Make.com. Такой метод позволяет исключить ручной перебор промтов, снизить стоимость одной генерации и автоматизировать производство креативов для маркетинга и соцсетей.

Забавно наблюдать, как в профильных чатах идут настоящие баталии. Одни с пеной у рта доказывают, что Midjourney — это единственный король арта. Другие парируют, что Flux наконец-то научился писать текст без ошибок, а DALL-E лучше всех понимает человеческий язык. Я смотрю на это и думаю: зачем выбирать один инструмент, если можно заставить их работать вместе? Это как нанимать в штат дизайнера, арт-директора и копирайтера. По отдельности они могут ошибаться, но в одной команде выдают результат, который сложно повторить в одиночку.

Если вы до сих пор прыгаете между вкладками браузера, копируя промты из ChatGPT в Discord, а потом перетаскиваете файлы в фотошоп — у меня для вас новости. Вы тратите время, которое можно сэкономить. Сегодня мы соберем монстра Франкенштейна, только красивого и полезного. Мы построим систему, где нейросеть для генерации изображений становится лишь этапом большого конвейера.

Зачем вообще объединять их в один процесс?

У каждой модели есть своя суперсила и своя ахиллесова пята. Пытаться сделать идеальный баннер с текстом только в Midjourney — это боль. Пытаться получить фотореалистичную текстуру кожи в DALL-E — часто пластиковый результат. Секрет профессиональной автоматизации в разделении ответственности.

Сравнительная таблица инструментов для конвейера

Инструмент Роль в конвейере Сильная сторона Слабая сторона DALL-E 3 Мозговой центр (Brainstorming) Идеальное понимание сложных инструкций и абстракций. Дорого ($0.04/img), «пластиковая» эстетика, плохая генерация фотореализма. Flux.1 (Schnell/Dev) Производство (Production) Рендеринг текста на картинках, фотореализм, скорость. Иногда не хватает художественного стиля и «магии», требует точных настроек. Midjourney v6.1 Финальный лоск (Artistic Finish) Лучшие текстуры, свет, композиция, «вау-эффект». Нет официального API, сложно управлять мелкими деталями и текстом.

Техническая реализация в Make: Собираем каркас

Для тех, кто знаком с Make.com (бывший Integromat), это будет похоже на конструктор LEGO. Главная сложность здесь — не в логике, а в способах подключения, потому что не все нейросети отдают доступ по первому требованию.

1. Midjourney: Партизанские методы

Будем честны, официального API у Midjourney для широкой публики нет. Но рынок не терпит пустоты. Мы используем «мосты» — сервисы вроде UserAPI.ai или GoAPI.ai. Это прослойки, которые имитируют ваши действия в Discord, но управляются кодом.

Как подключить: В Make используем модуль «HTTP» с методом «Make an API Call».
Ключевые эндпоинты:/imagine — для создания картинки с нуля.
/upscale — для выбора одного варианта из четырех (хотя это лучше делать иначе, об этом ниже).
/describe — если нужно вытащить промт из референса.
Важный нюанс: Генерация в MJ занимает время (от 30 секунд до пары минут). Чтобы ваш сценарий не «отвалился» по тайм-ауту, обязательно используйте Webhook. Сервис отправит уведомление в Make, когда картинка будет готова. Не заставляйте сценарий ждать в активном режиме — это съедает операции.

2. Flux.1: Гибкость и скорость

Flux — это сейчас главный конкурент MJ, особенно в вопросах генерации изображений с текстом. Для автоматизации лучше всего использовать API провайдеров, таких как Replicate или Fal.ai. Fal.ai часто работает быстрее, что критично для real-time приложений.

Модели:flux-schnell — используем для быстрых тестов и драфтов. Это почти нейросеть бесплатно, стоит копейки.
flux-dev — подключаем на финальном этапе, когда промт уже отлажен и нужно качество.
Структура: Flux любит JSON. Вы можете динамически менять размер картинки или количество шагов (steps) прямо внутри сценария, основываясь на данных, полученных на предыдущих шагах.

3. DALL-E 3: Дорого, но умно

Здесь все просто: стандартный модуль OpenAI в Make. Выбираем действие «Generate an image». Но помните про цену. Я использую DALL-E только там, где нужно очень точное следование сюжету, который другие модели могут проигнорировать. Например, если в промте сказано «кот сидит НА собаке, которая стоит НА слоне» — DALL-E справится лучше всех.

https://kv-ai.ru/obuchenie-po-make

Сценарии «Конвейера»: 3 готовых архитектуры

Хватит теории, давайте посмотрим, как это выглядит на практике. Вот три схемы, которые я внедрял для разных задач.

Сценарий А: «От Идеи к Шедевру»

Подходит, если вы не умеете писать сложные технические промты (prompt engineering), но хотите получать арт уровня топ-авторов Midjourney.

OpenAI (DALL-E 3): Вы даете короткий запрос, например, «киберпанк Россия будущего». DALL-E генерирует черновой вариант. Он может быть не очень красивым, но композиционно верным.
OpenAI (GPT-4o Vision): Этот модуль «смотрит» на картинку от DALL-E и описывает её языком, понятным для Midjourney. Он добавляет детали про освещение, тип пленки, рендер.
HTTP (UserAPI/Midjourney): Получает этот «раскачанный» промпт и делает финальную генерацию. Результат обычно поражает.

Сценарий Б: «Генератор контента с текстом»

Идеально для SMM. Большинство нейросетей «ломаются» на надписях, выдавая абракадабру.

OpenAI (ChatGPT): Пишет текст поста и придумывает идею для картинки. В инструкции для GPT строго указано: если нужен текст на картинке, выдели его отдельно.
Router (Make): Это перекресток.Если в задании есть текст (например, «SALE 50%») — поток идет на Replicate (Flux). Flux отлично рисует буквы.
Если текста нет — поток идет на Midjourney для максимальной эстетики.
Google Drive: Готовый файл сохраняется в папку, а ссылка летит контент-менеджеру.

Сценарий В: «Бесконечные вариации» (Img2Img)

Когда нужен один стиль, но разные ситуации.

Midjourney: Генерирует базового персонажа или стиль. Это наш референс.
HTTP (Get file): Скачиваем эту картинку во временное хранилище Make.
Replicate (Flux Redux/Img2Img): Используем картинку MJ как исходник (image input). Мы просим Flux перерисовать её, изменив действие, но сохранив композицию и цвета. Это работает стабильнее, чем native features в самом MJ.

Лайфхаки и Data SEO оптимизация расходов

Работать с нейросетями весело, пока не приходит счет за API. Вот как не слить бюджет.

Prompt-Swapping (Подмена промтов)

Не пишите технические параметры вручную. Создайте в Make базу данных (Data Store) под названием «Модификаторы». Настройте сценарий так, чтобы перед отправкой запроса в MJ к вашему тексту автоматически приклеивалось --v 6.1 --style raw --stylize 250, а для Flux — highly detailed, 8k, photorealistic. Это стандартизирует качество и экономит время.

Универсальный Upscaler

Новички часто делают ошибку: генерируют сетку в MJ, а потом тратят платные генерации на Upscale (увеличение) каждой картинки. Не делайте так. Скачивайте превью и прогоняйте его через дешевые API апскейлеров в том же Replicate (например, nightmareai/real-esrgan). Это стоит в 10 раз дешевле, а качество для соцсетей неотличимо.

Экономия на тестах

Всегда начинайте цепочку с Flux Schnell. Если результат устраивает композиционно — отправляйте его на перерисовку в дорогие модели. Если нет — зачем платить за DALL-E? Можно даже добавить шаг утверждения в Telegram: бот присылает драфт, вы жмете кнопку «Ок», и только тогда запускается дорогая генерация.

Почему обучение автоматизации — это инвестиция, а не трата

Можно часами искать «нейросеть фото бесплатно» или «генерация изображений по фото», перебирая десятки сервисов с лимитами. А можно один раз настроить свою систему, которая работает на вас 24/7. Изучение Make.com и API нейросетей — это не просто навык, это создание собственного цифрового сотрудника.

Я часто вижу, как люди боятся кода. Но в 2025 году код — это визуальные блоки. Вам не нужно быть программистом, чтобы соединить три кубика стрелочками. Вам нужно лишь понимание логики процесса. Именно это мы и даем: не сухую теорию, а готовые блюпринты (шаблоны), которые можно скопировать и запустить.

Полезные ссылки для старта:

Хотите научиться автоматизации рабочих процессов с помощью сервиса make.com и нейросетей? Подпишитесь на наш Telegram-канал
Обучение по Автоматизации, CursorAI, маркетингу и make.com — для тех, кто ценит свое время.
Блюпринты по make.com — готовые схемы для внедрения.
Мы в MAX

И, конечно, для тех, кто хочет полный фарш: MCP сервис автоматизации «ВСЁ ПОДКЛЮЧЕНО» wordstat, wordpress, Вконтакте, телеграм, нейросети генерации картинок, фотосток, и другое. Это решение для тех, кто хочет закрыть вопрос инфраструктуры одним махом.

Частые вопросы (FAQ)

Можно ли генерировать изображения в Midjourney бесплатно через API?

Напрямую — нет. Midjourney не имеет бесплатного API. Однако, используя такие модели, как Flux Schnell через Replicate, вы можете получить очень дешевую генерацию (доли цента), которая для многих задач не уступает Midjourney.

Какая нейросеть лучше понимает русский язык: Шедеврум или DALL-E?

Шедеврум и Kandinsky отлично понимают «великий и могучий», так как обучались на нем. DALL-E 3 тоже справляется хорошо благодаря движку GPT-4. Midjourney и Flux лучше работают с английскими промптами, поэтому в Make мы часто ставим автоматический переводчик перед отправкой запроса.

Сложно ли подключить нейросеть к Make.com новичку?

Если есть готовая инструкция — это дело 15 минут. Основная сложность — получить API ключи в сервисах и правильно вставить их в модули. Визуальный редактор Make делает процесс интуитивно понятным.

Зачем использовать Flux, если есть Midjourney v6?

Главная причина — текст. Если вам нужно сгенерировать вывеску магазина, этикетку или баннер с читаемой надписью, Flux справится с вероятностью 90%, а Midjourney часто превратит буквы в иероглифы. Также Flux быстрее и дешевле для массовой генерации.

Что такое LoRA и как это применить в автоматизации?

LoRA — это мини-модель, дообученная на конкретных объектах (ваше лицо, продукт, стиль бренда). В связке Make + Flux (через Replicate) вы можете подключить свою LoRA и генерировать персональный контент автоматически, чего нельзя сделать в стандартном DALL-E.

Творчество

527,7 тыс интересуются