282 подписчика

Как нейросети рисуют картинки: Midjourney, DALL-E, Шедеврум, Kandinsky.

1 июня1 июн

6 мин

В 2022 году в интернете появилась картинка: пушистый медведь-космонавт в скафандре сидит на луне с гитарой, на фоне Земля и звёзды. Качество — как у иллюстрации к детской книге. Художник? Нет. Нейросеть, нарисовавшая это за 30 секунд по короткой текстовой подсказке.

С того момента мир изобразительного искусства изменился навсегда. Сегодня любой человек с телефоном может нарисовать всё что угодно

Оглавление

Как это вообще возможно.
Главные игроки.
Сильные стороны:

С того момента мир изобразительного искусства изменился навсегда. Сегодня любой человек с телефоном может нарисовать всё что угодно — нужно только описать словами. Разберёмся, как это работает, какие нейросети-художники существуют и как заставить их нарисовать именно то, что вы хотите.

Как это вообще возможно.

Если языковые модели (как ChatGPT) учились предсказывать следующее слово в тексте, то генеративные модели изображений учились… превращать шум в картинку.

Звучит странно, поэтому объясню на пальцах. Представьте: берём миллионы картинок из интернета, и каждую постепенно «зашумляем» — добавляем мелкую рябь, потом ещё, потом ещё, пока картинка не превратится в сплошной серый шум. Параллельно записываем подпись к каждой картинке: «золотистый ретривер на пляже», «закат над Парижем», «акварельный портрет девушки».

Теперь обучаем нейросеть обратной задаче: из шума восстановить исходное изображение, опираясь на текстовую подпись. Это называется диффузионная модель.

Когда вы пишете промпт «золотистый ретривер на пляже», нейросеть начинает с случайного шума и шаг за шагом «вытаскивает» из него картинку, которая соответствует вашему описанию. За 20–40 шагов получается изображение, которого никогда раньше не существовало.

Магия? Математика. Но граница тут очень тонкая.

Главные игроки.

Midjourney — самый красивый художник

Кто делает: независимая лаборатория Midjourney Inc., США.

Если выбирать одну нейросеть по эстетике — это Midjourney. Картинки выглядят так, будто их рисовал профессиональный иллюстратор: с настроением, светом, композицией. Любимый инструмент дизайнеров, иллюстраторов, концепт-художников.

Сильные стороны:

• Лучшая в мире эстетика «из коробки» — даже короткий промпт даёт красивый результат

• Отлично рисует людей, лица, эмоции

• Узнаваемый «фирменный» стиль — кинематографичный, атмосферный

Слабые стороны:

• Платная сразу — бесплатной версии нет, минимум 10 долларов в месяц

• Работает через Discord или собственный веб-интерфейс — непривычно

• Из России — только через VPN, оплата зарубежной картой

• Слабо понимает русский язык в промптах, лучше писать на английском

DALL-E и GPT Image — встроены в ChatGPT

Кто делает: OpenAI, США.

Сейчас генератор изображений встроен прямо в ChatGPT — рисуете, не выходя из чата. Просто пишите: «нарисуй мне…». В 2026-м актуальная модель называется GPT Image — наследник линейки DALL-E.

Сильные стороны:

• Удобно — всё в одном окне с текстовым ИИ

• Хорошо понимает длинные сложные промпты

• Отлично работает с текстом внутри картинки (раньше нейросети писали бессмысленные буквы)

• Понимает русский язык в промптах

Слабые стороны:

• Эстетика чуть «глаже» и «приятнее», но менее выразительная, чем у Midjourney

• Доступно только в платном ChatGPT Plus (20 долларов в месяц)

• Из России — через VPN

Шедеврум — российский народный любимец

Кто делает: Яндекс.

Самое массовое решение в России — больше 5 миллионов пользователей. Работает в отдельном мобильном приложении, всё бесплатно, без VPN, на русском языке.

Сильные стороны:

• Полностью бесплатно, без ограничений

• Без VPN, регистрация через Яндекс ID

• Понимает русский язык прекрасно

• Есть встроенная социальная лента — можно смотреть чужие работы, вдохновляться

Слабые стороны:

• Качество уступает Midjourney и GPT Image

• Меньше тонких настроек

• Реклама и водяной знак в бесплатной версии

Кому подойдёт: обычным пользователям, школьникам, всем, кто хочет «потрогать» нейросеть-художника без затрат.

Kandinsky — нейросеть от Сбера.

Кто делает: Сбер (команда AIRI).

Главный конкурент Шедеврума на российском рынке. Работает через сайт fusionbrain.ai, бота в Telegram и встроен в GigaChat. Назван в честь художника Василия Кандинского — и работает на отечественных разработках от и до.

Сильные стороны:

• Бесплатный, без VPN

• Хорошо понимает русский язык и культурный контекст

• Есть режимы: рисование, переделка существующих изображений, видео

• Можно выбирать художественный стиль из готовых пресетов

Слабые стороны:

• Лица людей рисует менее реалистично, чем западные конкуренты

• Бывают «глитчи» — лишние пальцы, странная анатомия

Stable Diffusion — для технарей.

Кто делает: британская Stability AI.

Главная особенность: открытый исходный код. Это значит, что модель можно скачать и запустить у себя на компьютере — бесплатно, без интернета, без ограничений. Но порог входа высокий: нужна мощная видеокарта и техническая подкованность.

На основе Stable Diffusion построены сотни других сервисов и приложений. Если вы видите бесплатный генератор картинок где-то на сайте — скорее всего, под капотом он.

Кому подойдёт: энтузиастам, разработчикам, тем, кто хочет полный контроль.

Бонус: видео-нейросети

Картинки — уже скучно. Сегодня нейросети генерируют видео.

• Sora от OpenAI — флагман, делает реалистичные ролики до минуты

• Veo от Google — отличная работа с физикой и движением

• Kling, Hailuo — китайские конкуренты, часто бесплатные

• Kandinsky Video от Сбера — российский вариант

Через год-два видео-нейросети догонят и обгонят сегодняшние генераторы картинок. Уже сейчас ролики, сделанные ИИ, попадают в рекламу и кино.

Как написать хороший промпт для картинки

Промпт для изображения устроен иначе, чем для текста. Здесь работают перечисления, а не предложения. Условно — это список характеристик через запятую.

Слабый промпт: «девушка в красивом платье».

Сильный промпт: «портрет молодой женщины в винтажном красном вечернем платье 1950-х, элегантная поза, мягкий золотистый закатный свет, фон — летнее поле с маками, стиль киноплёнки Kodak Portra 400, средний план, неглубокая резкость».

Сравните результат — и вы поймёте всё про промпт-инжиниринг для изображений.

Структура хорошего промпта:

1. Главный объект — кто или что в центре

2. Действие и поза — что делает, в каком положении

3. Окружение и фон — где находится

4. Освещение — мягкий свет, контровой, неоновый, закатный

5. Стиль — фото, акварель, 3D-рендер, картина маслом, аниме, киноплёнка

6. Технические детали — крупный план, широкий угол, низкая точка съёмки

7. Настроение — атмосферно, драматично, уютно, минималистично

Главное правило: пробуйте и экспериментируйте .

Никто не получает идеальную картинку с первого раза. Даже профи. Подход правильный такой:

1. Напишите промпт.

2. Сгенерируйте 4 варианта.

3. Выберите ближайший к идеалу.

4. Уточните промпт, исправляя что не нравится.

5. Снова 4 варианта. Повторять, пока не дойдёте до результата.

Бывает, что нужная картинка получается с 15-й попытки. Это нормально. Каждая итерация стоит секунд и копеек — пользуйтесь этим.

Этический момент, про который надо знать

Все эти нейросети обучались на миллиардах картинок из интернета — включая работы реальных художников, фотографов, иллюстраторов. Многие из них не давали согласия на использование своих работ для обучения ИИ.

Сейчас по этому поводу идут судебные процессы по всему миру. Художники протестуют. Стоковые сервисы вводят правила: загружать ИИ-картинки нельзя или нужно специально помечать.

Что важно понимать:

• Использовать ИИ для личных целей и постов в соцсетях — никаких проблем

• Использовать в коммерческой рекламе или продавать как «свою работу» художника — серая зона, требует осторожности

• Подделывать стиль конкретного живого художника без согласия — этически сомнительно

Будущее, в котором ИИ и художники-люди сосуществуют, пока не определено. Но осознанно подходить к инструменту — наш с вами выбор. В следующей статье разберём то, к чему движется индустрия — ИИ-агенты. Это нейросети, которые не просто отвечают на вопросы, а сами выполняют задачи: бронируют билеты, ведут переписку, программируют. Расскажу, что это, кто их делает и как они изменят работу уже в этом году.

Подписывайтесь на канал, чтобы не пропустить. Автор: ЧЕНГАЕВ Максим

Серия «Разбираемся в ИИ» • Статья 5 из 9

Гаджеты и электроника

5,73 млн интересуются