Найти в Дзене
ПсихоЮрист

Как через нейросеть сделать реалистичное фото, баннер или картинку с текстом?

И при этом не быть программистом или инженером? Да легко! Не буду кривить душой - это просто взрыв мозга. Я люблю прогресс в самых разных его формах и уже давно ничему не удивляюсь, но тут... Постоянный читатель в ТГ в курсе моих, так скажем, удивлений. Совсем скоро нейросети будут уметь делать ОЧЕНЬ многое, на что каких-то года два назад требовалась целая команда специалистов. Поэтому сегодня у нас огромный обзорный материал по уже ставшей достаточно регулярной в блоге тематике нейросетей. Не все же жулики, алиментщики и изменщики... По итогам его даже беглого изучения вы будете понимать, чем именно для вас может быть полезна эта или какая-то другая нейронка. А если от ИИ вы далеки - то в целом перестанете воспринимать нейросети как нечто непонятное =) В конце не пугайтесь - там подборка кадров, сгенерированных нейросетями 2 года назад. Это жесть! 😁 Речь про Nano Banano Pro (ну или версия 2, что одно и то же), а если технически корректно то это "Google Imagen 3". Это генеративная н
Оглавление
Букв и картинок РЕАЛЬНО много, но оно того стоит!
Букв и картинок РЕАЛЬНО много, но оно того стоит!

И при этом не быть программистом или инженером? Да легко! Не буду кривить душой - это просто взрыв мозга. Я люблю прогресс в самых разных его формах и уже давно ничему не удивляюсь, но тут... Постоянный читатель в ТГ в курсе моих, так скажем, удивлений.

Совсем скоро нейросети будут уметь делать ОЧЕНЬ многое, на что каких-то года два назад требовалась целая команда специалистов.

Поэтому сегодня у нас огромный обзорный материал по уже ставшей достаточно регулярной в блоге тематике нейросетей. Не все же жулики, алиментщики и изменщики...

По итогам его даже беглого изучения вы будете понимать, чем именно для вас может быть полезна эта или какая-то другая нейронка. А если от ИИ вы далеки - то в целом перестанете воспринимать нейросети как нечто непонятное =)

В конце не пугайтесь - там подборка кадров, сгенерированных нейросетями 2 года назад. Это жесть! 😁

О чем речь?

Речь про Nano Banano Pro (ну или версия 2, что одно и то же), а если технически корректно то это "Google Imagen 3". Это генеративная нейросеть от Google, заявлена именно как "думающая" и работающая в комплексе с прочими моделями. То есть нейронка не делится строго на "текст", "схемы", "изображения", а работает как единый организм.

Вот так описывает Gemini "саму себя" на запрос "описать ключевые достоинства":

  • Текст на картинках. Это главная суперсила. Imagen 3 (Nano Banana) умеет писать текст без ошибок. Если вы попросите нарисовать вывеску с надписью «Привет, Андрей!», она напишет именно так, а не иероглифами.
  • Фотореализм. Люди выглядят как настоящие люди, без «пластиковой» кожи, свойственной ранним нейросетям.
  • Понимание длинных инструкций. Вы можете описать сложную сцену (кто где стоит, какое освещение, какой стиль), и модель учтет все детали, а не проигнорирует половину.

Скромно так. 👆

С предшествующей версией мы с вами уже знакомились. Изучали, например, как сделать нейрофотосессию:

Или "вязаный" и LEGO-город.

Несмотря на то, что первой статье - месяц, а последней - несколько дней, их содержимое уже... устарело. Потому как "вторая" реинкарнация Nano Banano Pro умеет всё то же, только круче, выше качеством и так далее.

Это не просто генератор бестолковых картинок, это универсальный, понятный и доступный для восприятия/работы КАЖДОГО инструмент.

А как оно обстоит с "нашим контентом"?

Одной из главных проблем практически любой генеративной зарубежной нейросети было всё... русское. Да и не только зарубежной.

Надписи на русском языке, какой-то национальный контекст, отечественные модели автомобилей, русские номера - все это вызывало массу проблем. Где-то больше (полная дичь, вроде иероглифов или машин-мутантов), где-то - меньше. Опечатки, нелепица или несуществующие образы. В том числе и ввиду некоторых... кхм... политических ограничений.

Я буквально за день до знакомства с Бананой начал разбираться со свежим ГигаЧатом (+Кандинским) от Сбера и даже нашел его весьма достойным (вкратце писал в ТГ с примерами). Но потом наши пути разошлись. Чуть позже и про него напишу, он вполне неплох и, что важно, доступен безз плясок с бубном

Пока же - к "фотореализЪму".

ВАЖНО: Многие промпты "заимствованы". Что-то дополнено исходя из моего видения, что-то переведено с англ. на русский. Все права принадлежат авторам. Большинство взято из группы готовых решений VeoSeeBot в Телеграм.

1. Оформление материалов и статей

Вот так Nano Banano Pro иллюстрирует тематические материалы по юридической или новостной тематике. Все ситуации, разумеется, вымышлены, любое совпадение машин/номеров/лиц и т.д. - случайное.

Для категории "Происшествия"
Для категории "Происшествия"

Промпт:

Спальный район города. ВАЗ-2106 стоит, врезавшись в дерево, рядом стоит растерянный мужчина и инспектор ГАИ, оформляющий документы. На заднем плане Lada Vesta ДПС, регистрационные номера на машинах Московские. Вокруг несколько зевак, смотрят на аварию.

Отдельно отмечу, что промпты можно писать в принципе максимально простые, если вам не важны детали. Если детали важны - прописываете их. Цвет авто, время года, номера машин и так далее. Nano Banano Pro понимает всё.

Иллюстрация для материала правовой тематики
Иллюстрация для материала правовой тематики

Промпт примитивный:

"Судебный процесс в российском суде. Седой судья закрывает лицо рукой, на трибуне выступает мужчина, слева от трибуны плачет женщина."

Состав людей и присутствующих можно прописать отдельно, нам это было некритично.

Еще один вариант иллюстрации. Некоторые проблемы с флагом - не ставят 2 флага в суде одинаковых!
Еще один вариант иллюстрации. Некоторые проблемы с флагом - не ставят 2 флага в суде одинаковых!

Вот так выглядит более детальная иллюстрация, которую мы прописываем:

Уголовный судебный процесс в российском суде. В центре седой судья, мужчина, справа подсудимый в защитной кабине, рядом с ним за столом адвокат. Слева прокурор. На трибуне перед судьей выступает свидетель.

Все это легко и непринужденно еще и скачивается в разрешении 2k...

Если нам не нужны лица, позы и прочие сложности, то можно сделать что-то нейтральное. Взять, например, уголовный кодекс (фото издания из поиска), прикрепить его и запросить:

Уголовный кодекс лежит на столе в зале суда на фоне защитной кабины с силуэтом подсудимого внутри нее, фотореализм
-5

Вот такие сцены требуют проработки, но для оформления 90% материалов, где изображение носит "цепляющий глаз смысл" они пойдут.

Можно с чистой совестью помянуть (и выразить соболезнования) всем, кто зарабатывал на фотостоках тематическими фото для оформления статей. Помню времена, когда для некоторых проектов сам покупал клипарты и фото а-ля "Уголовный кодекс на фоне флага" за 20-50 рублей...

ВАЖНО! Инструмент используйте ответственно. Во избежание возможных совпадений, претензий или обвинений в "фейках" ОБЯЗАТЕЛЬНО пишите, что иллюстрация сгенерирована нейросетью и не убирайте водяной знак в правом нижнем углу.

Ну и просто красивое, к тому же - оживленное с помощью Veo 3 - еще одного инструмента Google AI.

-6

Еще и звук весьма чистый, без привычного металлического дребезжания. Непосредственно видео файл со звуком - в Телеграм. Подписку не забываем.

2. Единые истории с сохранением персонажа

Нейронка прекрасно сохраняет персонажей в нескольких генерациях. Даже если забудет в рамках одного чата или же вы используете бот-прокладку, то просто приносите кадр с нужным персонажем и генерируете дальше. Возьмем нашего Васю из около-юридической антиутопии.

Кто вдруг не читал - первая часть ниже и далее по сценарию:

Там были сложности с оформлением и сохранением "единства" персонажей. В самом материале этого почти незаметно, но генерация каждой сцены занимала 4-5 попыток.

Сейчас все куда проще (галерея).

Вообще настоящая находка для начинающих писателей, оформителей и так далее. Можно даже целый фильм без особых проблем снять, именно через "стартовые кадры" или завести себе модного ныне "нейроблогера". Зачем? Это отдельная тема для статьи...

3. Нейрофотошоп

Допустим, у нас есть летнее фото города Абакан. Почему Абакан? С утра с человеком оттуда общался, вот и Абакан. Фото у вас одно, а нужно вам зимнее и осеннее. Ну мало ли, редактор вы местной газеты. Или владелец группы в соц.сети.

Вот такое фото берем:

Источник - Яндекс Карты. Все права принадлежат автору.
Источник - Яндекс Карты. Все права принадлежат автору.

Пишем простое поручение "Измени время года на осень"

Осенний вариант.
Осенний вариант.

Нейронка, кстати, изменила и обстановку - на фото другие машины.

Далее просто пишем "Измени время года на зиму" и...

Зимний вариант.
Зимний вариант.

Впечатляет, да? Это еще не все. Давайте сделаем вечер. Так и пишем: "Измени время на ранний вечер, сумерки, горят фонари".

-11

Вот такое вот получилось. Ну и что-то более креативное...

Такое:

Есть неточности, можно повторить. Но у нас чистота эксперимента - кадр "как есть".
Есть неточности, можно повторить. Но у нас чистота эксперимента - кадр "как есть".

Сделано промптом:

"Измени время года на осень. Вид на лужу в вечерних сумерках, в луже плавают крупные красивые осенние листья, отражается стелла с приложенного фото, высокая детализация, 4k, максимально сохранить сцену в кадре и соотношение сторон".

Я честно скажу, что эти промпты корявые, примитивные, обывательские и для более профессиональных, детальных работ можно и нужно писать подробные инструкции. Чтобы, например, не появлялось лишних деревьев или не исчезали или не меняли места нужные элементы. Это просто демонстрация возможностей.

Ну и, важно, на каждом этапе работать с референсом - изначальным фото. Т.е. не сперва сделать зиму, а потом вечер - как я сделал, а делать и ЗИМУ, и ВЕЧЕР одним запросом!

Если вы каждое последующее фото меняете, то с каждой обработкой будет больше неточностей.

Так же имеется поддержка многоэлементного редактирования или "наглядных" инструкций.

Например, берем фото пикапа, одну из генераций гражданина в маске анонимуса и молот Тора. Ваяем вот такой промпт...

-13

Получаем красивое.

-14

Так же можно и по элементам вносить правки. Дописывая текстом то, что нужно изменить. Любым доступным, понятным и ОДНОЗНАЧНЫМ методом.

Например:

Добавь зомби, который держится рукой на борт пикапа и волочится за машиной

Т.е. нужно написать, за что именно он держится, где находится и что делает. Иначе может оказаться на крыше. Или держаться за крутящееся колесо...

-15

Вот такое получилось. Зомби символизирует подписчика, который заглянул в комментарии сообщить, что "фу, я отписался" 😈

Про такую мелочь, как улучшение качества тоже можно сказать пару слов. Точнее - показать.

-16

Промпт - очень сложный (полночи писал): "Улучши качество и детализацию фотографии".

4. Рекламные материалы, инфографика

Тут возможности нейросети безграничны. Делайте что угодно и для чего угодно.

Самое простое, примитивное и востребованное приведу в пример ниже.

Пост для соц.сети. Пусть будет по теме банкротства.

-17

Промпт:

Радостный мужчина с документами в руках выходящий из здания Арбитражного суда. В нижней левой части надпись "Успешное банкротство - новая жизнь!" с полупрозрачным флагом, на котором изображен приложенный логотип и надпись на флаге "ПсихоЮрист", Соотношение сторон 1:1. Рекламный стиль.

Прикладывем логотип файлом. Вот из-за "рекламного стиля" мы получили какую-то смазанность. Но всё равно нормально. Можно дополнительно прописать цвета шрифта, фона, оформления или приложить пример/шаблон, который нужно использовать.

Можно сделать визитку.

Промпт:

Сделай визитную карточку формата для печати на всю ширину кадра. Используй логотип с приложенного файла, сделай его золотистым цветом на черном фоне. Стиль деловой, на тему юридических услуг, с элементами юридической символики. Красно-черно-белые тона. Надпись "ПсихоЮрист. Причиняет добро и творит справедливость". Ссылки: https://t.me/psyrist https://vk.com/psyrist https://max.ru/psiur с логотипами соц.сетей. Внизу в левом углу мелким шрифтом "Осторожно! Синдром "белое пальто".

Ну и прикладываем файл с логотипом/фото/чем-нибудь еще. Хоть примером оформления. Это мы просто показали, что приличный объем текста выглядит достойно.

-18

Можно легко делать любую инфографику. Возьмем лого блога и данные о городах читателей за месяц.

Даем вот такой промпт и...

Кадр презентации с красивой инфографикой, содержащей следующие данные:
Москва 23,26 %, Санкт-Петербург 8,99 %, Нижний Новгород 2,76 %, Екатеринбург 2,55 %, Новосибирск 2,37 %.
Оформление - желто-черные тона, на заднем фоне логотип из приложенного файла.
-19

Прекрасное! Можно использовать в любых сферах: презентация в школе/на работе, посты в соц.сетях, аналитика коллегам и так далее. Используйте любые данные, любые идеи, любые пожелания.

Ну и пошутим чуток о нашем злободневном...

Промпт:

Сделай кадр презентации с инфографикой о причинах неуплаты алиментов. Причины 1. Не хочу, 2. Не буду. 3. Не хочу и не буду. Соотношение процентов случайное. Оформи красиво, по теме запроса.

Результат:

Так-то даже и не шутка. Едем дальше. Ой, стоп! Не порядок. Значок доллара, ай-ай. Просим поменять символ доллара на символ рубля и... кадр 2 в галерее.

Да, так и просим: "Замени значки доллара на символ рубля."

Ну и куда без рекламных целей.

Сделай рекламный баннер - бегущий из дверей магазина кот в новогоднем колпаке, держащий в передних лапах свежую рыбину. Позади кота со шваброй бежит продавец. Магазин в России. Надпись на баннере "Скидки до 50% на свежую рыбу!", в привлекательном рекламном стиле. 2 варианта.

ВСЕ эти примеры сделаны с ПЕРВОГО промпта.

Я не стал публиковать то, что потребовало доработки.

Это всё?!

Это только начало. Описано то, чем активно пользуюсь я. И что интересно максимально широкому кругу пользователей.

И это даже не 20% возможностей. Еще с помощью Nano Banano Pro можно:

А) Набросать варианты интерьера по плану вашей квартиры/дома.

Реально по плану. Обычному плану.

Промпт:

Фотореалистичный 3D-рендер всего плана этажа, вид сбоку издалека, миниатюрный макет. Полностью в цвете, с мебелью. Сохранить расположение комнат и технику, без текста. Высокое разрешение, профессиональное качество.

Пример (кадр 1) на основе первого попавшегося плана в сети (кадр 4). Можно, в том числе, по комнате (кадр 2), попросив "Крупным планом покажи спальню, с видом чуть в перспективе". А еще можно попросить заменить отдельный элемент мебели, приложив этот элемент (кадр 3). Листайте галерею 👇

Б) Создать визуальную 3D-модель по инженерному чертежу.

Первый попавшийся чертеж из Интернета и то, что получилось ниже в галерее.

Промпт простейший:

3D-модель по инженерному 2D-чертежу. Виды: спереди, сбоку, сверху и сзади. Изометрическая проекция, белый фон.

Кстати, сохранил копирайт чертежа. Случайно или нет - хз.

В) Делать надписи на любых поверхностях, любыми способами.

На русском языке. В любом виде. Как угодно. Даже такие сложные. Чат оценит =)

-24

Промпт прилагаю:

Фотореалистичный вход в подвал в ночном переулке, дождливая улица. Старое кирпичное здание с массивной неоновой вывеской. Светящийся Желтый и белый неон четко формирует текст: Чат ПсихоЮриста. Осторожно! Цветной свет от вывески реалистично отражается в мокрых лужах на асфальте, подсвечивая влажные кирпичи. Текст идеально читается на вывеске и в отражениях. Кинематографичный стиль, 4K.

А еще умеет:

  1. Определять возраст по фото с разложением по процентам что и как выдает этот возраст. Проверено на друзьях и близких - погрешность 2-3 года.
  2. Справляться со всякими стилизациями - делать вязаные, бисерные, пряничные, фарфоровые и прочие города. Можете всё брать отсюда.
  3. "Разбирать" предметы и устройства подетально. Вообще что-то отрывающее разум.
  4. Читать иероглифы, древние письмена, делать любые переводы.

Повторюсь, умеет ВСЁ, что душа запросит из графики... Потом еще напишу. И так статья запредельно и безобразно длинная.

Главное: как этим всё использовать?

Самый выгодный и удобный - прямая подписка на Google AI Pro напрямую на gemini.google.com или aistudio.google.com.

Но тут есть нюанс: в РФ она недоступна. Если что, заблокировали сервисы не мы, а Google, т.е. у нас она не запрещена и никакого криминала в использовании сервиса нет. Ссылки выше спокойно открываются, просто посылают вас с плашкой "регион не поддерживается". В том числе вас не пустит даже в "бесплатный" вариант.

Европа в основной массе, кстати, тоже доступна в ограниченном режиме. Если у вас "нужный" регион, то "старая" версия Бананы доступна бесплатно в 7-10 генераций, Про-версия вроде как в 3-4 попытки.

Итого:

1. Те, кто в курсе как получить доступ "не из России" разберутся сами.

2. Кто не в курсе - учить права не имею (закон-с).

3. Альтернативный вариант без скачек с бубном - уже знакомый по прошлым статьям VeoSeeBot в Телеграм. Есть приветственные кредиты, которых хватит на 6-12 кадров в "старой" Банане и 1-2 в новой.

Есть и другие "прокладки" как в виде WEB-сервисов, так и в виде различных ботов. Кто-то дешевле, кто-то проще. Но где дешевле - нет гарантии, что запросы исполняет актуальная модель ИИ. Где проще - там возможностей меньше. Многие сервисы ИИ так же подключают себе "Банан" для генерации изображений.
Например, hailuoai.video от китайского MiniMax сообщили о доступности генераций с помощью Бананы. Там доступно 5 кредитов (2-3 кадра), бесплатно и спокойно из РФ. С оплатой, увы, проблемы и танцы с бубном.
Так же генерацию с помощью Бананы подключили elevenlabs.io, дают 10 000 бесплатных "кредитов", которых визуально "много", а реально хватит на... 5 кадров. Платная подписка в $5 дает 40 000 кредитов, это примерно 25-30 кадров. Дорого.

Короче.

  • Если задаться целью сделать всё-всё бесплатно - найдете способ.
  • Если нужно профессионально - разберетесь с прямой подпиской.
  • Если поиграться или мелкие задачи решать - 50-100 р. хватит за глаза в боте выше.

Выбирайте сами =)

Я пользуюсь с ПК прямой подпиской, с телефона - ботом в ТГ выше. Так мне проще.

На этом первую часть заканчиваем, вторую рассмотрим чуть позже. Не буду нагружать. Если есть какие-то интересные задачи/испытания для нейросети - пишите. Попробую и включу их в следующий обзор.

А вообще, господа-товарищи, от скачков в развитии ИИ немного не по себе.

Я просто напомню, как выглядели "доступные каждому" и коммерческие генерации (по 15-20 рублей/штука, в среднем) в июне-июле 2023 года (сохранились в одном из ботов-прокладок для истории). Да, были более лучшие варианты - но си-и-и-ильно платные.

Листайте галерею 👇 и вздрагивайте. Чуть больше 2 лет прошло. Всего-лишь. Что дальше?

Давим "Нравлика" и не забываем подписываться везде по ссылкам ниже 👇

ВКонтакте || Телеграм || MAX || Одноклассники || RuTube

💸 Донаты приветствуются: поддержать автора канала можно по кнопке ниже или по этой ссылке. Как мы все в курсе - финансово Дзен совсем стал "не торт".

И такой момент. Я эпизодически получаю некоторое "фи" под статьями такой тематики. Мол, задолбал автор своими нейронками. Ну так оно бывает - постоянно кому-то что-то не нравится. Тому - статьи о мошенниках. Другому - видео. Третьему - хайповые страсти об алиментщиках. При этом кто-то видит блог только юридическим, кто-то - антимошенническим, кто-то по сей день не в курсе, что я юрист, а не психолог... но все они забывают, что блог, в первую очередь, авторский. И уж простите, оставляю за собой право писать тут то, к чему лежит душа и интерес.