190 подписчиков

Как именно работают нейросети и что они умеют рисовать уже сегодня?

4 минуты

271 прочтение

23 мая 2023

Еще год назад способность компьютера генерировать картинки (или развернутые тексты) по наводящим словам воспринималась как некий фантастический эпизод из будущего (того, в котором по воздуху летают машины, человечество осваивает далекие галактики, а одежда стала «умной»). Однако, будущее наступило гораздо быстрее — причем одномоментно, как сход лавины. Одновременно — словно по команде (а, может, так и есть, но оставим конспирологию за кадром) — возникли сразу несколько крупных нейросетей, с открытым доступом для КАЖДОГО человека. И пройдя нехитрую регистрацию в пару кликов можно сразу «творить» (бесплатная пробная версия также есть практически во всех проектах).

Иллюстрации подготовлены специально к данной статье с использованием нейросети Midjourney.

На чем основаны нейросетевые технологии?

Так что же такое нейросети и что они сулят нам в самое ближайшее время?

Нейросети работают по принципу «нейронных» связей мозга — то есть пропускают сложные запросы пользователей, через несколько самостоятельных алгоритмов обработки данных, затем результаты этих алгоритмов комбинируются и предстают в виде некой финальной версии. По факту получается, что нейросеть «творит» — если понимать под этим создание нечто нового, того, что раньше не существовало. И все это буквально за 5–10 секунд.

Хотя, тут стоит сделать оговорку — создать или придумать нечто принципиально новое нейросеть НЕ может, она может лишь комбинировать то, что «видела» и «знает», перетасовывая разные элементы привычного так, чтобы их них сложить какую-то условно «новую» картину. В упрощенном виде это выглядит так: композиция берется из одного изображения, цветовая гамма — из другого, позы главных героев — их третьего, а поверх добавляются детали из 4-го, 5-го и 6-го. Только в случае с нейросетью условными «референсами» являются не 6 картинок, а тысячи и миллионы изображений, которые были загружены в ее «память».

Вторым важным моментом является самообучаемость нейросети — то есть для своей работы (=анализа данных/алгоритмов) сеть использует то, что ей уже «известно». Если говорить упрощенно то на начальном этапе это был некий базовый набор соответствий (такой то текст = такая то картинка или набор картинок) — и эти первые связи задавались самими разработчиками. Далее — чем больше запросов обрабатывает нейросеть — тем обширнее становятся «ее знания», и тем точнее результаты каждого нового запроса.

Как нейросеть рисует по словам. Что умеет нейросеть midjourney (и другие)?

Общий алгоритм работы с нейросетью следующий:

1.Вы задаете свой запрос в соответствующей строке аналогичной поисковой строке браузера и через несколько секунд получаете около 4-х эскизов по данному запросу.

Вечный двигатель (4 варианта):

2.Далее к любому из предложенных вариантов вы можете запросить новые модификации: то есть дать команду нейросети продолжить работу в одном из направлений и по нему предложить похожие, но отличающиеся композиции.

3. Наконец, наиболее удачный вариант (или варианты) вы можете выбрать для финальной доработки: через несколько секунд нейросеть представит его вам в максимальном разрешении с углубленной детализацией (уже не как эскиз, а как полноценное изображение).

Вечный двигатель — с детализацией:

Ре-модификации можно запрашивать бесконечное число раз (главное, чтобы хватило вашего тарифного плана), однако, на данный момент нейросеть сама решает что и насколько изменить, вы же НЕ можете точечно указывать, что именно нужно исправить.

Например, если вас все устраивает в готовом изображении, но вы хотите видеть на модели брошь другой формы, или поменять цвет потолка, или заменить сову на филина — вы НЕ можете этого сделать никаким другим образом, кроме как задав новый запрос с соответствующим уточнением. Однако, в данном случае вы получите уже новый набор картинок, а не тот, который вам уже понравился и с которым вы хотели бы работать дальше. В этом одно из ключевых отличий от работы с «живым» дизайнером (на сегодняшний день — весна 2023).

Впрочем, нейросети уже отлично различают разные стили и на этапе формулирования запроса им можно задавать множество самых разных уточняющих параметров:

стилистика и направление: фотореализм, китайская традиционная живопись, техника квиллинга, киберпанк, фэнтэзи и проч.
настроение картинки: эпичная, благодушная, захватывающая дух, медитативная и проч.
степень детализации: например, множество мелких деталей, сглаженные детали, фокус на передний план и проч.
свет и качество: кинематографичное освещение, 4K, ultra HD.

Лиса на заснеженной горе — китайская живопись

Лиса на заснеженной горе в технике квиллинг (вырезание из бумаги)

Именно формулирование «правильного» запроса и будет залогом успеха. Чем точнее вы подберете определяющие параметры — тем ближе результат окажется к тому, что вы хотите получить. Для создания «по-настоящему» интересных изображений (а не просто игры) скорее всего потребуется прописать 5–10 строк текста, где каждое слово будет детально выверено и строго необходимо.

Читайте текст дальше в блоге веб-студия ИТЕРАЦИЯ.

************************************

Оставляйте заявки на разработку и продвижение сайтов здесь:

Официальный сайт веб-студии

Следите за нашими новыми статьями, обзорами и полезными материалами по веб-дизайну, seo, нейросетям и интернет-маркетингу в соц.сетях:

Канал веб-студии ИТЕРАЦИЯ в VK

Канал веб-студии ИТЕРАЦИЯ в Дзене