193 подписчика

Перерисуй человека под дубом на берегу моря, на котором сидит русалка и рядом кот ученый.

9 апреля9 апр

3 мин

Вот такой вопрос я сегодня задал нейросети. В результате через пол минуты получил вот такой художественный «шедевр». Проанализируем результат. Во-первых, если внимательно присмотреться, то нарисовал нам ИИ могучее дерево с листьями ясеня, но не дуб. Русалка явно взята из американских комиксов, а кот ученый больше похож на терапевта из поликлиники. Так как же наш искусственный интеллект создает подобные композиции? Как говорят разработчики сетевых алгоритмов, нейросети не берут готовые картинки из интернета или базы данных в привычном понимании. Вместо этого они создают изображение с нуля, основываясь на математических закономерностях и визуальных образах, которые они изучили в процессе обучения на огромных массивах данных. Процесс генерации фона и объектов происходит следующим образом:

Во время обучения модель анализирует миллионы пар «картинка — текстовое описание». Она запоминает, как выглядят море, дуб, песок или закат, и какие визуальные признаки (формы, цвета, текстуры) характерны

Вот такой вопрос я сегодня задал нейросети. В результате через пол минуты получил вот такой художественный «шедевр».

Проанализируем результат. Во-первых, если внимательно присмотреться, то нарисовал нам ИИ могучее дерево с листьями ясеня, но не дуб. Русалка явно взята из американских комиксов, а кот ученый больше похож на терапевта из поликлиники.

Так как же наш искусственный интеллект создает подобные композиции?

Как говорят разработчики сетевых алгоритмов, нейросети не берут готовые картинки из интернета или базы данных в привычном понимании. Вместо этого они создают изображение с нуля, основываясь на математических закономерностях и визуальных образах, которые они изучили в процессе обучения на огромных массивах данных.

Процесс генерации фона и объектов происходит следующим образом:
Во время обучения модель анализирует миллионы пар «картинка — текстовое описание». Она запоминает, как выглядят море, дуб, песок или закат, и какие визуальные признаки (формы, цвета, текстуры) характерны для каждого объекта.

Когда вы просите нарисовать «берег моря», нейросеть восстанавливает из своей памяти «концепцию» моря. Она знает, что вода обычно синяя, имеет блики и линию горизонта, а берег может быть песчаным или каменистым.

Сначала создается визуальный «шум» (похожий на помехи телевизора), из которого алгоритм постепенно, шаг за шагом, проявляет нужные формы и детали, пока они не станут четким изображением.

Фон генерируется одновременно с основными персонажами, чтобы освещение, тени и палитра были едиными и гармоничными. Модель учитывает композицию, чтобы дерево, море и небо сочетались друг с другом по законам художественной перспективы.

Таким образом, каждый фон является уникальным цифровым произведением, созданным «по памяти» алгоритма специально под ваш запрос.

Процесс обучения нейросети на изображениях можно сравнить с тем, как человек учится узнавать предметы, но с использованием математики и огромных вычислительных мощностей. Этот процесс делится на несколько ключевых этапов.

Сначала подготавливается огромный датасет, состоящий из сотен миллионов или даже миллиардов пар «изображение — текстовое описание». Например, под фотографией золотистого ретривера будет подпись: «собака породы золотистый ретривер бежит по траве». Это дает модели понимание связи между словами и визуальными образами.

На начальном этапе нейросеть «смотрит» на картинку и разбивает её на мельчайшие фрагменты — пиксели. Специальные слои (сверточные слои) учатся выявлять простые закономерности: сначала линии и углы, затем простые фигуры и цвета, и, наконец, сложные объекты — глаза, листья деревьев, текстуру воды.

Современные генеративные модели используют метод диффузии. В процессе обучения к чистой картинке постепенно добавляют «шум» (случайные точки), пока она не превратится в кашу из пикселей. Нейросеть учат выполнять обратную задачу: глядя на зашумленный кадр и зная текстовое описание, она должна угадать, как этот шум убрать, чтобы снова получилось четкое изображение.

Внутри нейросети формируется «латентное пространство» — своего рода многомерная карта смыслов. Там близкие по значению образы (например, «океан», «море», «волны») находятся рядом друг с другом. Когда модель получает запрос, она находит нужную точку на этой карте и преобразует математические координаты обратно в визуальные пиксели.

После основного обучения разработчики проводят «тонкую настройку». Люди-модераторы оценивают результаты генерации, выбирая более эстетичные и точные варианты. Это помогает нейросети лучше понимать такие понятия, как «красиво», «реалистично» или «в стиле киберпанк».

В итоге нейросеть не копирует части чужих картин, а «понимает» саму структуру визуального мира, что позволяет ей создавать совершенно новые композиции.

И все-таки, мое мнение осталось прежним – нейросеть не обладает интеллектом, а довольно хитрым образом компилирует из заложенных в неё шаблонов поставленную потребителем задачу. Конечно, набор возможностей подобной нейросети определяется только разработчиком в купе с обучающим персоналом и конкретизацией задания, описанного заказчиком.