Добавить в корзинуПозвонить
Найти в Дзене
Альпина нон-фикшн

«Нарисуй котика». Как нейросети генерируют изображения

Как нейросети создают изображения, которые не отличить от иллюстраций современных художников? Об этом рассказывает Варвара Любова, творческий директор Креативного Бюро «Глазами инженера», экскурсовод Музея криптографии. Что нас приводит к идее сознания в искусственных нейросетях? То, как они устроены. DALL-E, Midjourney либо Kandinsky генерируют изображения из текста. Обсудим, как они это делают. У нас есть запрос: «Нарисуй котика». Внутри происходит диффузия, похожая на белый шум, будто телевизор плохо работает. Мы загружаем в нейросеть тренировочное множество, это промаркированные картинки, как те промаркированные гидранты, которые вы отмечали, условно говоря. После этого изображения раскладываются на пиксели, на биты (бит — это самый маленький неделимый объем информации). Представьте, что у вас есть некая сетка, огромная, как футбольное поле. И она работает как ортопедический матрас — если одна часть провисает, другая остается на прежнем уровне. После этого на сетку мы кладем шум и

Как нейросети создают изображения, которые не отличить от иллюстраций современных художников? Об этом рассказывает Варвара Любова, творческий директор Креативного Бюро «Глазами инженера», экскурсовод Музея криптографии.

Что нас приводит к идее сознания в искусственных нейросетях? То, как они устроены. DALL-E, Midjourney либо Kandinsky генерируют изображения из текста. Обсудим, как они это делают.

У нас есть запрос: «Нарисуй котика». Внутри происходит диффузия, похожая на белый шум, будто телевизор плохо работает. Мы загружаем в нейросеть тренировочное множество, это промаркированные картинки, как те промаркированные гидранты, которые вы отмечали, условно говоря. После этого изображения раскладываются на пиксели, на биты (бит — это самый маленький неделимый объем информации). Представьте, что у вас есть некая сетка, огромная, как футбольное поле. И она работает как ортопедический матрас — если одна часть провисает, другая остается на прежнем уровне. После этого на сетку мы кладем шум из пикселей.

-2

После этого приходит нейросеть и говорит: «Ага, нам нужен котик. Хорошо, те пиксели, которые потемнее, пусть будут потяжелее». Берет веса, вешает с обратной стороны каждого темного пикселя. Помним, что у нас ортопедическая сетка, эта гирька оттягивает плитку на разные уровни. И вы понимаете, что те плитки, которые остались наверху, будут складываться в некий силуэт?

После этого нейросеть берет шаблон — это может быть квадрат, куб, силуэт котика — и ведет по тем пикселям, которые выступают, они более контрастны. «О, шаблон сошелся. Два треугольника похожи на ушки. Котик». И она оставляет этот кусочек активным. После того как этот кусочек она промаркировала как котика, открывает ярлык. Помните, у нас человек промаркировал изображение? А там написано: «Не котик — ежик. Вообще ничего не вышло».

После этого нейросеть возвращается и начинает веса калибровать. То есть вешает не 105 граммов, а 107,4 грамма. То есть действует более мягко. У нас другие пиксели вышли, на другой уровень на том же изображении. Опять открывает ярлык, и так 10 миллионов раз, пока этого котика не сформирует. То есть это все время идет калибровка шума. <...>

-3