Найти в Дзене
Discovery Club

Диффузия: как нейросети из текста создают картинки

Запускаешь генератор. Первый кадр, это просто белый шум, рябь на отключённом телевизоре. Полная пустота. А потом секунд через десять пиксели начинают двигаться вместе, согласованно. Ещё несколько мгновений, и проступает форма, детали. Вот она, картинка. Именно то, что просили. Получается, это не создание. Это сборка по инструкции. Из хаоса. Берётся капля чернил и капается в воду. Через минуту вместо чёткого пятна, серая размазня. Полная энтропия. Порядок стремится к бардаку, это закон. А теперь пробуют пойти в обратную сторону. Модель не учат рисовать. Её учат ломать. Показывают миллионы картинок и методично, шаг за шагом, превращают их в шум. Запоминают, как всё распадается. А потом берут чистый шум и дают команду: собрать как было. Только вот собрать можно что угодно. Не ту старую картину, а новую. По описанию. Раз, шум чуть гуще в одном месте. Два, проявляется силуэт, контур. К двадцатому шагу уже угадывается объект. К пятидесятому, лицо. Реалистичное. Человека, которого не сущест
Оглавление

Запускаешь генератор. Первый кадр, это просто белый шум, рябь на отключённом телевизоре. Полная пустота. А потом секунд через десять пиксели начинают двигаться вместе, согласованно. Ещё несколько мгновений, и проступает форма, детали. Вот она, картинка. Именно то, что просили. Получается, это не создание. Это сборка по инструкции. Из хаоса.

Как это работает? От капли чернил до обратного хода

Берётся капля чернил и капается в воду. Через минуту вместо чёткого пятна, серая размазня. Полная энтропия. Порядок стремится к бардаку, это закон.

А теперь пробуют пойти в обратную сторону. Модель не учат рисовать. Её учат ломать. Показывают миллионы картинок и методично, шаг за шагом, превращают их в шум. Запоминают, как всё распадается. А потом берут чистый шум и дают команду: собрать как было. Только вот собрать можно что угодно. Не ту старую картину, а новую. По описанию.

Раз, шум чуть гуще в одном месте. Два, проявляется силуэт, контур. К двадцатому шагу уже угадывается объект. К пятидесятому, лицо. Реалистичное. Человека, которого не существует.

Секрет скорости: латентная комната и три даты

Прорыв случился в 2020 году с работой по Denoising Diffusion. Оказалось, хватит 50 шагов. Потом придумали латентное сжатие. Это архивация. Картинка размером 512 на 512 пикселей, это 786 тысяч параметров. Слишком много для быстрых итераций. Её переводят в сжатое представление, в черновой набросок формул. Там всего 16 тысяч параметров. В 48 раз меньше. Вот в этом пространстве, в этой тёмной комнате, и происходит вся магия. Колдовство над абстракциями. На выходе готовый образ распаковывается обратно.

Секрет скорости именно здесь. 2015 год, сама идея. 2020, работающий алгоритм. 2022, оптимизация через латентное пространство и открытые модели. Теперь хватает 4-10 шагов. И это работает на телефоне. Мгновенно.

Система наведения: текст как ручка настройки

Но собрать можно что угодно. Как управлять? Текстом.

Пишется запрос. «Акварельные горы в тумане». И на каждом шаге сборки модель сверяется с ним. Спрашивает саму себя: похоже стало? И подправляет. Не потому что понимает эстетику. А потому что в её памяти, в данных для обучения, слова «акварель» и «туман» часто лежали рядом с размытыми краями, плавными переходами. Это статистика. Но выглядит как творчество.

Получается система наведения. Как ловить радио в шуме эфира. Крутишь ручку настройки, и из треска проступает голос. Сначала сквозь хрип, потом всё чётче.

Что это меняет? Разрыв между мыслью и картинкой

Что это меняет? Да всё.

Диффузия, это инструмент для устранения разрыва. Разрыва между мыслью и её визуальным воплощением. Не чтобы заменить художника. Чтобы дать черновик любому.

Раньше. Обложка для презентации, поиск дизайнера, договор, правки, ожидание. Недели. Теперь. Пишется «космический порт в туманности, одинокий корабль у доков». Через тридцать секунд уже есть пять вариантов. Не шедевры. Но уже материал для работы. Точка старта.

Для учителя, живая иллюстрация битвы за пять секунд. Для инженера, визуализация нагрузки на деталь по текстовому отчёту. Для сновидца, попытка показать тот самый сон.

Парадокс: зеркало, которое требует мысль

Граница между внутренним миром и внешним миром размывается. И вот тут главный парадокс. Кажется, машина творит. А выходит наоборот. Чем совершеннее инструмент, тем ценнее становится исходная идея. Алгоритм гениальный исполнитель. Но что именно играть, решает человек. Он ставит задачу. Он выбирает из вариантов. Он направляет.

Машина не художник. Она зеркало. Необычное, сложное, но зеркало. Которое вдруг дало шанс увидеть собственное воображение со стороны. Ухватить мимолётную мысль и дать ей форму, пока она не ускользнула.

Что дальше? Язык для общения с зеркалом

И это только начало. Та же механика собирает уже не только картинки. Пишет сценарии для видео, генерирует музыку под настроение, строит трёхмерные миры из текста. Общий принцип универсален. Понять, как устроен хаос в данных любого типа. И научиться собирать из этого хаоса структуры по запросу.

Инструмент демократизирован. Он здесь. Теперь главный барьер, не технология, а умение задавать правильные вопросы. Промпт инженерия становится новой грамотностью. Языком общения с зеркалом.

Остаётся один вопрос. Самый важный.
Что попросить его собрать из шума завтра?

Bonus: Вот примеры промтов, по которым сгенерированны некоторые картинки:

О "белом шуме и сборке":

Макро-видео, hyperrealistic: чистая белая шероховатая бумага, на ней постепенно из хаотических зернистых черных точек собирается четкое фотореалистичное изображение горного пейзажа. Визуализация шума и порядка. Кинематографичный свет.

О "капле чернил и обратном ходе":

Высокоскоростная макросъемка, hyperrealistic: капля черной туши падает в стакан с чистой водой и красиво растворяется, создавая хаотические узоры. Затем видео идет в обратную сторону, и чернила собираются обратно в идеальную каплю.

Об "обучении на разрушении":

Концептуальное фото, hyperrealistic: на мольберте висит четкая картина яблока. Рука в белой перчатке наносит на нее мазки белой краской, пока картина не превращается в одно белое пятно. Рядом — чистый холст, где из белого пятна проявляется яблоко.