2 подписчика

Сальвадор Дали и Нейросеть. Когда случайности не случайны?

16 февраля16 фев

4 мин

В 1931 году Сальвадор Дали ждал вдохновения перед пустым холстом. Ужин был съеден, модель ушла, а идеи — нет. Тогда он взял кусок сыра. Камамбер, оставленный на солнце, начал плавиться и стекать по тарелке. Дали посмотрел на эту липкую лужицу и сказал: "Я напишу часы". Через чуть менее, чем 100 лет, я открываю ИИ, печатаю в строке "melting clocks, surrealism, 8k" и через 10 секунд получаю десятки

Оглавление

100 генераций, 3 нейросети, 1 гипотеза
Как ИИ "видит" мир?
Искусственная случайность

Через чуть менее, чем 100 лет, я открываю ИИ, печатаю в строке "melting clocks, surrealism, 8k" и через 10 секунд получаю десятки вариантов текущих циферблатов. Красивых. Состаренных. С идеальными тенями

Дали ждал 90 минут, пока сыр растает. Я ждал 10 секунд, пока прогресс-бар доползёт до конца. Но у кого из нас "случайность" была честнее? И главное — можно ли вообще называть случайностью то, что ИИ вычисляет по формуле? Давайте разбираться,что такое "нормализованная случайность" и почему за красивым сбоем нейросети стоит не галлюцинация, а холодная математика.

Добро пожаловать в Void!

100 генераций, 3 нейросети, 1 гипотеза

Проведём небольшой эксперимент, попросим 3 популярные модели ИИ для генерации изображений (Grok Imagine, GPT Images, Nano Banana) сгенерировать текучие часы. Обойдёмся без сложных формулировок и указаний, пусть ИИ разовьёт задачу самостоятельно из такого короткого промпта:

melting clocks, surrealism,soft light, 8k

Взгляните, они все разные, но устроены по одному принципу: циферблат съезжает с корпуса, цифры расплываются, стрелки гнутся. Это похоже на фотографию галлюцинации, сделанную по инструкции.

Можно заметить и общие паттерны:

Цифры всегда римские.
Часы чаще всего висят на ветках деревьев или лежат на камнях.
Цветовая гамма — холодная, охристо-коричневая.
В кадре обязательно есть горизонт.

Что же это такое? Простой, абсолютно не детальный запрос, в разных моделях, даёт схожий результат. Возникает вопрос: откуда нейросеть вообще знает, что у "текучих часов" должны быть ветки, римские цифры и горизонт?

Ответ — она не знает. Она вычисляет.

Как ИИ "видит" мир?

Представьте, что вы никогда не видели кота. Но вам показали 50 миллионов фотографий с подписью "кот". Вы не запоминаете каждую картинку — у вас не хватит памяти. Вместо этого мозг начинает замечать закономерности: у большинства объектов с подписью "кот" есть уши, усы, хвост, шерсть. Они чаще всего находятся на полу или диване, а не в небе.

Через какое-то время вы уже можете нарисовать "кота", даже если никогда не держали кисть. Вы нарисуете не конкретного Ваську, а усреднённый портрет кошачьей популяции. С ушами, усами и хвостом. Потому что это — статистически достоверный кот.

Нейросеть делает то же самое. Только у неё не 50 миллионов картинок, а миллиарды. И она не устаёт.

Внутри Nano banana или любой другой подобной модели нет папки "Дали" или архива "сюрреализм". Там есть латентное пространство — абстрактная математическая вселенная, где каждая картинка представлена как точка с координатами.

Латентное пространство и формулы его построения. ИИ представление

Когда вы вбиваете "melting clocks", нейросеть не идёт в архив и не копирует Дали. Она перемещается в эту многомерную вселенную в ту область, где, согласно обучающим данным, скорее всего находятся картинки с текучими часами. И выдаёт вам координаты этой области.

Но координаты — это не картинка. Чтобы получить пиксели, нейросеть запускает обратный процесс: из точки в многомерном пространстве она начинает "вытягивать" изображение, шаг за шагом уточняя детали.

Шум
Формы
Контуры
Текстуры
Готовая картинка

Это называется диффузия. И здесь кроется главный парадокс.

Искусственная случайность

Мы называем шум "случайностью". Но посмотрите ещё раз на генерации — они все разные, но все узнаваемо "далианские". Ни одна не вышла за пределы невидимого коридора, который очертила для неё статистика.

Сравнение трёх моделей: GPT Images, Nano banana, Grok Imagine

Нормализованная случайность — это когда ИИ генерирует тысячу вариантов, но все они — вариации на тему "нормального отклонения". Он не может вырваться за границы своего датасета. Он обречён вечно колебаться вокруг среднего арифметического всего, что видел.

Дали мог написать часы квадратными. Он мог поместить их в космос или утопить в море. Он мог вообще отказаться от идеи часов и написать расплавленного слона. Его случайность была ограничена только воображением.

Случайность ИИ ограничена плотностью распределения признаков в обучающей выборке.

Это и есть главный парадокс нормализованной случайности: чем больше мы пытаемся удивить машину, тем отчётливее она показывает нам то, что мы считаем "удивительным" коллективно. Она не создаёт новое — она зеркалит нашу усталость от старого.

И в этом зеркале мы видим не лицо гения, а усреднённый портрет наших собственных ожиданий.

Так кто победил?

Никто. Потому что это не соревнование.

Дали не нуждается в оправданиях. Его часы текут уже почти сто лет и будут течь дальше — потому что за ними стоит человек, который однажды решил, что сыр достоин стать искусством. ИИ будет рисовать новые вариации на ту же тему. Красивые. Убедительные. Технически безупречные. И каждый раз, глядя на них, мы будем вспоминать оригинал — не потому, что он "лучше", а потому что у него есть имя, дата и история про забытый на солнце камамбер.

Нормализованная случайность умеет удивлять. Но она не умеет оставлять след. А искусство — это всегда след. Пусть даже если он начинается с лужицы расплавленного сыра на тарелке.

Хочешь дальше разбираться, где в нейросетях прячется математика, а где — магия? В Void мы каждый день проводим такие эксперименты ⚡

Заходи на огонёк, подписывайся — будем искать границы возможного вместе. И да, сыр приносить не обязательно, но никто не запрещает 🧀