Продолжим мучать кубик из Занятие 1. Первые рисунки в Fusionbrain и снова открываем редактор Fusionbrain
Мне не понравилось, что все рисунки содержат как бы вспомогательные полосы. Это больше похоже на чертеж, а мне нужен художественный скетч.
Неожиданно появился цвет, стол прямо реально стал столом, но кубик снова стал дырявым. Похоже это лечится только перерисовыванием. Сделаем рисунок черно-белым.
И заметим, что здесь линии придают кубику фактуру дерева. Вот, пожалуй я на этом и остановлюсь. Получилось достаточно симпатично, хотя стол мы всё таки потеряли. Здесь поверхность больше напоминает пол.
Предлагаю посмотреть, как Fusionbrain справится с другими фигурами и уже не будем ограничиваться столом, отдадим фон на откуп нейросети.
Заметьте, какие разные картинки получаются. Если цилиндр и параллелепипед по стилю похожи на наш куб, а параллелепипед, так вообще от куба не отличается. То сфера больше похожа хрустальный шар гадалки. А пирамида - постройка, похожая на египетские монументы. Ну а конус вообще ни на что не похож, но картинка прикольная.
Больше всего удивил тор. Вместо бублика, нам нейросеть нарисовала красивую девушку. И это особенность Fusionbrain.
Если нейросеть не знает какого-то слова, она рисует лицо. А, например, в StableDiffusion в этом случае просто рисуется черный фон.
Чтобы всё таки нарисовать бублик, попросим нейросеть нарисовать круг в формате 3D.
Не совсем тор получился, но лучше чем начальный вариант.
Так почему всё таки фигуры так по-разному изображаются? Объясняется это принципом работы нейросети. Она не придумывает картинку, она компилирует её из похожих, которые программе показали на этапе обучения. То есть человек, если его попросят нарисовать пирамиду, скорее всего представит геометрическую фигуру. А программа подберет сто- двести картинок, где нарисована пирамида и начнет рисовать усредненную картинку. Это конечно сильно упрощенно, но смысл именно такой.
Наберите в поисковике слово "пирамида" и посмотрите, какие картинки предложит программа. На каком десятке или сотне появится что-то иное, чем фотки египетских пирамид? Вот и нейросеть, предполагает, что нас интересуют эти монументы.
В редакторе Fusionbrain есть очень удобная функция в виде стрелок в правом верхнем углу. Они позволяют переходить назад, вперед по сгенерированным в текущем сеансе картинкам.
Попробуем нарисовать другие пирамиды.
Хоть египетские мотивы и проскакивают, но в целом получилось то, что планировали.
Но это трёхмерные фигуры, а есть еще много и плоских фигур, некоторые из которых геометрические, а некоторые художественные.
И снова у нас есть фигура с которой проблемы. Нарисованное здание не имеет ничего общего с пятиугольником. И повторная генерация не помогает.
И вот тут мы как раз сталкиваемся с явлением перевода. Мы хотим нарисовать "пятиугольник". Программа переводит его на английский "pentagon". И рисует нам Пентагон, ну, по крайней мере, некую систему зданий, которая должна подразумевать Пентагон.
Точные изображения известных сооружений, мест, людей и прочее система не выдает. Это будет, как правило, просто что-то близкое.
Можно нарисовать пятиугольник, используя дополнительное описание. Однако чем больше цифр, тем программа хуже справляется. И вместо 5 углов мы обычно получаем 6 или 8, так как фигуры с центральной симметрией рисуют чаще.
Интересный результат получается, если попробовать нарисовать пятиугольник запросами на других языках.
Самый близкий результат получился на французком.
Мы не рисовали символические геометрические фигуры: пентаграмма, спираль, звезда. С ними предлагаю поиграть отдельно, но позже.
Хочется уже чего-то совсем художественного, поэтому в следующий раз будем рисовать кошек.