19 подписчиков

Арт-дирекшн нового времени: реальный опыт внедрения ИИ в работу архитектурного бюро

10 апреля10 апр

10 мин

Я — Никита, графический дизайнер Мастерской Открытой Архитектуры. Мы занимаемся интеграцией нейросетевых графических моделей в подачу архитектуры с середины 2024 года. В этой статье расскажу об эволюции возможностей ИИ через призму нашего опыта, а также о существующих мировых практиках в сфере архитектуры на момент начала 2026 года — здесь критически важно зафиксировать хронологию, ведь летопись внедрения ИИ пишется на наших глазах и развивается по экспоненте. Инструменты, которые недавно казались магией, сегодня становятся стандартными в большинстве диджитал-профессий. Но как мы оказались в этой точке? Давайте сразу зафиксируем две важные вещи, без которых понимание сути нейросетевых моделей будет неполным.

Первое: язык взаимодействия с нейросетью напрямую зависит от её архитектуры. Архитектура текстовых моделей работает с вероятностями, а именно пытается предсказать, какое слово должно следовать за предыдущим. Текстовая модель не придумывает смыслы, она конструирует нужный ответ и

Оглавление

Зачем это читать?
Иллюзия контроля

Зачем это читать?

Давайте сразу зафиксируем две важные вещи, без которых понимание сути нейросетевых моделей будет неполным.

Первое: язык взаимодействия с нейросетью напрямую зависит от её архитектуры. Архитектура текстовых моделей работает с вероятностями, а именно пытается предсказать, какое слово должно следовать за предыдущим. Текстовая модель не придумывает смыслы, она конструирует нужный ответ из огромного массива данных, отсекая лишнее, подобно скульптору. Сейчас в нейросетевой индустрии существует RAG-архитектура (Retrieval-Augmented Generation) — это когда промт (текстовый запрос) заставляет модель искать необходимую информацию в определённой базе данных и генерировать ответ только на основе найденного. Когда твёрдой почвы данных нет или промт написан недостаточно подробно, нейросеть начинает додумывать, в результате чего появляются «галлюцинации» или фактические искажения. Графические модели построены на тех же принципах, но используют метод диффузии — они выстраивают формы и смыслы из визуального шума на основе текстового запроса. Чем объёмнее база данных и подробнее написан промт, тем более релевантный результат мы увидим. Модели с наиболее широкой базой и, как следствие, с наибольшей вероятностью точного попадания считаются пригодными для профессионального использования: в архитектурной визуализации сейчас это Google Gemini, Chat GPT, Midjourney, Stable Diffusion и Perplexity. Мы смогли поработать с каждой из них, сравнить результаты и вывести некоторые любопытные детали, о которых расскажу ниже.

Второе: управление контекстом и фокусом внимания — важнейшие вещи в написании промта. Возможность считывания контекста нейросетью всегда ограничена. Без заданного направления модель сама будет выстраивать иерархию приоритетов в запросе. Для тонкой промт нужно детализировать так, будто вы составляете техническое задание для молодого иллюстратора с идеальной техникой, но внимательностью подростка с СДВГ. Если данных много, и они плохо структурированы, модель читает начало и конец, а середину может пропустить. Если запрос перенасыщен деталями и микро-заданиями, модель выполнит только те, которые выберет сама. Кроме устройства нейросетей на это влияют технологические ограничения и особенности работы с BIG-дата. Феномены типа «Lost in the Middle», из-за которых теряется контекст, со временем исправляются и ликвидируются разработчиками, а «окна контекста», которые модель способна учитывать, быстро расширяются и сейчас кажутся настолько огромными, что с каждым написанным мной словом становится всё меньше необходимости описывать эти ограничения. На сегодняшний день «галлюцинации» или аномалии в результатах графических моделей — проблемы почти решённые. Так устроено большинство текстов про нейросети: к моменту выпуска многие статьи уже неактуальны, поэтому остановимся на общих принципах и на нашем опыте.

Теперь, когда мы в общих чертах понимаем, как работает «мозг» нейросети, перейдём к методике и разбору конкретных кейсов. В нашей сфере профессиональный подход требует модульности. Процесс всегда разбивается на контролируемые этапы — такая системность как раз и позволяет превратить генеративный хаос в предсказуемый инструмент.

Иллюзия контроля

В августе 2024 передо мной стояла задача показать в портфолио компании точечную визуализацию мастер-плана нового посёлка в Адыгее. Контекст идеально подходил для использования нейросетей: это многоэтажная застройка в полях, с чёткими референсами и детализированными визуальными принципами архитектуры. Мы использовали связку Midjourney, где была создана база изображения, с Firefly Image 1 — это первая версия генеративной заливки в Adobe Photoshop. Это была заря использования нейросетей в профессиональной сфере: кто-то полностью отвергал ИИ-инструменты, кто-то внимательно изучал, а кто-то уже выпускал курсы. Суть таких курсов, как правило, сводилась к правильному написанию промтов, что получило развитие в отдельное направление «промт-инжиниринга» — довольно интересной сферы, но переполненной профанацией из-за своей доступности.

А здесь мы видим несколько часов работы с Adobe Firefly 1.

Я использовал метод микрогенераций, когда исходное изображение дорабатывается путём генеративной заливки мелких участков — процесс кропотливый и требовательный по времени. В результате мы получили неплохие изображения для небольшого формата буклета и понимание, как в сравнительно короткие сроки выдать промежуточную визуализацию для заказчика на основе референсов и передать примерное настроение архитектуры, когда модель не детализирована должным образом.

После первых попыток пришло понимание, что базовой генерации в Midjourney недостаточно. Когда нужно, сохранив пропорции здания, точечно изменить фасадные решения или вписать объект в сложный рельеф, нам не хватает контролируемой геометрии. Первым решением стала связка Stable Diffusion с инструментами жёсткого контроля типа ControlNet. Это позволило перенести полноценную архитектурную модель в заданный сеттинг визуализации с контролем нужных точек. Процесс выглядел так: мы даём ИИ чертеж или грубую 3D-болванку, а она генерирует освещение, материалы и антураж строго в заданных границах перспективы. Углубившись, мы увидели минусы модели и исключили её из использования. На момент начала 2025 года там получалось примерно следующее:

На промежуточных результатах в Stable Diffusion фасадные ритмы сбивались, а зелень сливалась в единое пятно — типичные аномалии базовой генерации.

Мы поняли, что способ неидеальный и продолжили искать другие решения.

Эволюционный скачок

2025 год был ознаменован, наверное, самым заметным скачком в эпоху ИИ. После масштабных инвестиций в Open AI и в другие ИИ-компании все флагманские модели получили весомый прирост в возможностях. Массовый пользователь теперь может без каких-либо знаний генерировать логотипы уровня лучших проектов на Behance, рисовать фотореализм с эффектом зловещей долины или создавать нейро-слопы (низкокачественные ИИ-видео для развлечения). Профессиональное сообщество приобрело инструменты, максимально приблизившие уровень выдаваемого ИИ контента к продающему. На сайтах архитектурных бюро стали появляться визуализации с искажённой нейросетями геометрией, а в комьюнити сформировалось полярно разное отношение к подобным инструментам: от восхищения до усталости от мусорного качества и полного отторжения.

В начале года Adobe Photoshop интегрировали в свой софт Gemini и Flux. В условиях высочайшей конкуренции в сфере ИИ Adobe решили сделать агрегатор самых популярных графических моделей в своём софте. Это и остаётся главной сложностью на сегодня: мы можем генерировать отдельные подходящие картинки, но интерфейсу чатов не хватает графических инструментов, которые могут работать с контекстом, встраивать сгенерированные части изображения в целое и выдавать результат в 4К разрешении. Эти возможности не решены до сих пор: у Adobe жёсткие ограничения по количеству генераций и низкое качество, а Gemini и Chat GPT не предоставляют элементов графического редактора.

В поиске нужного решения мы начали изучать возможности Nano Banana Pro как графическую часть модели Google Gemini 3 Pro. Здесь наконец была найдена подходящая методика в связке с Adobe Firefly, когда мы загружали в Nano Banana фрагменты сырой визуализации и работали с детализацией этих фрагментов, после чего в Photoshop микрогенерациями сшивали эти фрагменты. Таким образом мы получили инструмент, в разы ускоряющий пост-обработку.

Это позволило настраивать общее настроение визуализации, менять погоду и нагружать пустые участки нужными деталями, при этом не искажая геометрию архитектуры.

Это визуализация конкурсной работы для сети отелей Not a Hotel, где основу мы готовили в 3ds Max в связке с Corona Renderer, а пост-обработку исполнили в Photoshop с использованием Gemini 3 Pro.

Результаты этого взаимодействия показались нам гораздо более интересными, и мы начали углубляться в особенности модели Google.

Кроме детализации и пост-обработки мы научились использовать Gemini для подготовки подосновы для вставки визуализации в реальное окружение. Это также дало нам значительный прирост в скорости при проработке и настройке окружения.

Слева — скриншот из Google Earth, справа — обработанная ИИ подоснова.

Магия деталей

Важнейшим звеном финализации результата выступает апскейл и, в частности, инструмент Topaz Gigapixel AI, который выполняет увеличение разрешения изображений за счёт повышения количества пикселей и генеративной прорисовки. При правильной настройке Gigapixel даёт отличный опыт проработки текстур и предметов. На рынке есть много решений для апскейла, но между ними быстро растёт технологическая разница. Topaz считается одним из флагманов. Сейчас они ушли от простой пиксельной интерполяции к генеративно-состязательным сетям (GAN). Модель анализирует пиксели низкого разрешения и «вспоминает», как должны выглядеть высокочастотные детали, используя Big Data. Шумное и плохо детализированное превью прогоняется через апскейлер, и на выходе мы получаем полотно, где у бетона появляется тактильная шероховатость, стекло приобретает корректные микро-блики, а зелень распадается на отдельные листья, строго соблюдая архитектурную тектонику. При правильном использовании это позволяет на этапе концепции создавать графику, сопоставимую с эталонной подачей уровня ведущих мировых студий.

Новые горизонты

Сейчас, когда за окном весна 2026, мы продолжаем наращивать компетенцию в области ИИ на примере быстрой и при этом эмоциональной визуализации, которую активно задействуют как в процессах взаимодействия с заказчиком, так и в рекламе.

Кроме визуализации мы используем ИИ в анализе данных и подготовке материалов. Если раньше в языковых моделях были многочисленные проблемы с источниками, галлюцинациями и фактически неверными данными, то благодаря последним изменениям эти проблемы неактуальны, как и бо́льшая часть скепсиса относительно профессионального использования нейросетевых инструментов.

Мировые практики

Если в 2024 году нейросети воспринимались преимущественно как генераторы красивых картинок, то к началу 2026 года мировой архитектурный авангард (студии уровня Herzog & de Meuron, Snøhetta, BIG, MAD Architects) использует ИИ как полноценного соавтора на многих этапах проектирования:

— На этапе мастер-планирования и топологической оптимизации. ИИ анализирует инсоляцию, розу ветров, пешеходные потоки и акустический комфорт, предлагая десятки вариантов посадки зданий в реальном времени. Архитектор выступает в роли куратора и арт-директора, выбирая лучший сценарий.

— Инструменты ИИ в BIM (Building Information Modeling). Происходит бесшовная интеграция языковых и визуальных моделей в Revit и Archicad. Нейросети автоматизируют рутину: ищут коллизии в инженерных сетях, автоматически генерируют спецификации материалов и узлов на основе эскиза.

— В экологических расчётах. В условиях жёстких экологических стандартов нейросети в доли секунды просчитывают жизненный цикл материалов. Изменяя тип остекления на фасаде в модели, архитектор мгновенно видит, как это повлияет на энергоэффективность здания в перспективе 50 лет.

— В проектировании параметрики. То, что раньше оставалось на уровне концептуальных рендеров Zaha Hadid, сегодня уходит в печать. ИИ напрямую переводит сложнейшую параметрическую геометрию в машинный код для строительных 3D-принтеров и роботизированных сборочных линий.

Эпилог

Главный инсайт, к которому мы пришли за время работы с искусственным интеллектом: нейросети вряд ли заменят вкус, насмотренность и фундаментальную теоретическую базу. Они обнуляют ценность механической рутины и возводят в абсолют чистую мысль.

ИИ — это, безусловно, один из лучших в истории инструментов, но без твёрдой руки мастера он остаётся лишь набором хаотичных алгоритмов. Цель, эстетический фильтр и финальное решение всегда остаются за человеком. Поэтому есть твёрдое ощущение, что компании, которые первыми научатся быть визионерами и грамотными арт-директорами для своих цифровых ассистентов, будут определять визуальный, структурный и пространственный язык следующих десятилетий.

Никита Торопчин, графический дизайнер МОА

Гаджеты и электроника

5,73 млн интересуются