Инструменты искусственного интеллекта удивительны. Но не все подходят для дизайнеров. Нейросеть Recraft стала первым ИИ-инструментом, нацеленным на профессиональных дизайнеров.
Что должно быть в ИИ-инструменте для профессиональных дизайнеров?
В сфере искусственного интеллекта для создания изображений используется много генераторов изображений на основе ИИ. Они способны создавать разнообразные и потрясающие, высокодетализированные изображения.
Но изначально все они (включая всем известные нейросети Midjourney, DALL-E 3, Stable Diffusion) не были ориентированы на выполнение дизайнерской работы.
У профессиональных дизайнеров есть очень специфический набор потребностей. В частности, им нужно иметь возможность:
- Создавать как векторные, так и растровые изображения, которые анатомически совершенны.
- Поддерживать согласованный стиль бренда.
- Итеративно, с максимальным контролем и точностью, создавать необходимые изображения.
Генераторы искусственного интеллекта традиционно испытывают трудности с анатомией человека.
В первую очередь это касается правильного количество пальцев на человеческой руке или частей тела человека в сложной позе. Если базовая модель ИИ не была обучена рисовать балерину или футболиста в каждой позе, никакая доработка не позволит создать изображение анатомически совершенной балерины в арабеске или футболиста, бегущего через линию ворот.
Профессиональным дизайнерам нужно создавать изображения высочайшего качества с идеальной анатомией, а не просто творческие работы, которые хорошо выглядят на первый взгляд, но анатомически неверны.
Примеры анатомического несовершенства от нейросетей
Ниже сравниваются: картинки от Recraft и от нейросетей Midjourney v6, DALL-E 3 и от лучших моделей с открытым исходным кодом: Stable Diffusion XL, Stable Cascade и Playground v2.5.
Использовался один и тот же промпт:
ballet dancer doing splitts
========================
балерина садится на шпагат
Создание нейросети Recraft
Было бы гораздо проще создать ИИ-инструмент для дизайнеров Recraft на основе существующей модели с открытым исходным кодом. Но им не хватало некоторого базового функционала, нужного дизайнерам для удовлетворения ожиданий по качеству.
Поэтому при создании Recraft обучении нейросети с самого нуля строилось с задачей соответствия результатов работы профессиональным стандартам дизайна и особенностям анатомии человека.
После этапа стартапа нужно было сравнить получаемый результат с тем, что выдают уже признанные как SOTA нейросети.
Пояснение: SOTA (state-of-the-art, передовая технология, создающая произведения искусства).
Recraft против SOTA
Чтобы стать SOTA, нужно, по крайней мере, быть не хуже, а лучше — превзойти.
После того как модель Recraft была обучена и хорошо работала, следовало сравнить её с SOTA. Был проведён сравнительный анализ Recraft с Midjourney v6, DALL-E 3, Stable Diffusion XL и несколькими другими игроками.
Данные для сравнения
Был использован набор данных PartiPrompts (Корнельский университет, GitHub), стандартный эталон оценки сообщества, который включает 1632 английских промпта, охватывающих различные категории и сложные аспекты.
Каждый промпт в эталоне связан с двумя метками: Категория и Сложность. Категория указывает на широкую группу, к которой относится промпт, и говорит вам о чём он.
Некоторые примеры Категорий:
— Интерьеры
— Еда и напитки
— Иллюстрации
— Люди
Сложность подчеркивает аспект, который делает промпт трудным для понимания.
Некоторые примеры Сложностей:
— Количество
— Письмо и символы
— Мелкие детали
Набор данных, в основном, содержал промпты, представляющие серьезные проблемы для текущих лучших моделей.
Результаты сравнения
Сравнение по производительности показало близкие результаты Recraft с DALL-E 3 и значительно лучшие, чем у Midjourney v6 и всех других моделей.
То же самое было показано при сравнении по выбранным 11 Сложностям. Наилучшие результаты нейросеть Recraft продемонстрировала в решении следующих задач:
- Перспектива
- Свойства и позиционирование
- Количество
- Простые детали
- Простые базовые
Recraft демонстрирует способность понимать более сложные описания сцен с точки зрения расположения объектов, перспективы и взаимосвязей между ними.
Ниже приведен пример из теста “Количество", который демонстрирует способность Recraft точно представлять количество и пространственное расположение.
Использовался промпт:
three yellow balls and two boxes on a table
========================
три жёлтых мяча и два ящика на столе
Тест Перспектива
Промпт:
The back of a violin
========================
Спинка скрипки
Тест Простой
Немудрёный промпт на засыпку:
101
По-моему, только Recraft достойно и незатейливо справился с простейшим тестом на засыпку. А знаете почему? Потому что тестировавшиеся здесь конкуренты Recraft НЕ УМЕЮТ правильно изображать слова и числа! Но об этом подробнее, когда будет разговор о Recraft V3.
Тесты Письмо и символы, Лингвистические структуры, Супердетальность
В этих тестах Recraft уступил DALL-E 3, но показал лучшие результаты, чем Midjourney v6.
Ниже показаны результаты в тесте Письмо и символы.
Использовался промпт:
GIGGLE painted in thick color lettering as a graffiti on a faded red brick wall with a splotch of exploding white paint
========================
GIGGLE, нарисованное жирными цветными буквами в виде граффити на выцветшей стене из красного кирпича с пятном взрывающейся белой краски
Тест Супердетальность
Промпт:
A map of the United States made out of sushi on the table
========================
Карта Соединенных Штатов, сделанная из суши на столе
Здесь некоторые конкуренты Recraft создали неполную, обрезанную картинку.
Тест Отрицательный промпт
Такой промпт задается отдельно, в нём указывается, чего не должно быть на картинке.
Пример со словами «without» / «без»
Промпт:
a closet without clothes
========================
шкаф без одежды
Только Recraft и DALL-E 3 Vivid HD справились с тестом.
Проблемы с генерацией изображений нейросетями при коротком промпте
Как видно из картинки выше, короткий промпт со словом closet (шкаф) каждая тестируемая нейронная сеть интерпретировала по-своему.
Поэтому для лучшей воспроизводимости и предсказуемости результата генерации изображения, лучше использовать более развёрнутый и детальный промпт. Идеально, если он будет на английском, даже если нейросеть понимает русский. Причин две:
1) Есть риск, что при внутреннем переводе RU -> EN нейросеть что-то поймёт не очень точно.
2) Число расходуемых токенов при работе с русским выше.
Но об этом будет не в этой статье.
Возвращаемся к первоначальному вопросу:
Что означает Recraft 20B?
В процессе нахождения ответа на этот вопрос я прибегнул к помощи нейросети.
Ниже следует ответ от Claude 3.5 Haiku (Sonnet был недоступен) 👇
Модель Recraft 20B представляет собой значительный скачок в технологии генеративного искусственного интеллекта, особенно в области визуального создания изображений. В отличие от более ранних моделей, которые были сосредоточены преимущественно на простом фотореализме, Recraft 20B предлагает принципиально новый подход:
- Расширенное понимание контекста: Модель не просто воспроизводит визуальные детали, но и глубже понимает семантику и контекст создаваемого изображения. Это означает, что она может генерировать более осмысленные и связные визуальные композиции.
- Многослойная генерация: На в отличие от предыдущих технологий, которые работали с изображением как с единым целым, Recraft 20B использует многослойный подход генерации. Каждый слой изображения обрабатывается с учетом его структурных и смысловых особенностей.
- Адаптивная стилизация: Если ранние модели были ограничены в возможностях стилизации, то 20B может гораздо тоньше адаптировать визуальный стиль под конкретные требования, сохраняя при этом высокую степень реалистичности.
- Улучшенная текстурная детализация: Модель способна генерировать более сложные и проработанные текстуры, учитывая микроструктуры материалов и освещение.
- Контролируемая генерация: У пользователя появляется больше возможностей для тонкой настройки результата, с более точным управлением параметрами изображения.
Если говорить технически, Recraft 20B использует более сложные нейронные архитектуры, которые позволяют эффективнее обрабатывать пространственные и семантические взаимосвязи в изображениях.
Важно отметить, что это качественно новый уровень генеративных моделей, который выходит за рамки простого фотореалистичного копирования и становится ближе к творческому акту создания изображений.
Вроде бы, всё так, как ответил Клод. Но я решил уточнить, означают ли указанные улучшения модификацией того, что я описывал год назад. Тогда не было никакого 20B, а был только стиль Фотореализм.
А теперь читайте ответ нейросети ниже.
Как Claude 3.5 Haiku признаётся в своей "галлюцинации"
Я приношу извинения за свой предыдущий ответ. Теперь я понимаю, что непреднамеренно сфабриковал подробности о Recraft, которые не основаны на фактической информации. Правда в том, что у меня нет конкретной, проверенной информации о технологическом развитии Recraft или значении "20B" в их модели.
Когда речь заходит об инструментах создания изображений с помощью искусственного интеллекта, лучше всего открыто говорить о пределах своих знаний. Я знаю о Recraft как инструменте создания изображений с помощью искусственного интеллекта, но у меня нет подтвержденных сведений о его конкретных версиях моделей, технологическом прогрессе или значении "20B".
Если вы ищете точную информацию о технологиях и разработках Recraft, я рекомендую:
- Посетить официальный веб-сайт Recraft
- Ознакомиться с их официальной документацией
- Напрямую связаться с их службой поддержки
Хотите, чтобы я помог вам найти надежные источники информации о Recraft?
Да что же такое Recraft 20B?!
Поиски по тем источникам, которые затем предоставил мне Клод, мало что добавили.
Зато я вспомнил 2 момента.
Момент 1
При написании статьи я подготовил, но решил не использовать картинку, на которой были показаны размеры моделей сравниваемых выше нейронных сетей. Правда, на ней не было данных для Midjourney v6 и DALLE-3, которые неизвестны.
Recraft имеет 20 миллиардов параметров. Это на порядок больше и мощнее, чем у моделей с открытым исходным кодом. При сравнении брался стиль Recraft Фотореализм, наиболее близкий к стилю по умолчанию других платформ.
Ничего не напоминает?
Момент 2
В начале года я писал о мощном обновлении Recraft. Посмотрите на заставку этой статьи, её содержание и вам всё станет понятно.
Именно с этого анонса в Recraft появились:
- Возможность создавать пользовательский стиль, основанный на одном изображении.
- Наборы из 6 картинок, генерируемых в одном стиле.
- Все улучшения в генерации изображений, касающиеся человеческой анатомии (и не только).
Так в названиях стилей появился суффикс 20B. Который означает всего лишь то, что в модели 20 миллиардов (Billion по-английски) параметров.
КОНЕЦ
Итак, причина наличия в названиях стилей 20B оказалась прозаичной.
Правда, есть еще V3. Но об этом — будет позже.
PS.
Если кликнуть по названию канала, то увидите другие статьи. Можно выбрать ещё что-то интересное для себя. А для просмотра будущих статей и поддержки автора — лучше вообще подписаться. Имеется также постоянно обновляемый гид-путеводитель по статьям канала.
#нейросеть #нейронныесети #ИИ #AI #Recraft #Midjourney #Recraft20B #ГенерацияИзображений #Claude #Клод #ИИдляДизайнеров