1106 подписчиков

Recraft 20B и V3 — что это?

1 декабря 20241 дек 2024

9 мин

Инструменты искусственного интеллекта удивительны. Но не все подходят для дизайнеров. Нейросеть Recraft стала первым ИИ-инструментом, нацеленным на профессиональных дизайнеров. В сфере искусственного интеллекта для создания изображений используется много генераторов изображений на основе ИИ. Они способны создавать разнообразные и потрясающие, высокодетализированные изображения. Но изначально все они (включая всем известные нейросети Midjourney, DALL-E 3, Stable Diffusion) не были ориентированы на выполнение дизайнерской работы. У профессиональных дизайнеров есть очень специфический набор потребностей. В частности, им нужно иметь возможность: Генераторы искусственного интеллекта традиционно испытывают трудности с анатомией человека. В первую очередь это касается правильного количество пальцев на человеческой руке или частей тела человека в сложной позе. Если базовая модель ИИ не была обучена рисовать балерину или футболиста в каждой позе, никакая доработка не позволит создать изображени

Оглавление

Что должно быть в ИИ-инструменте для профессиональных дизайнеров?
Примеры анатомического несовершенства от нейросетей
Создание нейросети Recraft

Что должно быть в ИИ-инструменте для профессиональных дизайнеров?

В сфере искусственного интеллекта для создания изображений используется много генераторов изображений на основе ИИ. Они способны создавать разнообразные и потрясающие, высокодетализированные изображения.

Но изначально все они (включая всем известные нейросети Midjourney, DALL-E 3, Stable Diffusion) не были ориентированы на выполнение дизайнерской работы.

У профессиональных дизайнеров есть очень специфический набор потребностей. В частности, им нужно иметь возможность:

Создавать как векторные, так и растровые изображения, которые анатомически совершенны.
Поддерживать согласованный стиль бренда.
Итеративно, с максимальным контролем и точностью, создавать необходимые изображения.

Генераторы искусственного интеллекта традиционно испытывают трудности с анатомией человека.

В первую очередь это касается правильного количество пальцев на человеческой руке или частей тела человека в сложной позе. Если базовая модель ИИ не была обучена рисовать балерину или футболиста в каждой позе, никакая доработка не позволит создать изображение анатомически совершенной балерины в арабеске или футболиста, бегущего через линию ворот.

Профессиональным дизайнерам нужно создавать изображения высочайшего качества с идеальной анатомией, а не просто творческие работы, которые хорошо выглядят на первый взгляд, но анатомически неверны.

Примеры анатомического несовершенства от нейросетей

Ниже сравниваются: картинки от Recraft и от нейросетей Midjourney v6, DALL-E 3 и от лучших моделей с открытым исходным кодом: Stable Diffusion XL, Stable Cascade и Playground v2.5.

Использовался один и тот же промпт:

ballet dancer doing splitts
========================
балерина садится на шпагат

Создание нейросети Recraft

Было бы гораздо проще создать ИИ-инструмент для дизайнеров Recraft на основе существующей модели с открытым исходным кодом. Но им не хватало некоторого базового функционала, нужного дизайнерам для удовлетворения ожиданий по качеству.

Поэтому при создании Recraft обучении нейросети с самого нуля строилось с задачей соответствия результатов работы профессиональным стандартам дизайна и особенностям анатомии человека.

После этапа стартапа нужно было сравнить получаемый результат с тем, что выдают уже признанные как SOTA нейросети.

Пояснение: SOTA (state-of-the-art, передовая технология, создающая произведения искусства).

Recraft против SOTA

Чтобы стать SOTA, нужно, по крайней мере, быть не хуже, а лучше — превзойти.

После того как модель Recraft была обучена и хорошо работала, следовало сравнить её с SOTA. Был проведён сравнительный анализ Recraft с Midjourney v6, DALL-E 3, Stable Diffusion XL и несколькими другими игроками.

Данные для сравнения

Был использован набор данных PartiPrompts (Корнельский университет, GitHub), стандартный эталон оценки сообщества, который включает 1632 английских промпта, охватывающих различные категории и сложные аспекты.

Каждый промпт в эталоне связан с двумя метками: Категория и Сложность. Категория указывает на широкую группу, к которой относится промпт, и говорит вам о чём он.

Некоторые примеры Категорий:
— Интерьеры
— Еда и напитки
— Иллюстрации
— Люди

Сложность подчеркивает аспект, который делает промпт трудным для понимания.

Некоторые примеры Сложностей:
— Количество
— Письмо и символы
— Мелкие детали

Набор данных, в основном, содержал промпты, представляющие серьезные проблемы для текущих лучших моделей.

Результаты сравнения

Сравнение по производительности показало близкие результаты Recraft с DALL-E 3 и значительно лучшие, чем у Midjourney v6 и всех других моделей.

То же самое было показано при сравнении по выбранным 11 Сложностям. Наилучшие результаты нейросеть Recraft продемонстрировала в решении следующих задач:

Перспектива
Свойства и позиционирование
Количество
Простые детали
Простые базовые

Recraft демонстрирует способность понимать более сложные описания сцен с точки зрения расположения объектов, перспективы и взаимосвязей между ними.

Ниже приведен пример из теста “Количество", который демонстрирует способность Recraft точно представлять количество и пространственное расположение.

Использовался промпт:

three yellow balls and two boxes on a table
========================
три жёлтых мяча и два ящика на столе

Результаты нейросетей по тесту на количество

Тест Перспектива

Промпт:

The back of a violin
========================
Спинка скрипки

Результаты нейросетей по тесту на Перспективу

Тест Простой

Немудрёный промпт на засыпку:

101

Результаты нейросетей по тесту на Перспективу Простой базовый

По-моему, только Recraft достойно и незатейливо справился с простейшим тестом на засыпку. А знаете почему? Потому что тестировавшиеся здесь конкуренты Recraft НЕ УМЕЮТ правильно изображать слова и числа! Но об этом подробнее, когда будет разговор о Recraft V3.

Тесты Письмо и символы, Лингвистические структуры, Супердетальность

В этих тестах Recraft уступил DALL-E 3, но показал лучшие результаты, чем Midjourney v6.

Ниже показаны результаты в тесте Письмо и символы.

Использовался промпт:

GIGGLE painted in thick color lettering as a graffiti on a faded red brick wall with a splotch of exploding white paint

========================
GIGGLE, нарисованное жирными цветными буквами в виде граффити на выцветшей стене из красного кирпича с пятном взрывающейся белой краски

Результаты нейросетей по тесту на Письмо и символы

Тест Супердетальность

Промпт:

A map of the United States made out of sushi on the table
========================
Карта Соединенных Штатов, сделанная из суши на столе

Результаты нейросетей по тесту Супердетальность

Здесь некоторые конкуренты Recraft создали неполную, обрезанную картинку.

Тест Отрицательный промпт

Такой промпт задается отдельно, в нём указывается, чего не должно быть на картинке.

Пример со словами «without» / «без»

Промпт:

a closet without clothes
========================
шкаф без одежды

Только Recraft и DALL-E 3 Vivid HD справились с тестом.

Проблемы с генерацией изображений нейросетями при коротком промпте

Как видно из картинки выше, короткий промпт со словом closet (шкаф) каждая тестируемая нейронная сеть интерпретировала по-своему.

Поэтому для лучшей воспроизводимости и предсказуемости результата генерации изображения, лучше использовать более развёрнутый и детальный промпт. Идеально, если он будет на английском, даже если нейросеть понимает русский. Причин две:

1) Есть риск, что при внутреннем переводе RU -> EN нейросеть что-то поймёт не очень точно.

2) Число расходуемых токенов при работе с русским выше.

Но об этом будет не в этой статье.

Возвращаемся к первоначальному вопросу:

Что означает Recraft 20B?

В процессе нахождения ответа на этот вопрос я прибегнул к помощи нейросети.

Ниже следует ответ от Claude 3.5 Haiku (Sonnet был недоступен) 👇

Модель Recraft 20B представляет собой значительный скачок в технологии генеративного искусственного интеллекта, особенно в области визуального создания изображений. В отличие от более ранних моделей, которые были сосредоточены преимущественно на простом фотореализме, Recraft 20B предлагает принципиально новый подход:

Расширенное понимание контекста: Модель не просто воспроизводит визуальные детали, но и глубже понимает семантику и контекст создаваемого изображения. Это означает, что она может генерировать более осмысленные и связные визуальные композиции.
Многослойная генерация: На в отличие от предыдущих технологий, которые работали с изображением как с единым целым, Recraft 20B использует многослойный подход генерации. Каждый слой изображения обрабатывается с учетом его структурных и смысловых особенностей.
Адаптивная стилизация: Если ранние модели были ограничены в возможностях стилизации, то 20B может гораздо тоньше адаптировать визуальный стиль под конкретные требования, сохраняя при этом высокую степень реалистичности.
Улучшенная текстурная детализация: Модель способна генерировать более сложные и проработанные текстуры, учитывая микроструктуры материалов и освещение.
Контролируемая генерация: У пользователя появляется больше возможностей для тонкой настройки результата, с более точным управлением параметрами изображения.

Если говорить технически, Recraft 20B использует более сложные нейронные архитектуры, которые позволяют эффективнее обрабатывать пространственные и семантические взаимосвязи в изображениях.

Важно отметить, что это качественно новый уровень генеративных моделей, который выходит за рамки простого фотореалистичного копирования и становится ближе к творческому акту создания изображений.

Вроде бы, всё так, как ответил Клод. Но я решил уточнить, означают ли указанные улучшения модификацией того, что я описывал год назад. Тогда не было никакого 20B, а был только стиль Фотореализм.

А теперь читайте ответ нейросети ниже.

Изображение сгенерировано в нейросети Recraft

Как Claude 3.5 Haiku признаётся в своей "галлюцинации"

Я приношу извинения за свой предыдущий ответ. Теперь я понимаю, что непреднамеренно сфабриковал подробности о Recraft, которые не основаны на фактической информации. Правда в том, что у меня нет конкретной, проверенной информации о технологическом развитии Recraft или значении "20B" в их модели.

Когда речь заходит об инструментах создания изображений с помощью искусственного интеллекта, лучше всего открыто говорить о пределах своих знаний. Я знаю о Recraft как инструменте создания изображений с помощью искусственного интеллекта, но у меня нет подтвержденных сведений о его конкретных версиях моделей, технологическом прогрессе или значении "20B".

Если вы ищете точную информацию о технологиях и разработках Recraft, я рекомендую:

Посетить официальный веб-сайт Recraft
Ознакомиться с их официальной документацией
Напрямую связаться с их службой поддержки

Хотите, чтобы я помог вам найти надежные источники информации о Recraft?

Да что же такое Recraft 20B?!

Поиски по тем источникам, которые затем предоставил мне Клод, мало что добавили.

Зато я вспомнил 2 момента.

Момент 1

При написании статьи я подготовил, но решил не использовать картинку, на которой были показаны размеры моделей сравниваемых выше нейронных сетей. Правда, на ней не было данных для Midjourney v6 и DALLE-3, которые неизвестны.

Размеры моделей, в миллиардах параметров

Recraft имеет 20 миллиардов параметров. Это на порядок больше и мощнее, чем у моделей с открытым исходным кодом. При сравнении брался стиль Recraft Фотореализм, наиболее близкий к стилю по умолчанию других платформ.

Ничего не напоминает?

Момент 2

В начале года я писал о мощном обновлении Recraft. Посмотрите на заставку этой статьи, её содержание и вам всё станет понятно.

Именно с этого анонса в Recraft появились:

Возможность создавать пользовательский стиль, основанный на одном изображении.
Наборы из 6 картинок, генерируемых в одном стиле.
Все улучшения в генерации изображений, касающиеся человеческой анатомии (и не только).

Так в названиях стилей появился суффикс 20B. Который означает всего лишь то, что в модели 20 миллиардов (Billion по-английски) параметров.

КОНЕЦ

Итак, причина наличия в названиях стилей 20B оказалась прозаичной.

Правда, есть еще V3. Но об этом — будет позже.

PS.

Если кликнуть по названию канала, то увидите другие статьи. Можно выбрать ещё что-то интересное для себя. А для просмотра будущих статей и поддержки автора — лучше вообще подписаться. Имеется также постоянно обновляемый гид-путеводитель по статьям канала.

#нейросеть #нейронныесети #ИИ #AI #Recraft #Midjourney #Recraft20B #ГенерацияИзображений #Claude #Клод #ИИдляДизайнеров