Найти в Дзене

Recraft 20B и V3 — что это?

Оглавление

Инструменты искусственного интеллекта удивительны. Но не все подходят для дизайнеров. Нейросеть Recraft стала первым ИИ-инструментом, нацеленным на профессиональных дизайнеров.

Что должно быть в ИИ-инструменте для профессиональных дизайнеров?

В сфере искусственного интеллекта для создания изображений используется много генераторов изображений на основе ИИ. Они способны создавать разнообразные и потрясающие, высокодетализированные изображения.

Но изначально все они (включая всем известные нейросети Midjourney, DALL-E 3, Stable Diffusion) не были ориентированы на выполнение дизайнерской работы.

У профессиональных дизайнеров есть очень специфический набор потребностей. В частности, им нужно иметь возможность:

  1. Создавать как векторные, так и растровые изображения, которые анатомически совершенны.
  2. Поддерживать согласованный стиль бренда.
  3. Итеративно, с максимальным контролем и точностью, создавать необходимые изображения.

Генераторы искусственного интеллекта традиционно испытывают трудности с анатомией человека.

В первую очередь это касается правильного количество пальцев на человеческой руке или частей тела человека в сложной позе. Если базовая модель ИИ не была обучена рисовать балерину или футболиста в каждой позе, никакая доработка не позволит создать изображение анатомически совершенной балерины в арабеске или футболиста, бегущего через линию ворот.

Профессиональным дизайнерам нужно создавать изображения высочайшего качества с идеальной анатомией, а не просто творческие работы, которые хорошо выглядят на первый взгляд, но анатомически неверны.

Примеры анатомического несовершенства от нейросетей

Ниже сравниваются: картинки от Recraft и от нейросетей Midjourney v6, DALL-E 3 и от лучших моделей с открытым исходным кодом: Stable Diffusion XL, Stable Cascade и Playground v2.5.

Использовался один и тот же промпт:

ballet dancer doing splitts
========================
балерина садится на шпагат
Сравнение тестового изображения от Recraft (слева) с другими нейросетями
Сравнение тестового изображения от Recraft (слева) с другими нейросетями

Создание нейросети Recraft

Было бы гораздо проще создать ИИ-инструмент для дизайнеров Recraft на основе существующей модели с открытым исходным кодом. Но им не хватало некоторого базового функционала, нужного дизайнерам для удовлетворения ожиданий по качеству.

Поэтому при создании Recraft обучении нейросети с самого нуля строилось с задачей соответствия результатов работы профессиональным стандартам дизайна и особенностям анатомии человека.

После этапа стартапа нужно было сравнить получаемый результат с тем, что выдают уже признанные как SOTA нейросети.

Пояснение: SOTA (state-of-the-art, передовая технология, создающая произведения искусства).

Recraft против SOTA

Чтобы стать SOTA, нужно, по крайней мере, быть не хуже, а лучше — превзойти.

После того как модель Recraft была обучена и хорошо работала, следовало сравнить её с SOTA. Был проведён сравнительный анализ Recraft с Midjourney v6, DALL-E 3, Stable Diffusion XL и несколькими другими игроками.

Данные для сравнения

Был использован набор данных PartiPrompts (Корнельский университет, GitHub), стандартный эталон оценки сообщества, который включает 1632 английских промпта, охватывающих различные категории и сложные аспекты.

Каждый промпт в эталоне связан с двумя метками: Категория и Сложность. Категория указывает на широкую группу, к которой относится промпт, и говорит вам о чём он.

Некоторые примеры Категорий:
— Интерьеры
— Еда и напитки
— Иллюстрации
— Люди

Сложность подчеркивает аспект, который делает промпт трудным для понимания.

Некоторые примеры Сложностей:
— Количество
— Письмо и символы
— Мелкие детали

Набор данных, в основном, содержал промпты, представляющие серьезные проблемы для текущих лучших моделей.

Результаты сравнения

Сравнение по производительности показало близкие результаты Recraft с DALL-E 3 и значительно лучшие, чем у Midjourney v6 и всех других моделей.

То же самое было показано при сравнении по выбранным 11 Сложностям. Наилучшие результаты нейросеть Recraft продемонстрировала в решении следующих задач:

  • Перспектива
  • Свойства и позиционирование
  • Количество
  • Простые детали
  • Простые базовые

Recraft демонстрирует способность понимать более сложные описания сцен с точки зрения расположения объектов, перспективы и взаимосвязей между ними.

Ниже приведен пример из тестаКоличество", который демонстрирует способность Recraft точно представлять количество и пространственное расположение.

Использовался промпт:

three yellow balls and two boxes on a table
========================
три жёлтых мяча и два ящика на столе
Результаты нейросетей по тесту на количество
Результаты нейросетей по тесту на количество

Тест Перспектива

Промпт:

The back of a violin
========================
Спинка скрипки
Результаты нейросетей по тесту на Перспективу
Результаты нейросетей по тесту на Перспективу

Тест Простой

Немудрёный промпт на засыпку:

101
Результаты нейросетей по тесту на Перспективу Простой базовый
Результаты нейросетей по тесту на Перспективу Простой базовый

По-моему, только Recraft достойно и незатейливо справился с простейшим тестом на засыпку. А знаете почему? Потому что тестировавшиеся здесь конкуренты Recraft НЕ УМЕЮТ правильно изображать слова и числа! Но об этом подробнее, когда будет разговор о Recraft V3.

Тесты Письмо и символы, Лингвистические структуры, Супердетальность

В этих тестах Recraft уступил DALL-E 3, но показал лучшие результаты, чем Midjourney v6.

Ниже показаны результаты в тесте Письмо и символы.

Использовался промпт:

GIGGLE painted in thick color lettering as a graffiti on a faded red brick wall with a splotch of exploding white paint
========================
GIGGLE, нарисованное жирными цветными буквами в виде граффити на выцветшей стене из красного кирпича с пятном взрывающейся белой краски
Результаты нейросетей по тесту на  Письмо и символы
Результаты нейросетей по тесту на Письмо и символы

Тест Супердетальность

Промпт:

A map of the United States made out of sushi on the table
========================
Карта Соединенных Штатов, сделанная из суши на столе
Результаты нейросетей по тесту Супердетальность
Результаты нейросетей по тесту Супердетальность

Здесь некоторые конкуренты Recraft создали неполную, обрезанную картинку.

Тест Отрицательный промпт

Такой промпт задается отдельно, в нём указывается, чего не должно быть на картинке.

Пример со словами «without» / «без»

Промпт:

a closet without clothes
========================
шкаф без одежды
Результаты нейросетей по тесту Отрицательный промпт
Результаты нейросетей по тесту Отрицательный промпт

Только Recraft и DALL-E 3 Vivid HD справились с тестом.

Проблемы с генерацией изображений нейросетями при коротком промпте

Как видно из картинки выше, короткий промпт со словом closet (шкаф) каждая тестируемая нейронная сеть интерпретировала по-своему.

Поэтому для лучшей воспроизводимости и предсказуемости результата генерации изображения, лучше использовать более развёрнутый и детальный промпт. Идеально, если он будет на английском, даже если нейросеть понимает русский. Причин две:

1) Есть риск, что при внутреннем переводе RU -> EN нейросеть что-то поймёт не очень точно.

2) Число расходуемых токенов при работе с русским выше.

Но об этом будет не в этой статье.

Возвращаемся к первоначальному вопросу:

Что означает Recraft 20B?

В процессе нахождения ответа на этот вопрос я прибегнул к помощи нейросети.

Ниже следует ответ от Claude 3.5 Haiku (Sonnet был недоступен) 👇

Модель Recraft 20B представляет собой значительный скачок в технологии генеративного искусственного интеллекта, особенно в области визуального создания изображений. В отличие от более ранних моделей, которые были сосредоточены преимущественно на простом фотореализме, Recraft 20B предлагает принципиально новый подход:

  1. Расширенное понимание контекста: Модель не просто воспроизводит визуальные детали, но и глубже понимает семантику и контекст создаваемого изображения. Это означает, что она может генерировать более осмысленные и связные визуальные композиции.
  2. Многослойная генерация: На в отличие от предыдущих технологий, которые работали с изображением как с единым целым, Recraft 20B использует многослойный подход генерации. Каждый слой изображения обрабатывается с учетом его структурных и смысловых особенностей.
  3. Адаптивная стилизация: Если ранние модели были ограничены в возможностях стилизации, то 20B может гораздо тоньше адаптировать визуальный стиль под конкретные требования, сохраняя при этом высокую степень реалистичности.
  4. Улучшенная текстурная детализация: Модель способна генерировать более сложные и проработанные текстуры, учитывая микроструктуры материалов и освещение.
  5. Контролируемая генерация: У пользователя появляется больше возможностей для тонкой настройки результата, с более точным управлением параметрами изображения.

Если говорить технически, Recraft 20B использует более сложные нейронные архитектуры, которые позволяют эффективнее обрабатывать пространственные и семантические взаимосвязи в изображениях.

Важно отметить, что это качественно новый уровень генеративных моделей, который выходит за рамки простого фотореалистичного копирования и становится ближе к творческому акту создания изображений.

Вроде бы, всё так, как ответил Клод. Но я решил уточнить, означают ли указанные улучшения модификацией того, что я описывал год назад. Тогда не было никакого 20B, а был только стиль Фотореализм.

А теперь читайте ответ нейросети ниже.

Изображение сгенерировано в нейросети Recraft
Изображение сгенерировано в нейросети Recraft

Как Claude 3.5 Haiku признаётся в своей "галлюцинации"

Я приношу извинения за свой предыдущий ответ. Теперь я понимаю, что непреднамеренно сфабриковал подробности о Recraft, которые не основаны на фактической информации. Правда в том, что у меня нет конкретной, проверенной информации о технологическом развитии Recraft или значении "20B" в их модели.

Когда речь заходит об инструментах создания изображений с помощью искусственного интеллекта, лучше всего открыто говорить о пределах своих знаний. Я знаю о Recraft как инструменте создания изображений с помощью искусственного интеллекта, но у меня нет подтвержденных сведений о его конкретных версиях моделей, технологическом прогрессе или значении "20B".

Если вы ищете точную информацию о технологиях и разработках Recraft, я рекомендую:

  • Посетить официальный веб-сайт Recraft
  • Ознакомиться с их официальной документацией
  • Напрямую связаться с их службой поддержки

Хотите, чтобы я помог вам найти надежные источники информации о Recraft?

Да что же такое Recraft 20B?!

Поиски по тем источникам, которые затем предоставил мне Клод, мало что добавили.

Зато я вспомнил 2 момента.

Момент 1

При написании статьи я подготовил, но решил не использовать картинку, на которой были показаны размеры моделей сравниваемых выше нейронных сетей. Правда, на ней не было данных для Midjourney v6 и DALLE-3, которые неизвестны.

Размеры моделей, в миллиардах параметров
Размеры моделей, в миллиардах параметров

Recraft имеет 20 миллиардов параметров. Это на порядок больше и мощнее, чем у моделей с открытым исходным кодом. При сравнении брался стиль Recraft Фотореализм, наиболее близкий к стилю по умолчанию других платформ.

Ничего не напоминает?

Момент 2

В начале года я писал о мощном обновлении Recraft. Посмотрите на заставку этой статьи, её содержание и вам всё станет понятно.

Именно с этого анонса в Recraft появились:

  • Возможность создавать пользовательский стиль, основанный на одном изображении.
  • Наборы из 6 картинок, генерируемых в одном стиле.
  • Все улучшения в генерации изображений, касающиеся человеческой анатомии (и не только).

Так в названиях стилей появился суффикс 20B. Который означает всего лишь то, что в модели 20 миллиардов (Billion по-английски) параметров.

КОНЕЦ

Итак, причина наличия в названиях стилей 20B оказалась прозаичной.

Правда, есть еще V3. Но об этом — будет позже.

PS.

Если кликнуть по названию канала, то увидите другие статьи. Можно выбрать ещё что-то интересное для себя. А для просмотра будущих статей и поддержки автора — лучше вообще подписаться. Имеется также постоянно обновляемый гид-путеводитель по статьям канала.

#нейросеть #нейронныесети #ИИ #AI #Recraft #Midjourney #Recraft20B #ГенерацияИзображений #Claude #Клод #ИИдляДизайнеров