Найти в Дзене

Midjourney дебютирует с функцией создания согласованных символов для нескольких изображений

Популярный сервис для создания изображений с использованием искусственного интеллекта Midjourney внедрил одну из своих наиболее часто запрашиваемых функций: возможность последовательного воссоздания персонажей на новых изображениях.
На сегодняшний день это было серьезным препятствием для генераторов изображений с искусственным интеллектом по самой их природе. Это потому, что большинство генераторов изображений AI полагаются на “модели распространения”, инструменты, аналогичные или основанные на алгоритме генерации изображений с открытым исходным кодом Stable Diffusion от Stable AI, которые работают грубо, беря текст, введенный пользователем, и пытаясь собрать попиксельно изображение, соответствующее этому описанию, как следует из похожих изображений и текстовых тегов в их огромном (и противоречивом) наборе обучающих данных из миллионов изображений, созданных человеком. Однако, как и в случае с текстовыми моделями больших языков (LLM), такими как ChatGPT от OpenAI или Cohere's new Comm

Популярный сервис для создания изображений с использованием искусственного интеллекта Midjourney внедрил одну из своих наиболее часто запрашиваемых функций: возможность последовательного воссоздания персонажей на новых изображениях.

На сегодняшний день это было серьезным препятствием для генераторов изображений с искусственным интеллектом по самой их природе.

Это потому, что большинство генераторов изображений AI полагаются на “модели распространения”, инструменты, аналогичные или основанные на алгоритме генерации изображений с открытым исходным кодом Stable Diffusion от Stable AI, которые работают грубо, беря текст, введенный пользователем, и пытаясь собрать попиксельно изображение, соответствующее этому описанию, как следует из похожих изображений и текстовых тегов в их огромном (и противоречивом) наборе обучающих данных из миллионов изображений, созданных человеком.

Однако, как и в случае с текстовыми моделями больших языков (LLM), такими как ChatGPT от OpenAI или Cohere's new Command-R, проблема всех генеративных приложений искусственного интеллекта заключается в их непоследовательности ответов: искусственный интеллект генерирует что-то новое для каждого введенного в него запроса, даже если запрос повторяется или используются одни и те же ключевые слова.

Это отлично подходит для создания совершенно новых фрагментов контента — в случае Midjourney, изображений. Но что, если вы создаете раскадровку фильма, романа, графического романа или комикса или какой-либо другой визуальной среды, где вы хотите, чтобы один и тот же персонаж или группы персонажей перемещались по нему и появлялись в разных сценах, декорациях, с разными выражениями лица и реквизитом?

Именно такого сценария, который обычно необходим для непрерывности повествования, было очень трудно достичь с помощью генеративного ИИ — до сих пор. Но Midjourney теперь пытается это сделать, представляя новый тег “–cref” (сокращение от “ссылка на персонажа”), который пользователи могут добавлять в конец своих текстовых подсказок в Midjourney Discord и который будет пытаться соответствовать чертам лица персонажа, типу телосложения и даже одежде по URL, который пользователь вставляет после указанного тега.

По мере развития и доработки функции Midjourney может превратиться из классной игрушки или источника идей в более профессиональный инструмент.

Помните, пока MJ V6 находится в стадии альфа-тестирования, эти и другие функции могут внезапно измениться, но скоро выйдет официальная бета-версия V6.
Источник:
https://venturebeat.com/ai/midjourney-debuts-feature-for-generating-consistent-characters-across-multiple-gen-ai-images/