Лучше один раз увидеть, чем сто раз услышать!
В век социальных сетей привлекающее внимание изображение может стать разницей между тем, чтобы затеряться в шуме и привлечь внимание. И когда дело доходит до создания потрясающих визуальных эффектов, искусственный интеллект (ИИ) поможет вам.
Благодаря искусственному интеллекту теперь вы можете создавать изображения, которые выглядят поразительно реальными и могут быть использованы для самых разных целей. От рекламы до создания реалистичных изображений для вашего портфолио - эти инструменты помогут вам вывести вашу работу на новый уровень.
Midjourney V4
Ссылка: https://midjourney.com
Способ распространения: облачный сервис
Цена: 25 бесплатных действий, затем подписка - начиная от $10 за 200 GPU минут или $30 в месяц за псевдо-безлимитный план, дополнительные платежи за быстрый доступ, приватную галерею; корпоративный план - $600 в год
Интерфейс: чат-бот в Дискорде
Что умеет: генерировать изображения на основе текстовых запросов на естественном языке, на основе загруженного изображения или нескольких изображений
Midjourney V4 построен на принципиально новой для всего проекта архитектуре – модель "тренировали" на суперкластере, построенном специально для этой цели в течение 9 месяцев.
Создатели не собираются останавливаться на достигнутом и считают V4 первым шагом на пути к чему-то поистине новому и непостижимому. Они хотят полностью изменить сферу дизайна!
Недавно вышедшее обновление V4B добавляет мелкие, но полезные нюансы в работу нейросети.
Тем не менее, проект находится в стадии альфа-версии и облик и функциональность конечной версии ещё не определена.
На текущий момент доступно управление только через Дискорд - других публичных интерфейсов не предусмотрено.
Изображения, созданные в Midjourney по праву находятся в топе поиска Яндекс и Гугл, но не ждите от него обнажёнки или сцен насилия, даже мультяшного - создатели ведут строгую политику по типу генерируемого контента.
За:
- Модель хорошо распознаёт и понимает текстовые запросы - гигантский объём знаний о людях, местах, мифологических и поп-культурных образах; хорошо ориентируется в контексте
- Модель особенно хорошо создаёт фотореалистичные изображения одного или нескольких человек; генерирует пиксель-арт, дизайн логотипов, интерфейсов, текстур; позволяет создавать дизайны 2D-персонажей, изометрические иллюстрации и Paper Art
- Ультрареализм и внимание к деталям
- Хорошее распознавание текстовых запросов
- Хорошее знание западной поп-культуры и визуальных образов
- Хорошее следование визуальным стилям
- Поддерживает визуальные запросы - создание изображения на основе другого изображения, и позволяет использовать в качестве запроса визуального запроса несколько изображений
Против:
- Остались проблемы с анатомией персонажей
- Техника и архитектура все ещё неестественна
- Текстовое управление параметрами генерации
- Сложные параметрические настройки внутри текстового запроса
- Доступна только облачная инфраструктура и управление через чат-бота
- Довольно высокая стоимость подписки - тестовая подписка и базовая подписка не пригодны даже для исследования функционала проекта
- Сложности с оплатой из РФ и Белоруссии - придется покупать предоплаченные виртуальные карты, например на https://plati.market/cat/prepaid-cards/21675/
- Нет способа для локальной установки
- Жесткая цензура и баны
DALL-E 2
Ссылка: https://labs.openai.com (доступ для РФ и Белоруссии только через VPN и с зарубежной сим-картой)
Способ распространения: облачный сервис
Цена: 50 бесплатных кредитов в первый месяц, 15 кредитов восполняются каждый месяц и не переходят в следующий.
Далее $15 за каждые 115 кредитов.
Для доступа через API существует отдельный прайс-лист.
Интерфейс: web-интерфейс, API
Что умеет: генерировать изображения на основе текстовых запросов на естественном языке или на основе загруженного изображения
Разработанный некоммерческой организацией OpenAI при поддержке Microsoft сервис DALL-E изначально предоставлялся только для небольшой группы энтузиастов и получить доступ можно было только через длинную очередь желающих.
Четыре месяца назад компания открыла доступ к своему сервису для всех. По оценке компании на текущий момент сервисом пользуются миллионы людей, а затраты на облачный сервис частично покрываются за счёт подписки.
Для расшифровки текстовых запросов сервис использует модель GPT-3 с более чем 12 миллиардами параметров, что ставит его на первое место по технологичности и позволяет расшифровывать текстовые запросы на естественном языке весьма аккуратно. Что, естественно, повышает качество генерируемого изображения.
За:
- Понимает русский язык
- Наилучшее распознавание текстовых запросов среди в настоящее время
- Модель тренируется на основе 1280 токенов на изображение, что гарантирует высокое сходство генерируемых изображений с оригиналами
- Алгоритм умеет контролировать точку зрения в 3D пространстве
- Визуализация внешней и внутренней структуры объектов
- Модель умеет рисовать несколько объектов одновременно
- Модель дорисовывает изображения, исходя их контекста и может ограниченно выполнять функции 3D движка, "додумывая" недостающие детали
- При создании отражающих поверхностей - например воды, модель корректно воспроизводит отражение окружающего
- Успешно создаёт изображения для дизайна одежды и интерьеров
- Смешивает разнородные концепции
- Позволяет выполнять иллюстрации зверей в рисованном и антропоморфном стиле, успешно справляется с комбинированием различных частей животных
- При использовании исходного изображения нейросеть умеет выполнять задача по текстовому запросу, исходя из контекста исходного изображения
- Распознает географический и временной контекст запроса
- Есть API для создания интеграции с приложениями
Против:
- Остались проблемы с анатомией персонажей
- Сложно подобрать правильный запрос без предварительного тестирования - что потребует большого количества "кредитов"
- Плохое управление параметрами генерации
- Не оправдала ожидания энтузиастов
- Доступна только облачная инфраструктура
- Цена является заградительной для обычных пользователей, не являющихся энтузиастами
- Сложности с оплатой из РФ и Белоруссии - придется покупать предоплаченные виртуальные карты, например на https://plati.market/cat/prepaid-cards/21675/
- Нет способа для локальной установки
- Жесткая цензура - невозможна генерация по запросам, содержащим слова, которые система может воспринять как нарушающие правила
- Трудно добиться эстетически привлекательной фотографии:
Stable-Diffusion v2
Ссылка: https://stability.ai, https://huggingface.co/spaces/stabilityai/stable-diffusion, DreamStudio
Способ распространения: облачный сервис – https://platform.stability.ai, DreamStudio, коллабы на сторонних облачных сервисах, хостинг на сторонних сервисах, локальная установка с Git - распространяется так же в большом количестве дистрибутивов
Цена: для облачных версий уточняйте у провайдеров, в собственной бета-версии DreamStudio есть 100 бесплатных кредитов
Интерфейс: web-интерфейс, API, интерфейс командной строки, графические интерфейсы различных дистрибутивов
Что умеет:
- алгоритм Text-to-Image - генерирует изображения на основе текстовых запросов на естественном языке
- алгоритм Image-to-Image - генерирует изображение на основе загруженного изображения и дополнительного описания на естественном языке
- алгоритм Inpainting + Masking - возможность изменять определенную часть изображения путем маскирования определенной области изображения, а затем создания новых деталей на основе предоставленного запроса.
- управление нейронной сетью CLIP для улучшения визуального отображения изображения, сгенерированного на основании этого запроса
- Multi-prompting - c помощью нескольких запросов вы можете смешивать концепции, присваивая каждому запросу определенный вес
- Генерация различных вариантов изображений
- Добавление дополнительных точно настроенных моделей VAE, что бы улучшить качество генерируемого изображения
В августе 2022 года в Интернете разорвалась бомба - была опубликована первая доступная версия нейронной сети с открытым кодом и обученной моделью, успешно генерирующая фотореалистичные изображения по текстовому запросу на домашнем ПК. Три компании объединились, что бы на базе подмножества набора данных LAION создать генеративную модель глубокого обучения Stable Diffusion, использующую latent diffusion model - диффузионно-вероятностную модель с пространством скрытых переменных.
Stable Diffusion была написана на Python с использованием общедоступны библиотек и фреймворков, и, для ускорения генерации нуждалась в бюджетном потребительском видео-чипе от компании NVIDIA с объемом памяти от 8 Гб.
Первой, широко распространенной обученной моделью стала модель с индексом 1.4. Затем появилась модель с номером 1.5 и специальной моделью для inpainting - перерисовку участка изображения.
Изначально SD распространялась через недоступные для обычного пользователя способы, но энтузиасты смогли облегчить установку и настройку через установочные скрипты, появились дистрибутивы, рассчитанные на не-программистов.
Массовую популярность SD добавили новые специализированные модели, создаваемые отдельными коллективами, сообществами и простыми пользователями. Такие модели, как Waifu Diffusion, NovelAI, Anything V3 - оказались специально направлены на генерацию изображений, стилизованных под мангу и аниме.
Возможность прямого доступа к коду сделало цензуру невозможной и появились сообщества, посвященные генерации NSFW изображений. В настоящий момент разворачивается финансовая поддержка проекта Unstable Diffusion, направленного на "исправление" SD v2, в которой создатели использовали принципиально иной подход, что бы ограничить генерацию нежелательного контента.
Самые популярные проекты, разработанные на базе SD и выстрелившие в этом году:
- коммерческий облачный сервис NovelAI - https://novelai.net/
- дистрибутив от AUTOMATIC1111 stable-diffusion-webui - https://github.com/AUTOMATIC1111/stable-diffusion-webui
- дистрибутив InvokeAI - https://github.com/invoke-ai/InvokeAI
- дистрибутив NKMD - https://nmkd.itch.io/t2i-gui
Вышедшая относительно недавно вторая версия обученной модели SD v2 породила немало толков в сообществе, так как авторы взяли другой набор для обучения от OpenAI и пообещали принципиально иное качество изображения. К сожалению, смена тренировочного набора и поспешный выпуск обновления не вызвал такого же фурора, как и версия 1.4. Завышенные ожидания пользователей оказались не удовлетворены, а дрейф в сторону более строгой цензуры тренировочных изображений вызвал резонное беспокойство в качестве получающегося инструменты - сторонники либерального подхода аппелировали, что запрет тренировок на человеческой анатомии скажется на качестве генерируемого контента вообще.
Относительно низкое качество распознавания текстовых запросов, вызванное снижением требований к памяти и быстродействию GPU, что бы нейронная сеть стабильно и быстро работала на потребительском железе, не дала продукту стать признанным лидером среди генеративных нейросетей.
Открытость кода вызвала всплеск энтузиазма среди разработчиков, и невиданную активность по добавлению новых фич в продукт, что даёт основание надеятся на продуктивность такого подхода при невысоких показателях качества генерируемого контента. Тут, как говорится, количество побеждает!
За:
- Проект с открытым исходным кодом и свободно распространяемыми моделями позволяет модернизировать алгоритмы, интерфейсы и добавлять новые функции независимо от компании-разработчика
- Получил широкое распространение и, как следствие, поддержку от различных сообществ - можно всегда получить помощь, скачать новые модели
- Работает на вашем домашнем ПК или MacBook абсолютно бесплатно
- Приемлемое качество генерации изображений
- Низкий порог вхождения
- Отсутсвие ограничений на генерируемый контент
- Высокая скорость работы - за счет качества
- Низкие системные требования
- Возможность дообучения на своих наборах изображений
- Есть плагины для Krita - графического редактора с открытым исходным кодом
- Наличие большого количества дистрибутивов
Против:
- Низкое качество текстовой модели - для ускорения работы на потребительском железе используется модель распознавания естественного языка с менее чем миллиардом параметров
- Проблемы с анатомическим строением генерируемых персонажей - анатомия не самая сильная сторона текущих моделей
- Плохая работа с деталями, архитектурой, техникой, одеждой
- Попытка компании-разработчика ввести цензуру набора для обучения обернулась проблемами с качеством модели 2-ой версии
- За счет серьёзных технических изменения обученной модели 2-ой версии различные варианты дистрибутивов получили проблемы с внедрением изменений и могут не поддерживать работу с ней
- Коммерциализация проекта негативным образом сказалась на политике компании, которая вызывает всё больше вопросов у сообщества, использующего и поддерживающего проект - происходит сегрегация сообщества и падение интереса к продукту
- Страх компании-разработчика потерять инвестиции или получить судебные преследования негативно влияет на качество проекта
Заключение
2022 год ознаменовался началом широкого доступа к деятельности генеративных нейросетей и, фактически, гонкой вооружений и денежных вливаний. Почуявшие фантастические перспективы инвесторы вкладывают в эти и другие проекты огромные ресурсы только лишь под туманные обещания создателей, и мы, весьма вероятно, наблюдаем очередной бум или пузырь.
Следующий год покажет способность данных проектов приносить прибыль, а так же принесет новые проблемы в мир законодательства об авторском праве.
Ну конечно, все это подтолкнет очередной виток развития компьютерного железа, что только на руку ИТ-гигантам.
Подписывайтесь на канал и ставьте лайк - следующая статья о нейросетях семейства GPT и перспективах их развития и применения!