Недавно нейросеть Stable Diffusion получила полноценное обновление. Расскажем, чему научился искусственный интеллект и какие функции у него появились.
Что нового
В свежем релизе Stable Diffusion 2.0 разработчик Stability AI сделал ставку на повышение качества и реалистичность. Команда добилась этого благодаря новому кодировщику OpenCLIP, разработанному совместно с LAION.
Теперь пользователям доступно сразу несколько диффузных моделей. Кроме базовой, которая по умолчанию генерирует изображения в разрешении 512×512 пикселей, появилась версия на 768×768 пикселей. Если и этого мало, модель Upscaler Diffusion может улучшать качество изображения в 4 раза и создавать оригинальные иллюстрации в сверхвысоком разрешении 2048×2048 пикселей.
Следующее существенное изменение — появление функции управления глубиной в модели Depth. По словам разработчиков, она позволяет создавать новые изображения, сохраняя глубину оригинала. Ожидается, что этот метод пригодится дизайнерам для генерации скетчей и коллажей. А версия Inpainting умеет сохранять фрагменты, формы и детали исходного изображения при перерисовке.
Особенности
После релиза в сети появились не только восторженные отзывы, но и разочарованные. Они связаны со сложностями, которые испытывают пользователи при тестировании моделей Stable Diffusion 2.0. Во-первых, стало сложнее создавать изображение, ссылаясь в текстовой подсказке на стиль конкретного автора. Не важно кем он является — классиком или современником. Нейросеть всё чаще игнорирует такие просьбы. Разработчики отмечают, что это побочный эффект изменения системы кодирования, а не попытка запретить копирование художественных стилей.
Вторая причина для беспокойства любителей Stable Diffusion — фильтр, который ограничивает появление на платформе эротического контента. Здесь мнение разработчиков более однозначное — в открытой модели не может быть детей и NSFW. Подробнее в этой статье или на странице релиза.