Создавать изображения можно прямо в браузере. Чем сложнее запрос, тем лучше результат.
Разработчики нейросети Stable Diffusion, ранее доступной только в бета-версии, выложили проект в открытый доступ. Теперь пробовать сервис для преобразования текстовых запросов в изображения может любой желающий.
Проще всего протестировать Stable Diffusion на Hugging Face, но на сайте длинные очереди: один запрос обрабатывается примерно за 5 минут. Через платформу DreamStudio всё работает куда быстрее, но нужен аккаунт (авторизоваться можно через учётную запись Google или Discord).
Кроме того, в DreamStudio каждому пользователю даётся ограниченное число кредитов, которые можно тратить на генерацию. Чем больше картинок и выше разрешение, тем дороже выходит каждая итерация. Чтобы восстановить ранее сгенерированные картинки, тоже нужно тратить кредиты, так что долго развлекаться не получится.
Также проект выложили на GitHub. Пока что для работы требуется компьютер с видеокартой NVIDIA и 6,9 ГБ VRAM, в будущем планируется добавить поддержку видеочипов AMD, включая Apple M1/M2.
Насколько хорошо всё работает? Зависит от пользователя. Чем сложнее и точнее запросы, тем больше шансов на крутые результаты. Например, вот результаты по фразе «Дейенерис Таргариен в свадебном платье с драконом в стиле Альфонса Мухи»:
Это — «Волшебник Йода в киберпанк-городе».
А это — «Гарри Поттер ужасы». Пугать-то оно пугает, но совсем не так, как должно было.
Иными словами, думать вместо себя нейросеть не заставишь: для внятного результата надо самому продумать, что хочешь получить на выходе.
Stable Diffusion позволяет настраивать точность соответствия запросу, число шагов и прочие параметры. Максимально возможное разрешение — 1024 × 1024 пикселя, одновременно можно вывести до 9 картинок. Увеличивать разрешение нейросеть не умеет, для этого придётся полагаться на сторонние программы.
Если опробуете сервис, делитесь результатами в комментариях!
Читайте также 🧐