Давненько на канале не разговаривали про нейронные сети, да и общемировой тренд на них как-то спал, после того, как ChatGPT выстрелил и на некоторое время привлек внимание к нейронкам. Тем не менее, нейронные сети предоставляют отличный инструментарий для генерации контента, как текстового, так и визуального (и дело не ограничивается только изображениями).
Этими инструментами ваш покорный слуга активно пользуется, поэтому дальше хочу рассказать про три проекта генеративных нейронных сетей, которые я использую на постоянной основе для получения различного рода изображений. Особенностью этих проектов является то, что они разработаны отечественными командами и для доступа не требуются VPN, виртуальные телефоннные номера или иностранные SIM-карты.
Нейросеть Kandinsky 2.2
Первой у нас идет нейронная сеть от Сбербанка по названием Kandinsky 2.2, названная в честь известного русского художника Василия Васильевича Кандинского. Это самая актуальная, на момент написания статьи, версия нейронной сети, хотя впервые я познакомился с ней еще на версии 2.0.
Нейронная сеть представлена двумя вариантами: веб-версия, доступная через браузер и телеграмм-бот. Отличие между версиями состоит в том, что в боте не нужно вводить капчу после отправки запроса на генерацию, к тому же бот имеет расширенный функционал: смешивание изображений, перенос стиля, поддержка нескольких вариантов изображений. Запросы для генерации можно писать, как на русском, так и на английском языке.
Ниже прикреплю пример генерации изображения по запросу "два рыцаря на кентаврах сталкиваются посреди боля битвы между армиями людей и орков".
Почему для этой нейронной сети я выбрал именно такой запрос? На мой взгляд, Кандинский 2.2 лучше справляется с генерацией того, что не связано напрямую с объектами реального мира. Что-то реально существующее нейронная сеть плохо встраивает в свои генерации, сильно искажая или вообще предлагая не то, что нужно. Также следует обратить внимание, что в случае генерации изображения через веб-версию всегда появляется сообщение о том, что полученные изображения являются собственностью ПАО СберБанк и распространяются по публичной лицензии с обязательным указанием авторства. Поэтому, полагаю, что просто так генерировать изображения для продажи на различных стоках вряд ли получится без риска получить иск от Сбера.
Нейросеть-приложение и социальная сеть Шедеврум
Следующая на очереди - нейросеть от Яндекса под названием Шедеврум, которая представлена приложением для смартфонов и веб-версией. Помимо того, что это приложение, Шедеврум является своего рода социальной сетью, где контентом выступают сгенерированные пользователями изображения. Имеется лента, где появляются самые популярные посты, причем на авторов этих генерации можно подписываться.
Доступна генерация как текста, так и изображений, но так как в рамках статьи нас интересуют изображения, то я дал Шедевруму следующий текст для генерации: "гигантский кот гуляет по центральной площади Лондона в окружении маленьких людей". После генерации нейронная сеть предлагает 4 варианта, из которых пользователь выбирает тот, который будет опубликован в его ленте.
Также можно удалить сгенерированные варианты или дать команду приложению попробовать еще раз. После публикации изображения в ленте оно станет доступным для скачивания, оценки и комментариев со стороны других авторов. Несмотря на то, что это бета-версия приложения и социальной сети, в ней уже достаточное количество пользователей, причем есть авторы, которые набирают тысячи лайков и сотни комментариев под своими постами.
В отличие от нейронной сети Кандинский 2.2, в Шедевруме лучше генерировать изображения, связанные с животным и растительным миром, так как на мой взгляд, у нейронки с ними получается лучше всего работать. Генерация людей хоть и находится на приемлимом уровне, но все равно лица и конечности бывают размазанными, а очертания тела нечеткими.
Нейронная сеть Fusion Brain
Третья нейронная сеть, с которой я познакомился относительно недавно - разработка от команды, связанной со Сбербанком (коллаб Института AIRI (научно-исследовательский институт искусственного интеллекта) и команды, создавшей нейронку Кандинский). Она представлена только веб-версией, но сделана она так, что без проблем открывается и работает на любых устройствах (ноутбуки, планшеты, смартфоны).
Интерфейс веб-версии прост до нельзя: поле для ввода описания для генерации, выбор формата сгенерированного изображения, настройки стиля и немного инструментов для работы с полученными изображениями. Для демонстрации работы этой нейронной сети я написал следующий текст: "два человека гуляют по набережной океана в тот момент, когда на горизонте видно цунами".
Такой запрос сформирован не просто так, как вы догадались. Именно с гуманоидными персонажами нейронная сеть, на мой взгляд справляется лучше всего. Полученное изображение можно сразу скачать, либо предварительно его подредактировать (например, обрезать до нужного ракурса).
Подведем итоги
Указанные три нейронных сетей использую практически каждый день для генерации изображений, которые использую в Дзене, Телеграмме и для других потребностей. Какие преимущества у этих вариантов?
- Они разработаны отечественными командами, поэтому никаких блокировок доступа
- Они доступны сразу без необходимости использовать VPN, иностранные или виртуальные сим-карты / телефонные номера
- Они бесплатны и дают возможность скачать полученные изображения без всяких ограничений (например, водяных знаков, которые снимаются после приобретения платного аккаунта)
Думаю, что перечисленные мной ресурсы будут полезны создателям различного рода контента.
Напишите в комментариях, используете ли вы нейронные сети для своей работы или хобби и если да, то какие и для чего?