«Яндекс» не отстаёт от мировых IT-лидеров: за последние полгода в арсенале компании появились нейросети для генерации изображений, текстов и даже видео. Всё это объединено в приложении «Шедеврум» — о нём и поговорим.
Как устроен «Шедеврум»?
Прототип нейросети для генерации картинок по текстовым запросам заработал в апреле 2023 года. Специалисты «Яндекса» не уточняют, какая генеративная модель лежит в основе «Шедеврума», но известно, что его первую версию натренировали на 240 млн примеров изображений с текстовыми описаниями. Затем технологию обучали на наборе из 500 млн образцов.
Нейросеть работает по методу каскадной диффузии: сначала создаёт основную картинку, а затем поэтапно увеличивает их разрешение и добавляет детали. В итоге получаются четыре варианта — пользователю останется только выбрать, какой из них лучше.
«Шедеврум» со старта задумывали как сообщество: приложение позволяет не только создавать контент, но и публиковать его в общей ленте. Другие пользователи могут оценивать и комментировать чужие работы, а ещё подписываться друг на друга.
А в июне к сервису подключили ещё одну нейросеть «Яндекса» — YandexGPT. Это аналог ChatGPT, который генерирует текст при помощи собственной языковой модели YaLM 2.0. Прежде к YandexGPT можно было обратиться в рамках режима «Давай поболтаем» в помощнике «Алиса».
В конце августа «Шедеврум» научился склеивать несколько сгенерированных изображений в видеоролик. Сейчас в «Яндексе» тестируют эту функцию среди самых активных пользователей «Шедеврума», так что опробовать функцию пока не удалось.
Что умеет?
Сейчас в «Шедевруме» три основные функции:
- создание изображений по текстовому запросу;
- генерация текста и заголовка к нему;
- создание коротких роликов;
Приложение генерирует изображения формата 1024х1024 точек. Указать желаемое разрешение и соотношение сторон результата нельзя. Зато в окне ввода запроса есть подсказки для модификации стиля: например, «Реалистично», «Профессиональное фото», «В стиле Пикассо», «Яркое освещение». Они скрываются за значком вопроса.
На создание картинки обычно уходит не более минуты, хотя в пиковые периоды сервису может понадобиться больше времени. YandexGPT работает точно так же, как и в «Алисе». Только в «Шедевруме» нейросеть обязательно сопровождает текст заголовком, а ещё предлагает несколько сгенерированных иллюстраций на выбор. В итоге получается готовая публикация.
Максимальная продолжительность видео — четыре секунды с частотой 24 fps. Приложение попросит описать идею, а затем предложит четыре первых кадра на выбор. Ещё понадобится указать тип анимации, которой будут связаны оставшиеся фрагменты: есть приближение, таймлапс, полёт, панорама, вращение, подъём и постепенное изменение.
И изображения, и текст, и видео появляются в общей ленте «Шедеврума». Но контент (даже чужой) можно скачать на устройство, нажав на меню-троеточие и затем выбрав «Сохранить».
Как попробовать?
Чтобы генерировать новый контент, понадобится мобильное приложение «Шедеврум» из Google Play или App Store.
Основные севдения о приложении:
- На главной странице — лента постов других пользователей. Её можно отсортировать по дате публикации или популярности.
- Для создания учётной записи понадобится профиль «Яндекса». Без аккаунта можно только смотреть чужие посты.
- В режиме «Подписки» показываются публикации только от отслеживаемых авторов. Кнопка «Подписаться» есть прямо в постах и в профилях пользователей.
- Чтобы создать контент, нажмите на значок + в верхней части приложения, а затем выберите тип — изображение, текст или видео. В окне опишите запрос. А при генерации текста ещё можно указать жанр и желаемый стиль.
Функции соцсети — просмотр чужих постов, лайки, подписка на авторов — представлены и в виде веб-приложения, которым удобно пользоваться с компьютера.
Что получается?
«Шедеврум» неплохо справляется с генерацией изображений в абстрактном или рисованном стиле, но с реализмом проблемы — даже если задать в запросе соответствующий параметр.
Нейросеть пока проигрывает в прорисовке деталей. Не удаётся изобразить ладонь с пятью пальцами: получаются то четыре, то шесть, то семь. Надписи — тоже не сильная сторона технологии. Если в Midjourney v5 это более-менее поправили, то у «Шедеврума» ещё все впереди.
Работу YandexGPT в роли генератора текста мы подробно рассмотрели в отдельном материале о нейросети и в сравнении с Google Bard и ChatGPT.
Что в итоге?
Замах у «Шедеврума» что надо: это и социальная сеть, и нейрогенератор сразу в трёх форматах.
Если рассматривать создание изображений, то разработка «Яндекса» пока отстаёт от Kandinsky «Сбера» и уж тем более от Midjourney. Зато это чуть ли не единственный действительно широкопрофильный ИИ-сервис на российском рынке. Не хватает только генерации музыки, хотя у инженеров «Яндекса» имеются и такие наработки.