Найти тему
4pda.to

Пишет, рисует, регулярно обновляется. Что умеет нейросеть «Шедеврум» от «Яндекса»?

Оглавление
   Пишет, рисует, регулярно обновляется. Что умеет нейросеть «Шедеврум» от «Яндекса»?
Пишет, рисует, регулярно обновляется. Что умеет нейросеть «Шедеврум» от «Яндекса»?

«Яндекс» не отстаёт от мировых IT-лидеров: за последние полгода в арсенале компании появились нейросети для генерации изображений, текстов и даже видео. Всё это объединено в приложении «Шедеврум» — о нём и поговорим.

-2

Как устроен «Шедеврум»?

Прототип нейросети для генерации картинок по текстовым запросам заработал в апреле 2023 года. Специалисты «Яндекса» не уточняют, какая генеративная модель лежит в основе «Шедеврума», но известно, что его первую версию натренировали на 240 млн примеров изображений с текстовыми описаниями. Затем технологию обучали на наборе из 500 млн образцов.

Нейросеть работает по методу каскадной диффузии: сначала создаёт основную картинку, а затем поэтапно увеличивает их разрешение и добавляет детали. В итоге получаются четыре варианта — пользователю останется только выбрать, какой из них лучше.

-3

«Шедеврум» со старта задумывали как сообщество: приложение позволяет не только создавать контент, но и публиковать его в общей ленте. Другие пользователи могут оценивать и комментировать чужие работы, а ещё подписываться друг на друга.

А в июне к сервису подключили ещё одну нейросеть «Яндекса» — YandexGPT. Это аналог ChatGPT, который генерирует текст при помощи собственной языковой модели YaLM 2.0. Прежде к YandexGPT можно было обратиться в рамках режима «Давай поболтаем» в помощнике «Алиса».

В конце августа «Шедеврум» научился склеивать несколько сгенерированных изображений в видеоролик. Сейчас в «Яндексе» тестируют эту функцию среди самых активных пользователей «Шедеврума», так что опробовать функцию пока не удалось.

   Нажмите, чтобы воспроизвести GIF
Нажмите, чтобы воспроизвести GIF

Что умеет?

Сейчас в «Шедевруме» три основные функции:

  • создание изображений по текстовому запросу;
  • генерация текста и заголовка к нему;
  • создание коротких роликов;

Приложение генерирует изображения формата 1024х1024 точек. Указать желаемое разрешение и соотношение сторон результата нельзя. Зато в окне ввода запроса есть подсказки для модификации стиля: например, «Реалистично», «Профессиональное фото», «В стиле Пикассо», «Яркое освещение». Они скрываются за значком вопроса.

-5

На создание картинки обычно уходит не более минуты, хотя в пиковые периоды сервису может понадобиться больше времени. YandexGPT работает точно так же, как и в «Алисе». Только в «Шедевруме» нейросеть обязательно сопровождает текст заголовком, а ещё предлагает несколько сгенерированных иллюстраций на выбор. В итоге получается готовая публикация.

Максимальная продолжительность видео — четыре секунды с частотой 24 fps. Приложение попросит описать идею, а затем предложит четыре первых кадра на выбор. Ещё понадобится указать тип анимации, которой будут связаны оставшиеся фрагменты: есть приближение, таймлапс, полёт, панорама, вращение, подъём и постепенное изменение.

   Нажмите, чтобы воспроизвести GIF
Нажмите, чтобы воспроизвести GIF

И изображения, и текст, и видео появляются в общей ленте «Шедеврума». Но контент (даже чужой) можно скачать на устройство, нажав на меню-троеточие и затем выбрав «Сохранить».

Как попробовать?

Чтобы генерировать новый контент, понадобится мобильное приложение «Шедеврум» из Google Play или App Store.

Основные севдения о приложении:

  • На главной странице — лента постов других пользователей. Её можно отсортировать по дате публикации или популярности.
  • Для создания учётной записи понадобится профиль «Яндекса». Без аккаунта можно только смотреть чужие посты.
  • В режиме «Подписки» показываются публикации только от отслеживаемых авторов. Кнопка «Подписаться» есть прямо в постах и в профилях пользователей.
  • Чтобы создать контент, нажмите на значок + в верхней части приложения, а затем выберите тип — изображение, текст или видео. В окне опишите запрос. А при генерации текста ещё можно указать жанр и желаемый стиль.

Функции соцсети — просмотр чужих постов, лайки, подписка на авторов — представлены и в виде веб-приложения, которым удобно пользоваться с компьютера.

Что получается?

«Шедеврум» неплохо справляется с генерацией изображений в абстрактном или рисованном стиле, но с реализмом проблемы — даже если задать в запросе соответствующий параметр.

Нейросеть пока проигрывает в прорисовке деталей. Не удаётся изобразить ладонь с пятью пальцами: получаются то четыре, то шесть, то семь. Надписи — тоже не сильная сторона технологии. Если в Midjourney v5 это более-менее поправили, то у «Шедеврума» ещё все впереди.

Работу YandexGPT в роли генератора текста мы подробно рассмотрели в отдельном материале о нейросети и в сравнении с Google Bard и ChatGPT.

Что в итоге?

Замах у «Шедеврума» что надо: это и социальная сеть, и нейрогенератор сразу в трёх форматах.

Если рассматривать создание изображений, то разработка «Яндекса» пока отстаёт от Kandinsky «Сбера» и уж тем более от Midjourney. Зато это чуть ли не единственный действительно широкопрофильный ИИ-сервис на российском рынке. Не хватает только генерации музыки, хотя у инженеров «Яндекса» имеются и такие наработки.