Найти в Дзене
РБК Тренды

Что может и чего не умеет ИИ «Яндекс Шедеврум», генерирующий картинки

Разбираемся, как работает нейросеть для генерации картинок по текстовым запросам «Яндекс Шедеврум». Мы попросили этот ИИ нарисовать колбасу с крыльями, Дарта Вейдера, танцующего диско, кресло-авокадо и многое другое

   «Яндекс»
«Яндекс»

В первый день после релиза «Шедеврум» с котом-картошкой в качестве логотипа возглавил топ-чарт российского App Store. Пользователи, зарегистрированные в «Яндексе», могут отправлять запросы на генерацию собственных картинок, а также просматривать готовые изображения по запросам других людей и лайкать понравившиеся работы в общей ленте. На этапе бета-теста генерация картинок доступна не всем, и, чтобы воспользоваться основными функциями ИИ, нужно встать в очередь, подав заявку в приложении. Тем не менее разработчики утверждают, что в будущем все зарегистрированные пользователи получат возможность создавать изображения по своим запросам.

Бета-версия приложения (0.1.4) доступна для Android и iOS. «Шедеврум» обрабатывает запросы на русском и английском языках, учитывая пожелания пользователей, такие как «фотореализм» или «высокая детализация». Нейросеть может подражать известным живописцам и работать в заданных художественных стилях.

Впрочем, у «Шедеврума» есть и ограничения. Так, у вас не получится сгенерировать следующие изображения:

  • содержащие отсылки к конкретным людям («потому что Шедеврум не должен никого обижать или становиться генератором дипфейков»);
  • связанные с политикой и религией;
  • относящиеся к категориям «18+»;
  • касающиеся жестокости и насилия.

Изображения генерируются по методу каскадной диффузии, когда сначала создается картинка в соответствии с запросом, а затем поэтапно увеличивается ее разрешение и насыщается деталями. Первая версия генеративной модели была обучена на 240 млн примеров картинок с текстовыми описаниями. Обучение продолжается на наборе данных из 500 млн примеров, что позволит улучшить качество в следующих обновлениях.

Алексей Гусаков, руководитель управления машинного интеллекта и исследований «Яндекса», подчеркнул: «Мы пока в самом начале пути. В основе «Шедеврума» прототип нейросети, которой предстоит многому научиться. К моменту финального релиза она сможет генерировать баннеры, иллюстрации, создавать изображения для интернет-витрин и не только».

15 запросов к «Шедевруму»

В разное время суток (в зависимости от нагрузки на сервер) создание квадратного изображение занимает у нейросети от одной до трех минут.