35,2 тыс подписчиков

Что может и чего не умеет ИИ «Яндекс Шедеврум», генерирующий картинки

6 апреля 20236 апр 2023

1715

1 мин

Разбираемся, как работает нейросеть для генерации картинок по текстовым запросам «Яндекс Шедеврум». Мы попросили этот ИИ нарисовать колбасу с крыльями, Дарта Вейдера, танцующего диско, кресло-авокадо и многое другое

В первый день после релиза «Шедеврум» с котом-картошкой в качестве логотипа возглавил топ-чарт российского App Store. Пользователи, зарегистрированные в «Яндексе», могут отправлять запросы на генерацию собственных картинок, а также просматривать готовые изображения по запросам других людей и лайкать понравившиеся работы в общей ленте. На этапе бета-теста генерация картинок доступна не всем, и, чтобы воспользоваться основными функциями ИИ, нужно встать в очередь, подав заявку в приложении. Тем не менее разработчики утверждают, что в будущем все зарегистрированные пользователи получат возможность создавать изображения по своим запросам.

Бета-версия приложения (0.1.4) доступна для Android и iOS. «Шедеврум» обрабатывает запросы на русском и английском языках, учитывая пожелания пользователей, такие как «фотореализм» или «высокая детализация». Нейросеть может подражать известным живописцам и работать в заданных художественных стилях.

Впрочем, у «Шедеврума» есть и ограничения. Так, у вас не получится сгенерировать следующие изображения:

содержащие отсылки к конкретным людям («потому что Шедеврум не должен никого обижать или становиться генератором дипфейков»);
связанные с политикой и религией;
относящиеся к категориям «18+»;
касающиеся жестокости и насилия.

Изображения генерируются по методу каскадной диффузии, когда сначала создается картинка в соответствии с запросом, а затем поэтапно увеличивается ее разрешение и насыщается деталями. Первая версия генеративной модели была обучена на 240 млн примеров картинок с текстовыми описаниями. Обучение продолжается на наборе данных из 500 млн примеров, что позволит улучшить качество в следующих обновлениях.

Алексей Гусаков, руководитель управления машинного интеллекта и исследований «Яндекса», подчеркнул: «Мы пока в самом начале пути. В основе «Шедеврума» прототип нейросети, которой предстоит многому научиться. К моменту финального релиза она сможет генерировать баннеры, иллюстрации, создавать изображения для интернет-витрин и не только».