«Сбер» создал мультимодальную нейросеть ruDALL-E, которая генерирует картинки по описанию на русском языке. Нейросеть одновременно обучается на двух видах данных — картинках и текстах, и позволяет создавать неограниченное число новых изображений.
Напомним, недавно вр. и. о. начальника Главного управления научно-исследовательской деятельности и технологического сопровождения передовых технологий Минобороны Александр Осадчук заявил, что в Российской Федерации нужно обеспечить гарантированный контроль разработок самообучающихся технологий на основе искусственного интеллекта, и это может сделать только государство.Создание изображений при помощи ruDALL-E происходит в три этапа: сначала одна нейросеть принимает текст на вход и генерирует заданное число картинок, затем следующая выбирает, какие из них наиболее удачны и максимально соответствуют описанию, а третья увеличивает их в размере без потери качества, сообщает TelecomDaily.
Продукт может быть использован для создания вариантов дизайна интерьера, стоковых изображений или векторных иллюстраций, материалов для рекламы, копирайтинга, архитектурного и промышленного дизайна. Сейчас модель ruDALL-E XL можно загрузить с сервиса Github. Вскоре все версии сервиса будут доступны на платформе ML Space в хабе предобученных моделей и датасетов DataHub от SberCloud.
«Генерация изображений закрывает две важных потребности современного бизнеса — возможность получить уникальную картинку под собственное описание, а также в любой момент создавать необходимое количество licence-free-иллюстраций, - говорит руководитель блока «Технологии» банка Давид Рафаловский. - При этом создание «мультимодальных» нейронных сетей, которые обучаются сразу на нескольких видах данных, даже сейчас, в эпоху big data и огромных возможностей поиска, будет очень востребованным, поскольку решает задачи на принципиально ином уровне. Технология пока совсем новая, первые шаги в этом направлении были сделаны только в 2020 году».