Найти тему
168,4 тыс подписчиков

Сбер научил нейросеть рисовать изображения по текстовому описанию на 101 языке: посмотрите, как они выглядят


Сбер представил первую российскую мультиязычную диффузионную модель для генерации изображений по текстовому описанию с 2 млрд параметров — Kandinsky 2.0 — на международной конференции по искусственному интеллекту (ИИ) Artificial Intelligence Journey. Нейросеть понимает 101 язык и знает, что в Японии национальное блюдо — суши, а в России — щи.

Нейросеть разработали и обучили исследователи Sber AI при партнёрской поддержке ученых из Института искусственного интеллекта AIRI. Для обучения использовался 1 млрд пар «текст-изображение». Увидеть, как она рисует можно уже сейчас на открытом портале FusionBrain.ai, а также на умных устройствах Сбера.

В Kandinsky 2.0 используется диффузионный подход, который позволяет синтезировать по текстовому описанию изображения, видео, 3D и аудио контент.

Модель может обрабатывать запросы на 101 языке, среди которых не только широко распространенные русский и английский, но и более редкие — например, монгольский. Причем, в одном запросе можно использовать слова на разных языках. При этом нейросеть анализирует лингвистические конструкции и понятия и создает изображения в зависимости от языка и культурной окраски. Например, на запрос «национальное блюдо» на русском языке она, скорее всего, нарисует щи, а на японском — мисо суп и суши. При этом модель может генерировать изображения в 20 стилях, среди которых ренессанс, классицизм, мультипликация, Новый год и даже хохлома.

«Наша модель позволяет за несколько секунд получить уникальную картинку под конкретную задачу и свободно распространять её без лицензии, что очень актуально для бизнеса, — отметил Александр Ведяхин, первый заместитель Председателя Правления Сбербанка. — Генеративные модели развиваются очень быстро: ещё четыре года назад даже постановку такой задачи сложно было представить, а сегодня мы имеем работающую модель, которая понимает 101 язык и рисует реалистичные изображения, которые зачастую неотличимы от тех, что создают люди».


Читайте больше новостей на @fontanka.ru
1 минута
179 читали