Два года назад Сбер впервые презентовал широкой аудитории собственную нейросеть Kandinsky для генерации изображений по текстовому описанию на русском языке. Её разработала объединённая команда исследователей и инженеров из Sber AI и SberDevices при поддержке учёных из Института AIRI.
Kandinsky стал продолжением нейросети ruDALL-E, представленной 2 ноября 2021 года. Тогда это была одна из первых в мире моделей генерации изображений по тексту. Сбер дообучил эту модель на 200 млн качественных изображений, снабжённых текстовыми русскоязычными описаниями. Улучшенную нейросеть назвали в честь известного русского художника-абстракциониста и теоретика изобразительного искусства Василия Кандинского.
На текущий момент линейка Kandinsky представлена тремя семействами моделей генерации изображений по тексту и отражает прогресс по созданию и обучению такого рода моделей в мире: это авторегрессионные трансформерные модели ruDALL-E и Kandinsky 1.0, диффузионные модели с image prior-блоком Kandinsky