Сбер представил нейросеть Kandinsky 3.0 — новейшую диффузионную модель для создания изображений по текстовым описаниям. Над продуктом работали в течении года, параллельно с работой по улучшению версий Kandinsky 2.1 и 2.2. Команда Сбера провела исследования различных архитектур и обработала большое количество данных, чтобы повысить уровень понимания текста и качество генераций. Кроме того, новая модель ИИ теперь лучше разбирается в российском и советском культурном контексте (как и YandexArt). Далее подробно рассказываем о том, как работает Kandinsky 3.0 и как им пользоваться. Как создавать картинки в Kandinsky 3.0 по текстовому описанию В Kandinsky 3.0 изображение создается прямо из кодированных токенов текста. Это упрощает процесс обучения, так как нужно тренировать только один компонент модели (Decoder). Это также повышает качество понимания текста, потому что предыдущая модель обучался на довольно простых текстах, которые сильно отличаются от естественного языка, в отличии от новой