Она способна поддерживать визуальный диалог и отвечать на вопросы по картинкам. Институт искусственного интеллекта (ИИ) AIRI выпустил открытую версию своей мультимодальной языковой модели OmniFusion 1.1. Эта передовая разработка представляет собой первую в России языковую модель, способную вести визуальный диалог и отвечать на вопросы пользователей по картинкам. В перспективе модель сможет работать не только с картинками, но также с аудио, 3D и видеоконтентом. Открытый исходный код для обучения и ее веса модели доступны для свободного использования...
Нейросетевые генеративные модели в последние годы достигли впечатляющих результатов, однако важной задачей остается повышение эффективности их работы. Исследователям факультета компьютерных наук НИУ ВШЭ и AIRI удалось оптимизировать обучение нейросети StyleGAN2, создающей реалистичные картинки, сократив число обучаемых параметров на четыре порядка. При этом качество полученных изображений осталось высоким. Результаты работы представлены в докладе на конференции NeurIPS 2022. Современные модели умеют...