5942 подписчика
#ии
Научно-исследовательский институт ИИ (AIRI) представил открытую версию модели OmniFusion – OmniFusion 1.1
На апрель 2024 г. открытый исходный код для обучения и веса доступны к использованию и могут быть применены в том числе при разработке коммерческих продуктов
OmniFusion — это передовая мультимодальная модель ИИ, предназначенная для расширения возможностей традиционных систем обработки языка за счет интеграции дополнительных модальностей данных, например, изображений, а в перспективе – аудио, 3D- и видеоконтента
На середину апреля 2024 г. модель распознает и описывает изображения
С ее помощью можно объяснить, что изображено на фото, узнать рецепт для приготовления блюда по фотографии ингредиентов, проанализировать карту помещения или узнать, как собрать устройство по фото отдельных его частей
Модель также умеет распознавать текст и решать задачи
На 10 апреля 2024 г. модель может проанализировать медицинское изображение и указать на нем какую-то проблему
Разумеется, для того, чтобы подобная модель помогала ставить диагнозы, ее необходимо дополнительно обучать на профильных датасетах с привлечением экспертов из медицины
Каждый эксперт является профессором медицины или хирургии с постоянной практикой, сертификатом Совета директоров и безупречными полномочиями
В случае же, если обучение будет через информацию из поисковых систем, то результат может быть вредным для будущих пользователей ИИ-моделью
В основе архитектуры модели лежит методика совмещения предварительно обученной большой языковой модели и ее «глаз» – визуальных энкодеров, которые позволяют кодировать информацию на изображении в числовой вектор, называемый эмбеддингом
Обучением OmniFusion занимается научная группа FusionBrain из AIRI при участии ученых из Sber AI и SberDevices
@imaxai Подписаться
1 минута
11 апреля 2024