С помощью мультимодальной языковой модели можно вести визуальный диалог и быстро распознавать изображения по картинкам. Институт AIRI презентовал OmniFusion 1.1. Эксперты называют ее передовой разработкой, ведь ранее в стране не было таких качественных мультимодальных моделей. Разработчики планируют усовершенствовать модель, и скоро она будет взаимодействовать с аудиозаписями, видеоконтентом. AIRI подчеркивает, что исходный код для обучения находится в открытом доступе для всех желающих. Разработчики отметили, с помощью языковой модели, поддерживающей русский язык, можно легко выяснить, что изображено на том или ином снимке, записать рецепт понравившихся блюд и приготовить их самостоятельно, следуя пошаговой инструкции, сделать анализ оборудования и многое другое. Качество работы нейросети, которая приносит высокие результаты, было оценено известными бенчмарками. Языковая модель работает без сбоев. Она не только распознает изображения, но и решает логические задачи. В ее базу заложена