928 подписчиков

Представлена российская нейросеть OmniFusion 1.1

12 апреля 202412 апр 2024

1 мин

С помощью мультимодальной языковой модели можно вести визуальный диалог и быстро распознавать изображения по картинкам. Институт AIRI презентовал OmniFusion 1.1. Эксперты называют ее передовой разработкой, ведь ранее в стране не было таких качественных мультимодальных моделей. Разработчики планируют усовершенствовать модель, и скоро она будет взаимодействовать с аудиозаписями, видеоконтентом. AIRI подчеркивает, что исходный код для обучения находится в открытом доступе для всех желающих. Разработчики отметили, с помощью языковой модели, поддерживающей русский язык, можно легко выяснить, что изображено на том или ином снимке, записать рецепт понравившихся блюд и приготовить их самостоятельно, следуя пошаговой инструкции, сделать анализ оборудования и многое другое. Качество работы нейросети, которая приносит высокие результаты, было оценено известными бенчмарками. Языковая модель работает без сбоев. Она не только распознает изображения, но и решает логические задачи. В ее базу заложена

С помощью мультимодальной языковой модели можно вести визуальный диалог и быстро распознавать изображения по картинкам.

Институт AIRI презентовал OmniFusion 1.1. Эксперты называют ее передовой разработкой, ведь ранее в стране не было таких качественных мультимодальных моделей. Разработчики планируют усовершенствовать модель, и скоро она будет взаимодействовать с аудиозаписями, видеоконтентом. AIRI подчеркивает, что исходный код для обучения находится в открытом доступе для всех желающих.

Разработчики отметили, с помощью языковой модели, поддерживающей русский язык, можно легко выяснить, что изображено на том или ином снимке, записать рецепт понравившихся блюд и приготовить их самостоятельно, следуя пошаговой инструкции, сделать анализ оборудования и многое другое. Качество работы нейросети, которая приносит высокие результаты, было оценено известными бенчмарками. Языковая модель работает без сбоев. Она не только распознает изображения, но и решает логические задачи. В ее базу заложена методика сочетания большой языковой модели, прошедшей обучение, и визуальных энкодеров. Это позволяет кодировать информацию в числовой вектор. Важно, чтобы изображения были четкими, иначе система не сможет понять, что точно на нем находится, и может выдать ошибку.

Гаджеты и электроника

5,73 млн интересуются