Найти тему
OVERCLOCKERS.RU

Apple показала языковую модель нового поколения, способную интерпретировать фотографии

Исследователи Apple представили MM1 - новую концепцию обучения больших языковых моделей (LLM), которые включают не только текстовую, но и визуальную информацию. В соответствии с размещенной статьей исследователей, MM1 является одной из мультимодальных моделей, которые включают в себя до 30 млрд параметров и основываются на наборе данных, содержащем пары изображение-подпись и чередующиеся документы изображение-текст.

Мультимодальные модели больших языков (MLLM), по их объяснению, представляют собой масштабные базовые модели, которые обрабатывают и изображения, и текстовые данные с целью получения текстовых выходных данных. Они отмечают, что после появления LLM, MLLM становятся следующей вехой в развитии базовых моделей.

-2

Apple заявляет, что MM1 способен распознавать объекты, определять элементы на изображениях, обладает здравым смыслом и знанием о повседневных предметах, а также может выполнить базовые математические функции. Кроме того, он поддерживает обучение в контексте, что означает, что модель не требует переобучения или точной настройки для каждого запроса, а способна понять запрос на основе предоставленного контекста. Она также может использовать технологию рассуждения на основе нескольких изображений, что позволяет ей интерпретировать несколько изображений и делать выводы на их основе.

Apple приводит пример, когда пользователь показывает модели фотографию и спрашивает, сколько нужно заплатить за все пиво на столе, исходя из цены в меню.

В ответ модель отмечает, что хотя на изображении показано меню с ценами на пиво, не совсем понятно, какие именно сорта пива представлены на столе. Однако приложение уверяет пользователя, что может дать оценку на основе видимых цен. Ее ответ: "Из меню видно, что цены на пиво следующие: Magna - 5, Medalla - 5, Heineken - 6, Presidente - 6. Предполагая, что на столе находятся по два экземпляра каждого сорта пива - Magna, Medalla, Heineken и Presidente, сумма, которую вы должны заплатить, будет составлять: 2 x Magna: 2 x 5 = 10, 2 x Medalla: 2 x 5 = 10, 2 x Heineken: 2 x 6 = 12, 2 x Presidente: 2 x 6 = в итоге 12: 10 + 10 + 12 + 12 = 44".

Модель MM1 - это только начало, как отметил старший инженер-исследователь Apple, Брэндон Маккинзи, который работает над мультимодальными моделями. Он также сообщил, что Apple уже активно занимается разработкой моделей нового поколения.