Исследователи Apple разработали новый мультимодальный метод быстрого обучения больших языковых моделей (LLM), который может позволить создать более гибкие и мощные системы машинного обучения и "искусственного интеллекта".

В научной статье, опубликованной компанией на исследовательском сайте arxiv.org, рассказано, что Apple использовала для обучения LLM так называемое "тщательное сочетание" изображений с подписями, чередования изображений с текстом и данных, содержащих только текст. Сочетание визуальных и языковых данных позволило моделям справиться с такими задачами, как интеллектуальное создание подписей к изображениям или вывод значений естественного языка.

В ходе исследования было установлено, что выбор кодировщика изображений и разрешение обрабатываемых им изображений оказывают значительно большее влияние на производительность, чем дизайн зрительно-языкового модуля.

В одном случае, используя модель MM1 с 30 миллиардами параметров, была обнаружена высокая способность к контекстному обучению. Это открытие означает, что система может выполнять многоступенчатые рассуждения над несколькими изображениями с небольшим количеством подсказок "цепочки мыслей".

По мнению Venturebeat, Apple продолжает свою традицию быть "быстрым последователем", а не "первопроходцем", когда речь идет о революционных технологиях. Компания находится в позиции догоняющей, но при этом большое внимание в своей работе уделяет конфиденциальности пользовательских данных — то, что у других игроков рынка не в приоритете. Для Купертино это означает дополнительные сложности, а вот как она их преодолевает нам покажет конференция разработчиков WWDC.

Исследователи Apple разработали новый мультимодальный метод быстрого обучения больших языковых моделей (LLM), который может позволить создать более гибкие и мощные системы машинного обучения и...

1 минута

18 марта 2024