Найти тему
OVERCLOCKERS.RU

В Apple рассказали о достижениях модели искусственного интеллекта MM1

Исследователи Apple поделились своей работой по созданию мультимодальной модели большого языка (LLM) для искусственного интеллекта (AI) в подготовленном к печати документе. В опубликованном на онлайн-портале 14 марта документе рассказывается о том, как удалось реализовать расширенные возможности мультимодальности и заставить базовую модель работать как с текстовыми данными, так и с изображениями. Новые достижения в области искусственного интеллекта для технологического гиганта из Купертино появились после замечаний генерального директора Тима Кука, сделанных во время телефонных переговоров компании, в ходе которых он сказал, что функции искусственного интеллекта могут появиться позже в этом году.

Предварительная версия исследовательского документа опубликована на arXiv, онлайн-хранилище научных работ с открытым доступом.

По словам исследователей, они работают над MM1, семейством мультимодальных моделей, содержащих до 30 миллиардов параметров. Назвав его “высокопроизводительным мультимодальным LLM" (MLLM), авторы статьи подчеркнули, что кодировщики изображений и другие компоненты архитектуры, а также выбор данных были сделаны для создания модели искусственного интеллекта, которая способна понимать как текст, так и входные данные на основе изображений.

Приводя пример, в документе говорится:

Мы демонстрируем, что при крупномасштабном мультимодальном предварительном обучении тщательное сочетание подписи к изображению, чередования текста к изображению и данных только для текста имеет решающее значение для достижения самых современных результатов (SOTA) в нескольких тестах по сравнению с другими опубликованными результатами предварительного обучения.

В настоящее время модель искусственного интеллекта находится на этапе предварительной подготовки, что означает, что она недостаточно подготовлена для получения желаемых результатов. На этом этапе алгоритм и архитектура искусственного интеллекта используются для разработки рабочего процесса модели и того, как она в конечном итоге обрабатывает данные. Команда исследователей Apple смогла добавить в модель компьютерное зрение с помощью кодеров изображений. Затем, при тестировании с использованием только изображений и текста, а также набора данных только для текста, команда обнаружила, что результаты были конкурентоспособными по сравнению с существующими моделями на том же этапе.