Компания Apple активно разрабатывает новые технологии в области генеративного искусственного интеллекта. Одним из ключевых проектов является MM1 - мультимодальная модель, способная анализировать как текстовые, так и визуальные данные.
MM1 включает в себя до 30 миллиардов параметров и использует обширный набор данных, состоящий из пар изображений и подписей, чередующихся документов с изображениями и текстом, а также текстовой информации. Подобные мультимодальные модели являются следующим этапом развития после классических моделей обработки естественного языка.
Согласно результатам исследования, MM1 демонстрирует ряд впечатляющих способностей. В частности, модель умеет подсчитывать объекты на изображении, распознавать различные части картинки, проявлять здравый смысл и контекстные знания о повседневных вещах. Также MM1 решает базовые математические задачи и способна адаптироваться к новому контексту без дополнительного обучения.Один из тестов показал, как MM1 анализирует фотографию стола в баре с разными сортами пива и меню с ценами. На основе этого модель делает логичный вывод о том, какую сумму нужно будет заплатить за все имеющиеся на столе бутылки, даже если конкретные марки пива на снимке не различимы.По словам разработчиков, MM1 - это лишь первая версия, а в Apple уже ведутся работы над моделями следующего поколения. Вскоре подобные решения могут найти применение в продуктах и сервисах компании.В частности, интеграция мультимодального ИИ может значительно расширить возможности виртуального помощника Siri, а также улучшить качество подбора ответов в приложении для обмена сообщениями iMessage. Пользователи смогут задавать Siri вопросы на основе изображений, а iMessage будет точнее предлагать варианты ответов с учетом контекста изображений в переписке.В то же время на днях появилась информация, что Apple ведет переговоры с Google о лицензировании технологии Gemini AI для новых iPhone. Это может свидетельствовать о том, что собственные разработки Apple в области генеративного ИИ пока отстают от лидеров рынка. Возможно, компания выбрала более осторожную стратегию и предпочитает немного подождать, когда рынок более четко сформируется.Тем не менее, запуск такого амбициозного проекта как MM1 показывает, что Apple серьезно нацелена на интеграцию передовых решений на основе искусственного интеллекта в свои продукты. Ближайшие год-два могут принести в этой области качественный рывок как для технологических гигантов, так и соответственно для потребителей.