Найти тему

Apple представляет открытый ИИ-редактор изображений MGIE: творите фотомагию словами!

Оглавление

Apple немного отставала в сфере генеративного ИИ, за исключением нескольких небольших функций, добавленных в iOS 17. Однако 2024 год обещает стать годом прорыва Apple в области искусственного интеллекта. Все взгляды прикованы к iOS 18, которая должна быть насыщена функциями ИИ, включая обновленную Siri.

В преддверии этого релиза исследователи Apple в партнерстве с Калифорнийским университетом в Санта-Барбаре представили открытую ИИ-модель, понимающую естественные языковые инструкции. Проще говоря, вы говорите ИИ что-то сделать с фото, и он это выполнит.

Что такое редактор изображений MGIE от Apple?

-2

Эта новая ИИ-модель под названием "MGIE" (MLLM-Guided Image Editing) принимает стандартные команды пользователя для достижения трех различных целей редактирования: "модификация в стиле Photoshop, глобальная оптимизация фото и локальное редактирование".

Модификация в стиле Photoshop включает такие действия, как кадрирование, поворот и изменение фона; глобальная оптимизация фото включает настройку эффектов для всего изображения, включая яркость, контрастность или резкость; локальное редактирование влияет на определенные области изображения, такие как его форма, размер и цвет.

MGIE в основном работает на базе MLLM (многомодальной большой языковой модели), которая является своего рода LLM, способной интерпретировать визуальные данные и звуки, помимо текста. В данном случае MLLM используется для принятия пользовательских команд и их интерпретации в качестве правильных инструкций для редактирования. В исследовательской статье MGIE объясняется, насколько сложной является эта задача, поскольку пользовательские команды часто могут быть слишком расплывчатыми, чтобы система могла правильно понять их без дополнительного контекста. (Что, по мнению программы, означает "сделать пиццу более здоровой"?) Однако исследователи утверждают, что MLLM, подобные MGIE, эффективны в данном случае.

Согласно исследовательской статье, MGIE способен выполнять множество различных визуальных редактирований. Вы можете попросить его добавить молнию к изображению водоема и сделать так, чтобы вода отражала эту молнию; удалить объект на заднем плане изображения, например, человека, случайно попавшего в кадр; превращать одни вещи в другие, например, тарелку пончиков в пиццу; усилить фокус на размытом объекте; удалить текст с красивого фото и многое другое.

Вы можете получить представление о том, как будет работать технология, изучив полную исследовательскую статью, которая включает примеры работы редактора; она доступна здесь.

Конечно, это не первое применение ИИ в редактировании фотографий. Photoshop уже давно оснащен множеством инструментов редактирования с использованием ИИ, в том числе генерируемых по запросам пользователей. Но MGIE, возможно, является самой реализованной на сегодняшний день концепцией редактора изображений на основе команд.

Как попробовать редактор изображений MGIE от Apple самостоятельно?

-3

Поскольку модель является открытой, любой может загрузить ее и интегрировать со своими собственными инструментами. Однако, если вы, как и я, не знаете, с чего начать, вы можете попробовать эту демо-версию, предоставленную одним из исследователей проекта. Вы можете загрузить изображение, которое хотите отредактировать, ввести команду и затем обработать ее.

Однако на данный момент в демо-версии накопилась довольно большая очередь запросов. На данный момент я являюсь одним из 237 человек в очереди, которая, по моим представлениям, может расти по мере того, как все больше людей захотят попробовать модель.

Неясно, интегрирует ли Apple MGIE в свои собственные платформы и каким образом. Но если и есть год, когда компания могла бы это сделать, то это определенно 2024 год.