Apple Intelligence вполне справляется со своими задачами, но исследователи компании считают, что могут помочь всей отрасли. Недавно они опубликовали научную работу, которая показывает, что современные ИИ обучаются на недостаточных наборах изображений. В ответ на это Apple выпустила собственный датасет, призванный решить эту проблему.
Новая исследовательская работа носит название «Pico-Banana-400K: A Large-Scale Dataset for Text-Guided Image Editing» (Pico-Banana-400K: масштабный датасет для редактирования изображений по текстовым запросам). Она сосредоточена на том, как лучше обучать AI системы редактировать изображения в соответствии с текстовыми инструкциями пользователей.
Хотя авторы признают, что текущие системы вроде GPT-4o и Nano-Banana показывают «примечательные результаты» в редактировании изображений по текстовым командам, в их работе указывается на существенное ограничение. Как отмечают исследователи Apple, «прогресс научного сообщества остаётся ограниченным отсутствием больших, высококачественных и открыто доступных датасетов, созданных на основе реальных изображений».
В ответ на эту проблему специалисты Apple представили «Pico-Banana-400K — комплексный датасет из 400 тысяч изображений для редактирования на основе инструкций». Главное, что отличает Pico-Banana-400K от предыдущих синтетических датасетов, — это систематический подход к обеспечению качества и разнообразия материалов.
Приблизительно 400 тысяч изображений в наборе данных были сделаны свободно доступными для некоммерческого использования. Они организованы в соответствии с «таксономией из 35 типов редактирования», что охватывает различные типы правок, которые пользователи обычно хотят применить к фотографиям.
К таким редактированиям относятся перемещение объектов на изображении, добавление художественных эффектов, изменение масштаба и другие операции. Исследователи Apple загружали каждое изображение из набора в Nano-Banana вместе с соответствующей текстовой командой.
Затем, используя Gemini-2.5-Pro, они анализировали полученные результаты и либо принимали, либо отклоняли их. В итоге получился Pico-Banana-400K, который включает изображения, созданные путём однооборотного редактирования (одна команда), многооборотных последовательностей редактирования (несколько итеративных команд) и пары предпочтений, сравнивающие успешные и неудачные результаты. Это позволяет моделям также учиться распознавать нежелательные результаты.
Стоит отметить, что Apple не первый раз демонстрирует серьёзный подход к исследованиям в области искусственного интеллекта. Несмотря на распространённые предположения о том, что компания отстаёт от индустрии в этом направлении, она продолжает публиковать масштабные исследовательские работы.
Отдельно стоит упомянуть, что Apple недавно, в июне 2025 года, усовершенствовала свой собственный инструмент Image Playground. Ему добавили больше стилей обработки изображений, работающих на базе технологии ChatGPT.
Такой подход компании демонстрирует стремление не только развивать собственные продукты, но и способствовать общему прогрессу в области ИИ и создания инструментов компьютерного зрения.
Ещё по теме: