Apple тихо, без пресс-релизов, выложила на GitHub один из самых интересных наборов данных 2025 года — Pico-Banana-400K.
Это почти 400 000 пар “изображение — текст — редактированная версия”, созданных специально для обучения моделей редактирования картинок по текстовым инструкциям.
Звучит просто, но на деле — это огромный шаг к “интерактивным Photoshop-ам будущего”, где не нужно трогать слои и маски: достаточно сказать «Сделай вечернее освещение и убери туристов», и ИИ всё поймёт.
🧩 Что внутри Pico-Banana-400K
Набор данных устроен как многоуровневая лаборатория для машинного зрения.
📸 Изображения: взяты из Open Images — крупнейшего открытого фотобанка, охватывающего сотни сюжетов и объектов.
🗣️ Инструкции: сгенерированы моделью Gemini 2.5 Flash — короткие, естественные и “человеческие”:
«Поменяй красную машину на синюю»,
«Добавь солнечный свет из окна»,
«Сделай стиль в духе Ван Гога».
🧠 Редактирование: выполнено моделью Nano-Banana — внутренней экспериментальной системой Apple для контекстного редактирования изображений.
🤖 Проверка: каждое изменение проходит автоматическую оценку моделью Gemini 2.5 Pro — она выставляет баллы по критериям:
- 🎯 соответствие инструкции (40 %)
- 🌄 реалистичность результата (25 %)
- 🧩 сохранение исходных деталей (20 %)
- 🔍 техническое качество (15 %)
Только правки, набравшие более 0.7, попадают в основной корпус. Остальные (~56 тыс.) сохраняются как “неудачные” для обучения моделей предпочтений (preference learning).
🎨 Масштаб и структура
📦 Всего: около 400 000 примеров, разделённых на три части:
- 🍏 257 тыс. успешных одношаговых правок
- 🍋 56 тыс. неудачных (для RLHF / preference-tuning)
- 🍇 72 тыс. многошаговых диалогов между человеком и моделью
🧭 Покрыто 35 типов правок в 8 семантических категориях:
🧍♂️ человек-центричные (смена выражения лица, одежды)
🧺 объектные (добавить, удалить, заменить предмет)
🌆 композиция сцены
🎨 стилизация (Van Gogh, неон, комикс)
🔤 работа с текстом и символами
💡 тон и цвет
🔭 масштаб и перспектива
🧱 пространственная компоновка (outpainting, расширение фона)
⚙️ Техническая кухня
Создание Pico-Banana-400K — это автоматизированный конвейер Apple, демонстрирующий новый стандарт в data-engineering:
🪄 Шаг 1. Генерация инструкций.
Gemini-Flash пишет короткие, осмысленные фразы, “заземлённые” на визуальном содержимом.
🧠 Шаг 2. Выполнение правки.
Nano-Banana делает изменения с разрешением 512–1024 px, сохраняя реализм.
🧮 Шаг 3. Самооценка качества.
Gemini-Pro анализирует результат по многокритериальной схеме и формирует метаданные для фильтрации.
⚙️ Шаг 4. Финальная аннотация.
Отобранные пары записываются в JSONL-формате и разделяются на SFT / Preference / Multi-Turn части для разных типов обучения.
Вся сборка укладывается в двухступенчатый пайплайн, сочетающий три модальности — текст, изображение и правку.
🧬 Почему это важно
Модели редактирования вроде InstructPix2Pix, SDEdit и Emu Edit уже умеют “понимать” короткие запросы, но им не хватает масштабных, чистых и структурированных данных.
Pico-Banana-400K впервые предлагает:
💡 реалистичные инструкции, а не синтетические описания;
📸 правки, проверенные на соответствие смыслу;
🔍 отрицательные примеры для обучения предпочтений — то, чего обычно не хватает датасетам.
Это делает набор идеальным для fine-tuning мультимодальных моделей вроде Gemini, GPT-Vision, Claude 3 Opus, LLaVA-1.6, а также для RLHF-обучения систем визуального диалога.
🍏 Apple и открытая наука
Удивительно видеть от Apple — компании, традиционно закрытой — релиз под лицензией CC BY-NC-ND 4.0.
Это означает:
- ✅ можно использовать в исследованиях,
- ❌ нельзя в коммерции и нельзя модифицировать.
Такой шаг выглядит стратегическим: Apple укрепляет свой имидж “этичного участника open AI”, поставляя академически ценный материал без риска утечки коммерческих активов.
🧭 Моё мнение
Pico-Banana-400K — это не просто датасет, а шаг к “редактору будущего”, где ИИ и человек общаются на одном визуально-семантическом языке.
Вместо инструментов — диалог. Вместо ползунков — намерение.
Иронично, что “банановый” набор стал самым зрелым плодом open-инициативы Apple.
Если Nano-Banana — внутренний эксперимент компании, то этот релиз показывает:
Apple наконец-то поняла, что экосистема ИИ требует не магии, а данных.
🔗 Источники
✍️ Авторский комментарий:
Когда-нибудь мы перестанем говорить “открой Photoshop”, а просто скажем “убери шум из окна”.
И если всё пойдёт по банановому плану Apple, машина поймёт нас с полуслова.