160 подписчиков

🍌 Pico-Banana-400K: как Apple обучает ИИ понимать человеческие правки

27 октября27 окт

3 мин

Оглавление

🧩 Что внутри Pico-Banana-400K
🎨 Масштаб и структура
⚙️ Техническая кухня

Apple тихо, без пресс-релизов, выложила на GitHub один из самых интересных наборов данных 2025 года — Pico-Banana-400K.
Это почти 400 000 пар “изображение — текст — редактированная версия”, созданных специально для обучения моделей редактирования картинок по текстовым инструкциям.
Звучит просто, но на деле — это огромный шаг к “интерактивным Photoshop-ам будущего”, где не нужно трогать слои и маски: достаточно сказать «Сделай вечернее освещение и убери туристов», и ИИ всё поймёт.

🧩 Что внутри Pico-Banana-400K

Набор данных устроен как многоуровневая лаборатория для машинного зрения.

📸 Изображения: взяты из Open Images — крупнейшего открытого фотобанка, охватывающего сотни сюжетов и объектов.
🗣️ Инструкции: сгенерированы моделью Gemini 2.5 Flash — короткие, естественные и “человеческие”:

«Поменяй красную машину на синюю»,
«Добавь солнечный свет из окна»,
«Сделай стиль в духе Ван Гога».

🧠 Редактирование: выполнено моделью Nano-Banana — внутренней экспериментальной системой Apple для контекстного редактирования изображений.
🤖 Проверка: каждое изменение проходит автоматическую оценку моделью Gemini 2.5 Pro — она выставляет баллы по критериям:

🎯 соответствие инструкции (40 %)
🌄 реалистичность результата (25 %)
🧩 сохранение исходных деталей (20 %)
🔍 техническое качество (15 %)

Только правки, набравшие более 0.7, попадают в основной корпус. Остальные (~56 тыс.) сохраняются как “неудачные” для обучения моделей предпочтений (preference learning).

🎨 Масштаб и структура

📦 Всего: около 400 000 примеров, разделённых на три части:

🍏 257 тыс. успешных одношаговых правок
🍋 56 тыс. неудачных (для RLHF / preference-tuning)
🍇 72 тыс. многошаговых диалогов между человеком и моделью

🧭 Покрыто 35 типов правок в 8 семантических категориях:
🧍‍♂️ человек-центричные (смена выражения лица, одежды)
🧺 объектные (добавить, удалить, заменить предмет)
🌆 композиция сцены
🎨 стилизация (Van Gogh, неон, комикс)
🔤 работа с текстом и символами
💡 тон и цвет
🔭 масштаб и перспектива
🧱 пространственная компоновка (outpainting, расширение фона)

⚙️ Техническая кухня

Создание Pico-Banana-400K — это автоматизированный конвейер Apple, демонстрирующий новый стандарт в data-engineering:

🪄 Шаг 1. Генерация инструкций.
Gemini-Flash пишет короткие, осмысленные фразы, “заземлённые” на визуальном содержимом.

🧠 Шаг 2. Выполнение правки.
Nano-Banana делает изменения с разрешением 512–1024 px, сохраняя реализм.

🧮 Шаг 3. Самооценка качества.
Gemini-Pro анализирует результат по многокритериальной схеме и формирует метаданные для фильтрации.

⚙️ Шаг 4. Финальная аннотация.
Отобранные пары записываются в JSONL-формате и разделяются на SFT / Preference / Multi-Turn части для разных типов обучения.

Вся сборка укладывается в двухступенчатый пайплайн, сочетающий три модальности — текст, изображение и правку.

🧬 Почему это важно

Модели редактирования вроде InstructPix2Pix, SDEdit и Emu Edit уже умеют “понимать” короткие запросы, но им не хватает масштабных, чистых и структурированных данных.
Pico-Banana-400K впервые предлагает:
💡 реалистичные инструкции, а не синтетические описания;
📸 правки, проверенные на соответствие смыслу;
🔍 отрицательные примеры для обучения предпочтений — то, чего обычно не хватает датасетам.

Это делает набор идеальным для fine-tuning мультимодальных моделей вроде Gemini, GPT-Vision, Claude 3 Opus, LLaVA-1.6, а также для RLHF-обучения систем визуального диалога.

🍏 Apple и открытая наука

Удивительно видеть от Apple — компании, традиционно закрытой — релиз под лицензией CC BY-NC-ND 4.0.
Это означает:

✅ можно использовать в исследованиях,
❌ нельзя в коммерции и нельзя модифицировать.

Такой шаг выглядит стратегическим: Apple укрепляет свой имидж “этичного участника open AI”, поставляя академически ценный материал без риска утечки коммерческих активов.

🧭 Моё мнение

Pico-Banana-400K — это не просто датасет, а шаг к “редактору будущего”, где ИИ и человек общаются на одном визуально-семантическом языке.
Вместо инструментов — диалог. Вместо ползунков — намерение.

Иронично, что “банановый” набор стал самым зрелым плодом open-инициативы Apple.
Если Nano-Banana — внутренний эксперимент компании, то этот релиз показывает:

Apple наконец-то поняла, что экосистема ИИ требует не магии, а данных.

🔗 Источники

✍️ Авторский комментарий:

Когда-нибудь мы перестанем говорить “открой Photoshop”, а просто скажем “убери шум из окна”.
И если всё пойдёт по банановому плану Apple, машина поймёт нас с полуслова.