
Apple выпустила Pico-Banana-400K — тщательно отобранный набор из 400 тысяч изображений, предназначенный для обучения моделей текстового редактирования. Любопытно, что при создании Apple использовала ИИ Google Gemini-2.5. Датасет распространяется по некоммерческой лицензии и доступен всем исследователям.
Исследовательская группа Apple опубликовала работу «Pico-Banana-400K: A Large-Scale Dataset for Text-Guided Image Editing» и открыла созданный набор изображений под лицензией, разрешающей некоммерческое использование. Любой исследователь может скачать его для академической работы или тестирования моделей машинного обучения. Коммерческое применение исключено.
Основой послужил открытый набор OpenImages, из которого Apple отобрала фотографии с людьми, предметами и текстовыми сценами. Далее исследователи определили 35 типов редактирования, сгруппированных в восемь категорий — от цветовых фильтров до сложных пространственных изменений.
Примеры категорий и запросов:
Для обработки изображений Apple задействовала модель Gemini-2.5-Flash-Image, известную под кодовым именемNano-Banana. Эта система выполняла текстовые инструкции и генерировала изменённые изображения. После этого результаты проверялись более продвинутой моделью Gemini-2.5-Pro, которая анализировала качество и соответствие исходным запросам. Только одобренные варианты попадали в финальный набор.
Итогом стал датасет, включающий три типа данных:
Такая структура позволяет моделям не только учиться корректно редактировать изображения по текстовым подсказкам, но и понимать, что считать ошибкой.
В описании проекта исследователи подчёркивают, что даже передовые модели, включая Nano-Banana, пока ограничены в точном управлении композицией, масштабом и типографикой. Тем не менее, по словам Apple, Pico-Banana-400K создавался как «надёжная основа для обучения и оценки следующего поколения моделей текстового редактирования изображений«.
Рынок генеративных моделей стремительно растёт, но открытых и качественно аннотированных наборов данных для обучения почти нет. Многие существующие датасеты состоят из синтетических изображений, созданных закрытыми моделями, или слишком малых вручную отобранных выборок.
Apple указывает, что такие ограничения вызывают «смещение доменов, несбалансированное распределение типов правок и нестабильное качество данных, что мешает развитию устойчивых моделей редактирования». Pico-Banana-400K должен устранить эти проблемы.
Исследование опубликовано на arXiv, а сам набор изображений размещён в открытом доступе на GitHub.