Apple komt met Pico-Banana-400K om AI-makers op weg te helpen
In dit artikel:
Apple heeft recent een grote, vrij beschikbare dataset voor tekstgestuurde beeldbewerking vrijgegeven: Pico-Banana-400K. De verzameling telt 400.000 beelden en is bedoeld als onderzoeksmateriaal voor het trainen en evalueren van beeldbewerkingsmodellen, niet als productconcurrent van Google. De dataset is gebaseerd op Google’s Gemini‑2.5-technologie en is via GitHub beschikbaar gesteld onder de voorwaarde dat de beelden niet commercieel gebruikt worden.
De aanleiding was volgens de onderzoekers dat open onderzoek wordt belemmerd door het gebrek aan grootschalige, kwalitatieve en volledig deelbare bewerkingsdatasets; bestaande sets zijn vaak synthetisch, proprietary of kleinschalig en vertonen domeinverschillen, ongebalanceerde bewerkingstypes en inconsistentie in kwaliteitscontrole. Om dat te verbeteren koos Apple echte foto’s uit OpenImages (mensen, objecten, tekst) en formuleerde 35 bewerkingstypen, gegroepeerd in acht categorieën (bijv. focus op mensen, objecten of zoom).
In het productiewerk werden afbeeldingen met prompts in Nano‑Banana geplaatst en de gegenereerde resultaten door Gemini‑2.5‑Pro geanalyseerd en goed- of afgekeurd op naleving van de instructies. Het uiteindelijke datasetresultaat, Pico‑Banana‑400K, dient als referentie en trainingsbasis voor nieuwe beeldbewerkingsmodellen en moet onderzoekers helpen robuustere en reproduceerbare methoden te ontwikkelen.