Apple ha lanzado Pico-Banana-400K un conjunto de datos públicos a gran escala diseñado para avanzar en la edición de imágenes impulsada por IA. Publicada el 23 de octubre, la colección contiene casi 400.000 ediciones de imágenes de alta calidad creadas a partir de fotografías reales.
El proyecto tiene como objetivo resolver un desafío clave para los investigadores al proporcionar un recurso abierto y diverso para entrenar modelos de próxima generación.
En un movimiento notable, los investigadores de Apple utilizaron herramientas del competidor Google para crear el conjunto de datos. Aprovecharon el editor de imágenes”Nano-Banana”para generar las ediciones y el modelo Gemini 2.5 Pro para garantizar calidad y precisión. El conjunto de datos completo ya está disponible en GitHub para investigaciones no comerciales.
Un esfuerzo entre empresas para resolver un cuello de botella en la investigación
En una sorprendente muestra de En colaboración entre industrias, Apple recurrió a la tecnología de su principal rival para crear su última herramienta de investigación.
La creación del conjunto de datos Pico-Banana-400K fue impulsada por un cuello de botella persistente en el desarrollo de la IA: la ausencia de conjuntos de datos grandes, de alta calidad y de acceso abierto basados en imágenes reales. Muchos recursos existentes son completamente sintéticos, limitados en su alcance curado por humanos o construidos con modelos propietarios, lo que obstaculiza el progreso general de la comunidad.
Los investigadores de Apple afirman que su objetivo era crear una”base sólida para entrenar y comparar la próxima generación de modelos de edición de imágenes guiadas por texto”.
Según su artículo,”lo que distingue a Pico-Banana-400K de los conjuntos de datos sintéticos anteriores es nuestro enfoque sistemático hacia la calidad y la diversidad”.
El equipo obtuvo fotografías originales de la colección OpenImages y utilizó el potente modelo Nano-Banana de Google, ahora conocido oficialmente como Gemini 2.5 Flash Image, para generar una amplia gama de ediciones.
Un segundo modelo de Google, Gemini-2.5-Pro, sirvió como juez automatizado para garantizar el cumplimiento de las instrucciones y la calidad visual. Todo el proceso costó aproximadamente $100 000.
Dentro del conjunto de datos: más que solo ediciones individuales
Profundizar en la estructura del conjunto de datos revela un recurso diseñado para escenarios de investigación complejos. Aunque se llama”400K”, la colección en realidad comprende 386.000 ejemplos seleccionados organizados en una taxonomía detallada de 35 tipos de edición en ocho categorías principales.
Estos van desde simples ajustes fotométricos y de píxeles hasta complejos cambios semánticos a nivel de objeto, ediciones de composición de escenas y transformaciones estilísticas.
Su porción más grande contiene 258.000 ejemplos de un solo giro para ajustes estándar supervisados. Un segundo subconjunto proporciona 72 000 ejemplos de múltiples turnos, lo que permite investigar la edición secuencial y las modificaciones contextuales en las que un modelo debe realizar un seguimiento de los cambios en varios pasos.
Finalmente, un subconjunto de preferencias de 56 000 ejemplos incluye pares de ediciones exitosas y fallidas. Esto es crucial para la investigación de alineación y para entrenar modelos de recompensa que puedan aprender a distinguir los resultados de alta calidad de los defectuosos. Los investigadores pueden acceder al conjunto de datos completo en el portal de investigación de Apple bajo una licencia no comercial Creative Commons.
Iluminando la frontera y los fracasos de la edición con IA
Para la comunidad de investigación de IA, el lanzamiento es más que solo un nuevo conjunto de datos; es un indicador claro de dónde sobresale la tecnología y dónde aún tiene problemas.
Las métricas de rendimiento del conjunto de datos muestran que las ediciones globales y estilísticas, como aplicar un filtro antiguo o cambiar el tono general de una escena a la”hora dorada”, son altamente confiables. Sin embargo, las ediciones que requieren un control espacial preciso y una comprensión geométrica siguen siendo un desafío importante.
Tareas como reubicar un objeto dentro de una escena tuvieron una tasa de éxito inferior al 60 % y la generación de texto dentro de las imágenes fue particularmente frágil.
Esto proporciona un contexto valioso para el ferozmente competitivo mercado de imágenes de IA. El modelo subyacente Nano-Banana de Google se convirtió en el editor de imágenes mejor valorado en las tablas de clasificación públicas incluso antes de su lanzamiento oficial.
Su éxito es parte de una carrera industrial más amplia, con ByteDance lanzando su modelo Seedream 4.0 como un competidor directo y la tecnología de licencia Meta de Midjourney después de contratiempos internos.
Las capacidades dentro de estos modelos se están expandiendo rápidamente. Nicole Brichtova, líder de producto de Google DeepMind, dijo:”Estamos poniendo capacidades que solían requerir herramientas especializadas en manos de los creadores cotidianos, y ha sido inspirador ver la explosión de creatividad que esto ha provocado”.
Los primeros usuarios han elogiado la coherencia del modelo. Andrew Carr, cofundador de la startup de IA Cartwheel, lo encontró excepcionalmente capaz y afirmó:”El nuevo modelo Gemini 2.5 Flash Image fue el primero que pudo proporcionar ambas cosas”.
El lanzamiento de Apple también se está discutiendo como un excelente ejemplo de”destilación de modelos”. Este es un proceso en el que se utiliza un modelo grande y potente (Nano-Banana) para generar un conjunto de datos de entrenamiento masivo.
Luego, otros investigadores pueden usar estos datos públicos para entrenar modelos más pequeños, más eficientes y potencialmente de código abierto que imiten las capacidades del sistema propietario original. Al hacer públicos estos resultados de alta calidad, Apple está ayudando efectivamente a democratizar el acceso a la IA de última generación, fomentando un panorama de investigación más abierto y colaborativo.
“`