Openai amplió el miércoles el acceso a su última tecnología de generación de imágenes, lo que hace que el modelo se conozca como”GPT-Image-1″disponible a través de su interfaz de programación de aplicaciones (API).

Este movimiento permite a los desarrolladores integrar las herramientas de creación y edición de imágenes basadas en GPT-4O, previamente en chatgpt a fines de marzo, en sus propias aplicaciones y servicios. La API proporciona capacidades para producir imágenes fotorrealistas, aprovechar el conocimiento mundial, seguir las pautas personalizadas, controlar los estilos, hacer texto dentro de las imágenes y realizar ajustes interactivos.

Según el anuncio inicial de OpenAI sobre la tecnología subyacente,”4O Generation es un nuevo enfoque de generación de imágenes significativamente capaz que nuestro enfoque de generación de imágenes anterior. Tome imágenes como entradas y transformarlas”. 1535 × 1024 (paisaje). Las opciones de salida incluyen formatos JPEG o webp, junto con soporte para la transparencia.

El modelo opera multimodalmente, procesando texto e imágenes proporcionadas en secuencia, una capacidad OpenAI describe en

Esto permite tareas de edición complejas, como la modificación de las imágenes existentes basadas en la imagen original y un nuevo mensaje de texto, o utilizando técnicas de”enmascaramiento”para alterar regiones específicas mientras deja otras no tocadas. Images API (with support in the Responses API coming soon), allowing developers and businesses to easily integrate high-quality image creation into apps and tools, with usage priced per token… pic.twitter.com/hdr1MYrLr2

— Tibor Blaho (@btibor91) 23 de abril, 2025

que abordan las preocupaciones sobre el origen y el uso indebido potencial de las imágenes generadas por la IA, OpenAI está incrustando C2PA (Coalición para la procedencia de contenido y la autenticidad) metadatos en cada imagen creada a través de la API de IMAGE-1 GPT-IMAGE-1. Este estándar de marca de agua digital tiene como objetivo identificar el contenido como generado por IA en plataformas que lo admiten. El uso de C2PA de OpenAI comenzó a principios de 2024 con Dall · E 3, y la compañía reforzó su compromiso al unirse al comité de dirección C2PA en mayo 2024 .

Comprometido por manipulaciones simples como cultivo o capturas de pantalla, una limitación reconocida en la industria y destacada por la investigación sobre vulnerabilidades de marca de agua.

Más allá de la marca de agua, la API incluye filtros de moderación de contenido diseñados para bloquear las solicitudes que incumplen las políticas de OpenAi, con los desarrolladores capaces de los desarrolladores capaces de elegir estándar (“Auto”) o menos restrictivo (“bajo”) Sensitividad. Confirmó que las indicaciones e imágenes del cliente enviadas a través de la API no se utilizan para capacitar a sus modelos, abordando una preocupación clave de privacidad de datos para los desarrolladores. La compañía mantiene su política contra imitar directamente los estilos de artistas vivos.

Este enfoque se alinea con los esfuerzos más amplios de la industria, incluido el apoyo de OpenAI, Microsoft y Adobe para una legislación como el proyecto de ley AB 3211 de California que propone el contenido de IA obligatorio. Implica costos basados ​​en el uso de tokens: $ 5 por millón para tokens de texto de entrada, $ 10 por millón para tokens de imagen de entrada y $ 40 por millón para tokens de imagen de salida. Esto se traduce en aproximadamente 2 a 19 centavos por imagen generada, dependiendo del nivel de calidad elegido. Es posible que algunas organizaciones necesiten completar un proceso de verificación de identificación con OpenAI antes de obtener acceso a la API.

Si bien es potente, el modelo no es instantáneo; Las indicaciones complejas pueden tardar hasta dos minutos en procesarse. Además, si bien la representación de texto se mejora con las versiones anteriores de Dall-E, las notas de documentación de OpenAI notas posibles inconsistencias en la colocación de texto precisa y el mantenimiento de la coherencia visual para elementos como los caracteres o logotipos en múltiples generaciones.

El modelo GPT-IMage-1 es accesible a través de la API directa de OpenAI y Servicio Azure OpenAI de Microsoft , específicamente a través de Azure Ai Foundry Play Ground. La plataforma Azure agrega sus propias capas de seguridad específicas como controles de seguridad de contenido y monitoreo de abuso sobre las medidas de referencia de OpenAI. Los desarrolladores que prueban la tecnología deben tener en cuenta que el uso de la obra de imagen de imagen basada en la web de OpenAI aún incurre en los costos de uso de API.

casos de uso temprano y contexto

La versión de la API sigue a una participación sustancial del usuario cuando las herramientas se integraron por primera vez en ChatGPT. Operai informó que más de 130 millones de usuarios de CHATGPT generaron más de 700 millones de imágenes dentro de la primera semana de la disponibilidad de la función, inicialmente ganando atención para producir fotos de estilo Ghibli y cifras de acción de IA.

Al abrir API Access, OpenAI permite a los desarrolladores construir aplicaciones que compensan directamente con las herramientas de imagen de IA existentes de las compañías de MidJourney, ADOBE (Firfly), y estabilidades directamente con las competas o supemles con las herramientas de imágenes de IA existentes de las compañías de MidJourney, ADOBE (Firfly), y setsel.

Varias compañías, incluidas Adobe, AirTable, Canva, Figma, GoDaddy, Instacart y Wix, fueron nombradas por OpenAI como ya experimentando o integrando la API GPT-IMage-1. Los ejemplos citados incluyen Figma que incrusta las herramientas en su plataforma de diseño e Instacart Prueba de la generación de imágenes para ayudas visuales en recetas y listas de compras.

Categories: IT Info