Google está implementando un poderoso modelo de edición de imágenes para su aplicación Gemini el martes. Desarrollado por DeepMind, la actualización presenta características avanzadas diseñadas para brindar a los usuarios un control y consistencia más creativos, desafiando directamente a rivales como OpenAi y AdaBe.
La actualización tiene como objetivo resolver uno de los defectos más persistentes de AI: mantener la imagen de una persona en las ediciones. Los usuarios ahora pueden alterar atuendos o fondos sin distorsionar caras, combinar fotos en una sola escena o hacer cambios iterativos en un flujo de conversación.
Este movimiento indica la intención de Google para cerrar la brecha de usuario con los competidores. El nuevo modelo ahora está integrado en la aplicación Gemini para todos los usuarios y también está disponible para los desarrolladores a través de la API Gemini, Google AI Studio y Vertex AI, Modelo de edición de imagen mejor calificada . David Sharon, protagonista de Gemini Apps, destacó su recepción entusiasta, afirmando:”La gente ha estado yendo a las plátulas sobre él ya en las primeras vistas previas: es el modelo de edición de imágenes mejor calificado en el mundo”.
Su fortaleza principal es”consistencia de caracteres”, una característica que presenta la identidad de la identidad de una persona o una mascota a través de las principales transformaciones a través de las principales transformaciones. Esto aborda un punto de falla común para muchos modelos de IA, donde editar un fondo o un atuendo puede distorsionar sutilmente la cara de un sujeto. Con esta actualización, los usuarios pueden colocar a los sujetos en escenarios completamente nuevos: tratar de diferentes atuendos, imaginar nuevas profesiones o ver cómo aparecerían en otra década, mientras .
Más allá de mantener la imagen, el modelo presenta un conjunto de opciones creativas avanzadas. Los usuarios ahora pueden combinar varias fotos para crear una nueva escena compuesta. Por ejemplo, uno podría tomar una foto de sí mismos y otro de su perro para generar un retrato perfecto de ellos en una cancha de baloncesto. Otra característica potente permite”mezcla de diseño”, donde el estilo de una imagen se puede aplicar a un objeto en otro, como transferir el color y la textura de los pétalos de flores a un par de botas de lluvia.
La actualización también permite la edición múltiple, un proceso de conversación donde los usuarios pueden construir una imagen con indicaciones secuenciales. Uno podría comenzar con una habitación vacía, luego pedirle a Gemini que pinte las paredes, agregue una estantería, coloque un sofá y finalmente coloque una alfombra, con el modelo preservando la integridad de la escena en cada paso. Nicole Brichtova, una líder de producto en Google Deepmind, explicó que el objetivo era mejorar el control creativo, señalando:”Realmente estamos impulsando la calidad visual hacia adelante, así como la capacidad del modelo para seguir las instrucciones”.
un nuevo líder en el mercado de la imagen de IA
es una respuesta clara y calculada a un nuevo líder de la tecnología de la tecnología de la tecnología a la tecnología de la AI. creative ai. La presión se intensificó significativamente después de que Operai integró su generador de imágenes GPT-4O directamente en ChatGPT en marzo. Ese movimiento impulsó un aumento masivo en la participación del usuario, impulsado por memes virales que mostraron la potencia y la accesibilidad del modelo, estableciendo un nuevo punto de referencia para las herramientas de IA integradas.
Mientras tanto, el líder de software creativo creativo, Adobe, ha estado reforzando agresivamente su producto de buque insignia, Photoshop. Recientemente, la compañía lanzó un trío de características potentes que funcionan con fuego, que incluyen”armonizar”para que coincida automáticamente con el color y la iluminación de los objetos agregados, la”exclusiva generación”para mejorar la resolución y una”herramienta de eliminación”. Deepa Subramaniam, un vicepresidente de Adobe, dijo que este enfoque está impulsado por los comentarios de los usuarios, explicando que”estas nuevas innovaciones provienen de nuestras conversaciones en curso con la comunidad creativa, donde escuchamos cómo podemos evolucionar las herramientas en Photoshop para eliminar las barreras”. El enfoque de Google, por el contrario, se dirige a una audiencia de consumo más amplia directamente dentro de su aplicación de chat, con el objetivo de la adopción masiva.
La presión competitiva se intensifica en todos los ámbitos, lo que obliga incluso a los jugadores más grandes a adaptarse. Meta recientemente giró su estrategia después de los contratiempos de desarrollo interno, optando por licenciar tecnología de MidJourney, un líder en imágenes de IA estilizadas. El jefe de IA de Meta, Alexandr Wang, enmarcó la medida como una necesidad, afirmando que la compañía debe adoptar un”enfoque total de la información”para ofrecer los mejores productos.
Esta tendencia destaca un mercado que se consolida entre gigantes y rápidamente especializadas. Los jugadores de nicho están emergiendo para resolver problemas específicos y persistentes. Por ejemplo, el flujo de Black Forest Labs.1 Krea Model está diseñado para combatir el”aspecto de IA”genérico y lograr un fotorrealismo más auténtico. Del mismo modo, el modelo QWen-Image de código abierto de Alibaba se destaca por representar un texto legible, un obstáculo importante para la mayoría de los sistemas generativos.
equilibrar el poder creativo con nuevas salvaguardas
El impulso de Google viene después de los tope anteriores en la generación de imágenes de AI. La compañía enfrentó una reacción violenta significativa cuando Géminis en sus primeros días produjo imágenes de personas históricamente inexactas, lo que lo obligó a suspender temporalmente la función. Este nuevo lanzamiento se acompaña de protocolos de seguridad más sólidos.
Para abordar la creciente amenaza de los defensores y la información errónea, Google es una marca de agua todo el contenido generado. Las imágenes incluirán tanto un marcador visible como una marca invisible de Water Synthid de Synthid para mostrar claramente que están generados por AI.
Esto contrasta con las batallas legales y éticas que envuelven a los competidores. MidJourney se enfrenta actualmente a una demanda de derechos de autor de alto perfil de Disney y Universal sobre sus datos de capacitación. El abogado general de Disney, Horacio Gutiérrez, ha tomado una línea dura, declarando:”La piratería es piratería. Y el hecho de que lo haga una compañía de A.I. no lo hace menos infractor”. Como señaló el estratega de IA Nate Jones,”en el momento en que establecemos el dominio de la tabla de clasificación como el objetivo, corremos el riesgo de crear modelos que sobresalen en ejercicios triviales y platillos cuando enfrentamos la realidad”.
al incorporar las potentes herramientas de edición fácil de usar en su producto de IA insignia, Google está pidiendo que la accesibilidad y el control creativo pueden ganar los usuarios de la red. El movimiento posiciona a Gemini no solo como un chatbot, sino como un motor creativo integral en el panorama de IA generativo en rápido evolución.