Google déploie mardi un nouveau modèle de montage d’image puissant pour son application Gemini. Développé par DeepMind, la mise à jour présente des fonctionnalités avancées conçues pour donner aux utilisateurs un contrôle et une cohérence plus créatifs, ce qui remet directement des concurrents comme Openai et Adobe.
La mise à niveau vise à résoudre l’un des défauts les plus persistants de l’IA: maintenir la ressemblance d’une personne entre les modifications. Les utilisateurs peuvent désormais modifier les tenues ou les arrière-plans sans déformer les visages, mélanger des photos dans une seule scène ou apporter des modifications itératives dans un flux conversationnel.
Ce mouvement signale l’intention de Google de combler l’écart d’utilisateur avec des concurrents. Le nouveau modèle est désormais intégré à l’application Gemini pour tous les utilisateurs et est également disponible pour les développeurs via l’API Gemini, Google AI Studio et Vertex AI, selon la annonce officielle . src=”https://winbuzzer.com/wp-content/uploads/2025/08/lmarena-image-edit-arena-20250826.jpg”width=”1032″height=”505″>
de”nano-banana”à un nouveau benchmark dans AI édition
Les débuts publics de Model ont été précédés d’un aperçu furtif et extrêmement réussi. Il est apparu de manière anonyme sur la plate-forme d’évaluation du crowdsourced Lmarena en tant que «nano-banana», générant rapidement du buzz dans la communauté AI avant de devenir le monde Modèle de modification d’image à haut niveau . David Sharon, une avance pour les applications Gemini, a souligné son réception enthousiaste, déclarant: «Les gens ont déjà fait des bananes dessus dans les premiers aperçus-c’est le modèle de montage d’image le mieux noté au monde. Cela traite d’un point de défaillance commun pour de nombreux modèles d’IA, où le montage d’un arrière-plan ou d’une tenue peut subtilement déformer le visage d’un sujet. Avec cette mise à jour, les utilisateurs peuvent placer des sujets dans des scénarios entièrement nouveaux-résultant différentes tenues, imaginant de nouvelles professions, ou même voir comment ils apparaîtraient dans une autre décennie-tandis que .
Au-delà du maintien de la ressemblance, le modèle présente une suite d’options créatives avancées. Les utilisateurs peuvent désormais mélanger plusieurs photos pour créer une toute nouvelle scène composite. Par exemple, on pourrait prendre une photo d’eux-mêmes et un autre de leur chien pour en générer un portrait parfait ensemble sur un terrain de basket. Une autre caractéristique puissante permet le «mélange de conception», où le style d’une image peut être appliqué à un objet dans un autre, tel que le transfert de la couleur et de la texture des pétales de fleurs sur une paire de bottes de pluie.
La mise à jour permet également l’édition multi-tour, un processus conversationnel où les utilisateurs peuvent construire une image avec des invites séquentielles. On pourrait commencer par une pièce vide, puis demander aux Gémeaux de peindre les murs, d’ajouter une étagère, de placer un canapé et enfin de poser un tapis, le modèle préservant l’intégrité de la scène à chaque étape. Nicole Brichtova, un produit de produit à Google Deepmind, a expliqué que l’objectif était d’améliorer le contrôle créatif, notant:”Nous faisons vraiment pression sur la qualité visuelle, ainsi que la capacité du modèle à suivre les instructions.”
AI. La pression s’est considérablement intensifiée après que OpenAI ait intégré son générateur d’images GPT-4O directement dans Chatgpt en mars. Ce mouvement a conduit une augmentation massive de l’engagement des utilisateurs, alimentée par des mèmes viraux qui présentaient la puissance et l’accessibilité du modèle, en définissant une nouvelle référence pour les outils d’IA intégrés.
En attendant, le leader des logiciels créatifs en place Adobe renforce agressivement son produit phare, Photoshop. La société a récemment déployé un trio de fonctionnalités puissantes et alimentées par le feu, y compris «Harmonize» pour correspondre automatiquement à la couleur et à l’éclairage des objets ajoutés, «haut de gamme génératif» pour améliorer la résolution, et un «outil de suppression» amélioré.
La stratégie de Adobe est de défendre son turf professionnel par l’embechement de l’AI profondément dans les flux de travail établis. Deepa Subramaniam, un VP d’Adobe, a déclaré que cette approche est motivée par les commentaires des utilisateurs, expliquant que «ces nouvelles innovations proviennent de nos conversations en cours avec la communauté créative, où nous entendons comment nous pouvons évoluer des outils dans Photoshop pour supprimer les barrières». L’approche de Google, en revanche, cible un public de consommation plus large directement dans son application de chat, visant l’adoption de masse.
La pression concurrentielle s’intensifie à tous les niveaux, forçant même les plus grands joueurs à s’adapter. Meta a récemment pivoté sa stratégie après les revers du développement interne, choisissant une licence de technologie de MidJourney, un leader de l’imagerie d’IA stylisée. Le chef de l’IA de Meta, Alexandr Wang, a connu la décision comme une nécessité, indiquant que l’entreprise doit adopter une «approche tout à enabais» pour fournir les meilleurs produits.
Cette tendance met en évidence un marché qui se consolide à la fois parmi les géants et se spécialise rapidement. Les joueurs de niche émergent pour résoudre des problèmes spécifiques et persistants. Par exemple, le modèle Krea de Black Forest Labs.1 est conçu pour lutter contre le «look AI» générique et obtenir un photoréalisme plus authentique. De même, le modèle d’image Qwen-Image d’Open-source d’Alibaba excelle dans le texte lisible, un obstacle majeur pour la plupart des systèmes génératifs.
Équilibrage de la puissance créative avec de nouvelles sauvegardes
La poussée de Google est venue après l’allée précédente dans la génération d’images d’IA. La société a été confrontée à des réactions importantes lorsque les Gémeaux à ses débuts ont produit des images historiquement inexactes de personnes, la forçant à suspendre temporairement la fonctionnalité. Ce nouveau lancement s’accompagne de protocoles de sécurité plus robustes.
Pour lutter contre la menace croissante de Fonds et de désinformation, Google est un filigrane tous les contenus générés. Les images incluront à la fois un marqueur visible et un filigrane synthétique cryptographique invisible pour montrer clairement qu’ils sont générés par l’AI.
Cela contraste avec les combats juridiques et éthiques. MidJourney est actuellement confronté à un procès de haut niveau de Copyright de Disney et Universal sur ses données de formation. L’avocat général de Disney, Horacio Gutierrez, a pris une ligne dure, déclarant:”Le piratage est le piratage. Et le fait qu’il soit fait par une entreprise A.I. ne fait pas moins de contrefaçon.”
L’industrie est également confrontée au scepticisme sur la fiabilité des benchmarks de l’IA. Comme l’a noté le stratège de l’IA, Nate Jones, «au moment où nous fixons la domination des classements comme objectif, nous risquons de créer des modèles qui excellent dans des exercices triviaux et de la pataugeoire lorsqu’ils sont confrontés à la réalité.»
En incorporant des outils d’édition puissants et adaptés aux utilisateurs dans son produit phare de l’IA, Google parie que l’accessibilité et le contrôle créatif peuvent gagner les utilisateurs courants. Le déplacement positionne les Gemini non seulement comme un chatbot, mais comme un moteur créatif complet dans le paysage générateur d’IA en évolution rapide.