Google a officiellement lancé l’image Flash Gemini 2.5, le puissant modèle d’IA qui est devenu viral en août sous le nom de «Nano Banana», ce qui le rend généralement disponible pour les développeurs et les entreprises dans le monde entier.
Annoncé le 2 octobre, l’outil prêt pour la production est désormais accessible via l’api Gemini, cette version de Géboraire, y compris le support AI. for 10 aspect ratios and enhanced character consistency for more realistic edits.
The move solidifies Google’s challenge to competitors like OpenAI and Adobe, aiming to put state-of-the-art Génération d’images entre les mains de plus de créateurs.
nouveaux contrôles créatifs et succès précoce de l’adoptant
Le premier est apparu de manière anonyme sur la plate-forme d’évaluation du crowdsourcée lMarena en tant que «Nano-banana», devenant rapidement le modèle de modification de l’image de la stratégie du monde.
La version générale de la disponibilité le 2 octobre également des mises à niveau importantes axées sur la production.
Une amélioration clé est le support de 10 rapports d’aspect différents, allant du paysage cinématographique aux formats verticaux des médias sociaux. Cela permet aux créateurs d’adapter le contenu pour des plates-formes spécifiques.
La mise à jour affine également la force centrale du modèle: «cohérence des caractères». Cette fonctionnalité, qui préserve la ressemblance d’un sujet à travers les modifications majeures, aborde un point de défaillance commun pour de nombreux modèles d’IA.
Nicole Brichtova, un produit de produit à Google Deepmind, a noté:”Nous mettons des capacités qui nécessitent des outils spécialisés entre les mains de créateurs de tous les jours, et il a été inspiré pour voir la multimodale de la créativité qui a permis de stimuler.”traiter le texte et les images simultanément. Cela signifie qu’il peut comprendre une image existante et l’intégrer dans son processus créatif, plutôt que de simplement générer à partir d’une invite de texte.
Cela permet des modifications plus précises et cohérentes sur une conversation.
Les adoptants précoces intégrent déjà ces capacités. L’AI Startup Cartwheel a trouvé le modèle de manière unique de gérer des poses complexes à partir de n’importe quel angle de caméra.
Le co-fondateur Andrew Carr a salué Google, disant: «Les autres modèles ne pouvaient pas rendre les caractères arbitraires ou maintenir la fidélité à une pose sans sacrifier les« connaissances mondiales ». Le nouveau modèle de l’image flash GEMMINI 2.5 a pu fournir les deux. 0,039 $ par image et 30 $ par million de jetons de sortie, un taux compétitif visant à entraîner l’adoption des entreprises via sa plate-forme Vertex AI.
Une décision calculée dans la course d’image AI bondée
Le lancement est une réponse calculée à un marché farely concurrentiel. La pression s’est intensifiée après que OpenAI a intégré son générateur d’images GPT-4O directement dans le chatppt, entraînant une augmentation massive de l’engagement des utilisateurs.
La stratégie de Google cible un large public directement dans son application de chat, visant l’adoption de masse.
Plus récemment, la pression concurrentielle est intensifiée entre le tableau. Bytedance a lancé son modèle Seedream 4.0 en tant que challenger direct de”Nano Banana”.
Meta a également pivoté sa stratégie pour la génération d’images de l’IA, optant pour licence la technologie de Midjourney après les revers internes.
Équilibrant le pouvoir créatif avec les nouvelles sauvegardes
La poussée de Google est venue après que la génération d’images AI a trébuché. Ce nouveau lancement s’accompagne de protocoles de sécurité plus robustes.
Pour lutter contre la menace croissante de DeepFakes, Google est un filigrane tout le contenu généré.
Les images incluront à la fois un marqueur visible et un watermark synthétique cryptographique invisible pour montrer clairement qu’ils sont générés par AI-Généré. Cela contraste avec les batailles juridiques qui empruntent des concurrents comme MidJourney.
MidJourney est actuellement confronté à un procès en copyright de haut niveau de Disney et Universal sur ses données de formation.
Il met en évidence le paysage juridique et éthique complexe que toutes les sociétés de l’IA doivent naviguer, en faisant de l’effuyé de Google. Édition d’outils dans son produit d’IA phare, Google positionne les Gémeaux non seulement en tant que chatbot, mais de plus en plus en tant que moteur créatif complet, similaire à Openai, qui vient de lancer son modèle vidéo Sora 2 AI.
La décision est claire que l’accessibilité et la confiance peuvent gagner les utilisateurs traditionnels dans le domaine en évolution rapide de l’IA générative