Voortbouwend op het virale momentum van zijn virale’Nano Banana’-model heeft Google de tool formeel geproduceerd als Gemini 3 Pro Image, waarmee een meme is getransformeerd in een kernmotor voor ondernemingen.

De release wordt donderdag uitgerold naar Google AI Studio, de Gemini-app, de nieuwe Antigravity IDE, de Gemini API en Google Ads en integreert de’Deep Think’-redenering om ontwikkelaars en marketeers gedetailleerde controle te geven over fysica, belichting en tekstweergave.

Door deze mogelijkheden rechtstreeks in professionele workflows in te bedden, gaat Google verder dan het eenvoudig genereren van afbeeldingen en daagt Adobe en Midjourney uit met een tool die is ontworpen voor het maken van complexe, op logica gebaseerde commerciële assets.

Deze update komt slechts enkele dagen na de lancering van Gemini 3 Pro en de Antigravity IDE en bevestigt het agressieve releaseschema dat eerder deze maand is gelekt.

Hoewel de onderliggende technologie officieel Gemini 3 Pro Image heet, heeft Google de door de gemeenschap aangestuurde’Nano Banana Pro’-branding omarmd, wat duidt op een zeldzame bereidheid om de internetcultuur over te nemen om adoptie te stimuleren.

Diep nadenken: redeneren ontmoet pixelfysica

Gemini 3 Pro Image gaat verder dan eerdere iteraties die uitsluitend afhankelijk waren van pixelwaarschijnlijkheid en integreert de’Deep Think’-redeneermogelijkheden die voor het eerst debuteerden in het Gemini 3-tekstmodel.

Een dergelijke architectuur past logische consistentie toe op de visuele fysica, waardoor het model de onderliggende eigenschappen van een scène kan begrijpen en manipuleren in plaats van alleen maar een statische elektriciteit te genereren. beeld.

Gebruikers kunnen nu gedetailleerde controle uitoefenen over omgevingsfactoren, de lichtrichting manipuleren, camerahoeken aanpassen, de bokeh-diepte aanpassen en specifieke kleurcorrectie toepassen met een precisie die fysieke fotografie nabootst.

Alisa Fortin, een productmanager bij DeepMind, legde uit dat”Gemini 3 Pro Image u controle geeft over de fysica… en de compositie van het beeld om uitvoer van professionele kwaliteit te garanderen.”

Naast de omgevingscontroles, biedt de De compositie-engine van het model is aanzienlijk uitgebreid. Het samenvoegen van maximaal 14 verschillende invoerafbeeldingen tot één samenhangende scène wordt nu ondersteund, een mogelijkheid die is ontworpen om de creatie van complexe marketingmiddelen te stroomlijnen waarvoor meerdere productfoto’s en achtergrondelementen nodig zijn.

[embedded content]

Karakterconsistentie, een historisch pijnpunt voor generatieve AI, is ook aangepakt. Het is nu mogelijk om de gelijkenis van maximaal vijf afzonderlijke onderwerpen binnen een enkel frame te behouden, waardoor opeenvolgende verhalen of groepsfoto’s kunnen worden gemaakt zonder de griezelige drift die vaak wordt gezien bij door AI gegenereerde karakters.

Tekstweergave heeft een grote revisie ondergaan, gericht op een specifieke zwakte in oudere modellen. High-fidelity, leesbare tekst in meerdere talen is nu een kernfunctie.

In één demonstratie vertaalde het model met succes labels op een drankblikje, terwijl de oorspronkelijke belichting, kromming en textuur van de container behouden bleven, een taak die doorgaans handmatige nabewerking vereist in tools zoals Photoshop.

Gelokaliseerde bewerkingsfuncties verbeteren deze workflow nog verder. Dankzij een nieuwe’selecteren, verfijnen, transformeren’-mogelijkheid kunnen makers specifieke elementen wijzigen, zoals het wijzigen van de kleur van een stropdas of het verwijderen van een achtergrondobject, zonder de hele afbeelding opnieuw te genereren.

Een dergelijke niet-destructieve aanpak brengt de tool nauwer in lijn met traditionele bewerkingssoftware dan met de’gokautomaat’-stijl van vroege generatieve modellen.

Antigravity en de Enterprise Pivot

Ontwikkelaars die binnen de nieuwe Antigravity-omgeving werken, zullen dat wel doen vindt onmiddellijk nut in het model. De uitrolstrategie omzeilt een puur consumentgerichte lancering en implementeert het model rechtstreeks in de nieuwe agentische IDE van Google. Codeeragenten binnen deze omgeving kunnen het model gebruiken om gedetailleerde UI-mockups en visuele middelen rechtstreeks uit codecommentaar of documentatie te genereren.

Het stroomlijnen van de ontwerp-naar-code-pijplijn is het primaire doel, waardoor ontwikkelaars interface-elementen kunnen visualiseren voordat ze de frontend-implementatie schrijven. Dankzij de Google Ads-integratie komt het model rechtstreeks in handen van marketeers, waardoor het maken van campagne-items wordt geautomatiseerd die voldoen aan specifieke merkrichtlijnen.

Werkruimtegebruikers in Google Presentaties en Vids krijgen ook toegang tot het model voor het genereren van presentatiebeelden en storyboard-items. Door deze mogelijkheden in de bedrijfsstack in te bedden, wordt Gemini 3 Pro Image gepositioneerd als een infrastructuurcomponent in plaats van als een op zichzelf staand creatief hulpmiddel.

De toegang tot het model is op agressieve wijze gelaagd. Er is een beperkte gratis proefperiode beschikbaar via de modelkiezer ‘Thinking’ in de Gemini-app, maar voor langdurig gebruik is een AI Plus-, Pro-of Ultra-abonnement vereist. Ontwikkelaars hebben onmiddellijk toegang tot het model via Vertex AI en ontwikkelaarsdocumentatie, met specifieke eindpunten die zijn ontworpen voor het genereren van grote aantallen commerciële advertenties.

Google heeft referentie-implementaties uitgebracht om deze mogelijkheden te demonstreren, waaronder een stripboekgenerator en een infographicmaker. Deze voorbeelden demonstreren het vermogen van het model om sequentiële logica en datavisualisatie te verwerken, taken die een hogere mate van redenering vereisen dan het genereren van standaardafbeeldingen.

De onzichtbare vangrail: SynthID en veiligheid

Google heeft een gesplitste veiligheidsstrategie geïmplementeerd om de wrijving tussen strikte veiligheidsprotocollen en professioneel nut aan te pakken. Voor het eerst wordt het zichtbare watermerk’Gemini Sparkle’verwijderd voor Google AI Ultra-en Enterprise-abonnees.

Professionele makers hebben vaak geklaagd dat de zichtbare markering afbeeldingen onbruikbaar maakte voor de uiteindelijke commerciële productie.

Ondanks de verwijdering van zichtbare markeringen blijft de onzichtbare SynthID-watermerktechnologie verplicht op alle niveaus. Dit systeem integreert cryptografische handtekeningen rechtstreeks in de pixelwaarden, waardoor de herkomst kan worden gevolgd, zelfs als de afbeelding is bijgesneden of gewijzigd.

“We hebben digitale watermerken van SynthID rechtstreeks geïntegreerd in elke afbeelding die is gemaakt of bewerkt met Gemini 3 Pro Image om de door AI gegenereerde of bewerkte oorsprong aan te duiden”, aldus Fortin.

Het balanceren van de behoefte aan ‘schone’ commerciële activa met de groeiende vraag naar herkomst en deepfake-detectie is hier de belangrijkste uitdaging. Er is een nieuwe `@SynthID`-extensie toegevoegd aan de Gemini-app, waarmee gebruikers de oorsprong van een afbeelding kunnen verifiëren door naar deze onzichtbare artefacten te scannen.

Een dergelijke beleidswijziging vertegenwoordigt een berekend risico, waarbij wordt aangenomen dat cryptografische verificatie robuust genoeg is om misbruik te kunnen controleren zonder de visuele rommel van een gestempeld watermerk.

Categories: IT Info