Aproveitando o impulso viral de seu modelo viral”Nano Banana”, o Google produziu formalmente a ferramenta como Gemini 3 Pro Image, transformando um meme em um mecanismo empresarial central.

Lançado quinta-feira no Google AI Studio, o aplicativo Gemini, o novo IDE Antigravity, a API Gemini e o Google Ads, o lançamento integra o raciocínio”Deep Think”para conceder aos desenvolvedores e profissionais de marketing controle granular sobre física, iluminação e renderização de texto.

Ao incorporar esses recursos diretamente em fluxos de trabalho profissionais, o Google está indo além da simples geração de imagens para desafiar a Adobe e a Midjourney com uma ferramenta projetada para criação de ativos comerciais complexos e baseados em lógica.

Chegando poucos dias após o lançamento do Gemini 3 Pro e do IDE Antigravity, esta atualização confirma o agressivo cronograma de lançamento vazado no início deste mês.

Embora a tecnologia subjacente seja oficialmente chamada de Gemini 3 Pro Image, o Google adotou a marca “Nano Banana Pro”, voltada para a comunidade, sinalizando uma rara disposição de adotar a cultura da Internet para impulsionar a adoção.

Pensamento profundo: o raciocínio encontra a física dos pixels

Indo além das iterações anteriores que dependiam exclusivamente da probabilidade de pixel, o Gemini 3 Pro Image integra os recursos de raciocínio”Deep Think”lançados pela primeira vez no modelo de texto Gemini 3.

Essa arquitetura aplica consistência lógica à física visual, permitindo que o modelo entenda e manipule as propriedades subjacentes de uma cena em vez de apenas gerar uma imagem estática.

Os usuários agora podem exercer controle granular sobre os fatores ambientais, manipulando a direção da iluminação, ajustando os ângulos da câmera, modificando a profundidade do bokeh e aplicando gradação de cores específicas com uma precisão que imita a fotografia física.

Alisa Fortin, gerente de produto da DeepMind, explicou que “O Gemini 3 Pro Image oferece controle sobre a física… e a composição da imagem para garantir resultados de qualidade profissional.”

Além dos controles ambientais, o o mecanismo de composição do modelo foi significativamente expandido. Agora há suporte para a combinação de até 14 imagens de entrada distintas em uma única cena coerente, um recurso projetado para agilizar a criação de ativos de marketing complexos que exigem diversas fotos de produtos e elementos de fundo.

[conteúdo incorporado]

A consistência dos personagens, um problema histórico para a IA generativa, também foi abordada. Agora é possível manter a semelhança de até cinco assuntos separados em um único quadro, permitindo a criação de narrativas sequenciais ou fotos de grupo sem o desvio estranho frequentemente visto em personagens gerados por IA.

A renderização de texto recebeu uma grande reformulação, visando uma fraqueza específica em modelos mais antigos. Texto legível e de alta fidelidade em vários idiomas agora é um recurso essencial.

Em uma demonstração, o modelo traduziu com sucesso os rótulos de uma lata de bebida, preservando a iluminação, a curvatura e a textura originais do recipiente, uma tarefa que normalmente requer pós-processamento manual em ferramentas como o Photoshop.

Os recursos de edição localizada melhoram ainda mais esse fluxo de trabalho. Um novo recurso de “selecionar, refinar, transformar” permite que os criadores modifiquem elementos específicos, como alterar a cor de uma gravata ou remover um objeto de fundo, sem regenerar a imagem inteira.

Essa abordagem não destrutiva alinha a ferramenta mais de perto com o software de edição tradicional do que com o estilo “slot machine” dos primeiros modelos generativos.

Antigravidade e o Enterprise Pivot

Desenvolvedores trabalhando no novo Antigravity ambiente encontrará utilidade imediata no modelo. Ignorando um lançamento puramente focado no consumidor, a estratégia de implementação implanta o modelo diretamente no novo IDE agente do Google. Os agentes de codificação nesse ambiente podem aproveitar o modelo para gerar modelos de UI detalhados e ativos visuais diretamente a partir de comentários de código ou documentação.

O objetivo principal é simplificar o pipeline do design para o código, permitindo que os desenvolvedores visualizem os elementos da interface antes de escrever a implementação do front-end. A integração do Google Ads coloca o modelo diretamente nas mãos dos profissionais de marketing, automatizando a criação de ativos de campanha que aderem às diretrizes específicas da marca.

Os usuários do Workspace em Apresentações e Vídeos Google também terão acesso ao modelo para gerar recursos visuais de apresentação e recursos de storyboard. A incorporação desses recursos na pilha corporativa posiciona o Gemini 3 Pro Image como um componente de infraestrutura, em vez de uma ferramenta criativa independente.

O acesso ao modelo é dividido em níveis agressivos. Uma avaliação gratuita limitada está disponível por meio do seletor de modelo “Thinking” no aplicativo Gemini, mas o uso sustentado requer uma assinatura AI Plus, Pro ou Ultra. Os desenvolvedores podem acessar o modelo via Vertex AI e a documentação do desenvolvedor imediatamente, com endpoints específicos projetados para geração comercial de alto volume.

Demonstrando esses recursos, o Google lançou implementações de referência, incluindo um gerador de quadrinhos e um criador de infográficos. Esses exemplos mostram a capacidade do modelo de lidar com lógica sequencial e visualização de dados, tarefas que exigem um grau mais alto de raciocínio do que a geração de imagens padrão.

A proteção invisível: SynthID e segurança

Abordando o atrito entre protocolos de segurança rígidos e utilidade profissional, o Google implementou uma estratégia de segurança bifurcada. Pela primeira vez, a marca d’água visível “Gemini sparkle” será removida para assinantes do Google AI Ultra e Enterprise.

Os criadores profissionais reclamaram frequentemente que o marcador visível tornava as imagens inutilizáveis ​​para a produção comercial final.

Apesar da remoção dos marcadores visíveis, a tecnologia de marca d’água invisível SynthID permanece obrigatória em todos os níveis. Este sistema incorpora assinaturas criptográficas diretamente nos valores de pixel, garantindo que a procedência possa ser rastreada mesmo se a imagem for cortada ou modificada.

“Integramos marcas d’água digitais SynthID diretamente em cada imagem criada ou editada com Gemini 3 Pro Image para denotar sua origem gerada ou editada por IA”, disse Fortin.

Equilibrar a necessidade de ativos comerciais “limpos” com a crescente demanda por procedência e detecção de deepfake é o principal desafio aqui. Uma nova extensão `@SynthID` foi adicionada ao aplicativo Gemini, permitindo aos usuários verificar a origem de uma imagem procurando por esses artefatos invisíveis.

Essa mudança de política representa um risco calculado, apostando que a verificação criptográfica é robusta o suficiente para policiar o uso indevido sem a confusão visual de uma marca d’água carimbada.

Categories: IT Info