O Google está lançando um poderoso modelo de edição de imagens para seu aplicativo Gemini na terça-feira. Desenvolvido pela DeepMind, a atualização apresenta recursos avançados projetados para oferecer aos usuários um controle e consistência mais criativos, desafiando diretamente rivais como Openai e Adobe. Agora, os usuários podem alterar roupas ou planos sem distorcer rostos, misturar fotos em uma única cena ou fazer alterações iterativas em um fluxo de conversação. O novo modelo agora está integrado ao aplicativo Gemini para todos os usuários e também está disponível para desenvolvedores através da API Gemini, Google AI Studio e Vertex ai, de acordo com o anúncio. largura=”1032″altura=”505″src=”Dados: imagem/svg+xml; nitro-inempty-id=mtyznZoxMJA1-1; base64, phn2zyb2awv3qm94psiwidagmtazmia1md UiihdpzhropsixmdMyiiBozwlnaHQ9iJUWNSigEG1SBNM9ImH0DHA6LY93D3CUDZMUB3JnlZIWMDAVC3ZNIJ48L3N2ZZ4=”>

De’nano-banana’a um novo benchmark na edição da IA ​​

A estréia pública do modelo foi precedida por uma prévia furtiva e muito bem-sucedida. Ele apareceu anonimamente na plataforma de avaliação de crowdsourcing LMARENA como”Nano-Banana”, gerando rapidamente o zumbido na comunidade de IA antes de se tornar o mundo Modelo de imagem de melhor classificação ensuring Eles ainda se parecem com si mesmos .

Além de manter a semelhança, o modelo apresenta um conjunto de opções criativas avançadas. Agora, os usuários podem misturar várias fotos para criar uma cena composta totalmente nova. Por exemplo, alguém poderia tirar uma foto de si e de outro cão para gerar um retrato perfeito deles juntos em uma quadra de basquete. Outro recurso poderoso permite “Mixagem de design”, onde o estilo de uma imagem pode ser aplicado a um objeto em outro, como transferir a cor e a textura das pétalas de flores para um par de botas de chuva. Pode-se começar com uma sala vazia, depois pedir a Gêmeos para pintar as paredes, adicionar uma estante de livros, colocar um sofá e finalmente deitar um tapete, com o modelo preservando a integridade da cena a cada etapa. Nicole Brichtova, um líder de produto no Google DeepMind, explicou que o objetivo era melhorar o controle criativo, observando:”Estamos realmente empurrando a qualidade visual para a frente, bem como a capacidade do modelo de seguir as instruções.”AI criativa. A pressão se intensificou significativamente depois que o OpenAI integrou seu gerador de imagens GPT-4O diretamente no ChatGPT em março. Esse movimento causou um grande aumento no envolvimento do usuário, alimentado por memes virais que exibiram o poder e a acessibilidade do modelo, estabelecendo uma nova referência para ferramentas de IA integradas. Recentemente, a empresa lançou um trio de recursos poderosos e movidos a vagas, incluindo’harmonizar’para corresponder automaticamente a cor e a iluminação de objetos adicionados,’sofisticação generativa’para aprimorar a resolução e uma’ferramenta de remoção’aprimorada. Deepa Subramaniam, vice-presidente da Adobe, disse que essa abordagem é impulsionada pelo feedback do usuário, explicando que”essas novas inovações vêm de nossas conversas em andamento com a comunidade criativa, onde ouvimos como podemos evoluir ferramentas no Photoshop para remover barreiras”. A abordagem do Google, por outro lado, tem como alvo um público mais amplo do consumidor diretamente em seu aplicativo de bate-papo, com o objetivo de adoção em massa.

A pressão competitiva está se intensificando em geral, forçando até os maiores jogadores a se adaptarem. A Meta recentemente girou sua estratégia após os contratempos de desenvolvimento interno, optando por licenciar a tecnologia de Midjourney, líder em imagens de IA estilizadas. O chefe da AI da Meta, Alexandr Wang, enquadrou a mudança como uma necessidade, afirmando que a empresa deve adotar uma”abordagem de todos os altos”para oferecer os melhores produtos. Os jogadores de nicho estão surgindo para resolver problemas específicos e persistentes. Por exemplo, o fluxo da Black Forest Labs.1 O modelo KREA é projetado para combater o”visual da IA”genérico e obter um fotorrealismo mais autêntico. Da mesma forma, o modelo Qwen-Imagem de Fonte Aberta do Alibaba se destaca na renderização do texto legível, um grande obstáculo para a maioria dos sistemas generativos. A empresa enfrentou uma reação significativa quando Gêmeos em seus primeiros dias produziram imagens historicamente imprecisas de pessoas, forçando-a a suspender temporariamente o recurso. Este novo lançamento é acompanhado por protocolos de segurança mais robustos. As imagens incluirão um marcador visível e uma marca d’água invisível e criptográfica sintid para mostrar claramente que são geradas pela IA.

Isso contrasta com as batalhas legais e éticas que envolvem concorrentes. Atualmente, o Midjourney está enfrentando um processo de direitos autorais de alto nível da Disney e da Universal sobre seus dados de treinamento. O conselheiro geral da Disney, Horacio Gutierrez, adotou uma linha dura, afirmando:”A pirataria é a pirataria. E o fato de ser feito por uma empresa de IA não a torna menos infrator.”Como observou o estrategista da IA ​​Nate Jones: “No momento em que definimos o domínio da tabela de classificação como objetivo, corremos o risco de criar modelos que se destacam em exercícios triviais e linguados ao enfrentar a realidade.”O movimento posiciona Gemini não apenas como um chatbot, mas como um mecanismo criativo abrangente na paisagem generativa de IA generativa em rápida evolução.

Categories: IT Info