A Microsoft reverteu sua atualização mais recente do Bing Image Creator, revertendo para uma versão anterior do modelo DALL-E após reclamações generalizadas de usuários sobre a redução da qualidade da imagem.
A atualização de dezembro de 2024 introduziu o PR16, uma nova iteração do DALL-E 3 da OpenAI, com promessas de renderização mais rápida e maior fidelidade visual. No entanto, o feedback dos usuários revelou falhas significativas nos resultados do modelo, levando a Microsoft a restaurar o modelo PR13 anterior enquanto investigava os problemas.
Em sua essência, o DALL-E 3 é um modelo avançado de geração de imagens capaz de criar imagens a partir de descrições de texto detalhadas. A integração do DALL-E 3 da Microsoft ao Bing Image Creator permite que os usuários gerem recursos visuais personalizados diretamente na interface de pesquisa do Bing. O sistema também inclui recursos como “boosts”, que priorizam solicitações específicas do usuário para um processamento mais rápido.
Relacionado: xAI de Elon Musk mostra o poderoso gerador de imagens Aurora AI
PR16: uma atualização promissora que errou o alvo
Quando a Microsoft integrou o PR16 no Bing Image Creator, ele enfatizou a velocidade e as melhorias visuais, Jordi Ribas, vice-presidente corporativo de pesquisa e IA da Microsoft, explicou: “O benchmarking interno concluiu que a qualidade do PR16 é um pouco melhor, em média”, do que o PR13. A atualização fez parte dos esforços da Microsoft para melhorar seu ecossistema de IA, integrando recursos avançados do DALL-E 3 da OpenAI.
Apesar dessas afirmações, as experiências dos usuários divergiram significativamente das garantias da Microsoft. Em plataformas como Reddit e X (antigo Twitter), os usuários descreveram as imagens geradas pelo PR16 como “sem vida”, “desenho animado” e sem detalhes.
Não sei quem você acha que está enganando com isso. O DALL-E está objetivamente pior do que nunca depois dessa “atualização” e você está sendo superado por outras empresas como o Google. É absolutamente noite e dia comparar a qualidade da imagem agora com apenas alguns meses atrás pic.twitter.com/EdSdk7aign
— externamente (@ rocinóxi) 19 de dezembro de 2024
Reclamações específicas incluíam imagens superiluminadas, texturas mal posicionadas, e tons de cores não naturais, como tons verdes generalizados. Um usuário do Reddit descreveu sua decepção afirmando que o modelo não correspondia mais à experiência que eles desfrutado anteriormente com DALL-E.
Problemas com elementos visuais complexos, como padrões de renda e roupas em camadas, foram particularmente pronunciados. Um usuário que tentou gerar um personagem estilo anime destacou que o PR16 renderizou imagens com qualidade muito inferior usando exatamente o mesmo prompt.
Desafios de renderização mais amplos com DALL-E 3
Embora a Microsoft tenha enfrentado críticas significativas por seu lançamento do PR16, os problemas não foram isolados do Bing Image Criador. Desde novembro de 2024, os usuários da integração ChatGPT da OpenAI com DALL-E 3 relataram falhas de renderização semelhantes, incluindo distorções de cores, posicionamentos incorretos de texturas e anomalias de iluminação.
Observações do fórum da comunidade OpenAI revelam que esses problemas não estão enraizados no modelo DALL-E 3 em si, mas nos sistemas intermediários responsáveis por traduzir os prompts do usuário em renderização instruções.
Relacionado: Gerador de imagens AI Imagen 3 do Google agora acessível nos EUA
De acordo com uma análise detalhada no fórum, os problemas provavelmente decorrem de falhas na análise imediata e nos pipelines de comando. O sistema de tradução imediata no DALL-E PR16 parece introduzir ambiguidades que levam a resultados inconsistentes.
Por exemplo, instruções envolvendo estilos de roupas complexos, como vestidos rococó ou designs góticos Lolita, muitas vezes resultam em padrões mal colocados, texturas incorretas e desvios estilísticos.
Curiosamente, esses problemas não são universais. Plataformas como Coze.com, que usam um pipeline de integração alternativo para DALL-E 3, evitaram amplamente as falhas de renderização observadas no Bing Image Creator e no ChatGPT. Essa discrepância sugere que os problemas estão nos sistemas intermediários específicos usados pela OpenAI e pela Microsoft, e não no modelo central de IA.
Relacionado: Freepik Mystic Takes on Midjourney, Dall-E em Geração de imagens de IA
Resposta e reversão da Microsoft
Reconhecendo o feedback dos usuários, a Microsoft iniciou uma reversão para o PR13. Ribas anunciou a decisão sobre X, afirmando: “Obrigado novamente pelo feedback e paciência. Conseguimos [reproduzir] alguns dos problemas relatados e planejamos voltar ao PR13 até que possamos corrigi-los. O processo de implantação é muito lento, infelizmente. Tudo começou há mais de uma semana e levará mais 2 a 3 semanas para chegar a 100%.”
A reversão já está parcialmente concluída, com usuários Pro e cerca de 25% das solicitações otimizadas agora usando PR13. O a reversão gradual reflete as complexidades da atualização de sistemas de IA em grande escala, especialmente quando se trata de pipelines profundamente integrados, como os do Bing Image Creator.
Implicações mais amplas para a IA Implantação
As dificuldades da Microsoft com o PR16 ecoam desafios semelhantes enfrentados por outros gigantes da tecnologia na implantação de modelos avançados de IA. Por exemplo, no início de 2024, o Google teve que suspender os recursos de geração de imagens do seu chatbot Gemini após o lançamento. ferramenta produziu resultados racialmente ofensivos e historicamente imprecisos
Esses incidentes destacam as dificuldades inerentes de alinhar os avanços da IA com as expectativas do usuário, especialmente para aplicações criativas como imagens. geração.
Sistemas de IA como o DALL-E 3 dependem de múltiplas camadas de processamento para interpretar e executar prompts do usuário. Embora as capacidades do modelo principal permaneçam robustas, as falhas nos sistemas intermédios podem prejudicar significativamente o desempenho. O caso ilustra que mesmo pequenos desalinhamentos na análise imediata ou nos pipelines de renderização podem resultar em insatisfação substancial do usuário.
No entanto, a implementação do PR16 revelou desafios sistêmicos na manutenção da consistência. Problemas como posicionamento incorreto de texturas, problemas de fidelidade de cores e iluminação. artefatos destacam o delicado equilíbrio entre aumentar a velocidade e garantir a precisão na renderização. Esses desafios são exacerbados pela crescente complexidade dos prompts do usuário, que muitas vezes combinam descrições estilísticas e materiais intrincadas.
Embora o benchmarking forneça informações valiosas sobre o desempenho técnico, os aplicativos do mundo real geralmente revelam problemas que os testes internos não podem prever.
Além disso, as discrepâncias entre plataformas como Coze.com e Bing Image Creator sugerem que refinar sistemas intermediários é fundamental para melhorar o desempenho geral.
Enfrentar esses desafios requer mais esforços colaborativos entre desenvolvedores, integradores de plataformas e usuários finais para garantir que os sistemas de IA atendam às expectativas técnicas e estéticas.