O gigante da tecnologia chinês Alibaba escalou a corrida de geração de imagens da IA, lançando um novo modelo de fonte aberta em 4 de agosto que se destaca em um dos desafios mais difíceis para a IA: renderizando com precisão o texto.

Lançado sob uma licença permissiva do Apache 2.0, o modelo desafia diretamente os sistemas ocidentais proprietários do Google e do OpenAI. O objetivo é fornecer aos desenvolvedores uma alternativa gratuita e poderosa que integra perfeitamente o texto intrincado à criação visual, um obstáculo de longa data para modelos generativos. Imagens

Em seu núcleo, QWEN-IMAGE é um modelo de parâmetros de 20 bilhões) construído em um transformador de difusão multimodal. Para interpretar solicitações complexas de usuários, ele aproveita um modelo de linguagem de visão QWEN2.5-VL congelada como seu codificador de condição, uma escolha de design que capitaliza um modelo já adepto do alinhamento da linguagem e dos dados visuais. O modelo foi treinado usando uma abordagem de “aprendizado curricular”, começando com a renderização básica de não texto antes de dimensionar gradualmente para lidar com descrições complexas de parágrafo. Para melhorar ainda mais o manuseio de caracteres raros e fontes diversas, a equipe desenvolveu um pipeline de síntese de dados em várias etapas para gerar imagens de treinamento de alta qualidade e ricas em texto. Para fazer uma mudança, o sistema processa a imagem de entrada de duas maneiras: o QWEN2.5-VL extrai recursos semânticos de alto nível, enquanto um autoencoder variacional (VAE) captura detalhes reconstrutivos de baixo nível, conforme detalhado no Relatório técnico oficial . O próprio VAE foi especialmente ajustado em um corpus de documentos pesados de texto, como PDFs e pôsteres para aprimorar sua reconstrução de detalhes finos e texto pequeno. Ele se destaca em avaliações focadas em texto como o LongText-Bench e o New Chineseword Benchmark, superando os modelos existentes pelo que seus criadores chamam de”margem significativa”. Esse desempenho o posiciona como um poderoso desafiante de código aberto para os principais sistemas proprietários. O modelo demonstra um forte desempenho cruzado, suportando uma ampla gama de estilos artísticos. Como mostrado em seu anúncio oficial , pode se adaptar fluidentemente aos Protos criativos, produzindo tudo, desde a edição de editas e as pistas de edição a mais de picações e as pistas de edição. Robusto, permitindo operações avançadas que vão muito além de ajustes simples. O relatório técnico mostra o modelo de manuseio de transferências de estilo, inserção ou remoção de objetos e até manipulação complexa de pose humana. Em comparações qualitativas, Qwen-Image preserva com sucesso detalhes finos, como fios de cabelo durante as mudanças de pose e inferem detalhes de roupas corretamente que foram obscurecidos anteriormente, demonstrando uma compreensão sofisticada do contexto. A equipe QWEN demonstra que o modelo pode executar um conjunto de tarefas de compreensão de imagem por meio de simples prompts de edição. Isso inclui detecção de objetos, segmentação semântica, estimativa de profundidade e borda (Canny) e síntese de visualização nova. Ao enquadrar essas tarefas de percepção como formas de edição inteligente de imagens, o Alibaba está efetivamente preenchendo a lacuna entre a IA que vê o mundo e a IA que a cria. É a última jogada em uma série de incêndios rápidos de grandes liberações de IA do Alibaba, sinalizando uma estratégia abrangente para construir um conjunto completo de ferramentas abertas para desenvolvedores e dominar o ecossistema de código aberto. Como o BOODEM. Isso foi acompanhado por um poderoso modelo de codificação Agentic, QWEN3-Coder. Um porta-voz disse: “Depois de discutir com a comunidade e refletir sobre o assunto, decidimos abandonar o modo de pensamento híbrido. Agora treinaremos os modelos de instrução e pensamento separadamente para alcançar a melhor qualidade possível”, esclarecendo o novo foco em sistemas especializados e de alta qualidade. Esse lançamento introduziu uma arquitetura avançada de mistura de especialistas (MOE) para melhorar a qualidade e a eficiência do vídeo. Apenas semanas atrás, um estudo alegou que o modelo QWEN2.5 mais antigo do Alibaba havia”enganado”em um teste de matemática importante, memorizando respostas dos dados de treinamento contaminados. Como observou o estrategista da IA Nate Jones,”no momento em que definimos o domínio da tabela de classificação como objetivo, corremos o risco de criar modelos que se destacam em exercícios triviais e linguados ao enfrentar a realidade”. This sentiment is echoed by experts like Sara Hooker, Head of Cohere Labs, who argued that “when a leaderboard is important to a whole ecosystem, the incentives are aligned for it to be gamed.”

By focusing on a tangible, difficult capability like text rendering, Alibaba appears to be shifting the narrative from abstract leaderboard scores to Utilidade do mundo real e inovação aberta . Ele aumenta a concorrência e reflete uma aposta que um ecossistema aberto promoverá inovação mais rápida e adoção mais ampla.

Categories: IT Info