O gigante da tecnologia chinês Alibaba escalou a corrida de geração de imagens da IA, lançando um novo modelo de fonte aberta em 4 de agosto que se destaca em um dos desafios mais difíceis para a IA: renderizando com precisão o texto.
Lançado sob uma licença permissiva do Apache 2.0, o modelo desafia diretamente os sistemas ocidentais proprietários do Google e do OpenAI. O objetivo é fornecer aos desenvolvedores uma alternativa gratuita e poderosa que integra perfeitamente o texto intrincado à criação visual, um obstáculo de longa data para modelos generativos. Imagens
Em seu núcleo, QWEN-IMAGE é um modelo de parâmetros de 20 bilhões) construído em um transformador de difusão multimodal. Para interpretar solicitações complexas de usuários, ele aproveita um modelo de linguagem de visão QWEN2.5-VL congelada como seu codificador de condição, uma escolha de design que capitaliza um modelo já adepto do alinhamento da linguagem e dos dados visuais. O modelo foi treinado usando uma abordagem de “aprendizado curricular”, começando com a renderização básica de não texto antes de dimensionar gradualmente para lidar com descrições complexas de parágrafo. Para melhorar ainda mais o manuseio de caracteres raros e fontes diversas, a equipe desenvolveu um pipeline de síntese de dados em várias etapas para gerar imagens de treinamento de alta qualidade e ricas em texto. Para fazer uma mudança, o sistema processa a imagem de entrada de duas maneiras: o QWEN2.5-VL extrai recursos semânticos de alto nível, enquanto um autoencoder variacional (VAE) captura detalhes reconstrutivos de baixo nível, conforme detalhado no Relatório técnico oficial . O próprio VAE foi especialmente ajustado em um corpus de documentos pesados de texto, como PDFs e pôsteres para aprimorar sua reconstrução de detalhes finos e texto pequeno. Ele se destaca em avaliações focadas em texto como o LongText-Bench e o New Chineseword Benchmark, superando os modelos existentes pelo que seus criadores chamam de”margem significativa”. Esse desempenho o posiciona como um poderoso desafiante de código aberto para os principais sistemas proprietários. O modelo demonstra um forte desempenho cruzado, suportando uma ampla gama de estilos artísticos. Como mostrado em seu anúncio oficial , pode se adaptar fluidentemente aos Protos criativos, produzindo tudo, desde a edição de editas e as pistas de edição
By focusing on a tangible, difficult capability like text rendering, Alibaba appears to be shifting the narrative from abstract leaderboard scores to Utilidade do mundo real e inovação aberta . Ele aumenta a concorrência e reflete uma aposta que um ecossistema aberto promoverá inovação mais rápida e adoção mais ampla.