A equipe QWEN da

Alibaba lançou o QWEN3-VL, sua mais poderosa série de modelos de linguagem de visão até o momento. Seu tamanho grande (471 GB) o torna uma ferramenta para equipes de bem-estar. src=”Data: imagem/svg+xml; nitro-inempty-id=mty0nzoxnjcw-1; base64, phn2zyb2awv3qm94psiwidagmti4mca3mj AiihdpzhropsixmjgwiiBozwlnahq9ijcymcigEg1sbnm9Imh0dha6ly93d3cudzmub3jnlziwmdavc3znij48l3n2zz4=”>

Isso inclui atuar como um”agente visual”para controlar aplicativos e entender os vídeos de horas. O lançamento é um movimento essencial na estratégia de Alibaba para liderar o campo de IA de código aberto. Pilhas proprietárias de seus rivais ocidentais. A equipe de Qwen afirma que seu desempenho é de ponta.”A versão do Instruct corresponde ou mesmo excede o Gemini 2.5 Pro nos principais benchmarks de percepção visual. A versão pensante alcança resultados de última geração em muitos benchmarks de raciocínio multimodais”, afirmou a equipe em seu anúncio. href=”https://qwen.ai/blog?id=99F0335C4AD9FF6153E517418D48535AB6D8AFEF&From=Research.latest-advancements-list”Target=”_”Blank> Inovation em Qwen3-L Esse recurso vai além do simples reconhecimento de imagens, permitindo que o modelo opere interfaces de usuário em computador e móveis (GUIs). Os aplicativos em potencial variam de automatizando tarefas repetitivas de software e auxílio aos usuários com fluxos de trabalho complexos até a criação de ferramentas de acessibilidade mais intuitivas para navegar em aplicativos.

A utilidade prática do modelo é ainda mais aprimorada por sua enorme janela de contexto. Ele suporta nativamente 256.000 tokens, expansível até um milhão. Novos recursos são alimentados por uma revisão arquitetônica significativa, projetada para ultrapassar os limites do entendimento visual e temporal. Artigo .

Primeiro, o modelo emprega”mrope intercalada”, um método de codificação posicional mais robusto. Isso substitui a abordagem anterior em que as informações temporais foram concentradas em dimensões de alta frequência. A nova técnica distribui os dados de tempo, altura e largura em todas as frequências, melhorando significativamente a compreensão de longa data, mantendo o entendimento da imagem. Em vez de injetar tokens visuais em uma única camada do modelo de idioma, o DeepStack os injeta em várias camadas. Isso permite uma fusão de granulação mais fina de recursos de vários níveis do Vision Transformer (VIT), aprimorando a precisão do alinhamento da imagem de texto do modelo. Este sistema usa um formato de entrada intercalado de registros de data e hora e quadros de vídeo, permitindo alinhamento preciso no nível de quadros entre dados temporais e conteúdo visual. Isso aumenta substancialmente a capacidade do modelo de localizar eventos e ações em seqüências de vídeo complexas.

Este lançamento é o mais recente de uma ofensiva rápida e deliberada da IA ​​do Alibaba. A empresa lançou recentemente poderosos modelos de código aberto para raciocínio avançado e geração de imagens de alta fidelidade. Esse movimento também solidifica um pivô estratégico longe do modo de’pensamento híbrido’de modelos anteriores, que exigia que os desenvolvedores alterassem entre os modos. Open-Source Gambit in a Specialized Field

Qwen3-VL enters a competitive field that is increasingly pivoting away from the monolithic “scale is all you need”philosophy.

As the computational costs of training ever-larger models yield diminishing returns, a growing movement favors specialized, efficient, and often open-weight systems designed for specific roles rather than universal Dominância. O campo é rapidamente diversificando, com modelos como a Florence-2 da Microsoft também buscando uma abordagem unificada e rápida para lidar com várias tarefas de visão, como legenda e detecção de objetos em uma única arquitetura coesiva. Esse modelo leve é ​​otimizado para a detecção de objetos em dispositivos de borda, priorizando a baixa latência e a capacidade de resposta sobre o raciocínio interpretativo de sistemas maiores. A Aya Vision da Cohere, por exemplo, é um modelo de peso aberto projetado especificamente para promover a pesquisa multilíngue e multimodal de IA, destacando seu foco em capacitar projetos acadêmicos e focados em acessibilidade. Recentemente, os pesquisadores revelaram a rede neural totalmente topográfica (TNN), um modelo que imita a estrutura do cérebro humano para a eficiência energética superior. dados. O co-autor Zejin Lu explicou o conceito: “Para os humanos, quando você detecta certos objetos, eles têm uma posição típica. Você já sabe que os sapatos geralmente estão no fundo, no chão. O avião, está no topo. href=”https://en.wikipedia.org/wiki/ConVolutional_Neural_Network”Target=”_ Blank”> Rede neural convolucional (CNN) . Isso o torna uma alternativa atraente para dispositivos de borda de baixa potência, onde a eficiência é fundamental, provando que o design elegante pode ser mais eficaz do que a computação de força bruta.

Categories: IT Info