Alibabas Qwen-team har lanserat QWEN3-VL, dess mest kraftfulla vision-språkliga modellserie hittills.
som släpps 23 september, är flaggskeppet en massiv 235 miljarder-parametermodell som är fritt tillgänglig för utvecklare världen över. Dess stora storlek (471 GB) gör det till ett verktyg för väl resurade team.
Den öppna källan AI utmanar direkt toppade system som Googles Gemini 2.5 Pro med avancerade nya färdigheter.
>>
Dessa inkluderar att fungera som ett”visuellt agent”för att kontrollera appar och förstå timmar långa videor. The release is a key move in Alibaba’s strategy to lead the open-source AI field.
This launch is not an isolated event but the latest salvo in Alibaba’s aggressive campaign to dominate the open-source AI landscape.
In recent months, the company has released a flurry of powerful models for reasoning, coding, and image generation, assembling a comprehensive, open alternative to the proprietary Stacks av sina västra rivaler.
tillgängligt på kramning under en tillåtande APACHE 2.0-licens, The Model är uppdelat”Target”och”Tänkande. Prestanda är modernt.”Instruktionsversionsmatcherna eller till och med överskrider Gemini 2.5 Pro i större visuella uppfattningens riktmärken. Den tänkande versionen uppnår toppmoderna resultat över många multimodala resonemangsreenchmarker,”uttalade teamet i sitt tillkännagivande.
a. href=”https://qwen.ai/blog?id=99f0335c4ad9ff6153e517418d48535Ab6d8Afef&from=Research.latest-Advancements-List”Target=”_ blank”> Nyckel Innovation i Qwen3-Vl
Det kan känna igen element på skärmen, förstå deras funktioner och utföra uppgifter autonomt.
Detta förvandlar modellen från en passiv observatör till en aktiv deltagare i digitala miljöer. Potentiella applikationer sträcker sig från att automatisera repetitiva mjukvaruuppgifter och hjälpa användare med komplexa arbetsflöden till att skapa mer intuitiva tillgänglighetsverktyg för att navigera applikationer.
Modellens praktiska användbarhet förbättras ytterligare av dess massiva sammanhangsfönster. Det stöder naturligtvis 256 000 symboler, utbyggbara upp till en miljon.
Detta gör att en användare kan mata modellen en hel funktionslängd film och sedan ställa specifika frågor om plotpunkter eller karaktärsutseende, som modellen kan fastställa ner till den andra.
under huven: en uppdrad arkitektur för vision och vision och video
under huven: en uppdrad arkitektur för vision och videoklipp. Funktioner drivs av en betydande arkitektonisk översyn som är utformad för att driva gränserna för visuell och temporär förståelse.
Qwen-teamet introducerade tre kärnuppdateringar för att förbättra dess prestanda, särskilt med long-form-video och finkorniga visuella detaljer, som ITALID”> detaljerade”> detaljerade”> detaljerade”. Papper .
Först använder modellen”Interleaved-Mrope”, en mer robust positionell kodningsmetod. Detta ersätter det tidigare tillvägagångssättet där temporär information koncentrerades i högfrekventa dimensioner. Den nya tekniken distribuerar tid, höjd och bredddata över alla frekvenser, vilket förbättrar avsevärt långviddens förståelse samtidigt som bildförståelse bibehålls.
För det andra, introduktionen av”DeepStack”-teknologin förbättrar visuell detaljfångst. Istället för att injicera visuella symboler i ett enda lager av språkmodellen, injicerar DeepStack dem över flera lager. Detta möjliggör en finare sammansmältning av flera nivåfunktioner från Vision Transformer (VIT), och skärpning av modellens text-bildjusteringsnoggrannhet.
Slutligen uppgraderade teamet sin temporära modellering från T-ROPE till en”Text-Timestamp-justering”-mekanism. Detta system använder ett sammanflätat inmatningsformat för tidsstämplar och videoramar, vilket möjliggör exakt, ramnivåinriktning mellan temporärt data och visuellt innehåll. Detta ökar väsentligen modellens förmåga att lokalisera händelser och åtgärder inom komplexa videosekvenser.
Denna utgåva är den senaste i en snabb och avsiktlig AI-offensiv från Alibaba. Företaget lanserade nyligen kraftfulla öppna källkodsmodeller för avancerad resonemang och bildgenerering med hög trohet. This move also solidifies a strategic pivot away from the ‘hybrid thinking’ mode of earlier models, which required developers to toggle between modes.
The shift to separate, specialized models for instruction-following and deep reasoning was driven by community feedback.
Alibaba’s focus on distinct, high-quality models aims to provide developers with more consistent and powerful tools.
An Open-Source Gambit in a Specialized Field
Qwen3-VL enters a competitive field that is increasingly pivoting away from the monolithic “scale is all you need”philosophy.
As the computational costs of training ever-larger models yield diminishing returns, a growing movement favors specialized, efficient, and often open-weight systems designed for specific roles rather than universal Dominans.
Detta strategiska val placerar QWEN3-VL inom ett mångfaldigt område med specialiserade verktyg. Fältet är snabbt diversifierande, med modeller som Microsofts Florence-2 som också bedriver en enhetlig, snabbbaserad strategi för att hantera flera synuppgifter som bildtexter och objektdetektering inom en enda, sammanhängande arkitektur. Denna lätta modell är optimerad för objektdetektering på kantenheter och prioriterar låg latens och lyhördhet framför det tolkande resonemanget för större system.
Det uppnår detta genom att effektivisera den komplexa DetR-arkitekturen för praktisk, omedelbar distribution i robotik och smarta kameror.
I kontrast, andra modeller prioriterar forskning och tillgänglighet. Cohere’s AYA-vision, till exempel, är en öppen viktmodell utformad specifikt för att främja flerspråkig och multimodal AI-forskning, som belyser sitt fokus på att stärka akademiska och tillgänglighetsfokuserade projekt.
kanske den mest radikala utmaningen för skalningsparadigmet kommer från grundläggande arkitektonisk innovation. Forskare avslöjade nyligen det all-topografiska neurala nätverket (All-TNN), en modell som efterliknar den mänskliga hjärnans struktur för överlägsen energieffektivitet.
Det undviker”viktdelande”vanligt i konventionell ai, istället använder en”smidighetskonstruktion”att uppmuntra angränsande artificiella neuroner för att lära sig liknande funktioner. data. Medförfattare Zejin Lu förklarade konceptet:”För människor, när du upptäcker vissa föremål, har de en typisk position. Du vet redan att skorna vanligtvis är längst ner, på marken. Flygplanet, det är överst.”
Modellen lärde sig dessa kontextuella regler och korrelerar tre gånger starkare med mänsklig vision än en standard Convolutional Neural Network (CNN) .
Detta mänskliga beteende kommer med en avvägning: dess råa noggrannhet är lägre än en traditionell CNN, men det är mindre energi. Detta gör det till ett tvingande alternativ för enheter med låg effekt där effektivitet är avgörande, vilket bevisar att elegant design kan vara mer effektiv än brute-kraftberäkning.
genom att släppa en kraftfull, öppen och specialiserad visionmodell, alibaba satsar att vårdning av denna mångfaldiga ekosystem är den säkrade vägen för innovation på denna stadium.
Qwen-teamet introducerade tre kärnuppdateringar för att förbättra dess prestanda, särskilt med long-form-video och finkorniga visuella detaljer, som ITALID”> detaljerade”> detaljerade”> detaljerade”. Papper .
Först använder modellen”Interleaved-Mrope”, en mer robust positionell kodningsmetod. Detta ersätter det tidigare tillvägagångssättet där temporär information koncentrerades i högfrekventa dimensioner. Den nya tekniken distribuerar tid, höjd och bredddata över alla frekvenser, vilket förbättrar avsevärt långviddens förståelse samtidigt som bildförståelse bibehålls.
För det andra, introduktionen av”DeepStack”-teknologin förbättrar visuell detaljfångst. Istället för att injicera visuella symboler i ett enda lager av språkmodellen, injicerar DeepStack dem över flera lager. Detta möjliggör en finare sammansmältning av flera nivåfunktioner från Vision Transformer (VIT), och skärpning av modellens text-bildjusteringsnoggrannhet.
Slutligen uppgraderade teamet sin temporära modellering från T-ROPE till en”Text-Timestamp-justering”-mekanism. Detta system använder ett sammanflätat inmatningsformat för tidsstämplar och videoramar, vilket möjliggör exakt, ramnivåinriktning mellan temporärt data och visuellt innehåll. Detta ökar väsentligen modellens förmåga att lokalisera händelser och åtgärder inom komplexa videosekvenser.
Denna utgåva är den senaste i en snabb och avsiktlig AI-offensiv från Alibaba. Företaget lanserade nyligen kraftfulla öppna källkodsmodeller för avancerad resonemang och bildgenerering med hög trohet. This move also solidifies a strategic pivot away from the ‘hybrid thinking’ mode of earlier models, which required developers to toggle between modes.
The shift to separate, specialized models for instruction-following and deep reasoning was driven by community feedback.
Alibaba’s focus on distinct, high-quality models aims to provide developers with more consistent and powerful tools.
An Open-Source Gambit in a Specialized Field
Qwen3-VL enters a competitive field that is increasingly pivoting away from the monolithic “scale is all you need”philosophy.
As the computational costs of training ever-larger models yield diminishing returns, a growing movement favors specialized, efficient, and often open-weight systems designed for specific roles rather than universal Dominans.
Detta strategiska val placerar QWEN3-VL inom ett mångfaldigt område med specialiserade verktyg. Fältet är snabbt diversifierande, med modeller som Microsofts Florence-2 som också bedriver en enhetlig, snabbbaserad strategi för att hantera flera synuppgifter som bildtexter och objektdetektering inom en enda, sammanhängande arkitektur. Denna lätta modell är optimerad för objektdetektering på kantenheter och prioriterar låg latens och lyhördhet framför det tolkande resonemanget för större system.
Det uppnår detta genom att effektivisera den komplexa DetR-arkitekturen för praktisk, omedelbar distribution i robotik och smarta kameror.
I kontrast, andra modeller prioriterar forskning och tillgänglighet. Cohere’s AYA-vision, till exempel, är en öppen viktmodell utformad specifikt för att främja flerspråkig och multimodal AI-forskning, som belyser sitt fokus på att stärka akademiska och tillgänglighetsfokuserade projekt.
kanske den mest radikala utmaningen för skalningsparadigmet kommer från grundläggande arkitektonisk innovation. Forskare avslöjade nyligen det all-topografiska neurala nätverket (All-TNN), en modell som efterliknar den mänskliga hjärnans struktur för överlägsen energieffektivitet.
Det undviker”viktdelande”vanligt i konventionell ai, istället använder en”smidighetskonstruktion”att uppmuntra angränsande artificiella neuroner för att lära sig liknande funktioner. data. Medförfattare Zejin Lu förklarade konceptet:”För människor, när du upptäcker vissa föremål, har de en typisk position. Du vet redan att skorna vanligtvis är längst ner, på marken. Flygplanet, det är överst.”
Modellen lärde sig dessa kontextuella regler och korrelerar tre gånger starkare med mänsklig vision än en standard
Detta mänskliga beteende kommer med en avvägning: dess råa noggrannhet är lägre än en traditionell CNN, men det är mindre energi. Detta gör det till ett tvingande alternativ för enheter med låg effekt där effektivitet är avgörande, vilket bevisar att elegant design kan vara mer effektiv än brute-kraftberäkning.
genom att släppa en kraftfull, öppen och specialiserad visionmodell, alibaba satsar att vårdning av denna mångfaldiga ekosystem är den säkrade vägen för innovation på denna stadium.