Il team Qwen di Alibaba ha lanciato Qwen3-VL, la sua serie di modelli in lingua visiva più potente fino ad oggi.

Rilasciato il 23 settembre, l’ammiraglia è un enorme modello di parametri da 235 miliardi reso liberamente disponibile per gli sviluppatori in tutto il mondo. Le sue grandi dimensioni (471 GB) lo rendono uno strumento per team ben risorse.

L’intelligenza artificiale open source sfida direttamente i migliori sistemi chiusi come Gemini 2,5 Pro di Google con nuove competenze avanzate.

Questi includono l’agire come”agente visivo”per controllare le app e comprendere i video di ore. Il rilascio è una mossa chiave nella strategia di Alibaba per guidare il campo di AI open source.

Questo lancio non è un evento isolato, ma l’ultima salva nella campagna aggressiva di Alibaba per dominare il paesaggio AI open-source, l’assegnazione di un alternativo. Stacks dei suoi rivali occidentali.

disponibile su una faccia di abbraccio sotto una licenza permissiva apache 2.0, il modello è suddiviso in”pensiero”e”pensando”e. afferma che la sua prestazione è all’avanguardia.”La versione istruttiva corrisponde o addirittura supera Gemini 2.5 Pro nei principali benchmark di percezione visiva. La versione pensante raggiunge i risultati all’avanguardia in molti benchmark di ragionamento multimodale”, ha affermato il team nel suo annuncio. href=”https://qwen.ai/blog?id=99f0335c4ad9ff6153e517418d48535ab6d8afef&from=research.latest-advancements-list”Target=”_ blank”> innovazione chiave in qwen3-vl è la capacità di”agente visivo. Questa funzione va oltre il semplice riconoscimento delle immagini, consentendo al modello di operare interfacce utente grafiche di computer e mobile (GUI).

Può riconoscere gli elementi sullo schermo, comprendere le loro funzioni ed eseguire compiti autonomamente.

Questo trasforma il modello da un osservatore passivo in un partecipante attivo in ambienti digitali. Le potenziali applicazioni vanno dall’automazione delle attività del software ripetitivo e dall’assistenza agli utenti con flussi di lavoro complessi alla creazione di strumenti di accessibilità più intuitivi per la navigazione di applicazioni.

L’utilità pratica del modello è ulteriormente migliorata dalla sua enorme finestra di contesto. Supporta nativamente 256.000 token, espandibili fino a un milione.

Ciò consente a un utente di alimentare il modello a un intero film di lunghezza e quindi di porre domande specifiche sui punti della trama o apparizioni di personaggi, che il modello può individuare fino al secondo.

sotto il cappuccio: un’architettura upgradata per la visione e il video>

Nuove capacità sono alimentate da una significativa revisione architettonica progettata per spingere i confini della comprensione visiva e temporale.

Il team Qwen ha introdotto tre aggiornamenti fondamentali per migliorare le sue prestazioni, in particolare con video a lungo termine e dettagli visivi a grana fine, come .

In primo luogo, il modello impiega”interleaved-mrope”, un metodo di codifica posizionale più robusto. Ciò sostituisce l’approccio precedente in cui le informazioni temporali erano concentrate in dimensioni ad alta frequenza. La nuova tecnica distribuisce dati di tempo, altezza e larghezza in tutte le frequenze, migliorando significativamente la comprensione a lungo volante mantenendo la comprensione dell’immagine.

In secondo luogo, l’introduzione della tecnologia”DeepStack”migliora la cattura dei dettagli visivi. Invece di iniettare token visivi in ​​un singolo strato del modello linguistico, Deepstack li inietta su più livelli. Ciò consente una fusione a grana più fine di caratteristiche multilivello dal trasformatore di visione (VIT), affinando l’accuratezza dell’allineamento dell’immagine di testo del modello. Questo sistema utilizza un formato di input interleaved di timestamp e frame video, abilitando un allineamento preciso a livello di frame tra dati temporali e contenuto visivo. Ciò aumenta sostanzialmente la capacità del modello di localizzare eventi e azioni all’interno di sequenze video complesse.

Questa versione è l’ultima di un’offensiva AI rapida e deliberata di Alibaba. La società ha recentemente lanciato potenti modelli open source per ragionamenti avanzati e generazione di immagini ad alta fedeltà. Questa mossa consolida anche un perno strategico lontano dalla modalità”pensiero ibrido”dei modelli precedenti, che richiedeva agli sviluppatori di alternare tra le modalità.

Il passaggio a modelli separati e specializzati per le istruzioni e il ragionamento profondo è stato guidato da un feedback della comunità.

Alibaba Focus di Alibaba A An Strongs> Gambita open source in un campo specializzato

QWEN3-VL entra in un campo competitivo che si sta sempre più raccogliendo dalla scala monolitica”è tutto ciò di cui hai bisogno”Filosofia.

Dominanza.

Questa scelta strategica colloca Qwen3-VL all’interno di un campo diversificato di strumenti specializzati. Il campo si sta rapidamente diversificando, con modelli come Florence-2 di Microsoft che perseguono anche un approccio unificato e rapido per gestire più attività di visione come la didascalia e il rilevamento di oggetti all’interno di un’unica architettura coesa.

Una nicchia chiave è le prestazioni in tempo reale su hardware vincolato, esempio da RF-DETR di Roboflow. Questo modello leggero è ottimizzato per il rilevamento di oggetti sui dispositivi Edge, dando la priorità alla bassa latenza e alla reattività rispetto al ragionamento interpretativo di sistemi più grandi.

Raggiunge questo razionalizzando la complessa architettura di detring per la distribuzione pratica e immediata in robotica e camere intelligenti.

In contrasto, altri modelli danno la priorità alla flessibilità della ricerca e La visione AYA di Cohere, ad esempio, è un modello a peso aperto progettato specificamente per far avanzare la ricerca multilingue e multimodale di intelligenza artificiale, evidenziando la sua attenzione al potenziamento di progetti accademici e focalizzati sull’accessibilità.

Forse la sfida più radicale per il paradigma di ridimensionamento proviene dall’innovazione architettonica fondamentale. I ricercatori hanno recentemente svelato la rete neurale tutta-topografica (All-TNN), un modello che imita la struttura del cervello umano per l’efficienza energetica superiore.

Evita la”condivisione del peso”comune nella progettazione convenzionale, invece di apprendere la logoramento”dati. Il coautore Zejin Lu ha spiegato il concetto:”Per gli umani, quando rilevi determinati oggetti, hanno una posizione tipica. Sai già che le scarpe sono di solito in fondo, sul terreno. L’aereo, è in cima.”

Il modello ha imparato queste regole contestuali, correlando tre volte più forte con una visione umana rispetto a uno standard Neurale convoluzionale Network (CNN) .

Questo comportamento simile all’uomo viene con un compromesso: la sua precisione grezza è inferiore a una CNN tradizionale, ma consuma meno di energia. Ciò lo rende un’alternativa avvincente per i dispositivi a basso consumo di bordo in cui l’efficienza è fondamentale, dimostrando che un design elegante può essere più efficace del calcolo della forza bruta.

rilasciando un modello di visione potente, aperto e specializzato

Categories: IT Info