Il nuovo framework CALM AI di Tencent ha eliminato il collo di bottiglia della velocità dell’IA

I ricercatori del Tencent AI Lab hanno svelato un nuovo framework di intelligenza artificiale progettato per superare i limiti di velocità degli attuali modelli linguistici di grandi dimensioni.

Descritto in un articolo pubblicato online questa settimana, il sistema si chiama CALM, per Continuous Autoregressive Language Models. Sfida direttamente il lento processo token per token che alimenta oggi l’intelligenza artificiale più generativa.

Invece di prevedere un piccolo pezzo di parola alla volta, CALM impara a prevedere un singolo vettore che rappresenta un intero pezzo di testo. Questo metodo potrebbe rendere la generazione dell’intelligenza artificiale molto più rapida ed efficiente, aprendo un nuovo percorso per la scalabilità dei modelli.

La tirannia del token: il collo di bottiglia autoregressivo dell’IA

Una debolezza fondamentale dei moderni LLM è la loro dipendenza dalla generazione autoregressiva, token per token. Questa dipendenza sequenziale è il principale collo di bottiglia che limita la velocità e la scalabilità dell’intelligenza artificiale.

La generazione di un lungo articolo richiede migliaia di passaggi di previsione sequenziali, rendendo il processo lento e costoso dal punto di vista computazionale. Questo non è solo un problema accademico; è per questo motivo che l’utilizzo di modelli potenti è costoso e la generazione di formati di lunga durata in tempo reale rimane una sfida.

Questo problema di efficienza è diventato un campo di battaglia centrale per gli sviluppatori di intelligenza artificiale. Come osservato in precedenza da Google Research, “mentre distribuiamo questi modelli a un numero maggiore di utenti, renderli più veloci e meno costosi senza sacrificare la qualità è una sfida fondamentale.”

Il settore ha esplorato numerose soluzioni, dalle speculative cascate di Google alle nuove tecniche di compressione. Ora, il lavoro di Tencent propone una soluzione più radicale.

L’articolo propone un progetto per una nuova classe di modelli linguistici ultra-efficienti e per il collo di bottiglia in termini di velocità indotto dai token.

L’obiettivo è cambiare radicalmente l’unità di previsione da un singolo token con poche informazioni a qualcosa di molto più ricco.

Un nuovo paradigma: prevedere i vettori invece dei token

In a sfida diretta allo status quo dell’intelligenza artificiale generativa, CALM riformula completamente il compito di previsione. I ricercatori propongono un nuovo asse di ridimensionamento per i LLM.

“Sosteniamo che per superare questo collo di bottiglia è necessario un nuovo asse di progettazione per il ridimensionamento LLM: aumentare la larghezza di banda semantica di ogni passaggio generativo”, scrivono nel documento.

Aumentando questa”larghezza di banda semantica”, il modello può elaborare più informazioni in un unico passaggio. CALM raggiunge questo obiettivo attraverso un innovativo processo in due fasi che opera in uno spazio continuo, anziché discreto.

Il cuore del design di CALM è un codificatore automatico ad alta fedeltà. Questo componente impara a comprimere un pezzo di K token, ad esempio quattro token, in un unico vettore denso e continuo.

Fondamentalmente, può ricostruire i token originali da questo vettore con una precisione superiore al 99,9%. Un modello linguistico separato esegue quindi una previsione autoregressiva in questo nuovo spazio vettoriale.

Secondo la documentazione ufficiale del progetto,”invece di prevedere un token discreto alla volta, CALM impara a prevedere un singolo vettore continuo che rappresenta un intero pezzo di K token.”

Ciò riduce il numero di passaggi generativi di un fattore K, portando a significativi guadagni di efficienza.

The Likelihood-Free Toolkit: How CALM Learns and Measures Success

Il passaggio da token discreti a vettori continui introduce una sfida importante: il modello non può più calcolare una distribuzione di probabilità esplicita su tutti i possibili risultati utilizzando un livello softmax standard.

Ciò rende inapplicabili i metodi tradizionali di formazione e valutazione, che si basano sul calcolo delle probabilità. Per risolvere questo problema, il team Tencent ha sviluppato un quadro completo e privo di probabilità.

Per l’addestramento, CALM utilizza un metodo di allenamento basato sull’energia, che utilizza una regola di punteggio rigorosamente adeguata per guidare il modello senza la necessità di calcolare le probabilità.

Per la valutazione, i ricercatori hanno introdotto una nuova metrica chiamata BrierLM. Allontanandosi dalle metriche tradizionali come la perplessità, BrierLM deriva dal punteggio Brier, uno strumento di previsione probabilistica.

Consente un confronto equo e basato su campioni delle capacità del modello controllando quanto bene le previsioni si allineano con la realtà, un metodo perfettamente adatto per modelli in cui le probabilità sono intrattabili.

Un nuovo asse per lo scaling dell’intelligenza artificiale e la corsa all’efficienza

L’impatto pratico di questa nuova architettura è un compromesso superiore tra prestazioni e calcolo.

Il modello CALM riduce i requisiti computazionali di addestramento del 44% e l’inferenza del 33% rispetto a una base di riferimento solida. Ciò dimostra che il ridimensionamento della larghezza di banda semantica di ogni passaggio è una nuova potente leva per migliorare l’efficienza computazionale.

Il lavoro posiziona CALM come un contendente significativo nella corsa a livello di settore per costruire un’IA più veloce, più economica e più accessibile.

Google ha affrontato il problema della velocità dell’IA con metodi come le cascate speculative e il Nested Learning. Altre startup, come Inception, stanno esplorando architetture completamente diverse come LLM basati sulla diffusione nel suo “Mercury Coder” per sfuggire al”collo di bottiglia strutturale”dell’autoregressione.

Insieme, questi diversi approcci evidenziano un cambiamento nello sviluppo dell’IA. L’industria si sta spostando da una pura attenzione alla scala a una ricerca più sostenibile di un’intelligenza artificiale più intelligente ed economicamente sostenibile. L’approccio vettoriale di CALM offre un nuovo percorso da seguire su questo fronte.

Il nuovo framework CALM AI di Tencent ha eliminato il collo di bottiglia della velocità dell’IA

Published by All Things Windows on November 13, 2025

La tirannia del token: il collo di bottiglia autoregressivo dell’IA

Un nuovo paradigma: prevedere i vettori invece dei token

The Likelihood-Free Toolkit: How CALM Learns and Measures Success

Un nuovo asse per lo scaling dell’intelligenza artificiale e la corsa all’efficienza

IT Info

Google implementa agenti di shopping AI che chiamano i negozi e acquistano prodotti per te

IT Info

Gemini 3.0: Google sembra avviare test nascosti su Gemini Mobile Canvas

IT Info

Come scaricare l’app Amazon Flex

Il nuovo framework CALM AI di Tencent ha eliminato il collo di bottiglia della velocità dell’IA

Published by All Things Windows on November 13, 2025

La tirannia del token: il collo di bottiglia autoregressivo dell’IA

Un nuovo paradigma: prevedere i vettori invece dei token

The Likelihood-Free Toolkit: How CALM Learns and Measures Success

Un nuovo asse per lo scaling dell’intelligenza artificiale e la corsa all’efficienza

Related Posts

IT Info

Google implementa agenti di shopping AI che chiamano i negozi e acquistano prodotti per te

IT Info

Gemini 3.0: Google sembra avviare test nascosti su Gemini Mobile Canvas

IT Info

Come scaricare l’app Amazon Flex