Mentre un trasformatore standard deve imparare il percorso diretto verso una risposta, un EBT impara a segnare la”correttezza”di una determinata risposta, un compito più semplice che sembra generalizzare in modo più efficace. Il loro documento riporta che gli EBT si ridimensionano in modo più efficiente rispetto al basale avanzato di Transformer ++, mostrando fino a un tasso di ridimensionamento fino a 35% rispetto ai dati.
La migliore efficienza dei dati è particolarmente degna di nota. Suggerisce che, su larga scala, un EBT potrebbe ottenere le stesse prestazioni di un trasformatore standard durante l’allenamento su dati significativamente inferiori. In un’epoca in cui l’industria si sta avvicinando ai limiti dei dati di formazione di alta qualità disponibili sul Web, sviluppare architetture più efficienti da dati è un obiettivo strategico critico per i continui progressi dell’IA.
Tale”pensiero”si manifesta in due modi chiave durante l’inferenza. Innanzitutto, il modello può eseguire più fasi di raffinamento iterativo su un’unica previsione, dedicando efficacemente più calcoli a un problema difficile. In secondo luogo, può generare diverse risposte candidate e utilizzare la sua funzione energetica interna per auto-verificare e selezionare quella con l’energia più bassa, indicando la massima compatibilità. Questa spinta alle prestazioni è più pronunciata su compiti fuori dalla distribuzione (OOD): problemi che differiscono dai dati di allenamento.
autore leader Alexi Gladstone afferma che”i trasformatori basati sull’energia sono il primo approccio ai trasformatori di feed-forward esagerati attraverso le modalità e con rispetto per diverse assi tra cui dati, profondità, parametri, flopi, ecc.””Pensando”a più a lungo, EBTS ha migliorato le prestazioni delle attività linguistiche fino al 29%. Ciò suggerisce che il processo iterativo consente loro di ragionare in modo più robusto in nuove situazioni in cui i modelli standard potrebbero fare affidamento sulla corrispondenza dei pattern imperfetti.
Prestazioni promettenti, ma a un costo significativo
Nonostante i risultati promettenti, l’architettura EBT deve affrontare un ostacolo importante: costo computazionale. La formazione di questi modelli richiede attualmente tra 3,3 e 6,6 volte più operazioni a punta mobile (FLOPS) rispetto ai trasformatori standard. Questo sostanziale sovraccarico non è solo una preoccupazione teorica; pone una barriera significativa all’adozione, potenzialmente limitando la ricerca e lo sviluppo EBT solo ai laboratori accademici più ben finanziati e alle grandi società tecnologiche con vaste risorse computazionali.
L’elevato requisito di flop deriva direttamente dal processo di ottimizzazione iterativa al centro della progettazione dell’EBT. A differenza di un singolo passaggio di avanti di un modello standard, ogni fase di perfezionamento in un EBT comporta calcoli a gradiente complessi per determinare la direzione del prossimo”pensiero”. Questo processo, che richiede il calcolo dei derivati del secondo ordine (o approssimazioni efficienti come i prodotti dell’Assia-vettore), è fondamentalmente più intenso. Il team riconosce che questa è un’area chiave per il futuro lavoro di ottimizzazione, poiché rendere questo processo di”pensiero”più economico è essenziale per la distribuzione pratica.
Inoltre, gli esperimenti iniziali sono stati condotti su modelli con un massimo di 800 milioni di parametri. Questa è una frazione delle dimensioni dei più grandi sistemi di intelligenza artificiale di oggi, che spesso superano centinaia di miliardi di parametri. Il ridimensionamento di un’architettura per ordini di grandezza è notoriamente difficile, spesso rivelando sfide impreviste come la formazione di instabilità o paesaggi energetici che diventano troppo complessi per navigare in modo efficace. Pertanto, rimane una questione aperta se i benefici delle prestazioni osservati su questa scala più piccola manterranno, o addirittura amplificheranno, se applicati ai modelli di frontiera.
In definitiva, l’EBT presenta un compromesso fondamentale per la comunità dell’IA: il potenziale per un ragionamento più robusto, simile all’uomo, vale un aumento di diverse volte nei costi di formazione e inferenza? La risposta dipenderà probabilmente dall’applicazione. Per i compiti scientifici o analitici ad alte poste, il prezzo può essere giustificato, ma per uso generale, l’analisi costi-benefici rimane un problema critico e irrisolto.
La spinta del settore più ampia per l’efficienza AI
Il concetto di EBT arriva in una spinta più ampia del settore per una maggiore efficienza.. Diverse aziende stanno affrontando questa sfida da diversi angoli, evidenziando la necessità critica di ridurre i costi immensi associati all’intelligenza artificiale su larga scala.
Questi metodi concorrenti affrontano l’efficienza in diverse fasi. Il Multiverse Compactifai comprime il modello statico stesso. I NAMM di Sakana ottimizzano la cache KV dinamica durante l’inferenza. La BAMBA di IBM utilizza un’architettura ibrida per accelerare l’elaborazione della sequenza.
Al contrario, gli EBT alterano fondamentalmente il meccanismo di previsione stesso. Invece di ottimizzare un modello finito o la sua memoria, gli EBT integrano un processo di”pensiero”direttamente su come si forma ogni previsione, mirando a una migliore generalizzazione e ragionamento da zero.
Ad esempio, il calcolo del multiverso di startup spagnolo si concentra sulla compressione del modello. Il suo CEO, Enrique Lizaso Olmos, ha osservato:”La saggezza prevalente è che la riduzione degli LLM ha un costo. Il multiverso lo sta cambiando”. Nel frattempo, il modello BAMBA di IBM prende di mira la velocità di inferenza.
Il piombo del progetto di IBM Raghu Ganti ha spiegato la strategia:”Tutto ritorna alla riduzione della cache KV… più throughput, latenza inferiore, lunghezza di contesto più lunga”. Altre innovazioni, come il sistema di ottimizzazione della memoria di Sakana AI, mirano anche a rendere i trasformatori più efficienti. I ricercatori di Sakana hanno scoperto che”l’evoluzione supera intrinsecamente la non differenziabilità delle nostre operazioni di gestione della memoria, che coinvolgono risultati binari”ricorda”o”dimentica”.”
Questi vari approcci mostrano un cambiamento nello sviluppo dell’IA. Man mano che i modelli crescono, l’industria sta correndo per trovare modi sostenibili per addestrarli e distribuirli. I ricercatori EBT ritengono che il loro lavoro sia una parte fondamentale di questo futuro, concludendo che”gli EBT sono un nuovo promettente paradigma per ridimensionare sia le capacità di apprendimento che pensiero dei modelli”.