Il nuovo Transformers AI Architecture basato sull'energia mira al pensiero più profondo del"sistema 2" - All Things Windows

Un consorzio di ricercatori universitari e di Amazon ha svelato una nuova architettura di intelligenza artificiale, il trasformatore basato sull’energia (EBT). È progettato per fornire modelli con più capacità analitiche simili all’uomo. L’approccio mira a infondere”System 2 Thinking”in AI, che spesso si basa sul riconoscimento rapido e intuitivo del modello.

Dettagliato in un nuovo documento di ricerca , i trattamenti del modello EBT pensano come e elaborazioni e ipotesi di ottimizzazione. Inizia con una soluzione casuale e la migliora gradualmente per ridurre al minimo un punteggio calcolato”energia”. Mentre i primi risultati suggeriscono che EBTS potrebbe essere più efficiente dal punto di vista dei dati, il metodo richiede più calcolo.

La domanda principale del progetto, come posta dai ricercatori, è:”È possibile generalizzare questi approcci di pensiero del sistema 2 e sviluppare modelli che imparano a pensare esclusivamente dall’apprendimento non supervisionato?”Ciò sfida l’attuale paradigma dello sviluppo dell’IA. L’opera è disponibile su una pagina di progetto Pagina del progetto e github .

Dall’intuizione all’analisi: la ricerca del”sistema 2″ai

L’architettura EBT rappresenta un cambiamento fondamentale dal paradigma Dominante AI. La maggior parte dei modelli attuali, tra cui Transformers standard, Excel a

nel suo cuore, la previsione di EBT Reports come un puzzle di ottimizzazione. Un trasformatore standard prende un input e genera un output in un singolo passaggio in avanti deterministico. Al contrario, un EBT impara un”panorama energetico”complesso e alte dimensioni per tutte le possibili previsioni relative a un determinato contesto.

Invece di produrre direttamente una risposta, il modello inizia con un’ipotesi casuale e rumorosa. Usa quindi i principi della discesa gradiente per perfezionare iterativamente questa ipotesi, essenzialmente”camminando”in discesa sul paesaggio energetico appreso fino a quando non si stabilisce nel punto più basso possibile, o”Valle di energia”.

Questo stato più basso di energia rappresenta la risposta più plausibile e contestualmente coerente. Questo processo di perfezionamento iterativo è il nucleo del meccanismo di”pensiero”dell’EBT. Permette al modello di esplorare uno spazio di potenziali soluzioni piuttosto che essere bloccato in un singolo percorso.

Questo approccio è progettato per incarnare tre sfaccettature chiave della cognizione spesso assente nei modelli standard. Il primo è l’allocazione del calcolo dinamico. Per un semplice problema, il modello potrebbe trovare il minimo di energia in pochi passaggi. Per uno complesso, può richiedere molti più passaggi, spendendo efficacemente più”pensiero”sul problema.

La seconda sfaccettatura è la capacità di modellare l’incertezza. Un paesaggio di energia regolare con un minimo chiaro indica un’elevata certezza. Un paesaggio robusto con molte valli locali suggerisce che il modello è incerto, poiché esistono più risposte plausibili. Ciò fornisce una comprensione più sfumata della fiducia del modello.

terzo, l’architettura include un meccanismo intrinseco per la verifica della previsione. Il punteggio finale di energia di una previsione funge da controllo di qualità integrato. Un punteggio basso indica una risposta verificata di alta qualità, mentre un punteggio elevato segnala una scarsa, il tutto senza bisogno di un modello di verificatore separato.

integrando queste tre capacità, l’EBT mira a creare una forma più solida e generalizzabile di ragionamento. Passa oltre la semplice generazione di pattern a un processo di risoluzione attivo e iterativa dei problemi, segnando un passo concettuale significativo nella ricerca di un’intelligenza artificiale più capace.

Mentre un trasformatore standard deve imparare il percorso diretto verso una risposta, un EBT impara a segnare la”correttezza”di una determinata risposta, un compito più semplice che sembra generalizzare in modo più efficace. Il loro documento riporta che gli EBT si ridimensionano in modo più efficiente rispetto al basale avanzato di Transformer ++, mostrando fino a un tasso di ridimensionamento fino a 35% rispetto ai dati.

La migliore efficienza dei dati è particolarmente degna di nota. Suggerisce che, su larga scala, un EBT potrebbe ottenere le stesse prestazioni di un trasformatore standard durante l’allenamento su dati significativamente inferiori. In un’epoca in cui l’industria si sta avvicinando ai limiti dei dati di formazione di alta qualità disponibili sul Web, sviluppare architetture più efficienti da dati è un obiettivo strategico critico per i continui progressi dell’IA.

Tale”pensiero”si manifesta in due modi chiave durante l’inferenza. Innanzitutto, il modello può eseguire più fasi di raffinamento iterativo su un’unica previsione, dedicando efficacemente più calcoli a un problema difficile. In secondo luogo, può generare diverse risposte candidate e utilizzare la sua funzione energetica interna per auto-verificare e selezionare quella con l’energia più bassa, indicando la massima compatibilità. Questa spinta alle prestazioni è più pronunciata su compiti fuori dalla distribuzione (OOD): problemi che differiscono dai dati di allenamento.

autore leader Alexi Gladstone afferma che”i trasformatori basati sull’energia sono il primo approccio ai trasformatori di feed-forward esagerati attraverso le modalità e con rispetto per diverse assi tra cui dati, profondità, parametri, flopi, ecc.””Pensando”a più a lungo, EBTS ha migliorato le prestazioni delle attività linguistiche fino al 29%. Ciò suggerisce che il processo iterativo consente loro di ragionare in modo più robusto in nuove situazioni in cui i modelli standard potrebbero fare affidamento sulla corrispondenza dei pattern imperfetti.

Prestazioni promettenti, ma a un costo significativo

Nonostante i risultati promettenti, l’architettura EBT deve affrontare un ostacolo importante: costo computazionale. La formazione di questi modelli richiede attualmente tra 3,3 e 6,6 volte più operazioni a punta mobile (FLOPS) rispetto ai trasformatori standard. Questo sostanziale sovraccarico non è solo una preoccupazione teorica; pone una barriera significativa all’adozione, potenzialmente limitando la ricerca e lo sviluppo EBT solo ai laboratori accademici più ben finanziati e alle grandi società tecnologiche con vaste risorse computazionali.

L’elevato requisito di flop deriva direttamente dal processo di ottimizzazione iterativa al centro della progettazione dell’EBT. A differenza di un singolo passaggio di avanti di un modello standard, ogni fase di perfezionamento in un EBT comporta calcoli a gradiente complessi per determinare la direzione del prossimo”pensiero”. Questo processo, che richiede il calcolo dei derivati del secondo ordine (o approssimazioni efficienti come i prodotti dell’Assia-vettore), è fondamentalmente più intenso. Il team riconosce che questa è un’area chiave per il futuro lavoro di ottimizzazione, poiché rendere questo processo di”pensiero”più economico è essenziale per la distribuzione pratica.

Inoltre, gli esperimenti iniziali sono stati condotti su modelli con un massimo di 800 milioni di parametri. Questa è una frazione delle dimensioni dei più grandi sistemi di intelligenza artificiale di oggi, che spesso superano centinaia di miliardi di parametri. Il ridimensionamento di un’architettura per ordini di grandezza è notoriamente difficile, spesso rivelando sfide impreviste come la formazione di instabilità o paesaggi energetici che diventano troppo complessi per navigare in modo efficace. Pertanto, rimane una questione aperta se i benefici delle prestazioni osservati su questa scala più piccola manterranno, o addirittura amplificheranno, se applicati ai modelli di frontiera.

In definitiva, l’EBT presenta un compromesso fondamentale per la comunità dell’IA: il potenziale per un ragionamento più robusto, simile all’uomo, vale un aumento di diverse volte nei costi di formazione e inferenza? La risposta dipenderà probabilmente dall’applicazione. Per i compiti scientifici o analitici ad alte poste, il prezzo può essere giustificato, ma per uso generale, l’analisi costi-benefici rimane un problema critico e irrisolto.

La spinta del settore più ampia per l’efficienza AI

Il concetto di EBT arriva in una spinta più ampia del settore per una maggiore efficienza.. Diverse aziende stanno affrontando questa sfida da diversi angoli, evidenziando la necessità critica di ridurre i costi immensi associati all’intelligenza artificiale su larga scala.

Questi metodi concorrenti affrontano l’efficienza in diverse fasi. Il Multiverse Compactifai comprime il modello statico stesso. I NAMM di Sakana ottimizzano la cache KV dinamica durante l’inferenza. La BAMBA di IBM utilizza un’architettura ibrida per accelerare l’elaborazione della sequenza.

Al contrario, gli EBT alterano fondamentalmente il meccanismo di previsione stesso. Invece di ottimizzare un modello finito o la sua memoria, gli EBT integrano un processo di”pensiero”direttamente su come si forma ogni previsione, mirando a una migliore generalizzazione e ragionamento da zero.

Ad esempio, il calcolo del multiverso di startup spagnolo si concentra sulla compressione del modello. Il suo CEO, Enrique Lizaso Olmos, ha osservato:”La saggezza prevalente è che la riduzione degli LLM ha un costo. Il multiverso lo sta cambiando”. Nel frattempo, il modello BAMBA di IBM prende di mira la velocità di inferenza.

Il piombo del progetto di IBM Raghu Ganti ha spiegato la strategia:”Tutto ritorna alla riduzione della cache KV… più throughput, latenza inferiore, lunghezza di contesto più lunga”. Altre innovazioni, come il sistema di ottimizzazione della memoria di Sakana AI, mirano anche a rendere i trasformatori più efficienti. I ricercatori di Sakana hanno scoperto che”l’evoluzione supera intrinsecamente la non differenziabilità delle nostre operazioni di gestione della memoria, che coinvolgono risultati binari”ricorda”o”dimentica”.”

Questi vari approcci mostrano un cambiamento nello sviluppo dell’IA. Man mano che i modelli crescono, l’industria sta correndo per trovare modi sostenibili per addestrarli e distribuirli. I ricercatori EBT ritengono che il loro lavoro sia una parte fondamentale di questo futuro, concludendo che”gli EBT sono un nuovo promettente paradigma per ridimensionare sia le capacità di apprendimento che pensiero dei modelli”.

Categories: IT Info

Search for:

Lastest News and Guides

L’IA MOONShot con sede in Cina rilascia il modello Kimi Kimi Kimi Kimi Kimi in un’offerta open source per dominare l’IA agente

L’IA MOONShot con sede in Cina rilascia il modello Kimi Kimi Kimi Kimi Kimi in un’offerta open source per dominare l’IA agente

La dipendenza dall’IA è ora ufficialmente una cosa, con programmi di 12 fasi dedicati

L’amministratore delegato di Intel ammette la sconfitta per Nvidia, dichiara”Non siamo tra i primi 10″in uno straordinario controllo della realtà

Il nuovo Transformers AI Architecture basato sull’energia mira al pensiero più profondo del”sistema 2″

Meta raddoppia nella resa dei conti dell’UE ad alto contenuto di poste.

Come aggiungere o rimuovere”Microsoft Stampa a PDF”in Windows 11 e 10

Related Posts

IT Info

L’IA MOONShot con sede in Cina rilascia il modello Kimi Kimi Kimi Kimi Kimi in un’offerta open source per dominare l’IA agente

La startup cinese di AI Moonshot AI ha rilasciato Kimi K2, un modello open source di 1 trilione di parametri volto a rivendicare la leadership di mercato per l'IA agente. Il post-moonshot AI relea, con sede in Cina.

IT Info

L’IA MOONShot con sede in Cina rilascia il modello Kimi Kimi Kimi Kimi Kimi in un’offerta open source per dominare l’IA agente

La startup cinese di AI Moonshot AI ha rilasciato Kimi K2, un modello open source da 1 trilione di parametri volto a rivendicare la leadership di mercato per l'IA agente. Il post-moonshot AI relea, con sede in Cina.

IT Info

La dipendenza dall’IA è ora ufficialmente una cosa, con programmi di 12 fasi dedicati

Un numero crescente di utenti sta formando profondi legami emotivi con i chatbot di intelligenza artificiale, portando a una nuova forma di dipendenza dall'intelligenza artificiale. La dipendenza da post AI è ora ufficialmente una cosa, WI

Latest Windows News and Guides! Check it out comfortably in one place!