SambaNova Systems, un attore chiave nell’intelligenza artificiale generativa focalizzata sull’impresa, ha stabilito un nuovo punto di riferimento in termini di prestazioni raggiungendo una velocità effettiva di 1.000 token al secondo utilizzando il modello di istruzione dei parametri Llama 3 8B. Questo risultato, convalidato dalla società di test indipendente Artificial Analysis, supera il precedente record di 800 token al secondo detenuto da Groq. Questo traguardo rappresenta un progresso significativo nelle capacità dei sistemi di intelligenza artificiale generativa.

Applicazioni e implicazioni aziendali

L’aumento della velocità di elaborazione ha implicazioni di vasta portata per varie applicazioni aziendali. Tra i vantaggi figurano tempi di risposta più rapidi, migliore utilizzo dell’hardware e costi operativi ridotti. Questa accelerazione è particolarmente vantaggiosa per le applicazioni che richiedono bassa latenza e throughput elevato, come agenti AI, applicazioni AI consumer e interpretazione di documenti ad alto volume. George Cameron, co-fondatore di Artificial Analysis, ha detto VentureBeat il ritmo crescente della corsa ai chip IA e mette in evidenza le opzioni hardware in espansione disponibili per gli sviluppatori IA. La sua azienda enfatizza le prestazioni nel mondo reale di questi sistemi, portando nuovo entusiasmo ai casi d’uso dipendenti dalla velocità.

🚀 SambaNova ha bruciato NVIDIA in un nuovo test di velocità effettuato da Artificial Analysis. 🚀

Samba-1 Turbo offre prestazioni incredibili veloce a 1000 t/s, un record mondiale: https://t.co/PmDHWrFGCH.#AI # GenAI #EnterpriseAI #LLM #NLP #AIAreAll #GPUAlternative #EnterpriseScaleAI #AIChips #ChipRace pic.twitter.com/TMtUqyZWpy

— SambaNova Systems (@ SambaNovaAI) 29 maggio 2024

Progressi tecnologici dietro il risultato

Un elemento centrale del successo di SambaNova è la sua tecnologia Reconfigurable Dataflow Unit (RDU), che lo distingue dai tradizionali acceleratori AI come le GPU di Nvidia. Le RDU sono chip IA specializzati progettati per supportare sia la fase di addestramento che quella di inferenza dello sviluppo del modello IA. Eccellono nella gestione delle richieste del carico di lavoro aziendale, inclusa la messa a punto dei modelli. Lo stack software di SambaNova svolge un ruolo cruciale nell’ottimizzazione della RDU per miglioramenti delle prestazioni, consentendo l’ottimizzazione iterativa dell’allocazione delle risorse tra diversi livelli della rete neurale, portando a miglioramenti significativi sia in termini di efficienza che di velocità.

L’introduzione di Samba-1-Turbo, alimentato dal chip SN40L, è stato determinante nel raggiungimento di questo record mondiale. Samba-1-Turbo elabora 1.000 token al secondo con una precisione a 16 bit, eseguendo il modello avanzato Llama-3 Instruct (8B). A differenza delle GPU tradizionali, che spesso soffrono di una capacità di memoria su chip limitata e di frequenti trasferimenti di dati, la RDU di SambaNova vanta un enorme pool di memoria su chip distribuita attraverso le sue Pattern Memory Unit (PMU). Queste PMU sono posizionate vicino alle unità di calcolo, riducendo al minimo lo spostamento dei dati e migliorando l’efficienza.

Ottimizzazione dell’esecuzione della rete neurale

Le GPU tradizionali eseguono modelli di rete neurale in un modalità kernel per kernel, che aumenta la latenza e sottoutilizza le unità di calcolo. Al contrario, il compilatore SambaFlow mappa l’intero modello di rete neurale come un grafico del flusso di dati sulla struttura RDU, consentendo l’esecuzione del flusso di dati in pipeline e migliorando le prestazioni. La gestione di modelli di grandi dimensioni su GPU spesso richiede un parallelismo di modelli complesso, richiedendo framework e codice specializzati. L’architettura RDU di SambaNova automatizza il parallelismo dei dati e dei modelli durante la mappatura di più RDU in un sistema, semplificando il processo e garantendo prestazioni ottimali.

L’avanzato Meta-Llama-3-8B-Instruct potenzia la velocità e l’efficienza senza precedenti di Samba-1-Turbo. Inoltre, la suite SambaLingo di SambaNova supporta più lingue, tra cui arabo, bulgaro, ungherese, russo, serbo (cirillico), sloveno, tailandese, turco e giapponese, dimostrando la versatilità e l’applicabilità globale del sistema. La stretta integrazione di hardware e software in Samba-1-Turbo è la chiave del suo successo, rendendo l’intelligenza artificiale generativa più accessibile ed efficiente per le aziende.

Categories: IT Info