Cohere for AI, la divisione di ricerca della società canadese Cohere, ha presentato Aya 23, una nuova serie di modelli linguistici multilingue. Questi nuovi modelli, disponibili in versioni da 8 e 35 miliardi di parametri, mirano a migliorare la comprensione e la generazione del linguaggio umano in una gamma diversificata delle lingue. I pesi aperti dei modelli sono ora accessibili, consentendo ai ricercatori di adattarli alle loro esigenze specifiche.
Funzionalità multilingue e set di dati
I modelli Aya 23 estendono il supporto a 23 lingue, tra cui arabo, cinese, francese, tedesco e giapponese, tra gli altri. Questa ampia gamma linguistica segna un allontanamento dai modelli precedenti che si concentravano principalmente sull’inglese. I modelli sono stati sviluppati utilizzando la Aya Collection, un set di dati comprendente 513 milioni di istanze di richieste e completamenti, che è stato fondamentale per mettere a punto i modelli per risposte di alta qualità in varie lingue.
La creazione di Aya 23 ha coinvolto contributi di oltre 3.000 ricercatori indipendenti in 119 paesi, sottolineando la natura collaborativa del progetto. Questa ampia partecipazione ha contribuito a garantire che i modelli fossero robusti e versatili, in grado di gestire un’ampia gamma di sfumature e contesti linguistici.
Prestazioni e specifiche tecniche
Le valutazioni tecniche rivelano che la variante da 35 miliardi di parametri di Aya 23, nota come Aya-23-35B, eccelle sia nei compiti discriminativi che generativi. Ha mostrato miglioramenti fino al 14% sui compiti discriminativi e del 20% sui compiti generativi rispetto al suo predecessore, Aya 101. Inoltre, ha ottenuto un aumento del 41,6% nelle prestazioni MMLU multilingue.
Aya-23-35B utilizza un’architettura Transformer esclusivamente decoder, che migliora la capacità del modello di generare output accurati analizzando il contesto delle parole nei prompt dell’utente. Questo modello incorpora anche l’attenzione alle query raggruppate per ottimizzare l’utilizzo della RAM e migliorare la velocità di inferenza. Inoltre, gli incorporamenti posizionali rotazionali vengono utilizzati per elaborare meglio le informazioni sulla posizione delle parole all’interno di una frase, migliorando così la qualità dell’output.
Accessibilità e licenza
The open i pesi dei modelli Aya 23 sono disponibili su Hugging Face sotto la licenza pubblica internazionale Creative Commons Attribution-NonCommercial 4.0. Questa scelta di licenza garantisce che la comunità di ricerca più ampia possa impegnarsi e sfruttare il lavoro di Cohere per l’intelligenza artificiale. Inoltre, i modelli possono essere esplorati attraverso Cohere Playground, che offre accesso gratuito a questi modelli multilingue avanzati.
Cohere Inc., con sede a Toronto, ha raccolto oltre 400 milioni di dollari da investitori come Nvidia Corp. e Oracle Corp. L’azienda è specializzata in modelli linguistici di grandi dimensioni progettati per applicazioni aziendali. Oltre alla serie Aya, Cohere offre anche una rete neurale chiamata Embed, che trasforma i dati in strutture matematiche più comprensibili per i modelli linguistici.
Prima di Aya 23, Cohere ha rilasciato Aya-101, un modello in grado di di comprendere 101 lingue. Tuttavia, il nuovo Aya-23-35B ha dimostrato prestazioni superiori nelle valutazioni interne e nelle attività di elaborazione di testi multilingue rispetto ad altri modelli LLM (Large Language Model) open source.