Microsoft ha presentato due nuovi modelli di intelligenza artificiale sviluppati internamente, segnando un passo significativo nella sua strategia per costruire l’intelligenza artificiale proprietaria insieme alla sua partnership con OpenAI. Annunciati giovedì, i modelli includono MAI-VOICE-1, uno strumento di generazione di linguaggio altamente efficiente e MAI-1-Preview, il primo modello di testo fondamentale end-to-end dell’azienda. I nuovi modelli segnalano l’ambizione di Microsoft di diventare leader sia nell’applicazione dell’IA che nella ricerca fondamentale, dandogli un maggiore controllo sulla sua tabella di marcia tecnologica.
L’iniziativa è guidata da Microsoft AI (MAI), la divisione guidata dal CEO Mustafa Suleyman. It underscores a strategic pivot towards developing in-house capabilities to complement its multi-billion dollar investment in OpenAI.
MAI-Voice-1: A Nuova voce iper-efficiente per il copilota
Il primo dei nuovi modelli, MAI-VOICE-1, è posizionata come un sistema di generazione del linguaggio”altamente espressivo e naturale”. L’annuncio ufficiale di Microsoft mette in evidenza la sua notevole efficienza, sostenendo che può generare un minuto di audio ad alta funzionalità in un secondo su un unico GPU. Questa metrica delle prestazioni lo rende uno dei sistemi vocali più efficienti e”fulmini”disponibili oggi.
La società considera questa tecnologia come fondamentale per il futuro dell’interazione umana-computer, affermando che”la voce è l’interfaccia del futuro per i compagni di AI”. MAI-VOICE-1 è progettato per realizzare questa visione producendo audio espressivo adatto per scenari singoli e multi-altoparlanti, una capacità chiave per la creazione di esperienze di intelligenza artificiale dinamiche e interattive.
Questo non è solo un progetto di ricerca; La tecnologia è già integrata nella gamma di prodotti di Microsoft. MAI-VOICE-1 sta attualmente alimentando le funzionalità all’interno di Copilot Daily e podcast, portando voci più naturali e coinvolgenti agli utenti che interagiscono quotidianamente con questi servizi.
Per mostrare il suo potenziale creativo, Microsoft ha lanciato una sperimentazione pubblica tramite un nuovo strumento”Audio Expressions”nei laboratori di Copilot. Questa esperienza consente a chiunque di incolla testo, seleziona voci e stili e scarica l’output . La società suggerisce casi d’uso dalla creazione di storie”Scegli la tua avventura”a meditazioni guidate su misura.
Mai-1-preview: il primo modello di base di Microsoft
La seconda rivelazione, Mai-1-preview, rappresenta una pietra miliare strategica più significativa per la società. Microsoft lo descrive come primo modello di fondazione modello TRAI n interamente all’interno dei propri laboratori. Questa mossa è un passo fondamentale nella costruzione di muscoli di sviluppo dell’intelligenza artificiale indipendente e offre ciò che l’azienda definisce una”visione delle offerte future all’interno del copilota”.
Il modello è costruito su una sofisticata architettura di miscele di esperti (MOE), una tecnica nota per bilanciare l’immenso potere con l’efficienza computazionale. Il suo sviluppo ha comportato un enorme investimento hardware, poiché era pre-addestrato e post-addestrato su un cluster di circa 15.000 delle GPU H100 altamente ricercate di NVIDIA. L’azienda afferma che il modello eccelle nel specializzazione nelle seguenti istruzioni e fornendo risposte utili alle domande degli utenti quotidiani, posizionandolo come strumento pratico e utile per un vasto pubblico.
Per convalidare le sue prestazioni, Microsoft sta perseguendo una strategia di test a doppio binario. Ha aperto MAI-1-preview al controllo pubblico su LMarena, una piattaforma di comunità popolare per il benchmarking dei modelli AI l’uno contro l’altro. Questo approccio trasparente consente un confronto diretto e un feedback imparziale dalla più ampia comunità di intelligenza artificiale.
contemporaneamente, il modello sarà attentamente integrato nel prodotto di AI di punta di Microsoft. Nelle prossime settimane, verrà implementato per gestire determinate attività basate sul testo all’interno del Copilota. L’obiettivo dichiarato è imparare dal feedback degli utenti per migliorare il modello. Per gli sviluppatori e i ricercatori, Microsoft offre anche API limitato Accesso tramite un processo di candidatura per raccogliere più approfondimenti tecnici.