Microsoft ha rilasciato Vibevoice, un nuovo modello AI open source che crea audio naturale a forma di lunga durata con più altoparlanti. Annunciato a fine agosto, lo strumento può generare fino a 90 minuti di linguaggio usando quattro voci distinte, rendendolo ideale per i podcast prototipati o materiali di addestramento.

A differenza di molti grandi modelli, Vibevoice è abbastanza piccolo per l’uso della ricerca sui computer standard. Per prevenire l’uso improprio, Microsoft ha incorporato funzionalità di sicurezza come disclaimer AI audible e A

La mossa offre un nuovo potente strumento per i creatori e i ricercatori, segnalando la crescente ambizione dell’azienda di sviluppare modelli di AI fondamentali e promuovere una comunità di ricerca aperta attorno all’audio generativo.

Vibevoice: uno studio podcast multi-speaker su una GPU

vibevoice di Vibevoice Lies nella sua capacità di produrre estese, multi-speaker a conversation coerente e naturale. Il modello può sintetizzare fino a 90 minuti di discorso continuo con un massimo di quattro voci distinte, a relativamente efficiente . Ciò gli consente di funzionare su hardware di livello consumer, democratizzazione dell’accesso per i ricercatori. Il framework si basa su un modello di diffusione per generare audio ad alta fedeltà.

Secondo la sua documentazione tecnica, Vibevoice utilizza tokenizzatori vocali continui a una bassa velocità di frame di 7,5 Hz. Questo approccio preserva la qualità audio mentre aumenta l’efficienza computazionale, un fattore chiave nell’elaborazione di sequenze lunghe senza enormi requisiti hardware.

Per gestire il flusso di dialogo, Vibevoice è stato addestrato utilizzando Qwen2.5 LLM di Alibaba. Questo aiuta a orchestrare la svolta naturale e mantiene la coerenza degli altoparlanti su lunghe durate. I potenziali usi vanno dalla creazione di contenuti educativi accessibili alla prototipazione di dialoghi di personaggi complessi per i videogiochi.

Guardrail incorporati per i responsabili open source AI

riconoscendo il potenziale per l’uso improprio, Microsoft ha incorporato significative salvaguardie direttamente in Vibevoice. La società sta assumendo una posizione proattiva sulla distribuzione responsabile dell’intelligenza artificiale, in particolare per un potente strumento open source in grado di imitare la conversazione umana.

Ogni file audio generato dal modello include un disclaimer udibile obbligatorio. Questo breve clip audio afferma esplicitamente che il contenuto è stato creato dall’IA. Inoltre, ogni file contiene una filigrana digitale nascosta, che consente di rintracciare l’origine dell’audio al modello.

I termini di licenza di Microsoft impongono limiti rigorosi. Il modello è vietato da qualsiasi uso che coinvolga l’impersone, la creazione o la diffusione della disinformazione o la conversione vocale in tempo reale per DeepFakes. Questi guardrail mirano a mitigare i rischi pur promuovendo la ricerca aperta.

navigando su una voce affollata di ai paesaggi

Vibevoice entra in un mercato ferocemente competitivo per la voce generativa. Le sue funzionalità multi-altoparlanti e di lunga durata lo posizionano come alternativa più avanzata agli strumenti esistenti come i riepiloghi audio NoteBookLM a due voci di Google. L’uscita sottolinea una razza più ampia a livello di settore per una tecnologia vocale sintetica perfetta.

I principali laboratori di AI stanno tutti in lizza per il dominio. Openi ha recentemente aggiornato le proprie capacità vocali con la sua API in tempo reale. Nel frattempo, aziende come Antropic, Mistral e Amazon hanno anche lanciato potenti modelli, ognuno dei quali mira a diversi casi d’uso dagli assistenti di intelligenza artificiale alle soluzioni aziendali.

Questo lancio fa parte di un perno strategico più ampio per Microsoft. Segue la recente presentazione di altri modelli interni come MAI-1 e MAI-VOICE-1. Questo push segnala una chiara intenzione di costruire AI proprietario, riducendo la sua dipendenza dalla sua partnership con Openi.

Informazioni sul CEO di Microsoft AI Mustafa Suleyman Hovever ha dichiarato:”Il nostro obiettivo è approfondire la partnership e assicurarci che abbiamo una grande collaborazione con molti anni, molti anni, suggerendo una strategia dual di intervallo. ha confermato l’impegno a lungo termine dell’azienda, dicendo:”Abbiamo un’enorme tabella di marcia di cinque anni che stiamo investendo nel trimestre dopo il trimestre. Quindi penso che continuerà.”

Categories: IT Info