A
Microsoft kiadta a Vibevoice-t, egy új nyílt forráskódú AI modellt, amely természetes, hosszú formájú hangot hoz létre több hangszóróval. Augusztus végén bejelentett szerszám akár 90 perces beszédet generálhat négy különálló hang felhasználásával, így ideális a podcastok vagy edzőanyagok prototípus készítéséhez. A visszaélés megakadályozása érdekében a Microsoft olyan biztonsági funkciókat épített be, mint a hallható AI nyilatkozatok és a viibevoice alapvető innovációja Level, hogy az előkészítést nyújtsák, és többérlegeljesítményt nyújtsák, hogy a többszörösen beszéljen. természetes. A modell legfeljebb 90 perc folyamatos beszédet képes szintetizálni legfeljebb négy különálló hanggal, a Jelentős LeP-t generatív audio technológiához. kifinomult építészet. 1,5 milliárd paramétermodellt használ, amely viszonylag hatékony . Ez lehetővé teszi, hogy a fogyasztói szintű hardvereket futtassa, demokratizálva a kutatók számára a hozzáférést. A keret egy Next-token diffúziós modellre támaszkodik, hogy nagy hűséges audio-t generáljon. Ez a megközelítés megőrzi az audio minőséget, miközben fokozza a számítási hatékonyságot, amely kulcsfontosságú tényező a hosszú szekvenciák feldolgozásában, masszív hardverkövetelmények nélkül. Ez elősegíti a természetes fordulás összehangolását, és fenntartja a hangszórók konzisztenciáját a hosszú időtartamon keresztül. A potenciális felhasználások a hozzáférhető oktatási tartalom létrehozásától a videojátékok komplex karakter-párbeszédének prototípusának prototípusának teremtéséig terjednek. A társaság proaktív álláspontot képvisel a felelősségteljes AI telepítéssel kapcsolatban, különösen egy olyan erős nyílt forráskódú eszköznél, amely képes az emberi beszélgetés utánozni. Ez a rövid audio klip kifejezetten kijelenti, hogy a tartalmat az AI készítette. Ezenkívül minden fájl tartalmaz egy rejtett digitális vízjelet, amely lehetővé teszi, hogy az audio eredetét a modellre vonják vissza. A modell megtiltja a megszemélyesítést, a dezinformáció létrehozását vagy terjedését, vagy a valós idejű hangkonverzációt a mélytermékekhez. Ezek a védőkorlátok célja a kockázatok enyhítése, miközben továbbra is elősegíti a nyílt kutatást. Több hangzó, hosszú formájú képességei fejlettebb alternatívaként helyezik el a meglévő eszközöket, mint például a Google kéthangú NotebookLM audio összefoglalók. A kiadás aláhúzza az iparág egészére kiterjedő versenyt a tökéletes szintetikus hangtechnika számára. Az Openai nemrégiben frissítette saját hang képességeit a valós idejű API-val. Eközben az olyan cégek, mint az Antropic, a Mistral és az Amazon, erőteljes modelleket is indítottak, mindegyik az AI asszisztensektől eltérő felhasználási eseteket célozza meg az Enterprise Solutions-ig. Ez követi más házon belüli modellek, például a MAI-1 és a Mai-Voice-1 közelmúltbeli leleplezését. Ez a push jelzi a szabadalmaztatott AI felépítésének egyértelmű szándékát, csökkentve az Openai-val való partnerség iránti bizalmát. Megerősítette a társaság hosszú távú elkötelezettségét, mondván: „Van egy hatalmas ötéves ütemterv, amelyet negyedév után fektetünk be. Tehát azt hiszem, hogy ez folytatódni fog.”