Microsoft on julkaissut Vibevoice-ohjelman, uuden avoimen lähdekoodin AI-mallin, joka luo luonnollista, pitkämuotoista ääntä useilla kaiuttimilla. Elokuun lopulla ilmoitettu työkalu voi tuottaa jopa 90 minuuttia puhetta neljällä erillisellä äänellä, mikä tekee siitä ihanteellisen podcastien tai koulutusmateriaalien prototyyppien määrittämiseen. Väärinkäytön estämiseksi Microsoft on rakentanut turvaominaisuuksia, kuten Audible AI-vastuuvakuuttajat ja Ban for Deepffaces tai leviäminen. Tämä julkaisu merkitsee Microsoftin viimeisimmän askeleen kilpailukykyiseen AI-tilaan. src=”data: kuva/svg+xml; nitro-namty-id=mtyzoto5ndc=-1; base64, phn2zyb2awv3qm94psiwidagmti4mca2mz Kiihdpzhropsixmjgwiibozwlnahq9iJyzosigeg1sbnm9imh0dha6ly93d3cudzmub3jnlziwmdavc3znij48l3n2zz4=”>

Vibevoice: Moneenkappaleen podcast-studio GPU Merkittävä hyppäämisteknologia

. mahdollinen hienostunut arkkitehtuuri. Se käyttää 1,5 miljardin parametrimallia, joka on
suhteellisen tehokas . Tämän avulla se voi ajaa kuluttajalaitteiden laitteistoissa, demokratisoivan pääsyn tutkijoille. Kehys perustuu seuraavan sanan diffuusiomalliin, joka tuottaa erittäin uskollisen äänen. Tämä lähestymistapa säilyttää äänenlaadun samalla, kun lisää laskennallista tehokkuutta, joka on avaintekijä pitkien sekvenssien käsittelyssä ilman massiivisia laitteistovaatimuksia.

vuoropuhelun virtauksen hallitsemiseksi Vibevoice koulutettiin käyttämällä Alibaban avoimen lähteen Qwen2.5 LLM: ää. Tämä auttaa järjestämään luonnollista käännöstä ja ylläpitää kaiuttimien konsistenssia pitkien kestojen ajan. Mahdolliset käytöt vaihtelevat saatavilla olevan koulutussisällön luomisesta videopelien monimutkaisen luonteen vuoropuhelun prototyyppien kehittämiseen. Yhtiö ottaa ennakoivan asenteen vastuulliseen AI-käyttöönottoon, etenkin tehokkaan avoimen lähdekoodin työkalulle, joka pystyy jäljittelemään ihmisen keskustelua.

Jokainen mallin tuottama äänitiedosto sisältää pakollisen äänen vastuuvapauslausekkeen. Tämä lyhyt äänileike toteaa nimenomaisesti, että sisällön on luonut AI. Lisäksi jokainen tiedosto sisältää piilotetun digitaalisen vesileiman, joka mahdollistaa äänen alkuperälle jäljitettävän mallin. Malli on estetty kaikista käytöstä, johon sisältyy esiintymisen, desinformaation luominen tai leviäminen tai reaaliaikainen äänimuunnos syvälle. Näiden suojakaiteiden tavoitteena on lieventää riskejä samalla kun edistävät avointa tutkimusta.

navigoimalla tungosta ääntä AI-maisemasta

Vibevoice siirtyy erittäin kilpailukykyisille markkinoille generatiiviselle äänen AI: lle. Sen monenkielinen, pitkämuotoiset ominaisuudet asettavat sen edistyneemmäksi vaihtoehtona olemassa oleville työkaluille, kuten Googlen kahden äänen muistikirja. Julkaisu korostaa laajemman teollisuudenlaajuisen kilpailun täydelliseen synteettiseen äänitekniikkaan. Openai päivitti äskettäin omat ääniominaisuutensa reaaliaikaisella sovellusliittymällä. Samaan aikaan Antropicin, Mistral ja Amazonin kaltaiset yritykset ovat myös käynnistäneet tehokkaita malleja, joista kukin kohdistuu erilaisiin käyttötapauksiin AI-avustajista yritysratkaisuihin.

Tämä lanseeraus on osa Microsoftin suurempaa strategista kääntöä. Se seuraa muiden sisäisten mallien, kuten MAI-1 ja Mai-Voice-1, äskettäistä paljastamista. Tämä työntö merkitsee selkeää aikomusta rakentaa omaa AI: ta, vähentäen sen luottamusta kumppanuudestaan ​​Openain kanssa.

Microsoft AI: n toimitusjohtaja Mustafa Suleyman Hovever on todennut: “Tavoitteenamme on syventää kumppanuutta ja varmistaa, että meillä on suuri yhteistyö Openain kanssa monien vuosien ajan. vahvisti yrityksen pitkän aikavälin sitoutumisen sanomalla: “Meillä on valtava viiden vuoden etenemissuunnitelma, jonka investoimme vuosineljänneksen jälkeen. Joten luulen, että se jatkuu.”

Categories: IT Info