Microsoft hat Vibevoice veröffentlicht, ein neues Open-Source-KI-Modell, das mit mehreren Lautsprechern natürliche, langformale Audio erstellt. Das Ende August angekündigt, kann das Tool mit vier verschiedenen Stimmen bis zu 90 Minuten Sprache erzeugen, was es ideal für Prototyping-Podcasts oder Trainingsmaterialien ist. Um Missbrauch zu verhindern, hat Microsoft Sicherheitsfunktionen wie Audible AI Haftungsausschlüsse und A

Vibevoice: Ein Multi-Sprecher-Podcast-Studio auf einem GPU

relativ effizient . Dies ermöglicht es, auf Hardware der Verbraucher zu führen und den Zugang für Forscher zu demokratisieren. Das Framework beruht auf einem nächsten Diffusionsmodell, um Audio mit hohem Fidelity zu generieren. Dieser Ansatz bewahrt die Audioqualität bei gleichzeitiger Steigerung der Recheneffizienz, ein Schlüsselfaktor bei der Verarbeitung langer Sequenzen ohne massive Hardwareanforderungen. Dies hilft, die natürliche Turning zu orchestrieren und die Sprecherkonsistenz über lange Dauern beizubehalten. Die Potential verwendet endet, von der Erstellung von zugänglichen Bildungsinhalten bis zum Prototyping komplexen Charakterdialogs für Videospiele. Das Unternehmen nimmt eine proaktive Haltung gegenüber der verantwortungsbewussten KI-Bereitstellung ein, insbesondere für ein leistungsstarkes Open-Source-Tool, mit dem menschliche Gespräche nachgeahmt werden können. In diesem kurzen Audioclip heißt es ausdrücklich, dass der Inhalt von AI erstellt wurde. Darüber hinaus enthält jede Datei ein verstecktes digitales Wasserzeichen, sodass der Ursprung des Audio auf das Modell zurückgeführt wird. Das Modell wird von jeder Verwendung mit Identität, Erstellung oder Ausbreitung von Desinformation oder Echtzeit-Sprachumwandlung für Deepfakes ausgeschlossen. Diese Leitplanken zielen darauf ab, die Risiken zu mildern und gleichzeitig die offene Forschung zu fördern. Seine Multi-Sprecher-Funktionen für Langstoffe positionieren es als erweiterte Alternative zu vorhandenen Tools wie den Zwei-Voice-Notebook-Audio-Zusammenfassungen von Google. Die Veröffentlichung unterstreicht ein branchlicheres branchenweites Rennen um die perfekte synthetische Sprachtechnologie. Openai hat kürzlich seine eigenen Sprachfunktionen mit seiner Echtzeit-API verbessert. In der Zwischenzeit haben Unternehmen wie Anthropic, Mistral und Amazon auch leistungsstarke Modelle auf den Markt gebracht, die jeweils unterschiedliche Anwendungsfälle von AI-Assistenten bis hin zu Enterprise-Lösungen abzielen. Es folgt der jüngsten Enthüllung anderer interner Modelle wie Mai-1 und Mai-Voice-1. Dieser Schub signalisiert eine klare Absicht, eine proprietäre KI aufzubauen und die Abhängigkeit von seiner Partnerschaft mit OpenAI zu verringern. Das langfristige Engagement des Unternehmens und sagt:”Wir haben eine enorme Fünfjahres-Roadmap, in die wir in ein Quartal nach Quartal investieren. Ich denke, das wird fortgesetzt.”

Categories: IT Info