Microsoftは、複数のスピーカーを備えた自然で長い形式のオーディオを作成する新しいオープンソースAIモデルであるVibevoiceをリリースしました。 8月下旬に発表されたこのツールは、4つの異なる声を使用して最大90分間のスピーチを生成することができ、ポッドキャストやトレーニング資料のプロトタイプに最適です。
多くの大規模なモデルとは異なり、Vibevoiceは標準コンピューターでの研究に十分小さいです。誤用を防ぐために、MicrosoftはAudible AI免責事項やa
この動きは、創造者と研究者に強力な新しいツールを提供し、基礎AIモデルを社内で開発し、生成オーディオを中心にオープンな研究コミュニティを育成するという企業の増大する野心を示しています。 src=”data:image/svg+xml; nitro-empty-id=mtyzoto5ndc=-1; base64、phn2zyb2 awv3qm94psiwidagmti4mca2mz kiihdpzhropsixmjgwiibozwlnahq9ijyzosigeg1sbnm9imh0dha6ly93d3cudzmub3jnlziwmdavc3znij48l3n2zz4=”> vibeveiceの革新比較的効率的。これにより、消費者グレードのハードウェアで実行され、研究者のためのアクセスを民主化することができます。このフレームワークは、次のトークン拡散モデルに依存して高忠実度オーディオを生成します。 その技術文書によると、Vibevoiceは7.5 Hzの低いフレームレートで連続音声トーナイザーを使用します。このアプローチは、大規模なハードウェア要件のない長いシーケンスを処理する重要な要因である計算効率を高めながら、オーディオ品質を維持します。 ダイアログフローを管理するために、VibevoiceはAlibabaのオープンソースQWEN2.5 LLMを使用して訓練されました。これは、自然なターンテイクを調整するのに役立ち、長期にわたってスピーカーの一貫性を維持します。潜在的な用途は、アクセシブルな教育コンテンツの作成からビデオゲームの複雑なキャラクターの対話をプロトタイプすることまであります。同社は、特に人間の会話を模倣できる強力なオープンソースツールのために、責任あるAIの展開について積極的な姿勢をとっています。 モデルによって生成されたすべてのオーディオファイルには、必須の可聴免責事項が含まれています。この短いオーディオクリップは、コンテンツがAIによって作成されたことを明示的に示しています。さらに、各ファイルには隠されたデジタルウォーターマークが含まれており、オーディオの起源をモデルに戻すことができます。 Microsoftのライセンス条件は厳格な制限を課します。このモデルは、偽装、偽情報の作成または広がり、またはディープフェイクのリアルタイム音声変換を含むあらゆる使用を禁止されています。これらのガードレールは、オープンな研究を促進しながらリスクを軽減することを目指しています。マルチスピーカーの長い形式の機能は、Googleの2つの音声NoteBookLMオーディオサマリなどの既存のツールのより高度な代替手段として配置しています。このリリースは、完全な合成音声テクノロジーへのより広範な業界全体のレースを強調しています。 Openaiは最近、リアルタイムAPIで独自の音声機能をアップグレードしました。一方、Anthropic、Mistral、Amazonなどの企業も強力なモデルを開始し、それぞれがAIアシスタントからエンタープライズソリューションまでの異なるユースケースをターゲットにしています。 MAI-1やMAI-Voice-1などの他の社内モデルの最近の発表に続きます。このプッシュは、独自のAIを構築するための明確な意図を示し、Openaiとのパートナーシップへの依存を減らします。同社の長期的なコミットメントを確認し、「四半期後に投資している5年間のロードマップがあります。それが続くと思います。」 。 vibevoice:gpuのマルチスピーカーポッドキャストスタジオ