Microsoftは、2つの新しい内部開発AIモデルを発表し、OpenaIとのパートナーシップとともに独自のAIを構築する戦略における重要なステップをマークしました。木曜日に発表されたモデルには、非常に効率的な音声生成ツールであるMai-Voice-1と、同社の最初のエンドツーエンドの基礎テキストモデルであるMai-1-Previewが含まれます。新しいモデルは、AIアプリケーションと基礎研究の両方のリーダーになるというマイクロソフトの野望を示し、その技術的ロードマップをより強く制御します。それは、OpenAIへの数十億ドルの投資を補完するための社内能力の開発に向けた戦略的ピボットを強調しています。 Copilot

新しいモデルの最初のMaivoice-1の新しい高効率の音声は、「高度に表現力豊かで自然な」音声生成システムとして配置されています。 Microsoftの公式発表は、その驚くべき効率を強調しており、単一gpuで2番目のの下で1分間の高忠実度オーディオを生成します。このパフォーマンスメトリックは、今日利用可能な最も効率的で「稲妻速い」音声システムの1つになります。

同社は、このテクノロジーを人間とコンピューターの相互作用の未来の基礎と見なし、「声はAI仲間の未来のインターフェース」だと述べています。 Mai-Voice-1は、シングルとマルチスピーカーの両方のシナリオに適した表現力のあるオーディオを生成することにより、このビジョンを提供するように設計されています。これは、動的でインタラクティブなAIエクスペリエンスを作成するための重要な機能です。

これは単なる研究プロジェクトではありません。このテクノロジーはすでにMicrosoftの製品ラインナップに統合されています。 Mai-Voice-1は現在、Copilot Dailyおよびポッドキャスト内の機能を搭載しており、これらのサービスと毎日やり取りするユーザーにより多くの自然なサウンドで魅力的な声をもたらしています。この経験により、誰でもテキストを貼り付け、ボイスとスタイルを選択し、出力をダウンロードします同社は、「独自の冒険を選択する」ストーリーを作成することから、オーダーメイドのガイド付き瞑想までのユースケースを提案しています。 Microsoftは、それをファーストファンデーションモデルTrai エンドツーエンド独自のラボ内で完全に。この動きは、独立したAI開発筋肉を構築する上での重要なステップであり、会社が「Copilot内の将来の提供を垣間見る」と呼んでいるものを提供します。

モデルは、洗練されたエンサリ(MOE)アーキテクチャの上に構築されています。その開発には、NVIDIAの非常に人気のあるH100 GPUの約15,000人のクラスターで事前に訓練され、ポストトレーニングを受けたため、大規模なハードウェア投資が含まれていました。

Microsoftによると、Mai-1-Previewは消費者に強力な機能を提供するように特別に設計されています。同社は、モデルが次の指示に特化し、日常のユーザーの質問に役立つ回答を提供し、幅広い視聴者にとって実用的で有用なツールとして位置づけることに優れていると主張しています。

マイクロソフトはデュアルトラックテスト戦略を追求しています。 AIモデルを互いにベンチマークするための人気のあるコミュニティプラットフォームであるLmarenaについて、MAI-1-PREVIEWを公開しています。この透明なアプローチにより、より広いAIコミュニティからの直接的な比較と公平なフィードバックが可能になります。

同時に、モデルはMicrosoftのフラッグシップAI製品に慎重に統合されます。今後数週間にわたって、Copilot内の特定のテキストベースのタスクを処理するために展開されます。記載されている目標は、モデルを改善するためにユーザーのフィードバックから学ぶことです。開発者と研究者向けに、Microsoftはより多くの技術的洞察を収集するために、限られたAPIアクセスも提供しています。

自家製のAIへのこの大きな推進にもかかわらず、MicrosoftはOpenaiへのコミットメントを公に再確認しています。会社の幹部は、MAI-1-PREVIEWが現在多くのサービスを支えている強力なGPTモデルを置き換えることを意図していないことを明らかにしています。これは、パートナー、オープンソースコミュニティ、または独自のラボからのものであろうと、Microsoftが特定のタスクに最適なツールを選択できるのではなく、交換ではなく多様化の戦略を示唆しています。同社の公式ブログ投稿は、この感情を繰り返し、大きなポジティブな影響を生み出すという使命を強調しました。 Microsoft AIチームは、「私たちはモデルに数十億人のユーザーにリーチし、大きなプラスの影響を生み出す機会を提供する信じられないほどの製品チームと提携することも幸運です。」

インフラストラクチャへの投資は、この長期的なビジョンをさらに強化します。 Microsoftは、NVIDIA GB200 GPUの次世代クラスターが現在動作しており、さらに野心的なモデルへの道を開いていることを確認しました。 Suleymanは、「四半期後に四半期に投資している5年間のロードマップがあります。それが続くと思います。」

この発表は、激しく競争力のあるAIの風景に着地します。 Openaiは最近、リアルタイムAPIで独自の音声機能をアップグレードしましたが、人類、ミストラル、さらにはAmazonのような企業はすべて、生成AIの急速に進化する分野での支配を争っています。 Microsoftの動きは、すべての面で競争するつもりであるという明確なシグナルです。