Microsoft は、本日発表された Copilot のメジャー アップデートで Windows 11 を「AI PC」に変換し、コンピュータとの対話をより自然でインテリジェントなものにすることを目指しています。
新しい「Hey, Copilot」ウェイク ワードにより、ユーザーは音声コマンドを与えることができます。また、現在世界中で利用可能な Copilot Vision により、AI は画面上の内容を見て理解してヘルプを提供できます。
Microsoft は実験版 Copilot のプレビューも行っています。 アクション: アシスタントがユーザーに代わって PC 上でタスクを直接実行できるようにします。現在展開されているこれらのアップデートは、プロアクティブな AI パートナーをオペレーティング システムの中核に深く組み込むという Microsoft のビジョンを表しています。
同社の消費者マーケティング担当責任者 役員のユスフ・メディ氏は、その野心を明確に述べ、「私たちが抱いているビジョンは、AI を中心にオペレーティング システム全体を書き換え、本質的に真の AI PC となるものを構築しようということです。」
今回のオーバーホールは、パーソナル コンピューティングの将来が単なる処理能力ではなく、インテリジェントな会話型インタラクションであるという戦略的賭けを示しています。目標は、すべての Windows 11 デバイスをこの新しいパラダイムのプラットフォームにすることであり、これには Gmail などのサービス用の Copilot コネクタも含まれています。
「こんにちは、Copilot」: 音声が PC 入力の中核になる
Microsoft は、音声を PC 対話の主要な方法として確立するために、新たかつ野心的な取り組みを行っています。この取り組みの目玉は、現在一般提供されている新しい「Hey, Copilot」ウェイク ワードです。これにより、会話を開始するためにアイコンをクリックする煩わしさが解消されます。この機能は、強力な AI をより多くのユーザーが利用できるようにするという同社の戦略の中心となっています。
これは、同社の音声統合への最初の試みではありません。批評家たちは、10年前のWindows 10におけるCortanaの見事な失敗をすぐに指摘する。しかし、Microsoft は、現代の AI の高度化により、最終的に PC に向かって話すのはおかしなことではないとユーザーに納得させ、これまでの努力では成しえなかった行動の真の変化を引き起こすことに賭けています。
同社の自信は、人々が音声を使用するときは、テキストを使用するときの 2 倍 Copilot に関与していることを示唆する内部データによって裏付けられています。
Microsoft は、Teams での数十億分の会話など、既存の行動を指摘しています。 会議やアクセシビリティ ツールの使用は、ユーザーがすでにデバイスに快適に話しかけている証拠です。
エクスペリエンスはシームレスになるように設計されています。設定でオプトイン機能を有効にした後、「こんにちは、コパイロット」と言うと、マイクのアイコンとチャイムが表示され、アシスタントが聞いていることを確認します。ユーザーは、「さようなら」と言うか、単に対話を中止することで会話を終了できます。この使いやすさは、Microsoft が音声の「魔法のロック解除」であると信じているものです。
[埋め込みコンテンツ]
Microsoft の消費者責任者である Yusuf Mehdi は、この変化は深刻なものになると信じています。 「私たちの頭の中では、音声は PC で使用する 3 番目の入力メカニズムになると考えています。」と彼はブリーフィングで説明しました。
この野心は単純なディクテーションを超えて、ユーザーの意図と AI プロンプトのスキルの間のギャップを埋めることができる複雑なコマンドやクエリのツールとして音声を位置付けます。
究極のビジョンは、真に会話が可能で応答性の高いコンピューターです。 「PC と会話して、PC にあなたのことを理解してもらい、そこから魔法を起こすことができるはずです。」
Mehdi 氏は付け加えました。これは、キーボードとマウスを中心に築かれてきた数十年にわたるユーザーの習慣を変えるのに十分な説得力のある音声インタラクションが AI によってついに実現されたかどうかに賭ける、重大な賭けを意味します。
画面を見る AI: Copilot Vision が世界的に展開
この AI 中心の未来の重要なコンポーネントは Copilot Vision であり、Copilot が提供されているすべての市場で利用できるようになりました。この機能により、AI がユーザーの画面を「見て」分析し、あらゆるアプリケーションにわたって状況に応じたヘルプを提供できるようになります。
この機能は、Edge ブラウザーに限定され、有料サブスクリプションが必要だった最初の限定プレビュー以来、急速に進化しました。
この機能により、Copilot は受動的なチャットボットからアクティブな視覚的なガイドに変わります。物議を醸しているリコール機能とは異なり、Vision は厳密にオプトインであり、常にオンになっているわけではありません。
ユーザーは個別の「メガネ アイコン」をクリックしてセッションごとに明示的に許可を付与する必要があり、基本的に Teams 通話と同様の方法で画面ビューをストリーミングします。
一度有効にすると、Vision は段階的な手順を提供したり、PC の問題のトラブルシューティングを行ったり、画面上のコンテンツに関する質問に答えたりすることができます。この機能は、単一のアプリケーションの表示から完全な「デスクトップ共有」モードに拡張され、AI がユーザーのワークフロー全体のコンテキストを理解できるようになりました。
[埋め込みコンテンツ]
Microsoft Copilot チームは機能について説明し、「デスクトップ (または特定のブラウザーやアプリ ウィンドウ) を共有すると、Copilot は見ているものを確認し、それについてリアルタイムで話しかけることができます。」
実際の応用例は多岐にわたります。ユーザーは、クリエイティブなプロジェクトに関するヒントを求めたり、履歴書を改善するための助けを得たり、新しいゲームをナビゲートする際に指導を受けたりすることができます。 「ハイライト」機能により、Copilot はタスクを完了するためにクリックする場所を視覚的に示すこともできます。生産性を高めるため、ユーザーが各スライドをめくる必要なく、PowerPoint プレゼンテーション全体を分析して洞察を得ることができます。
Vision は表示してアドバイスすることはできますが、ユーザーに代わってアクションを起こすことはできません。この機能は、別のコパイロット アクション機能のために予約されています。エクスペリエンスをより多用途にするために、Microsoft は「テキストイン テキストアウト」モードも準備しており、ユーザーが音声だけでなくテキストを介して Vision と対話できるようにします。
このシステム全体の認識は、真の状況に応じた支援を提供するために非常に重要です。ユーザーが何をしているかを理解することで、Copilot は長い説明を必要とせずに適切なサポートを提供でき、「毎日のコンパニオン」という目標に近づくことができます。 再考されたタスク バーにより、これらのツールにワンクリックでアクセスできるようになり、これらのツールが Windows のコア エクスペリエンスにさらに統合されます。
アシスタントからエージェントへ: コパイロット アクションが PC を制御
おそらく、アップデートの最も将来性のある要素は、ローカル ファイルに対するコパイロット アクションの実験的なプレビューです。 Copilot Labs を通じて Windows Insider が利用できるこの機能により、AI は複数ステップのタスクをユーザーの PC 上で直接実行できます。これは、アシスタントが単に応答するだけでなく、ユーザーに代わって積極的に動作する、エージェント AI の将来に向けた重要な一歩を示しています。
この新機能により、Copilot は Microsoft が呼ぶところの「汎用エージェント」に変わります。質問に答えるだけでなく、アプリを開いたり、入力したり、スクロールしたり、一連の複雑なアクションを実行したりできます。
ユーザーは、休暇の写真を並べ替えたり、PDF から情報を抽出したりするなど、自分の言葉でタスクを説明できます。エージェントはデスクトップや Web アプリケーションと対話してタスクを完了しようとします。
このシステムは、真のデジタル コラボレーターのように機能するように設計されています。エージェントがバックグラウンドで動作している間、ユーザーは他のことに集中できます。いつでも、エージェントの進行状況を監視したり、エージェントが実行した特定のアクションを確認したり、タスクの制御を完全に取り戻すことができます。この機能は、Microsoft が 4 月に初めて発表した Web ベースのアクションを拡張し、自動化の力を Windows デスクトップに直接もたらします。
ただし、同社は実験的な性質については透明であり、パフォーマンスを最適化し、実際の使用状況から学ぶために、限られた一連のユースケースから始めています。
Microsoft の Windows エクスペリエンス担当コーポレート バイス プレジデントである Navjot Virk 氏は、システムはまだ学習中であると警告しました。 「最初は、エージェントがいくつかの間違いを犯したり、非常に複雑なアプリケーションを使おうとするといくつかの課題に遭遇したりするかもしれません」と彼女は述べました。
この透明性は、この強力ではあるが初期段階にあるテクノロジーに対するユーザーの期待を管理するための意図的な戦略の一部です。
[埋め込みコンテンツ]
リコールから学ぶ: オプトインとセキュリティへの新たな焦点
Microsoft の指摘は鋭いです。 これらの新機能のプライバシー中心のオプトイン設計を強調します。この慎重なアプローチは、Windows Recall 機能に対する直接的かつ必要な対応であり、Windows Recall 機能は発表後に重大なセキュリティ脆弱性があるとして激しく批判されました。
Recall は当初、デバイス上のプライバシーを約束して売り込まれていました。当時、Yusuf Mehdi 氏は次のように述べていました。「Recall は、個人のセマンティック インデックスを活用しており、デバイス上に完全に構築され保存されています。あなたのスナップショットはあなたのものであり、PC 上にローカルに保存されます。」
この機能がデータを暗号化されていないローカル データベースに保存し、多くの人が「マルウェアの宝庫」と呼ぶ場所を作り出していることを研究者が発見したとき、その約束は打ち砕かれました。
激しい批判により、 企業はその機能を延期し、セキュリティを再設計する必要があります。 Copilot Vision と Actions を使用することで、Microsoft はチャンスを逃しません。
同社は明確なセキュリティに関する取り組みを公表し、これらの強力なエージェント エクスペリエンスが責任を持って導入されていることを強調しました。
重要なのは、Copilot Actions はデフォルトでオフになっているということです。ユーザーは有効化を明示的に選択する必要があり、いつでも一時停止、制御、または無効化することができます。
マイクロソフトはまた、完全な可視性を約束し、ユーザーがエージェントの進行状況を監視し、エージェントが実行するすべての手順を確認できるようにします。機密性の高い決定の場合、エージェントは続行する前に特定の承認を要求することもあります。
Recall の受動的なデータ キャプチャからのこの転換は、ユーザーの信頼を構築するために重要です。 Copilot Actions の新しいモデルは、ユーザーが常に制御できるように設計されており、Recall の初期の常時オンのアプローチとはまったく対照的です。この慎重なプレビューファーストのロールアウトは、広範囲にリリースする前にフィードバックを収集し、セキュリティ制御を改善するように設計されています。
最終的に、Microsoft は自社の AI PC を信頼できるパートナーとして位置づけています。 Mehdi 氏が述べたように、「移行するすべての人に、単なるツールではなく、真のパートナーである PC を持つことが何を意味するかを体験してもらいたいと考えています。」
この野心的なビジョンの成功は、テクノロジーの能力だけでなく、強力な新しい AI ツールが安全であることをユーザーに納得させる企業の能力にかかっています。
[埋め込みコンテンツ]