Microsoftは火曜日に、自律的にエンジニアリングを逆転させ、悪意のあるソフトウェアを分類する新しいAIエージェントであるProject IREを明らかにしました。この動きは、AIサイバーセキュリティアームレースをエスカレートし、Microsoftの「Big Sleep」エージェントにMicrosoftのマルウェアハンターを配置します。これは、Microsoftの研究およびセキュリティチームによって開発されたソフトウェアの欠陥を見つけることに焦点を当てています。これにより、セキュリティチームは洗練されたAI主導の攻撃に対して防御を拡大し、人間の専門家を解放して最も重要な脅威に焦点を当てることができます。
この発表は、技術の巨人がAIを防御のために武器化する方法の戦略的相違を強調しています。 Googleはコードの脆弱性を探していますが、Microsoftは現在、悪意のあるバイナリ自身をターゲットにしています。マルウェア分析の「ゴールドスタンダード」
Microsoftは、新しいシステムは「マルウェア分類でゴールドスタンダードと見なされるものを自動化する:その起源または目的についての手がかりのないソフトウェアファイルを完全にリバースする」と述べています。プロトタイプは、a マイクロソフト研究、マイクロソフトディフェンダーの研究、およびマイクロソフトの研究とマイクロソフトの研究の間のコラボレーション専門知識。
エージェントは、Azure AI Foundryを介して利用可能な高度な言語モデルを使用して、一連の専門ツールを指示することで動作します。そのアーキテクチャにより、低レベルのバイナリ分析からコード動作の高レベルの解釈まで、複数のレベルで推論することができ、パターンを単純に一致させるツールと区別します。
分析プロセスは、自動化されたツールがファイルの種類と構造を識別するトリアージから始まります。そこから、システムは ghidra および
反復関数分析により、AIは特殊なツールを呼び出してキー関数を識別および要約します。各結果は、システムがどのように結論に達したかを示す詳細で監査可能なトレイルである「証拠の連鎖」に供給されます。このログは、人間のレビューとシステムの洗練を確保するために重要です。 Microsoft自身のマルウェアエンジニアからの専門家声明の知識ベースに対する主張をクロスチェックします。ある例では、Microsoftの最初のシステム(人間または機械)が、公共の窓ドライバーの初期テストでは、自動ブロックを自動的にトリガーするのに十分な強力な脅威レポートを作成するために、システムは非常に正確で、98%の精度を達成し、2%のケースで安全なファイルを誤ってフラグを立てていました。この低い偽陽性レートは、セキュリティ運用における展開の明確な可能性を示唆しています。
他の自動システムを困惑させたほぼ4,000個の「ハードターゲット」ファイルに対してテストされた場合、89%の精度と26%のリコールを達成し、4%の偽陽性率を獲得しました。リコールは中程度でしたが、これらの困難なケースの正確性は、人間の分析を強化する可能性を強調しています。マルウェアの分類に焦点を当てているのは、GoogleのプロジェクトBig Sleepとは鋭く対照的であり、最近、FFMPEGやImageMagickなどの広く使用されているオープンソースソフトウェアで20の新しい脆弱性を自律的に発見したことで注目を集めています。このプロジェクトは、SQLiteデータベースエンジンのバグを明らかにすることにより、2024年後半にその可能性を最初に証明しました。 Googleが攻撃者との直接的な競争で、GoogleがBig Sleepが差し迫った脅威であるCVE-2025-6965を積極的に中和したことをGoogleが明らかにした2025年7月に、利害関係がかなり上昇しました。 Googleのエンジニアリング担当副社長であるRoyal Hansenは、調査結果を「自動化された脆弱性発見の新しいフロンティア」として祝いました。
この傾向は、2人のプレーヤーに限定されません。スタートアップや確立された企業からのAIセキュリティツールのエコシステムの増加が登場しています。他のハイテク大手は補完的なシステムを構築しています。たとえば、Metaは最近、AIモデルがそもそも不安定なコードを生成するのを防ぐために設計されたツールであるLlamafirewallとともに、AIがバグを自動的に修正できる方法を評価するために最近発表しました。一方、RunsybilやXbowのようなツールも見出しを作っています。最近ハッケロンリーダーボード。防御に使用される同じAIモデルは、安全でないコーディングの慣行を永続させる可能性もあります。最近の学術研究により、Githubのパブリックコードで訓練された多くのLLMSは、「毒LLM」問題と呼ばれる現象である古いバグを再現することを学んだことが明らかになりました。これは、未来を構築するためのツールが過去の過ちを継承しているという悪循環を作成します。 NTTデータのSheetal Mehtaが関連するコンテキストで指摘したように、「断片化されたセキュリティツールは、今日の自動攻撃に追いつくことはできません」。これは、MicrosoftのBrad Smithが以前に述べていたように、誤用の可能性を軽減しながらAIを守るためにAIを活用する必要性に関するコンセンサスの高まりを反映しています。 IREやBig Sleepのような専門的なエージェントの開発は、その戦いの重要な面を表しています。主要な業界の懸念は、「AI Slop」です。これは、自動化されたツールによって生成された低品質または無関係なバグレポートの洪水の用語です。 AIセキュリティスタートアップRunsybilの共同設立者であるVlad Ionescuは、TechCrunchに次のように語っています。「それは人々が遭遇している問題です。金のように見えるものがたくさんありますが、実際にはがらくたです。」 GoogleのスポークスマンであるKimberly Samraは、「高品質で実用的な報告を確保するために、報告する前にループに人間の専門家がいるが、人間の介入なしにAIエージェントによってそれぞれの脆弱性が見つかり、再現されたことを確認しました。 Microsoftの調査マネージャーであるMike Walkerは、Project IREの初期の経験が「[これらの事例から学んだこと]が、保護のために人間とAIの両方の補完的な強さを活用できることを示している」と説明しました。システムの詳細な証拠トレイルは、このヒューマンマシンコラボレーションを促進するために特別に設計されています。
Microsoftは、プロトタイプを「バイナリアナライザー」としてセキュリティ製品に統合する予定です。同社の究極のビジョンは、新しいマルウェアをメモリ内で直接検出し、自律機能をスケーリングして数十億のデバイスをより効果的に保護することです。