根據本週浮出水面的一名據稱員工的評論,微軟顯然正在開發新的軟件工具,以便在更便宜的 AMD 芯片上運行 NVIDIA 的 AI 軟件。
削減 AI 工作負載(也稱為推理)的高成本將直接挑戰 NVIDIA 的長期主導地位。
據報導,此類工具的工作原理是將代碼從 NVIDIA 專有的 CUDA 平台轉換為 AMD 的開源 ROCm 格式。如果屬實,該戰略將反映更廣泛的行業趨勢,因為 Oracle 和 OpenAI 等科技巨頭將增加對 AMD 硬件的依賴以促進競爭。
對抗 NVIDIA AI 主導地位的秘密武器?
有關新工具包的說法源自網上流傳的一份文字記錄,雖然未經 Microsoft 證實,但該文字記錄似乎來自 Third Bridge Forum,這是一個信譽良好的專家網絡,為機構提供付費採訪
其中,一位被認為是 Microsoft 專家的匿名人士聲稱,該公司正在積極努力縮小 NVIDIA 專有軟件與其競爭對手硬件之間的差距。
在 X 上通過屏幕截圖分享的文字記錄中,發言者聲稱存在旨在正面應對這一挑戰。
“在過去的三到四個月裡,人們對通過推理節省成本越來越感興趣。我們構建了一些工具包來幫助將 CUDA 模型轉換為 ROCm,以便您可以在 AMD 上使用它,例如 300X。
我們收到了很多關於我們與 AMD、400X 和 450X 的合作方向的詢問。我們正在積極與 AMD 合作我想說的是,我們現在遇到的最大挑戰,尤其是較新的服務器,就是確定機架的密度並在機架上進行液體冷卻。”
據稱 Third Bridge 論壇帖子(來源:@Jukanlosreve/X)
這樣的工具包將有效地充當轉換層,允許最初為 NVIDIA 生態系統構建的 AI 模型可以在 AMD 的硬件上運行,而無需進行完全且昂貴的重寫。
多年來,NVIDIA 的 CUDA 平台一直是 AI 開發人員的強大工具和金籠。作為一個並行計算平台,其強大的庫已使其成為行業標準,CUDA 創造了一條強大的“護城河”,使競爭對手難以獲得市場份額。
如果得到證實,微軟的努力將是對該護城河的直接攻擊。雖然 AMD 的 ROCm 是一種功能強大的開源替代方案,但可靠的轉換路徑將使 Microsoft 的 Azure 客戶能夠獲得 AMD 硬件的成本優勢,而無需放棄熟悉的 CUDA 環境。
使用 AMD 芯片運行 CUDA 的選項已經可用,例如 SCALE 的 GPGPU 工具鏈。然而,轉換造成的效率損失仍然是微軟顯然想要解決的一個持續障礙。
為 AI 推理熱潮採取節省成本的策略
在 AI 運營費用不斷膨脹的推動下,科技巨頭現在正在積極尋求節省成本的措施。發言者在文字記錄中強調,所謂工具包背後的主要動機是財務,特別是在人工智能的推理階段,訓練有素的模型將在該階段發揮作用。
隨著人工智能服務擴展到數百萬用戶,推理佔運營成本的很大一部分。
對成本效率的日益關注,使得 AMD 價格更具競爭力的 GPU 成為 NVIDIA 高價硬件的有吸引力的替代品,前提是可以克服軟件障礙。
軟件之外的障礙。而芯片成本、物理數據中心的限制正在成為關鍵瓶頸。文字記錄中的消息人士指出,根本的挑戰不再只是確保足夠的電力,而是有效管理電力。
它對功率密度和液體冷卻的關注凸顯了對下一代人工智能加速器的巨大需求。
全行業推動打破 CUDA 束縛
微軟所謂的戰略將與全行業的重大推動相一致,以培養更具競爭力的人工智能硬件供應鏈。對於 NVIDIA 來說,其市場領導地位既取決於其軟件,也取決於其芯片,這種趨勢代表著長期威脅。
雲基礎設施領域的主要參與者 Oracle 最近宣佈建立一項重要合作夥伴關係,部署 50,000 個 AMD AI 芯片。 Oracle 雲高級副總裁 Karan Batta 明確指出了這種替代方案對於成本敏感型工作負載的價值。
領先的人工智能研究實驗室 OpenAI 也正在採取果斷舉措,使其計算基礎多樣化。它與 AMD 達成了一項價值數十億美元的最終協議,部署 6 吉瓦的 GPU。
其合作夥伴關係包括最多 1.6 億股的獨特認股權證,這可能使 OpenAI 獲得該芯片製造商約 10% 的股權,從而與他們的目標深度一致。
這種“合作競爭”的趨勢甚至延伸到了歷史上的競爭對手。英特爾正在就為 AMD 製造芯片進行談判,這凸顯了多元化半導體供應鏈的戰略重要性。
如果有關微軟工具包的說法準確,那麼該公司不僅致力於解決內部成本問題,而且還為更廣泛的市場發展做出了貢獻。成功的轉換工具可能預示著與硬件無關的人工智能開發的未來,使開發人員擺脫供應商鎖定。
這種潛在的轉變將標誌著整個人工智能行業進入成熟的新階段,從瘋狂的計算領域爭奪轉向更具戰略性的多極生態系統。