微軟正在通過 Copilot 助手大力推進醫療保健人工智能領域。根據《華爾街日報》的一份報告,這家科技巨頭已與哈佛醫學院合作,為用戶提供值得信賴的健康信息。

Copilot 的更新即將推出 本月起,將利用哈佛健康出版社的內容來回答醫學問題。

此舉是公司更廣泛目標的一部分,即構建自己的人工智能模型並減少對合作夥伴 OpenAI 的依賴。通過瞄準關鍵的醫療保健領域,微軟希望打造Copilot品牌,並在競爭激烈的人工智能競賽中開闢自己的道路。該策略似乎是直接嘗試開闢一個信譽至上的利基市場。

來自哈佛大學的信譽

The 與哈佛的合作是解決消費者人工智能面臨的最大挑戰之一:可靠性的直接嘗試,微軟將為此支付許可費。

通過將受人尊敬的哈佛健康出版部門的內容整合到計劃於本月進行的 Copilot 主要更新中,該公司的目標是在敏感醫療主題上與用戶建立信任基礎。其戰略目標是提供比標準聊天機器人更符合醫生信息的答案。

微軟 AI 健康副總裁 Dominic King 證實了這一點,並表示該公司的目標是為用戶提供“確保人們能夠獲得根據他們的語言和讀寫能力以及各種因素量身定制的可靠、值得信賴的健康信息,這一點至關重要。” King 指出,其目的是幫助用戶在管理糖尿病等複雜疾病方面做出明智的決策。

這種對準確性的強烈關注是對醫療環境中通用人工智能有據可查的缺點的明確回應。例如,斯坦福大學 2024 年的一項研究發現,在向 ChatGPT 提出的 382 個醫療問題中,聊天機器人在大約 20% 的情況下提供了“不恰當”的答案。

這種可信度差距不僅限於聊天機器人;還有其他一些問題。大阪大學的一項綜合薈萃分析發現,雖然生成式人工智能正在接近非專科醫生的診斷技能,但它仍然遠遠落後於人類專家。

通過授權可信內容,微軟正試圖建立一個更安全、更可靠的替代方案。這是使 Copilot 成為實用健康工具的更廣泛努力的一部分,其中還包括一項正在開發的功能,可幫助用戶根據自己的需求和保險範圍找到附近的醫療保健提供者。

但是,該計劃並非沒有顯著的複雜性,特別是在敏感主題方面。哈佛健康出版文獻包含有關心理健康的材料,但當受到質疑時,微軟拒絕具體說明更新後的 Copilot 將如何處理此類查詢。

這是一個關鍵問題,因為聊天機器人與經歷心理健康危機的個人之間的互動已經引起了立法者和健康專家的嚴格審查,特別是在有報導稱人工智能在以悲劇告終的情況中發揮了作用之後。

人工智能獨立的戰略推動

新的醫療保健計劃是 Microsoft 內部更大、更緊迫的使命的關鍵部分:實現 OpenAI 的技術獨立。據知情人士透露,該公司正在積極訓練自己的人工智能模型,長期目標是取代目前由 OpenAI 處理的工作負載。

這項工作由微軟消費者人工智能部門首席執行官 Mustafa Suleyman 推動。他的團隊專注於推進微軟的本土模型。

8 月份,該公司開始公開測試 Copilot 的一個此類模型。這種多元化模式已經顯而易見,微軟在其部分 365 產品中使用了 OpenAI 競爭對手 Anthropic 的模型。

儘管 9 月份達成了延長與 OpenAI 合作關係的臨時協議,但自力更生的努力仍在繼續。

微軟曾公開表示,“OpenAI‘將繼續成為我們在前沿模型方面的合作夥伴’,其理念是使用可用的最佳模型”,但其內部行動表明了控制自己人工智能命運的明確願望。首席執行官薩蒂亞·納德拉 (Satya Nadella) 最近委派了其他職責,專注於關鍵的人工智能賭注。

在高風險的醫療人工智能競賽中導航

微軟對醫療保健的關注使其處於競爭激烈且經常被炒作的領域。該公司在這一領域做出大膽主張並不陌生。

6 月,該公司推出了 MAI-DxO 系統,這是一種旨在處理複雜醫療案例的人工智能。據微軟稱,該系統使用《新英格蘭醫學雜誌》中具有挑戰性的案例研究,根據嚴格的新標准進行了評估。

結果令人震驚:MAI-DxO 正確解決了 85.5% 的案例,而由 21 名執業醫生組成的小組的平均準確率僅為 20%。

這促使微軟 AI 首席執行官穆斯塔法·蘇萊曼 (Mustafa Suleyman) 聲稱,“微軟已經採取了 “邁向醫療超級智能的真正一步。 “該公司聲稱,其工具診斷疾病的準確性是醫生的四倍。

然而,更廣泛的醫療人工智能領域既充滿希望,也充滿重大障礙,這表明此類說法值得謹慎對待。大阪大學 2025 年 3 月發表在《自然》雜誌上的一項薈萃​​分析提供了更加謹慎的觀點。

在回顧了 83 項不同的研究後,它發現雖然生成式人工智能正在改進,但其性能仍遠未達到完美。正如首席研究員 Hirotaka Takita 博士指出的那樣,“生成人工智能的診斷能力與非專業醫生相當”,並補充說,它仍然遠遠落後於人類專家 15.8%。

這項研究還對該領域的研究狀況提出了警告,發現它分析的 76% 的論文存在很高的偏見風險,這通常是由於不透明的訓練造成的 數據。

基準性能與現實臨床實踐之間的差距是一個反復出現的主題。放射學領域是一個強有力的案例研究。 2016 年,人工智能先驅杰弗裡·辛頓 (Geoffrey Hinton) 曾說過一句著名的話:“人們現在應該停止培訓放射科醫生。 “然而,近十年後,對人類放射科醫生的需求正在蓬勃發展,住院醫師職位創歷史新高,薪資飆升。

這一悖論揭示了監管、責任和工作流程集成的巨大復雜性,僅靠算法無法解決。保險公司越來越多地將“絕對人工智能排除”條款寫入醫療事故保單中,迫使醫院讓有執照的醫生對任何診斷承擔法律責任,並確保人類牢牢地參與其中。

醫療人工智能的競賽也在診斷之外的多個戰線上展開。例如,歐洲研究人員開發了 Delphi-2M,這是一種人工智能,可以通過分析健康記錄提前數十年預測 1,000 多種疾病的風險。

與此同時,約翰·霍普金斯大學的 SRT-H 系統已經展示了人工智能在直接干預方面的潛力,在實驗室測試中在標準達芬奇機器人上自主執行複雜的手術步驟。

這些不同的方法 強調了整個行業的巨大雄心,其中的挑戰不僅僅是創建一種準確的算法,而是一種安全、可靠且實用的算法,足以供臨床採用。

信任和準確性方面尚未解決的挑戰

除了性能基準之外,人工智能在醫學領域的最大障礙是信任。使用大量患者數據集來訓練模型引發了深刻的隱私問題。最近關於英國“Foresight”人工智能的爭議凸顯了公眾對數據安全的擔憂。

微軟的 Copilot 也面臨著用戶採用率的急劇上升。根據 Sensor Tower 的數據,該應用程序的下載量已達 9500 萬次,僅佔 ChatGPT 超過 10 億次下載量的一小部分。在醫療保健等敏感領域建立準確性聲譽可能是一個關鍵的差異化因素。

最終,微軟的成功不僅取決於其技術,還取決於其讓用戶相信其人工智能是解決他們最重要問題的可靠來源的能力。與哈佛的合作夥伴關係是朝著建立這種基本信任邁出的明確且戰略性的一步。

Categories: IT Info