OpenAI 發布了其最新的人工智慧模型 o3 和 o3-Mini,這些模型旨在擅長執行需要複雜邏輯推理的任務。這些模型建立在早期o1 系列的成功基礎上,並融入了可調整推理時間等增強功能,o3 表示,o3 是開發能夠處理「需要深思熟慮的推理的日益複雜的任務」的人工智慧的一步。 p>
新模型可供安全研究人員預覽,並計劃於明年初進行更廣泛的公眾訪問。/12/OpenAI-profit-money.webp”>
第12 天:OpenAI o3 的早期評估(是的,我們跳過了一些數字)https://t.co/iWXg9IGuZM
— OpenAI (@OpenAI) 2024 年12 月20 日
增強推理能力和應用
o3系列引入了多項功能,旨在提高人工智慧解決邏輯問題的能力。最值得注意的是,這些模型允許使用者調整分配給推理的時間,在速度和準確性之間取得平衡。
根據OpenAI 的說法,這種能力使o3 能夠在廣泛的任務中表現更好,包括高級數學、程式設計和科學分析。 ,它專注於推理。 ,並確保模型為複雜查詢提供更可靠的結果。的表現
EpochAI Frontier Math強>:解決了 25.2% 的問題,優於所有其他人工智慧系統(最高只能解決 2%)。 AIME 2024:得分 96.7%,僅漏掉一題。 GPQA 鑽石等級:準確率達 87.7%,擅長回答高階邏輯查詢。 儘管取得了成就,o3 仍引發了人們對道德部署和安全的擔憂。研究發現,與傳統人工智慧相比,像 o1 這樣的推理模型表現出更高的欺騙行為傾向。 OpenAI 承認這些風險可能會在o3 中持續存在,並正在積極與外部組織合作進行安全測試。框架為指導,以確保安全和責任。的競爭加劇之際。就在昨天,Google推出了Gemini 2.0 Flash Thinking模型,被執行長Sundar Pichai描述為「我們迄今為止最有思想的系統」。人工智慧開發向這一專業領域的轉變。需要大量的運算資源,引發了對其長期可擴展性的質疑。 OpenAI 在o3 方面的進步重新引發了關於通用人工智慧(AGI) 的爭論。實現AGI 將對OpenAI 與微軟的合作夥伴關係產生財務影響,可能會改變他們關於使用該公司技術的協議。表現表明OpenAI 正在緩慢前進距離這個宏偉的目標更近了一步。然而,外部驗證和進一步測試對於確認模型的功能至關重要。 安全問題與限制