OpenAI已推出了O3-Pro,這是一種針對專業人士和企業的新旗艦推理模型,他們要求更高的準確性來解決複雜的問題。該版本為該公司最先進的AI建立了新的高級層,其價格比其標準O3的標準高十倍。
在同時進行的戰略舉動中,基本的O3模型獲得了80%的價格,從而獲得了80%的削減,從而使OpenAi的一般通用和專業級別的產品和專業級別的
官方公告來自Openai幫助中心。儘管Openai在學術基準測試方面都高於競爭對手,但O3-Pro的真實價值似乎超出了簡單的測試。早期訪問評論表明,只有在餵養廣泛的環境時才完全解鎖其高級智能,將其定位為對話聊天機器人,而將其作為用於深入分析的專業引擎。
“>
現在可以為Chatgpt Pro和團隊訂戶使用O3-PRO模型,以取代較舊的O1-Pro,並訪問了企業和EDU客戶的訪問權限。但是,高級表現與權衡取捨。 OpenAI confirms that responses from o3-pro are typically slower than its predecessors and that, at launch, the model lacks support for image generation, temporary chats, and the Canvas feature.
A Premium on Precision: The Price of Pro Performance
OpenAI is pricing o3-pro at $20 per million input tokens and $80 per million output tokens via its API.與新折扣的標準O3相比,這使其成為一項巨大的投資,現在的標記金額僅為2美元和8美元。定價策略似乎旨在市場重新定位,因為據報導,O3-Pro的價格比它所替換的O1-Pro模型便宜87%,這表明使其最高層的功能更容易訪問,但仍然與眾不同。該公司表示,新模型的清晰度,準確性和遵循複雜說明的能力的評分更高。
績效索賠足夠強烈,以至於Openai首席執行官Sam Altman感到驚訝,
The Context-Hungry Engine: A New Way to Prompt
While benchmarks tell one story, the practical experience of using o3-pro reveals a more nuanced picture.根據對潛在空間的早期訪問審查,模型的增強功能並不總是在簡單的,一點點查詢中顯而易見。利用其權力的關鍵是為其提供大量相關信息。評論建議,最好的方法是將其視為“報告生成器”而不是聊天機器人。
在一個潛在空間的一個測試中,該模型獲得了內部公司文檔和目標。由此產生的分析是如此具體,並植根於提供的數據,以至於他們說“實際上改變了我們對未來的思考方式”。然而,這種積極的高信息經驗並不普遍。
開發人員和博客作者Simon Willison註釋 O3-Pro O3-pro很慢,並且在其推理與外部工具結合時似乎可以很好地工作。 src=“數據:image/svg+xml; nitro-empty-id=mty0ndoxnji4-1; base64,phn2zyb2awv3qm94psiwidagmti4mca3mca3mjai ihdpzhropsixmjgwiibozwlnahq9ijcymcigeg1sbnm9imh0dha6ly93d3cudzmub3jnlziwmdavc3znij48l3n2 zzz4=“>
從代理到分析師:O系列的戰略轉移
O3-Pro的發布標誌著OpenAI“ O系列”模型的發展邁出了重要的一步。這些模型與GPT系列的根本不同,GPT系列旨在“深度”和“審議”,其預算更大,用於內部思想和本地工具使用。這種體系結構使他們能夠在自己的推理過程中進行計劃和行動,這是一種功能,該功能首先通過4月發布的O3和O4-Mini發行。
,最初的啟動標誌著朝著“ Agensic AI”推動了推動-可以自動決定使用哪種工具來完成任務的系統。這代表了從AI助手的戰略轉變,這些助理簡單地回答問題,可以積極幫助用戶實現目標。 The introduction of a “pro”version less than two months later indicates that OpenAI is now focused on hardening these experimental agentic skills into a reliable, enterprise-ready tool.
The Ghost in the Machine: Reliability and Control Challenges
The heavy emphasis on o3-pro’s reliability comes against a backdrop of documented issues with its predecessors.在O3模型的首次亮相後不久,報告說,它比較舊模型具有更高的幻覺趨勢。 AI公司Vectara發現,總結物品時,O3模型的幻覺率為6.8%。 獨立研究ai o3的預訂版本的詳細實例,O3的預先釋放版本將構成所採取的問題的行為。在受控環境中關閉命令。該小組的發現包括引人注目的說法,即“儘管明確指示相反的說明,這是“觀察到第一次AI模型,以防止自己被關閉。”
這些事件突顯了確保AI安全性和對齊方式的巨大挑戰。在明顯朝著更高透明度邁進的過程中,Openai於5月推出了一個公共“安全評估中心”,以共享內部測試結果,開發