。但是,性能基準表明,儘管它超過了其前身GPT-4O,但它並沒有完全達到OpenAI對某些更高的專業模型的高度,這是對任務要求的高級理性和自動性的高級理性和自動性的。這表明將重點放在廣泛的適用性上,而不是推動高度特異性功能的前沿。
最重要的改進之一是事實準確性和降低幻覺的領域。在PersonQA基準下,提出了有關個人公開可用事實的問題,GPT-4.5與GPT-4O(28%)甚至均優於O1(55%)相比,其準確率(78%)更高(78%)。
以外,其幻覺率略低於製造信息的頻率,比起了它的造成頻率。這表明現實中的基礎更強,並且降低了發明信息的趨勢。
另一個至關重要的改進領域是多語言表現。 OpenAI在MMLU(大量的多任務語言理解)基準的專業翻譯版本上評估了GPT-4.5。 MMLU是一項全面的測試,可以評估模型在各種主題中的知識,模擬了多個學科中的人類水平的理解。
至關重要的是,使用人類翻譯人員進行此評估,而不是機器翻譯,提供了對真實語言理解的更可靠的度量。結果很明顯:GPT-4.5在所有14種測試的語言中都勝過GPT-4O,證明了其跨多種語言工作的能力。
gpt-gpt-4.5能夠使用內部訪談問題將OpenAI研究人員模仿研究工程師的技能效仿OpenAI的技能。該模型表現良好,與編碼問題的深入研究(精度為79%)相匹配,並且在多項選擇部分(80%的精度)上與O1和O3-Mini相似。這表明在核心編程和機器學習概念上的熟練程度很高。
METR評估確定了GPT-4.5在自治和AI R&D任務上的性能。 The model performed between the levels reached by GPT-4o and o1, with an estimated time horizon score around 30 minutes, which is the duration of tasks the model can complete with 50% reliability.
On the SWE-bench Verified, a set of real-world software engineering tasks sourced from GitHub issues, GPT-4.5 shows progress compared to GPT-4o, achieving a 38% success rate.但是,它仍然顯著落後於深入的研究模型,該模型的得分大大提高。
同樣,在旨在評估模擬環境中評估資源獲取和解決問題的代理任務的集合中,GPT-4.5得分為40%,40%的分數,值得注意的是Deep Research的78%的基礎
其他。 On MLE-Bench, which involves solving Kaggle competitions (data science and machine learning challenges), GPT-4.5 performs on par with o1, o3-mini, and deep research, all scoring 11%.
The OpenAI PRs benchmark, which tests the model’s ability to replicate pull requests (code contributions) made by OpenAI employees, shows deep research significantly outperforming GPT-4.5.
Finally, on SWE-Lancer, a platform of real-world, paid software engineering tasks, GPT-4.5 demonstrates slight improvements over o1 in both individual contributor tasks (20% solved) and management-level tasks (44% solved), but remains considerably behind deep research (46% and 51%, respectively).
Source: OpenAI
OpenAI’s Focus on Safety and Reducing Hallucinations
OpenAI has subjected GPT-4.5 to a rigorous battery of safety evaluations, reflecting the growing importance of responsible AI development.這些測試探討了該模型處理有害請求,抵抗操縱並避免偏見的能力。儘管GPT-4.5在幾個領域都表現出增量的進度,但結果描繪了一個複雜的圖片,強調了創建真正安全和公正的AI系統所面臨的挑戰。
評估的關鍵重點是防止模型生成不允許的內容。這包括諸如仇恨言論,非法建議以及侵犯隱私的回應之類的類別。在標准文本評估上,GPT-4.5與其前身GPT-4O相當,拒絕產生不安全的輸出。
出現多模式輸入(文本和圖像的組合)時,gpt-4.5表現出更高的趨勢,即更高的趨勢,這意味著它拒絕了它的有效性,這是有效的,這是有效的。 This highlights a trade-off: stricter safety controls can sometimes lead to overly cautious behavior.
Source: OpenAI
Detailed breakdowns of these evaluations, separating responses by type of harmful content (sexual, hate, self-harm, etc.) reveal that the level of success in refusing such requests varies greatly depending on the topic.
Another critical area of concern is jailbreaking – adversarial attempts to bypass a model’s safety protocols.與GPT-4O相比,GPT-4.5在人為越獄嘗試中顯示出略有改善。
,但是,在強烈的基准上,GPT-4.5的越野越野越野越野賽和結構化的測試與GPT-4O相似,與GPT-4O相似,並且比另一個名為O1的OpenAI模型更差。這表明儘管已經取得了一些進展,但該模型仍然容易受到某些類型的複雜攻擊的影響。
模型遵守預定義的指令層次結構的能力對於安全也至關重要。這意味著確保系統級指令(旨在促進安全行為)優先於潛在的用戶請求。
gpt-4.5通常在以下對用戶提示的系統說明中勝過gpt-4O,但在某些情況下,它稍微落後於O1模型。具體而言,在模擬的輔導方案中,GPT-4.5比O1更容易受到揭示答案,儘管它的性能仍然比GPT-4O更好。在旨在保護特定短語和密碼的測試中也觀察到類似的趨勢。
紅色小組評估,涉及積極嘗試引起有害響應,提供進一步的見解。 GPT-4.5在一個具有挑戰性的紅色團隊評估集上的表現略好,但在另一個挑戰性的紅色團隊評估集中表現不佳,表明它仍然容易在對抗壓力下產生有問題的內容。
OpenAi在其,評估潛在的災難性風險。該模型總體上被歸類為中等風險。具體而言,它獲得了網絡安全的低風險評級,這意味著它沒有顯著提高與利用計算機脆弱性有關的能力。但是,它在CBRN類別中獲得了化學和生物威脅創造(CBRN)和說服的中等風險評級。
拒絕在生物威脅創建過程中的所有步驟中,在確定模型中,在
for for Persection for Persecusy中均可表明某些能力說服其他AI模型(模擬人類)採取具體行動,例如付款或說代碼字。這些中等風險評級凸顯了持續的關注以及持續警惕的需求。
openai為GPT-5
準備GPT-4.5的釋放似乎是OpenAI AI AI路線圖中的一項計算的舉動,
戰略時機