OpenAi推出了GPT-4.5,將其標記為該公司迄今為止建立的最廣泛和知識淵博的模式。但是有一個捕捉- Openai堅持認為這不是一個主要的技術飛躍。 GPT-4.5可作為研究預覽可用,可改善其前身GPT-4O,但並沒有帶來將其歸類為邊境AI系統的各種進步。

該模型將於今天發布給Chatgpt Pro用戶,Chatgpt Plus和Chatgpt團隊用戶將在下周訪問。 Like GPT-4o, it supports image uploads, ChatGPT Canvas and live search.

According to OpenAI-CEO Sam Altman, GPT-4.5 is “a giant, expensive model.”He said in a post on X that they wanted to launch it to the Plus and Pro plans at the same time, but this was not possible due to a lack of GPUs.

GPT-4.5 is ready!

good news: it is the first model that feels like talking to a thoughtful person to me. i have had several moments where i’ve sat back in my chair and been astonished at getting actually good advice from an AI.

bad news: it is a giant, expensive model. we…

— Sam Altman (@sama) February 27, 2025

OpenAI is also previewing GPT‑4.5 in the Chat Completions API, Assistants API, and Batch API to developers on all paid usage tiers.該模型支持關鍵功能,例如功能調用,結構化輸出,流和系統消息。它還通過圖像輸入來支持視覺能力。

,而OpenAI索賠GPT-4.5提高了事實的準確性並產生了更多自然響應,該公司承認它在某些領域的專業推理模型落後於

響應效率。 OpenAI將其描述為計算上的效率比GPT-4更有效,在處理能力方面的性能要好十倍以上。

訓練該模型,OpenAI將傳統方法與新技術融合在一起,包括監督的微調(SFT)(SFT)和從人類反饋(RLHF)中的增強學習。這種方法旨在使互動更加流暢,最大程度地減少錯誤響應並提高現實應用應用程序的可用性。

儘管進行了這些升級,OpenAI明確表示GPT-4.5並不是其在推理任務中最有能力的模型。其他模型在特定領域,尤其是在結構化問題和邏輯評估中表現更好的模型。

[嵌入式內容]

gpt-gpt-4.5績效結果

基於OpenAI,openai,gpt-4.的基於基準的基於GPT-4.5一致的gpterpper-gpterpper-gpterpper-4o copity(gppt-bpte-bpth-bpter-bpter-cocile’經過驗證和SWE-LAN​​CER鑽石),多語言任務(MMMLU)和多模式任務(MMMU)。

,與以推理為中心的模型相比,GPT-MINI,GPT-4.5,GPT-4.5在科學,數學中顯示出明顯較低的scoing bench bench nimbine scin(swe)基準(SWE-Lancer鑽石)。這加強了GPT-4.5作為強大的通用模型的定位,改善了其前身,但不專門從事高級推理任務,其中O3-Mini excress.

來源:OpenAi

在OpenAI的

。但是,性能基準表明,儘管它超過了其前身GPT-4O,但它並沒有完全達到OpenAI對某些更高的專業模型的高度,這是對任務要求的高級理性和自動性的高級理性和自動性的。這表明將重點放在廣泛的適用性上,而不是推動高度特異性功能的前沿。

最重要的改進之一是事實準確性和降低幻覺的領域。在PersonQA基準下,提出了有關個人公開可用事實的問題,GPT-4.5與GPT-4O(28%)甚至均優於O1(55%)相比,其準確率(78%)更高(78%)。

以外,其幻覺率略低於製造信息的頻率,比起了它的造成頻率。這表明現實中的基礎更強,並且降低了發明信息的趨勢。

另一個至關重要的改進領域是多語言表現。 OpenAI在MMLU(大量的多任務語言理解)基準的專業翻譯版本上評估了GPT-4.5。 MMLU是一項全面的測試,可以評估模型在各種主題中的知識,模擬了多個學科中的人類水平的理解。

至關重要的是,使用人類翻譯人員進行此評估,而不是機器翻譯,提供了對真實語言理解的更可靠的度量。結果很明顯:GPT-4.5在所有14種測試的語言中都勝過GPT-4O,證明了其跨多種語言工作的能力。

gpt-gpt-4.5能夠使用內部訪談問題將OpenAI研究人員模仿研究工程師的技能效仿OpenAI的技能。該模型表現良好,與編碼問題的深入研究(精度為79%)相匹配,並且在多項選擇部分(80%的精度)上與O1和O3-Mini相似。這表明在核心編程和機器學習概念上的熟練程度很高。

METR評估確定了GPT-4.5在自治和AI R&D任務上的性能。 The model performed between the levels reached by GPT-4o and o1, with an estimated time horizo​​n score around 30 minutes, which is the duration of tasks the model can complete with 50% reliability.

On the SWE-bench Verified, a set of real-world software engineering tasks sourced from GitHub issues, GPT-4.5 shows progress compared to GPT-4o, achieving a 38% success rate.但是,它仍然顯著落後於深入的研究模型,該模型的得分大大提高。

同樣,在旨在評估模擬環境中評估資源獲取和解決問題的代理任務的集合中,GPT-4.5得分為40%,40%的分數,值得注意的是Deep Research的78%的基礎

其他。 On MLE-Bench, which involves solving Kaggle competitions (data science and machine learning challenges), GPT-4.5 performs on par with o1, o3-mini, and deep research, all scoring 11%.

The OpenAI PRs benchmark, which tests the model’s ability to replicate pull requests (code contributions) made by OpenAI employees, shows deep research significantly outperforming GPT-4.5.

Finally, on SWE-Lancer, a platform of real-world, paid software engineering tasks, GPT-4.5 demonstrates slight improvements over o1 in both individual contributor tasks (20% solved) and management-level tasks (44% solved), but remains considerably behind deep research (46% and 51%, respectively).

Source: OpenAI

OpenAI’s Focus on Safety and Reducing Hallucinations

OpenAI has subjected GPT-4.5 to a rigorous battery of safety evaluations, reflecting the growing importance of responsible AI development.這些測試探討了該模型處理有害請求,抵抗操縱並避免偏見的能力。儘管GPT-4.5在幾個領域都表現出增量的進度,但結果描繪了一個複雜的圖片,強調了創建真正安全和公正的AI系統所面臨的挑戰。

評估的關鍵重點是防止模型生成不允許的內容。這包括諸如仇恨言論,非法建議以及侵犯隱私的回應之類的類別。在標准文本評估上,GPT-4.5與其前身GPT-4O相當,拒絕產生不安全的輸出。

出現多模式輸入(文本和圖像的組合)時,gpt-4.5表現出更高的趨勢,即更高的趨勢,這意味著它拒絕了它的有效性,這是有效的,這是有效的。 This highlights a trade-off: stricter safety controls can sometimes lead to overly cautious behavior.

Source: OpenAI

Detailed breakdowns of these evaluations, separating responses by type of harmful content (sexual, hate, self-harm, etc.) reveal that the level of success in refusing such requests varies greatly depending on the topic.

Another critical area of​​ concern is jailbreaking – adversarial attempts to bypass a model’s safety protocols.與GPT-4O相比,GPT-4.5在人為越獄嘗試中顯示出略有改善。

,但是,在強烈的基准上,GPT-4.5的越野越野越野越野賽和結構化的測試與GPT-4O相似,與GPT-4O相似,並且比另一個名為O1的OpenAI模型更差。這表明儘管已經取得了一些進展,但該模型仍然容易受到某些類型的複雜攻擊的影響。

模型遵守預定義的指令層次結構的能力對於安全也至關重要。這意味著確保系統級指令(旨在促進安全行為)優先於潛在的用戶請求。

gpt-4.5通常在以下對用戶提示的系統說明中勝過gpt-4O,但在某些情況下,它稍微落後於O1模型。具體而言,在模擬的輔導方案中,GPT-4.5比O1更容易受到揭示答案,儘管它的性能仍然比GPT-4O更好。在旨在保護特定短語和密碼的測試中也觀察到類似的趨勢。

紅色小組評估,涉及積極嘗試引起有害響應,提供進一步的見解。 GPT-4.5在一個具有挑戰性的紅色團隊評估集上的表現略好,但在另一個挑戰性的紅色團隊評估集中表現不佳,表明它仍然容易在對抗壓力下產生有問題的內容。

OpenAi在其,評估潛在的災難性風險。該模型總體上被歸類為中等風險。具體而言,它獲得了網絡安全的低風險評級,這意味著它沒有顯著提高與利用計算機脆弱性有關的能力。但是,它在CBRN類別中獲得了化學和生物威脅創造(CBRN)和說服的中等風險評級。

拒絕在生物威脅創建過程中的所有步驟中,在確定模型中,在

for for Persection for Persecusy中均可表明某些能力說服其他AI模型(模擬人類)採取具體行動,例如付款或說代碼字。這些中等風險評級凸顯了持續的關注以及持續警惕的需求。

openai為GPT-5

準備GPT-4.5的釋放似乎是OpenAI AI AI路線圖中的一項計算的舉動,

戰略時機

策略時機。 CEO Sam Altman has hinted that GPT-5 is already in development, with a possible release as early as May 2025. The next major iteration is expected to feature o3 reasoning, a more advanced system that OpenAI has been teasing since late 2024.

For now, GPT-4.5 serves as an intermediary step—providing improvements in usability and efficiency while keeping users engaged until GPT-5 arrives.該公司還一直在測試整合多種AI模型的方法,這表明未來版本可以將推理引擎與更先進的AI系統結合在一起。

在不久的將來迫在眉睫的GPT-5,GPT-4.5可用作改進,而不是重新發明。 Openai的方法似乎是連續的升級,而不是很少發生的大規模大修,至少直到AI推理的下一個大飛躍到來為止。