擬人化已引入 claude 3.7十四行詩它的AI系列將快速響應的產生與高級推理能力相結合。

發布遵循Claude 3.0,它引入了更好的長格式處理和上下文保留,以及Claude 3.5十四行詩,它增強了編程和文檔分析。

該模型的出色功能是其功能要“設置響應時間約束”,允許開發人員根據特定需求微調AI的性能。除了版本,Anthropic啟動Claude Code,該工具可以搜索,編輯和執行代碼,並提供更深入的AI驅動器software development assistance.

新的Claude更新進入了由OpenAI和Google的雙子座主導的AI比賽,而競爭對手則專注於多模式功能和實時搜索,Anthropic正在採用不同的路線,這是一條不同的路線解決問題的問題無需切換模型。

Claude 3.7十四行詩可通過Claude.ai,Amazon Bedrock和Google Cloud的Vertex AI獲得。儘管有這些功能擴展,該公司仍然保持不變的價格。

AI調整其思維速度

Claude 3.7十四行詩中最大的變化之一就是它的動態推理系統,根據任務複雜性調整處理速度。該公司指出:

“當您希望模型正常回答以及希望其在回答之前思考更長的時間時,您可以選擇。在標準模式下,Claude 3.7十四行詩代表Claude 3.5十四行詩的升級版本。在擴展思維模式下,它在回答之前會自我反射,從而提高了其在數學,物理,指導跟踪,編碼和許多其他任務上的表現。我們通常會發現,該模型的提示在兩種模式下都相似。

second,當通過API使用Claude 3.7十四行詩時,用戶還可以控制思考的預算:您可以告訴Claude不再考慮比n代幣,對於n的任何值,其輸出極限為128K令牌。這使您可以以速度(和成本)來獲得答案質量。

第三,在開發我們的推理模型時,我們在數學和計算機科學競爭問題上進行了較少的優化,而是將重點轉向實際反映企業實際使用LLM的現實世界任務。”

與過去對快速響應或深入分析進行優化的模型不同,此版本具有靈活性並使Claude 3.7十四行詩更適合現實世界應用程序,從實時自動化到深入研究。

[嵌入式內容]

claude 3.7十四行詩如何堆疊Openai,Google和XAI

Anthropic與Claude 3.7十四行詩的方法使其與/a>,and xai’s Grok-3 。這些模型中的每一個都具有不同領域的優勢,但是Anthropic決定完善混合推理,而不是專注於實時搜索標誌著一種獨特的策略。

與OpenAI的多模型方法不同,在其中優化了單獨的AI系統。對於快速響應時間或更深的推理,Claude 3.7將這兩者都集成到一個系統中。這消除了用戶在模型的不同版本之間根據任務複雜性進行選擇的需求。但是,Openai保留了Live Web檢索的優勢,Claude仍然落後。

Google的雙子座模型,強調與搜索和多模式功能的深層集成,與Claude的結構化推理形成鮮明對比。雖然Google的AI受益於最新數據檢索,但Claude 3.7十四行詩是針對需要受控響應時間和特定任務調整的企業應用程序的優化的。

同時,XAI的GROK-3 ,被定位為一種替代OpenAI的高級模型,優先考慮實時參與和社交媒體整合。雖然這使得對交互式AI用例有效,但它缺乏以開發人員為導向的優化,即人類使用Claude Code強調。

根據Anthropic自己的基準測試,Claude 3.7 SONNet在編碼相關的任務方面表現出明確的領導力,在代理編碼(SWE-Bench驗證)和代理工具使用(TAU-BENCH)中超過OpenAI的模型和DeepSeek R1。它執行代碼修改,與工具進行交互並遵循結構化指令的能力使其成為軟件開發和工作流程自動化的強大選擇。

此外,它在下面的指令中引導(IFEVAL),顯示了其對AI驅動的任務執行的可靠性。儘管OpenAI O1在多語言問答和DeepSeek R1方面保持競爭力,但在某些數學基準中導致了Claude 3.7 SONNET的改進,使其成為結構化推理和任務自動化最全面的模型之一。

在研究生級別的推理中, (GQPA Diamond),Claude 3.7十四行詩,具有擴展思維的近距離匹配Grok 3 Beta和Openai的高層模型,但沒有擴展思維,其性能會大大下降。它還在數學問題解決問題(數學500)方面取得了重大改進,與Openai O1的得分相似,但在高中數學競賽基準中仍然落後於DeepSeek R1和Grok 3 Beta(Aime 2024)。

在視覺推理(MMMU驗證)中,OpenAI O1和Grok 3 beta保持優勢,這表明Claude可能仍需要基於AI的基於AI視覺的任務進行改進。

來源:Anthropic

Anthropic’s Anthropic’s戰略關注企業AI和結構化問題,而不是實時的Web檢索,這使Claude 3.7十四行詩非常適合專業應用。但是,Google的雙子座模型,OpenAI的GPT-4和XAI的Grok-3繼續推動多模式AI和Live Data訪問,Claude仍然有限。

隨著其在推理靈活性,開發人員工具和自動化功能方面的改進,Claude 3.7十四行詩加強了其作為優先使用可自定義的AI工作流和對實時信息進行編碼的用戶的強大替代方案。

<

<

Claude Code:編寫,編輯和測試軟件的AI

Claude Code標誌著使AI成為更活躍的軟件開發參與者的一步。與GitHub Copilot不同,主要建議代碼片段,Claude代碼旨在執行編程工作流程。它可以讀取項目文件,修改現有代碼,運行測試並直接推動更改為存儲庫。

Anthropic將Claude Code描述為“可以搜索和讀取代碼,編輯文件,寫入和運行測試的活動協作者根據TechCrunch表示,將代碼提交並將代碼推向GitHub,並使用命令行工具。該工具已在內部測試,用於編碼會話長達45分鐘,有助於構建交互式Web設計和精煉代碼庫。

<

<

Claude Code GitHub存儲庫為想要探索其功能的開發人員提供集成文檔和示例。

[嵌入式內容]

在邏輯推理和分析中增強了性能

Claude 3.7十四行詩不僅是開發人員的升級,還可以在內部基準測試期間改善法律分析,金融和數學等領域。推理任務。

擬人測試的Claude 3.7十四行詩能夠通過視頻遊戲環境運行戰略決策的能力。以前的克勞德(Claude)模型在互動環境中掙扎著長期計劃,但是此版本成功地適應了遊戲中的挑戰和優化的決策策略。

此外,該模型現在還具有2024年10月的最新知識臨界值但是,與OpenAI的GPT-4O和Google的雙子座不同,它缺乏實時的網絡瀏覽功能,限制了其檢索最新信息的能力。

Anthropic的AI路線圖和未來的行業影響

在每次迭代中,人類都可以完善其AI處理擴展的推理任務的能力,同時保持更對話的互動樣式。 Claude 3.7的關鍵轉移是動態響應速度控制的集成,使用戶可以決定AI是否應優先考慮速度或深度。此更新直接解決了大型AI模型中的共同限制-精確地平衡效率。

人類已將Claude定位為適合複雜企業用例的AI模型,而不是大眾市場休閒AI交互。它通過亞馬遜基石和Google Vertex AI的可用性表明,長期推動基於雲的AI集成。

展望未來,Anthropic對混合推理和企業應用程序的關注可以為AI的進一步改進,以實現AI的進一步改進。模型處理大規模自動化過程。如果實時檢索和多模式功能成為必要的補充,則下一個Claude發布可能會包含縮小競爭對手之間差距的功能。

,Claude 3.7十四行詩仍然是用於結構化推理的AI模型精確的,在控制時間的控制與響應準確性同樣重要的情況下,劃出一個利基市場。

Categories: IT Info