Claude 3.7十四行詩以“擴展思維”:高級標準的新標準?

通過推出Claude 3.7十四行詩,Anthropic繼續他在人工智能領域的比賽,該公司的第一個模型A實施混合方法來模擬推理。主要特徵是“擴展思維”,該機制使AI可以逐步解決複雜問題,從而調節用於找到解決方案的處理量。這項技術是為了滿足用戶和開發人員的需求而開發的在AI的決策過程中更大的控制和可靠性。除了更新的模型外,Anthropic還透露了Claude代碼,該代碼是該代碼編程和管理的助手,目前是有限預覽的。

更多地控制AI的推理

Claude 3.7十四行詩的關鍵創新之一是可以在快速答案或更深入的詳細說明,可見的思想鏈。這將模型與諸如Openai的O1和O3,Gemini 2.0 Flash思考Google和DeepSeek R1等替代方案。通過API,開發人員可以指定該模型必須用於推理的確切數量,最大限制為128,000輸出令牌。

訪問Claude 3.7是包括所有訂閱計劃,除了免費版本外,每個人都可以使用“擴展思維”選項。與以前的型號相比,成本保持不變:每百萬個投入令牌3美元和每百萬美元產出代幣15美元,產出率中包含推理令牌。

I benchmark dei vari modelli di Anthropic

各種人類模型的基準

另一個重大改進是減少過度審慎的響應:Claude 3.7十四行詩的要求比其前任少45%,這使其更有效,並且傾向於對無害請求的解釋不正確。

編碼和復雜活動的較高性能

Claude 3.7十四行詩的力量似乎正在編程。新模型已獲得I在驗證的SWE基礎測試中更好的結果,這衡量了AI解決實際軟件開發問題的能力。即使在TAU基礎測試中,旨在評估AI與工具和用戶在復雜環境中的相互作用,該模型也達到了很高的分數。

Anthropic還擴展了與GitHub的集成,使所有用戶都可以將其存儲庫連接到Claude,以在調試,功能和文檔的開發中獲得支持。

以前模型的過去經驗,克勞德3.5十四行詩,已經證明它已經是快速原型製作的有效工具,儘管有一定的使用限制。有了Claude 3.7十四行詩,對更大的訂閱計劃的需求變得很明顯,尤其是對於專業開發人員而言。