#GatePreIPOsLaunchesWithSpaceX Anthropic 推出了新款:Claude Opus 4.7 😈
Anthropic 剛剛發布了 Claude Opus 4.7 — 目前為止他們最強大的公開模型。在比較表中還展示了 Claude Mythos 預覽版 — 這是一個內部的「怪獸」,目前尚未向所有人開放 (因為它具有強大的網絡能力)。
代理程式設計 (對開發者來說至關重要)
SWE-bench Pro (解決複雜實際問題的錯誤修復):
Mythos 預覽 — 77.8% | Opus 4.7 — 64.3% | Opus 4.6 — 53.4% | GPT-5.4 — 57.7%
SWE-bench Verified: Mythos — 93.9% | Opus 4.7 — 87.6% | Opus 4.6 — 80.8%
這是一個巨大的飛躍。Mythos 在 2024–2025 年的實際 GitHub 任務中幾乎將模型結果翻倍。
Terminal-Bench 2.0 (終端工作、代理程式碼編寫):
Mythos — 82.0% | GPT-5.4 — 75.1% | Opus 4.7 — 69.4%
多方面思考與複雜任務 Humanity’s Last Exam (是最嚴苛的「人類最後考試」之一,跨學科、研究生級):
Mythos — 56.8%