#OpenAIReleasesGPT-5.5 GPT-5.5 是 #OpenAIReleasesGPT-5.5 從根本上設計用於自主行動和真正的代理行為。與其前身不同,它可以像一個不知疲倦的數字員工一樣工作,接受模糊的指令並從頭到尾執行。



該模型能分析數據、撰寫和調試代碼、操作軟件、操作鼠標和鍵盤、進行線上研究,以及處理電子表格、文件和日曆。這是自 GPT-4.5(內部代號“Spud”)以來,該公司首次完全重新訓練的基礎模型,旨在以最少的人類指導處理複雜的多步任務,在代理編碼、計算機操作和知識工作方面樹立新標準。

OpenAI 總裁 Greg Brockman 強調其自主能力的飛躍,表示:“這個模型真正特別之處在於它能用更少的指導做更多的事情。它可以看出一個不清楚的問題,並弄清楚下一步該做什麼。” 該模型還具有原生集成的計算機操作能力,能看到屏幕、點擊、打字和導航應用程序,標誌著向自主數字工作者邁出的一大步。

主要差異點:

· 代理編碼能力:OpenAI 最強的自主編碼模型,在 Terminal-Bench 2.0 (82.7%) 和 SWE-Bench Pro (58.6%) 表現出色,一次性解決更多任務。
· 效率優化:每個標記的延遲與 GPT-5.4 相同,但每個任務使用的標記數顯著減少。
· 大型上下文窗口:通過 API 提供一百萬標記,非常適合處理大型代碼庫或長文檔。
· 實地測試:在 Tau2-bench Telecom 上達到 98% 的準確率,無需提示調整。
· 內部應用:超過 85% 的 OpenAI 員工每週使用 Codex,並取得實際成果,如審查 24,771 份稅務文件,每週節省 5-10 小時。

底線很明確:GPT-5.5 不僅是一個更智能的聊天機器人——它是一個能代表你行動的數字工作者。

#OpenAIReleasesGPT-5.5

🏆 基準測試優勢與代理能力

該模型的能力在第三方基準測試中得以體現,並持續領先競爭對手:

· GDPval:在 44 個職業中得分 84.9%,與行業專家持平或超越,超過 GPT-5.4 (83.0%) 和 Claude Opus 4.7 (80.3%)。
· Terminal-Bench 2.0:準確率 82.7%,明顯領先 Claude Opus 4.7 (69.4%) 和 Gemini 3.1 Pro (68.5%)。
· SWE-Bench Pro:準確率 58.6%,在一次嘗試中解決更多實際的 GitHub 問題。
· OSWorld-Verified:自主操作計算機環境的能力達到 78.7%,實現重大飛躍。
· FrontierMath:在 1-3 級別中得分 51.7%,超越 Claude Opus 4.7 (43.8%) 和 Gemini 3.1 Pro (36.9%)。
· 人工分析智能指數:OpenAI 重返榜首,打破與 Anthropic 和 Google 的三方平手。

---

💎 策略意義

GPT-5.5 在激烈競爭中亮相,Anthropic 的 B2B 年經常性收入從 $9 十億躍升至 $30 十億,並自 2025 年 12 月起內部出現“Code Red”緊急狀況。CEO Sam Altman 預計很快能自動化 30-40% 的經濟任務。

定價與供應:

· 標準 API:每百萬輸入標記 $5 ,每百萬輸出標記 $30 。
· GPT-5.5 Pro:每百萬輸入標記 $30 ,每百萬輸出標記 $180 。
· 基於 NVIDIA GB200 和 GB300 NVL72 系統,提供比之前系統低 35 倍的每百萬標記成本和高 50 倍的每兆瓦輸出效率。
· 現已向 ChatGPT Plus、Pro、Business 和 Enterprise 用戶提供,API 接入因安全工作延遲。
· 該模型的“高”網絡風險評級 (第二高)。

GPT-5.5 不是一個漸進式更新——它是一個向自主代理系統轉型的戰略轉變,能完成真正的工作。憑藉原生的計算機操作能力、強大的編碼能力,以及在 85% 專業任務中媲美人類專家的表現,它代表了自 ChatGPT 以來最重要的進步之一。訊息十分明確:人工智能作為純粹對話伙伴的時代已經結束,真正的數字工作者時代已經開始。#OpenAIReleasesGPT-5.5
查看原文
post-image
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見聲明
  • 打賞
  • 2
  • 轉發
  • 分享
留言
請輸入留言內容
請輸入留言內容
ybaser
· 4小時前
2026 GOGOGO 👊
回復0
ybaser
· 4小時前
直達月球 🌕
查看原文回復0