OpenAI 剛剛放棄了 GPT-5.2,如果您想知道為什麼發布感覺特別緊迫,那您就不是在想像。該公司今天(12 月 11 日)正式推出了最新的旗艦機型,這似乎是其發布歷史上最快的轉變之一。這不僅僅是另一個增量更新 - 這是一次戰略反擊,直接針對谷歌最近在人工智能方面取得的進展。
根據OpenAI的公告,GPT-5.2代表“專業工作和長期運行代理的最先進前沿模型”。時機很能說明問題:多份報告The Verge 和其他科技媒體據報導,首席執行官 Sam Altman 宣佈公司內部出現“紅色代碼”情況。觸發器?谷歌的 Gemini 3 Pro 於上個月推出,並迅速成為生成人工智能領域的強大競爭對手。
忘記華而不實的新功能,此更新主要是關於結構改進。 OpenAI 的文檔顯示,GPT-5.2 帶來了“通用智能、長上下文理解、代理工具調用和視覺方面的顯著改進”。換句話說:它更擅長專業人士實際使用人工智能做的事情,而不僅僅是派對技巧。
基準數據講述了一個引人注目的故事。在衡量 44 個職業知識工作的評估 GDPval 中,GPT-5.2 Thinking 得分為 70.9%,幾乎是 GPT-5 38.8% 表現的兩倍。這不僅僅是一個微小的改進——根據該公司自己的評估,這代表著 OpenAI 模型首次“達到或超過人類專家水平”。就上下文而言,這些不是學術練習;而是。 GDPval 任務包括創建銷售演示、會計電子表格、製造圖表和其他實際工作產品。
編碼能力也出現了類似的飛躍。 GPT-5.2 Thinking 在 SWE-Bench Pro 上獲得了 55.6% 的成績,SWE-Bench Pro 是對現實世界軟件工程的嚴格評估,測試了四種編程語言。這比 GPT-5.1 的 50.8% 有所提高,Windsurf 首席執行官 Jeff Wang 等早期測試人員稱其為“自 GPT-5 以來 GPT 模型在代理編碼方面的最大飛躍”。該模型在前端開發方面也表現出了非凡的實力,尤其是涉及 3D 元素的複雜或非常規 UI 工作。
這就是事情變得有趣的地方。當 OpenAI 打磨 GPT-5.2 時,Google 的 Gemini 3 卻掀起了波瀾。包括 The Information 的報導在內的多個消息來源表明,Altman 告訴員工,OpenAI 的下一個推理模型在內部評估中“領先於 [Google 的] Gemini 3”。但市場的看法以及可能存在的一些內部壓力推動了更快的部署。
加速並不微妙。最初定於 12 月晚些時候發布,據報導時間線改為 12 月 9 日,然後到今天的 12 月 11 日發布。這種快速反應策略反映出人工智能巨頭之間的激烈競爭。作為Dataconomy 的一份報告指出,OpenAI 正在“根據緊急協議進行操作,對其旗艦聊天機器人進行重大升級,旨在削弱谷歌最近發布的 Gemini 3 的勢頭。”
特別引人注目的是焦點。據 The Verge 報導,與之前經常強調新穎功能的更新不同,GPT-5.2 優先考慮“結構增強而不是華麗的新功能”。這表明 OpenAI 的方法已經成熟,他們不僅僅是追逐頭條新聞,而是構建為專業用戶可靠工作的工具。
那麼這對實際用戶意味著什麼呢?幾個關鍵領域顯示出顯著改善。事實性得到提升,包含錯誤的回復相對於 GPT-5.1 下降了 30%。對於使用人工智能進行研究、寫作和分析的專業人士來說,這不僅僅是一個可有可無的東西,而且對於建立對該工具的信任至關重要。
長上下文理解取得了重大飛躍。 GPT-5.2 Thinking 在 4 針 MRCR 變體上達到了 256,000 個標記的近 100% 準確率。實際上,這意味著該模型可以處理冗長的文檔——報告、合同、研究論文、成績單——同時保持數十萬個代幣的一致性。這是深度分析和多源工作流程的遊戲規則改變者。
視覺能力也大幅提高,圖表推理和軟件界面理解的錯誤率大約減半。該模型現在“更好地掌握了元素在圖像中的定位方式”,這有助於解釋儀表板、技術圖表和可視化報告,這對於財務、運營和工程工作流程至關重要。
工具調用也許是最顯著的改進,GPT-5.2 Thinking 在 Tau2-bench Telecom 上實現了 98.7%,證明了在長時間、多輪任務中工具的可靠使用。這意味著針對客戶支持案例、數據分析和復雜的多步驟解決方案的更強大的端到端工作流程。
供貨情況和定價
GPT-5.2 今天在 ChatGPT 中推出,通過三個變體:Instant(日常任務的快速主力)、Thinking(專為更深層次的工作而設計)和 Pro(解決難題的最智能選項)。該計劃首先推出付費計劃 - Plus、Pro、Go、Business 和 Enterprise - 免費用戶可能會在稍後獲得訪問權限。
在 API 中,GPT-5.2 Thinking 立即可用:gpt-5.2,以 GPT-5.2 Instant 為gpt-5.2-chat-latest和 GPT-5.2 Pro 作為gpt-5.2-pro。定價反映了增強的功能:每百萬個輸入代幣 1.75 美元,每百萬個輸出代幣 14 美元,緩存輸入有 90% 的折扣。雖然這高於 GPT-5.1 的 1.25 美元/10 美元定價,但 OpenAI 指出,儘管每個代幣的成本更高,但“由於 GPT-5.2 更高的代幣效率,達到給定質量水平的成本最終會降低。”
這次加速推出揭示了關於人工智能競爭現狀的一些重要內容。我們正在跨越每年發布主要版本的時代,進入一個更加動態、響應更快的節奏。當谷歌上個月放棄 Gemini 3 時,它不僅推出了一款新機型,還重新設定了人們對競爭格局轉變速度的預期。
OpenAI 的回應表明他們不願意讓步。 “紅色代碼”動員、加速的時間表、專注於專業級改進而不是面向消費者的功能,所有這些都表明該公司認識到自己正在為人工智能霸主而戰。
由於兩家公司現在都以更快的發布週期運營並直接響應彼此的舉措,我們可以期待更頻繁、更有針對性的更新。對於開發者和企業來說,這意味著更多的選擇和更快的創新。對於我們其他人來說,這意味著觀看兩家科技巨頭相互推動打造更好的工具——老實說,這並不是一個糟糕的處境。
GPT-5.2 將從今天開始在 ChatGPT 中向付費用戶提供,並在本周繼續進行更廣泛的推廣。開發者可以通過OpenAI的API平台立即訪問。
