歡迎來到家居網鏈！

剛剛！GPT-5淘汰所有OpenAI模型，地表最強編程驚艷全場，馬斯克不服開懟

2025-08-08 10:06:36 來源：家居網鏈網

GPT-5終于來了！

智東西8月8日報道，今天凌晨1點，OpenAI發布了萬眾矚目的新一代旗艦模型GPT-5，即日起向所有免費、Plus、Pro、Team用戶推出，企業和教育用戶將在一周內獲得訪問權限。一經發布，GPT-5便沖上大模型競技場榜首，并在文本、編程、數學等全方面排名第一。

GPT-5將非推理模型與推理模型融為一體，支持“按需思考”，即根據任務難度，自行判斷是否進行思考，并提供合適的回答。它還擁有4種“人格”，分別為憤世嫉俗者、機器人、傾聽者和書呆子。

OpenAI CEO Sam Altman認為，GPT-5已經達到了博士級別的智能，與其對話就像是與一位在任何領域都擁有博士學位的專家溝通。同時，GPT-5不僅是用來“問問題”的，現在還能“為你做事”，完成日常規劃、發送邀請函、采購物資等任務。

OpenAI研究員Tina Kim在發布中稱：“有了GPT-5，我們將淘汰所有舊模型。”一個GPT-5模型就集成多模態、推理等多種能力，相當于融合GPT和o系列模型，用戶無需再為復雜的產品族選擇糾結。

多項基準測試中，GPT-5超過了OpenAI o3、GPT-4o等OpenAI最強大的模型，在數學、編碼、視覺感知和健康方面表現尤其出色。憑借GPT-5-pro的擴展推理，該模型還在科學知識基準測試GPQA上獲得了新的SOTA，無需工具即可得分88.4%。

不過，GPT-5也可能是OpenAI歷史上最復雜的模型家族之一，擁有GPT-5、GPT-5-mini、GPT-5-nano和GPT-5-pro四個版本。免費用戶的GPT-5用量有限，超過限額后將自動轉至GPT-5-mini。GPT-5-pro僅供Pro訂閱用戶使用，可憑借擴展推理功能，提供更全面、更準確的答案。

GPT-5剛剛發布，馬斯克就在X社交平臺發起攻勢，稱“Grok 4在ARC-AGI上擊敗了GPT-5”。對此，有網友認為這是對Grok 4更強推理和泛化能力的證實，也有網友認為氪金300美元才能用上的Grok 4趕不上免費的GPT-5更有性價比。

發布會上，Altman分享了一組數據：32個月之前，OpenAI發布了ChatGPT，并在發布首周獲得超100萬用戶。而如今，ChatGPT在全球范圍內已有超過7億用戶。GPT-5是對GPT-4的一次重大升級，也是邁向AGI的重要一步。

靠自主判斷規避“過度思考”編程能力獲Cursor創始人認可

現場演示中，OpenAI首先展示了GPT-5按需思考的能力。工作人員讓GPT-5解釋伯努利現象（流體力學里的一個基本原理），這對其而言相對簡單。GPT-5判斷無需思考，并迅速給出答案。

緊接著，工作人員提出想讓GPT-5打造一張動態SVG演示圖，來進一步解釋這一概念。此時，無需手動調整，GPT-5便會自動進行思考，只需一個簡單的提示，GPT-5就創建了交互式的演示。用戶也可以在提示詞中引導GPT-5是否開啟思考，只需輸入認真想想、仔細思考等類似表述即可。

在其給出的演示中，用戶可以拉動進度條改變空氣速度，以查看升力和壓力變化，也可以調整迎角，看模擬的飛機是否真的會墜毀。所以GPT-5可以隨時將任何硬核概念帶入生活，讓學習物化生和數學變得更加容易。

GPT-5在寫作方面得到顯著提升。比如OpenAI研發人員現場讓GPT-5為GPT-4o寫了一篇悼文。研究人員稱，從生成內容來看，這不像在跟AI聊天，而像一位高智商、高情商的朋友在交流和上課。

研發人員稱，GPT-5是迄今為止最好的編程模型。比如他讓GPT-5建立了一個學習法語的網絡應用，同時要求GPT-5嵌入一款教育游戲。大約兩分鐘后，GPT-5生成了一個帶有標簽、抽認卡、測試等功能的應用，并且成功嵌入了一款貪吃蛇游戲。

為了進一步證明GPT-5在生產場景中的編程能力，OpenAI還特地邀請了明星AI編程創企Cursor聯合創始人兼首席執行官Michael Truell進行現場演示。Truell打開了OpenAI API GitHub頁面上的一則PR。這一問題歷經3周還未被修復，說明存在一定難度。

Truell認為，GPT-5在API調用中展現出了不錯的穩定性，在Cursor里解決上述問題時，它面對的是一組從未見過的定制模型、從未見過的定制工具，還需要從網上抓取文本、在代碼庫里搜索等，解決問題的速度比他本人要快很多。

在官網上，OpenAI也分享了更多編程案例。其開發出的小游戲畫面精美，游戲機制也比較合理。

還能遵循用戶指令，打造出Lofi視覺化效果器。從官方Demo來看，GPT-5的前端能力較此前的OpenAI模型有了不錯的提升。

GPT-5改進了語音功能，聽起來就像跟人對話一樣自然。免費用戶每天可以聊上幾個小時。比如，結合ChatGPT學習模式，用戶可以以引導的方式教用戶學習韓語，OpenAI現場對此進行了演示。

OpenAI還宣布一項新功能，面向付費用戶推出更加定制化的ChatGPT，支持自定義聊天功能，可調整模型的性格，四項初始選項包括：憤世嫉俗者、機器人、傾聽者和書呆子，還能改變聊天界面的顏色。

為了讓GPT-5更符合個人用戶的溝通方式，研發團隊內存方面做了很多改進，使其具備更強的記憶功能。比如這使GPT-5在為用戶指定日程時，能顧考慮到此前提及的安排，更符合定制化需求。下周起Pro用戶可先接入Gmail和谷歌日歷，自動規劃日程、回復郵件。

在API中，所有GPT?5模型最多可接受272000個（272k）tokens，并生成最多128000個（128k）推理及輸出tokens，總上下文長度為400000個（400k）tokens。

通用Agent明星創企Manus聯合創始人兼首席科學家Yichao ‘Peak’ Ji稱，GPT?5“在各種智能體任務中表現出色，即使在未修改任何代碼或調整提示的情況下”。

OpenAI在API中引入了新功能，讓開發人員對模型回復具有更多控制權。GPT?5支持新的verbosity參數（取值：低、中、高），幫助控制控制回答是簡短扼要還是詳盡全面。GPT?5還支持最低模式，該模式會將GPT?5的推理強度降到到最低，以快速返回答案。

多項基準測試實現業界SOTA事實性錯誤較o3減少80%

OpenAI稱，GPT?5是其迄今為止在編碼和智能體任務方面表現最佳的模型。它在編碼基準測試和實際應用場景中均優于o3，并且經過專門優化，在Cursor、Windsurf和Codex CLI等智能體編碼產品中表現尤為出色。

GPT?5在關鍵編碼基準測試中處于行業領先水平（SOTA），在SWE-bench驗證測試中得分74.9%，較o3版本的69.1%有所提升。值得注意的是，GPT?5以更高的效率和速度獲得了高分：與o3在高推理強度下相比，GPT?5的輸出tokens數量減少了22%，工具調用次數減少了45%。

同時，GPT?5在Aider polyglot測試中得分88%。在內部測試中，其在70%的Web任務開發中表現和OpenAI o3。此外，GPT?5在深度分析代碼庫方面表現出色，能夠精準解答關于代碼模塊運作機制及相互協作的問題。

GPT?5在長背景信息性能方面也展現出顯著提升。在OpenAI-MRCR（一種衡量長背景信息檢索能力的指標）中，GPT?5的表現優于o3和GPT?4.1，且隨著輸入長度的增加，這種優勢會顯著擴大。

OpenAI與一些客戶就編程功能進行了合作。Cursor首席執行官Truell稱，GPT?5“具有顯著的智能，易于操控，甚至擁有其他模型中不具備的人格特質”。AI編程公司Windsurf相關負責人稱，GPT?5在其評估中達到最先進水平，且“與其他前沿模型相比，工具調用錯誤率僅為其一半”。

GPT?5在持續型智能體任務中同樣表現卓越，在兩個月前剛發布的工具調用基準測試τ2-bench telecom中，以96.7%的成績刷新了業界最優水平。

在事實性方面，GPT?5比其之前的模型更值得信賴。在事實準確性基準測試LongFact和FActScore中，GPT?5的錯誤率僅為o3的五分之一。這使得GPT?5尤其適用于正確性要求高的智能體任務場景，特別是在代碼生成、數據處理和決策支持等關鍵領域。

GPT?5改進的工具智能使其能夠可靠地串聯數十次工具調用（無論串行還是并行），保持路徑一致性，這使其在執行復雜的現實世界端到端任務時表現得遠優于其他模型。它還更精確地遵循工具指令，更好地處理工具錯誤，并在長背景信息內容檢索方面表現出色。

OpenAI還開源了BrowseComp Long Context?，這是一個用于評估長背景信息問答的新基準。在此基準中，模型會收到用戶查詢、一長串相關搜索結果，并必須基于搜索結果回答問題。

以下是GPT-5的一些基準測試成績。但OpenAI研發人員稱，GPT-5訓練的重點是現實的實用性，而不是基準測試。

解決GPT“阿諛奉承”問題靠新方法減少非必要“拒絕回復”

OpenAI的多名研究人員分享了GPT-5背后的技術創新。在安全問題上，ChatGPT過去主要依賴于基于拒絕的安全訓練：根據用戶的提示，模型應該要么遵守，要么拒絕。這種類型的訓練適用于明顯的惡意提示詞，但是在用戶意圖模棱兩可的情況下，可能出現問題。比如拒絕應該回答的問題，或是給有風險的問題做出回答。對于GPT-5，OpenAI引入了一種新的安全訓練形式——安全完成（safe completions）。這種訓練形式教會模型盡可能給出最有用的答案，同時仍然保持在安全范圍內。如今，對于一些可能有潛在風險的問題，GPT-5會減少不必要的過度拒絕，轉而告訴拒絕的原因，并提供安全的替代方案。GPT-5還改善了GPT系列模型阿諛奉承的問題，減少了過度討好和無意義的表情符號的使用。OpenAI已經開發出新的評估方法，來衡量模型阿諛奉承的程度，并改進訓練方法了，使模型更少地阿諛奉承。在針對阿諛奉承問題的專門評估中，GPT-5顯著減少了此類回復的比例（從14.5%降至不到6%）。GPT-5 Pro是OpenAI推理模型OpenAI o3-pro的替代品，能提出給出更為全面、高質量的答案，這得益于一項名為并行測試時計算的技術（同時進行多項推理）。在多個具有挑戰性的基準測試中，GPT-5 Pro實現了同家族模型中的最佳性能。OpenAI還進行了1000個實際測試，67.8%外部專家更偏好GPT-5 pro的回答，而非開啟思考模式的GPT-5。GPT-5 pro犯下重大錯誤的比例降低了22%，在健康、科學、數學和編程方面表現尤為出色。在發布會的尾聲，OpenAI首席科學家Jakub Pachocki做了一番總結。他稱，GPT-5的模型的誕生，是多年研究的結果，這些研究不僅以推出新版本為目的，還旨在構建對底層技術本身的理解。GPT-5呈現的許多技術，會在未來得到進一步發展。Pochocki稱，OpenAI仍然有很多需要了解的東西，并期待AI能夠發現全新的知識，并真正地使我們的生活變得更好。

結語：靠“視覺欺騙”夸大性能提升？GPT-5實際表現有待進一步驗證

GPT-5的發布，毫無疑問是今年AI圈最受關注的事件之一。GPT-5官宣推文發布2小時后，已經獲得超160萬瀏覽，并且仍在持續增長。然而，這一發布也帶來了一定爭議——OpenAI在發布會使用了“視覺騙局”的方式呈現基準測試，柱狀圖中OpenAI o3的高度被不成比例地壓縮了，這從某種程度上夸大了GPT-5實現的能力提升。

GPT-5在真實使用場景中的性能與體驗，尚待市場反饋，但OpenAI的估值已經飆升。此前周三外媒The Information消息稱，OpenAI正洽談潛在的二級股票發行，估值飆升至5000億美元（約合3.6萬億人民幣），比年初翻了一倍。