GPT-5終于來了!
智東西8月8日報道,今天凌晨1點,OpenAI發布了萬眾矚目的新一代旗艦模型GPT-5,即日起向所有免費、Plus、Pro、Team用戶推出,企業和教育用戶將在一周內獲得訪問權限。一經發布,GPT-5便沖上大模型競技場榜首,并在文本、編程、數學等全方面排名第一。
GPT-5將非推理模型與推理模型融為一體,支持“按需思考”,即根據任務難度,自行判斷是否進行思考,并提供合適的回答。它還擁有4種“人格”,分別為憤世嫉俗者、機器人、傾聽者和書呆子。
OpenAI CEO Sam Altman認為,GPT-5已經達到了博士級別的智能,與其對話就像是與一位在任何領域都擁有博士學位的專家溝通。同時,GPT-5不僅是用來“問問題”的,現在還能“為你做事”,完成日常規劃、發送邀請函、采購物資等任務。
OpenAI研究員Tina Kim在發布中稱:“有了GPT-5,我們將淘汰所有舊模型。”一個GPT-5模型就集成多模態、推理等多種能力,相當于融合GPT和o系列模型,用戶無需再為復雜的產品族選擇糾結。
多項基準測試中,GPT-5超過了OpenAI o3、GPT-4o等OpenAI最強大的模型,在數學、編碼、視覺感知和健康方面表現尤其出色。憑借GPT-5-pro的擴展推理,該模型還在科學知識基準測試GPQA上獲得了新的SOTA,無需工具即可得分88.4%。
不過,GPT-5也可能是OpenAI歷史上最復雜的模型家族之一,擁有GPT-5、GPT-5-mini、GPT-5-nano和GPT-5-pro四個版本。免費用戶的GPT-5用量有限,超過限額后將自動轉至GPT-5-mini。GPT-5-pro僅供Pro訂閱用戶使用,可憑借擴展推理功能,提供更全面、更準確的答案。
GPT-5剛剛發布,馬斯克就在X社交平臺發起攻勢,稱“Grok 4在ARC-AGI上擊敗了GPT-5”。對此,有網友認為這是對Grok 4更強推理和泛化能力的證實,也有網友認為氪金300美元才能用上的Grok 4趕不上免費的GPT-5更有性價比。
發布會上,Altman分享了一組數據:32個月之前,OpenAI發布了ChatGPT,并在發布首周獲得超100萬用戶。而如今,ChatGPT在全球范圍內已有超過7億用戶。GPT-5是對GPT-4的一次重大升級,也是邁向AGI的重要一步。
靠自主判斷規避“過度思考”編程能力獲Cursor創始人認可
現場演示中,OpenAI首先展示了GPT-5按需思考的能力。工作人員讓GPT-5解釋伯努利現象(流體力學里的一個基本原理),這對其而言相對簡單。GPT-5判斷無需思考,并迅速給出答案。
緊接著,工作人員提出想讓GPT-5打造一張動態SVG演示圖,來進一步解釋這一概念。此時,無需手動調整,GPT-5便會自動進行思考,只需一個簡單的提示,GPT-5就創建了交互式的演示。用戶也可以在提示詞中引導GPT-5是否開啟思考,只需輸入認真想想、仔細思考等類似表述即可。
在其給出的演示中,用戶可以拉動進度條改變空氣速度,以查看升力和壓力變化,也可以調整迎角,看模擬的飛機是否真的會墜毀。所以GPT-5可以隨時將任何硬核概念帶入生活,讓學習物化生和數學變得更加容易。
GPT-5在寫作方面得到顯著提升。比如OpenAI研發人員現場讓GPT-5為GPT-4o寫了一篇悼文。研究人員稱,從生成內容來看,這不像在跟AI聊天,而像一位高智商、高情商的朋友在交流和上課。
研發人員稱,GPT-5是迄今為止最好的編程模型。比如他讓GPT-5建立了一個學習法語的網絡應用,同時要求GPT-5嵌入一款教育游戲。大約兩分鐘后,GPT-5生成了一個帶有標簽、抽認卡、測試等功能的應用,并且成功嵌入了一款貪吃蛇游戲。
為了進一步證明GPT-5在生產場景中的編程能力,OpenAI還特地邀請了明星AI編程創企Cursor聯合創始人兼首席執行官Michael Truell進行現場演示。Truell打開了OpenAI API GitHub頁面上的一則PR。這一問題歷經3周還未被修復,說明存在一定難度。
Truell認為,GPT-5在API調用中展現出了不錯的穩定性,在Cursor里解決上述問題時,它面對的是一組從未見過的定制模型、從未見過的定制工具,還需要從網上抓取文本、在代碼庫里搜索等,解決問題的速度比他本人要快很多。
在官網上,OpenAI也分享了更多編程案例。其開發出的小游戲畫面精美,游戲機制也比較合理。
還能遵循用戶指令,打造出Lofi視覺化效果器。從官方Demo來看,GPT-5的前端能力較此前的OpenAI模型有了不錯的提升。
GPT-5改進了語音功能,聽起來就像跟人對話一樣自然。免費用戶每天可以聊上幾個小時。比如,結合ChatGPT學習模式,用戶可以以引導的方式教用戶學習韓語,OpenAI現場對此進行了演示。
OpenAI還宣布一項新功能,面向付費用戶推出更加定制化的ChatGPT,支持自定義聊天功能,可調整模型的性格,四項初始選項包括:憤世嫉俗者、機器人、傾聽者和書呆子,還能改變聊天界面的顏色。
為了讓GPT-5更符合個人用戶的溝通方式,研發團隊內存方面做了很多改進,使其具備更強的記憶功能。比如這使GPT-5在為用戶指定日程時,能顧考慮到此前提及的安排,更符合定制化需求。下周起Pro用戶可先接入Gmail和谷歌日歷,自動規劃日程、回復郵件。
在API中,所有GPT?5模型最多可接受272000個(272k)tokens,并生成最多128000個(128k)推理及輸出tokens,總上下文長度為400000個(400k)tokens。
通用Agent明星創企Manus聯合創始人兼首席科學家Yichao ‘Peak’ Ji稱,GPT?5“在各種智能體任務中表現出色,即使在未修改任何代碼或調整提示的情況下”。
OpenAI在API中引入了新功能,讓開發人員對模型回復具有更多控制權。GPT?5支持新的verbosity參數(取值:低、中、高),幫助控制控制回答是簡短扼要還是詳盡全面。GPT?5還支持最低模式,該模式會將GPT?5的推理強度降到到最低,以快速返回答案。
多項基準測試實現業界SOTA事實性錯誤較o3減少80%
OpenAI稱,GPT?5是其迄今為止在編碼和智能體任務方面表現最佳的模型。它在編碼基準測試和實際應用場景中均優于o3,并且經過專門優化,在Cursor、Windsurf和Codex CLI等智能體編碼產品中表現尤為出色。
GPT?5在關鍵編碼基準測試中處于行業領先水平(SOTA),在SWE-bench驗證測試中得分74.9%,較o3版本的69.1%有所提升。值得注意的是,GPT?5以更高的效率和速度獲得了高分:與o3在高推理強度下相比,GPT?5的輸出tokens數量減少了22%,工具調用次數減少了45%。
同時,GPT?5在Aider polyglot測試中得分88%。在內部測試中,其在70%的Web任務開發中表現和OpenAI o3。此外,GPT?5在深度分析代碼庫方面表現出色,能夠精準解答關于代碼模塊運作機制及相互協作的問題。
GPT?5在長背景信息性能方面也展現出顯著提升。在OpenAI-MRCR(一種衡量長背景信息檢索能力的指標)中,GPT?5的表現優于o3和GPT?4.1,且隨著輸入長度的增加,這種優勢會顯著擴大。
OpenAI與一些客戶就編程功能進行了合作。Cursor首席執行官Truell稱,GPT?5“具有顯著的智能,易于操控,甚至擁有其他模型中不具備的人格特質”。AI編程公司Windsurf相關負責人稱,GPT?5在其評估中達到最先進水平,且“與其他前沿模型相比,工具調用錯誤率僅為其一半”。
GPT?5在持續型智能體任務中同樣表現卓越,在兩個月前剛發布的工具調用基準測試τ2-bench telecom中,以96.7%的成績刷新了業界最優水平。
在事實性方面,GPT?5比其之前的模型更值得信賴。在事實準確性基準測試LongFact和FActScore中,GPT?5的錯誤率僅為o3的五分之一。這使得GPT?5尤其適用于正確性要求高的智能體任務場景,特別是在代碼生成、數據處理和決策支持等關鍵領域。
GPT?5改進的工具智能使其能夠可靠地串聯數十次工具調用(無論串行還是并行),保持路徑一致性,這使其在執行復雜的現實世界端到端任務時表現得遠優于其他模型。它還更精確地遵循工具指令,更好地處理工具錯誤,并在長背景信息內容檢索方面表現出色。
OpenAI還開源了BrowseComp Long Context?,這是一個用于評估長背景信息問答的新基準。在此基準中,模型會收到用戶查詢、一長串相關搜索結果,并必須基于搜索結果回答問題。
以下是GPT-5的一些基準測試成績。但OpenAI研發人員稱,GPT-5訓練的重點是現實的實用性,而不是基準測試。
解決GPT“阿諛奉承”問題靠新方法減少非必要“拒絕回復”
OpenAI的多名研究人員分享了GPT-5背后的技術創新。在安全問題上,ChatGPT過去主要依賴于基于拒絕的安全訓練:根據用戶的提示,模型應該要么遵守,要么拒絕。這種類型的訓練適用于明顯的惡意提示詞,但是在用戶意圖模棱兩可的情況下,可能出現問題。比如拒絕應該回答的問題,或是給有風險的問題做出回答。對于GPT-5,OpenAI引入了一種新的安全訓練形式——安全完成(safe completions)。這種訓練形式教會模型盡可能給出最有用的答案,同時仍然保持在安全范圍內。如今,對于一些可能有潛在風險的問題,GPT-5會減少不必要的過度拒絕,轉而告訴拒絕的原因,并提供安全的替代方案。GPT-5還改善了GPT系列模型阿諛奉承的問題,減少了過度討好和無意義的表情符號的使用。OpenAI已經開發出新的評估方法,來衡量模型阿諛奉承的程度,并改進訓練方法了,使模型更少地阿諛奉承。在針對阿諛奉承問題的專門評估中,GPT-5顯著減少了此類回復的比例(從14.5%降至不到6%)。GPT-5 Pro是OpenAI推理模型OpenAI o3-pro的替代品,能提出給出更為全面、高質量的答案,這得益于一項名為并行測試時計算的技術(同時進行多項推理)。在多個具有挑戰性的基準測試中,GPT-5 Pro實現了同家族模型中的最佳性能。OpenAI還進行了1000個實際測試,67.8%外部專家更偏好GPT-5 pro的回答,而非開啟思考模式的GPT-5。GPT-5 pro犯下重大錯誤的比例降低了22%,在健康、科學、數學和編程方面表現尤為出色。在發布會的尾聲,OpenAI首席科學家Jakub Pachocki做了一番總結。他稱,GPT-5的模型的誕生,是多年研究的結果,這些研究不僅以推出新版本為目的,還旨在構建對底層技術本身的理解。GPT-5呈現的許多技術,會在未來得到進一步發展。Pochocki稱,OpenAI仍然有很多需要了解的東西,并期待AI能夠發現全新的知識,并真正地使我們的生活變得更好。
結語:靠“視覺欺騙”夸大性能提升?GPT-5實際表現有待進一步驗證
GPT-5的發布,毫無疑問是今年AI圈最受關注的事件之一。GPT-5官宣推文發布2小時后,已經獲得超160萬瀏覽,并且仍在持續增長。然而,這一發布也帶來了一定爭議——OpenAI在發布會使用了“視覺騙局”的方式呈現基準測試,柱狀圖中OpenAI o3的高度被不成比例地壓縮了,這從某種程度上夸大了GPT-5實現的能力提升。
GPT-5在真實使用場景中的性能與體驗,尚待市場反饋,但OpenAI的估值已經飆升。此前周三外媒The Information消息稱,OpenAI正洽談潛在的二級股票發行,估值飆升至5000億美元(約合3.6萬億人民幣),比年初翻了一倍。
云峰莫干山家居研究院檢測中心再傳喜訊:中心... 【詳細】
今年,莫干山家居第四季全民環保日“818抱一抱... 【詳細】
當“環保”不再只是冷冰冰的指標認證與材料數... 【詳細】
當家居消費從“功能需求”轉向“情緒價值”,... 【詳細】
當健康成為家居消費的核心訴求,莫干山植物源... 【詳細】