日韩成人免费在线_国产成人一二_精品国产免费人成电影在线观..._日本一区二区三区久久久久久久久不

當(dāng)前位置:首頁 > 元宇宙 > AI

OpenAI GPT-5 編程成績有貓膩:自刪 23 道測試題,關(guān)鍵基準(zhǔn)還是自己提的

來源: 責(zé)編: 時間:2025-08-14 10:20:17 70觀看
導(dǎo)讀 別急著用 GPT-5 編程了,可能它能力沒有你想象中那么強。有人發(fā)現(xiàn),官方測試編程能力用的 SWE-bench Verified,但貨不對板,只用了 477 個問題。什么意思呢?我們知道,SWE-bench 是評估模型 / 智能體自主編程能力的一個

別急著用 GPT-5 編程了,可能它能力沒有你想象中那么強。eLA28資訊網(wǎng)——每日最新資訊28at.com

有人發(fā)現(xiàn),官方測試編程能力用的 SWE-bench Verified,但貨不對板,只用了 477 個問題。eLA28資訊網(wǎng)——每日最新資訊28at.com

eLA28資訊網(wǎng)——每日最新資訊28at.com

什么意思呢?我們知道,SWE-bench 是評估模型 / 智能體自主編程能力的一個通用且常用的指標(biāo)。而 SWE-bench Verified 作為它的子集,本來一共有 500 個問題。eLA28資訊網(wǎng)——每日最新資訊28at.com

現(xiàn)在相當(dāng)于 OpenAI 自行省略的那 23 個問題,自己搞了個子集的“子集”來評估模型能力。eLA28資訊網(wǎng)——每日最新資訊28at.com

而如果這些題默認零分,那么得分實際上是比 Claude Opus 4.1 還要低的。因為現(xiàn)在僅有 0.4% 的差距。eLA28資訊網(wǎng)——每日最新資訊28at.com

eLA28資訊網(wǎng)——每日最新資訊28at.com

OpenAI 這種自行忽略 23 道題的操作,已經(jīng)不是第一次了。eLA28資訊網(wǎng)——每日最新資訊28at.com

早在 GPT-4.1 發(fā)布時就信誓旦旦地說,之所以忽略是因為這些問題的解決方案無法在他們的基礎(chǔ)設(shè)施運行。eLA28資訊網(wǎng)——每日最新資訊28at.com

eLA28資訊網(wǎng)——每日最新資訊28at.com

離譜了朋友們!要知道 SWE-bench Verified 這個 OpenAI 自己提的,理由也是因為 SWE-bench 無法系統(tǒng)評估模型的編程能力,所以決定自己再提煉一個子集。eLA28資訊網(wǎng)——每日最新資訊28at.com

現(xiàn)在又因為測試題無法正常運行,所以自行又搞了個子集的“子集”。eLA28資訊網(wǎng)——每日最新資訊28at.com

本來以為 GPT-5 直播里出現(xiàn)圖表錯誤已經(jīng)夠離譜了,結(jié)果現(xiàn)在告訴我這里面的成績可能還有假?eLA28資訊網(wǎng)——每日最新資訊28at.com

eLA28資訊網(wǎng)——每日最新資訊28at.com

OpenAI 一直省略 23 個問題

已經(jīng)開始有網(wǎng)友發(fā)現(xiàn),GPT-5 能力并不比 Claude 4.1 Opus 好多少。eLA28資訊網(wǎng)——每日最新資訊28at.com

現(xiàn)在來看,這個官方給的結(jié)果或許根本沒有參考價值。eLA28資訊網(wǎng)——每日最新資訊28at.com

網(wǎng)友們除了自行忽略部分測試題,“偽造了結(jié)果”這一發(fā)現(xiàn)外,還發(fā)現(xiàn),他們是將具有最大思維努力的 GPT-5 與沒有擴展思維僅靠原始模型輸出的 Opus 4.1 進行比較。這種比較實際上沒有參考意義。eLA28資訊網(wǎng)——每日最新資訊28at.com

eLA28資訊網(wǎng)——每日最新資訊28at.com

而他們之所以只使用 477 個問題來測試,理由也跟 GPT-4.1 發(fā)布時一樣,因為他們內(nèi)部的基礎(chǔ)設(shè)施運行不了剩下的 23 個問題。eLA28資訊網(wǎng)——每日最新資訊28at.com

eLA28資訊網(wǎng)——每日最新資訊28at.com

今年 4 月份發(fā)布 GPT-4.1 時,在同一基準(zhǔn)僅使用 477 個問題下得得分在 54.6%。eLA28資訊網(wǎng)——每日最新資訊28at.com

當(dāng)時官方還指出,如果保守地將這些問題的得分定為 0,那么 54.6% 的得分就變成了 52.1%。即便是這樣,這個數(shù)值放在當(dāng)時也是最高的。eLA28資訊網(wǎng)——每日最新資訊28at.com

eLA28資訊網(wǎng)——每日最新資訊28at.com

而 Anthropic 這邊,其實也已經(jīng)發(fā)現(xiàn)了 OpenAI 這個操作。eLA28資訊網(wǎng)——每日最新資訊28at.com

就在 Claude Opus 4.1 發(fā)布公布編程成績之時,在文章的末尾有這么一句話。eLA28資訊網(wǎng)——每日最新資訊28at.com

eLA28資訊網(wǎng)——每日最新資訊28at.com

對于 Claude 4 系列模型,他們繼續(xù)使用相同的簡單框架,該框架僅為模型配備了兩種工具 —— 一個 Bash 工具和一個通過字符串替換進行文件編輯的工具,并且不再包含 Claude 3.7 Sonnet 中使用的第三個“規(guī)劃工具”。eLA28資訊網(wǎng)——每日最新資訊28at.com

并在最后注明:在所有 Claude 4 模型中,他們報告的分數(shù)基于完整的 500 個問題。OpenAI 模型的得分基于 477 道問題的子集進行報告。eLA28資訊網(wǎng)——每日最新資訊28at.com

eLA28資訊網(wǎng)——每日最新資訊28at.com

基準(zhǔn)還是 OpenAI 自己提的

如果說,SWE-bench Verified 還是 OpenAI 自己提的基準(zhǔn),那這件事就更離譜了。eLA28資訊網(wǎng)——每日最新資訊28at.com

這不就相當(dāng)于自己搬起石頭砸自己的腳啦嘛。eLA28資訊網(wǎng)——每日最新資訊28at.com

eLA28資訊網(wǎng)——每日最新資訊28at.com

當(dāng)時啊還是因為類似的原因 —— 他們測試發(fā)現(xiàn) SWE-bench 的一些任務(wù)可能難以解決甚至無法解決,導(dǎo)致 SWE-bench 無法系統(tǒng)性評估模型的自主編程能力。eLA28資訊網(wǎng)——每日最新資訊28at.com

于是乎,他們決定與 SWE-bench 的作者合作,決定弄出個新版本,希望能夠提供更準(zhǔn)確的評估。eLA28資訊網(wǎng)——每日最新資訊28at.com

他們共同發(fā)起了一項人工注釋活動,共有 93 位資深程序員參與進來,以篩選 SWE-bench 測試集每個樣本,從而獲得適當(dāng)范圍的單元測試和明確指定的問題描述。eLA28資訊網(wǎng)——每日最新資訊28at.com

他們隨機抽取了 1699 個樣本,然后基于統(tǒng)一標(biāo)準(zhǔn)來進行標(biāo)注。eLA28資訊網(wǎng)——每日最新資訊28at.com

比如,問題描述是否明確?每個注釋都有一個標(biāo)簽,范圍從 [0, 1, 2, 3],嚴重程度依次遞增。eLA28資訊網(wǎng)——每日最新資訊28at.com

標(biāo)簽 0 和 1 表示輕微;標(biāo)簽 2 和 3 表示嚴重,表示樣本在某些方面存在缺陷,應(yīng)予以丟棄。eLA28資訊網(wǎng)——每日最新資訊28at.com

eLA28資訊網(wǎng)——每日最新資訊28at.com

此外,我們還會評估每個示例的難度,方法是讓注釋者估算開發(fā)人員確定并實現(xiàn)解決方案所需的時間。eLA28資訊網(wǎng)——每日最新資訊28at.com

最終得到了 500 個經(jīng)過驗證的樣本,并且按照難度對數(shù)據(jù)集進行細分。“簡單”子集包含 196 個小于 15 分鐘的修復(fù)任務(wù),而“困難”子集包含 45 個大于 1 小時的任務(wù)。eLA28資訊網(wǎng)——每日最新資訊28at.com

結(jié)果現(xiàn)在這個子集又被 OpenAI 縮減了。eLA28資訊網(wǎng)——每日最新資訊28at.com

One More Thing

不過,還是有個總榜單或許值得參考,就是那個最原始的 SWE-bench。eLA28資訊網(wǎng)——每日最新資訊28at.com

在這個榜單中,Claude 4 Opus 還是占據(jù)著領(lǐng)先位置。eLA28資訊網(wǎng)——每日最新資訊28at.com

eLA28資訊網(wǎng)——每日最新資訊28at.com

GPT-5 也已經(jīng)發(fā)過好一陣了,不知道你有沒有這樣類似的編程體驗呀?歡迎在評論區(qū)與我們分享。eLA28資訊網(wǎng)——每日最新資訊28at.com

參考鏈接:eLA28資訊網(wǎng)——每日最新資訊28at.com

[1]https://www.swebench.com/eLA28資訊網(wǎng)——每日最新資訊28at.com

[2]https://openai.com/index/introducing-gpt-5/eLA28資訊網(wǎng)——每日最新資訊28at.com

[3]https://www.anthropic.com/news/claude-opus-4-1eLA28資訊網(wǎng)——每日最新資訊28at.com

[4]https://x.com/SemiAnalysis_/status/1955028150217478177eLA28資訊網(wǎng)——每日最新資訊28at.com

[5]https://x.com/DavidOndrej1/status/1954158161721487482eLA28資訊網(wǎng)——每日最新資訊28at.com

本文來自微信公眾號:量子位(ID:QbitAI),作者:白交,原標(biāo)題《GPT-5 編程成績有貓膩!自刪 23 道測試題,關(guān)鍵基準(zhǔn)還是自己提的》eLA28資訊網(wǎng)——每日最新資訊28at.com

本文鏈接:http://m.www897cc.com/showinfo-45-26086-0.htmlOpenAI GPT-5 編程成績有貓膩:自刪 23 道測試題,關(guān)鍵基準(zhǔn)還是自己提的

聲明:本網(wǎng)頁內(nèi)容旨在傳播知識,若有侵權(quán)等問題請及時與本網(wǎng)聯(lián)系,我們將在第一時間刪除處理。郵件:2376512515@qq.com

上一篇: 英特爾升級多顯卡 AI 推理,Battlematrix 整體性能最高提升 80%

下一篇: 超 98% 參賽者:OpenAI 神秘 AI 模型首次斬獲信息學(xué)奧賽 IOI 2025 金牌

標(biāo)簽:
  • 熱門焦點
  • 沉寂3年,大模型激活小度天貓精靈?

    Tech星球(微信ID:tech618)文 | 何煦陽 沉寂了許久的智能音箱,在今年大模型橫空出世之后,又再次燃起了新的希望。 2月9日,小度宣布將融合文心一言,打造針對智能設(shè)備場景的AI模型&ldq
  • 元宇宙火熱的當(dāng)下,我們該如何“身臨其境”的體驗元宇宙?

    元宇宙的余熱依然沒有過去,甚至大有星星之火開啟燎原之勢,元宇宙本身也從殿堂走向了民間,我們可以看到一些企業(yè)開始了元宇宙的探索,諸如中國電信全資控股子公司天
  • “任何國產(chǎn)元宇宙都是假元宇宙”

    上個月,華語樂壇的優(yōu)質(zhì)偶像之一,DOTA2資深玩家林俊杰,在國外元宇宙產(chǎn)品分布式大陸(Decentraland)上買了三塊虛擬地產(chǎn),花了12.3萬美元(也就是人民幣接近80萬)。截至目
  • Layer1的新以太坊,更好的以太坊?

    以太坊作為區(qū)塊鏈基礎(chǔ)設(shè)施地位看起來已不可動搖,但也面臨著費用高、效率低、偏離去中心化初衷等問題。平臺上既得利益群體的形成和固化也逐漸讓革新變得困難。
  • 2021年中國元宇宙行業(yè)用戶行為分析熱點報告

    元宇宙網(wǎng)絡(luò)熱度高漲,中國網(wǎng)民對虛擬生態(tài)興趣濃厚。艾媒咨詢數(shù)據(jù)顯示,超六成的網(wǎng)民對“元宇宙”了解程度較高,在元宇宙較基礎(chǔ)的游戲領(lǐng)域,超九成的人對VR游戲更感興
  • 虛擬數(shù)字人:元宇宙的主角破圈而來

    虛擬數(shù)字人市場逐步進入成熟期,商業(yè)化進程加速。1982年世界第一位虛擬歌姬林明美誕生,虛擬數(shù)字人行業(yè)經(jīng)歷了萌芽、探索、初級和成長四個階段。隨技術(shù)逐年突破,制
  • 元宇宙社交時代,華麗歸來的超級QQ秀重構(gòu)虛擬社交場景

    作者:狂人 不知不覺間,QQ已經(jīng)迎來了第23個生日。作為國內(nèi)社交平臺的起點,QQ可謂是睥睨全網(wǎng),不僅有龐大的用戶群體,還將虛擬形象及QQ整合成在線虛擬社區(qū),開啟了時髦
  • NFT:新騙局的狩獵場

    騙局的自動化需要更好的防御,從數(shù)字身份開始。前幾天我在OpenSea上購買了一個NFT,是才華橫溢的藝術(shù)家海倫·福爾摩斯 (Helen Holmes) 的漫畫,來自她的 "原作 "收
  • 參加元宇宙里的招聘會是什么樣一種體驗?

    求職者可以在活動中走動,就像他們在現(xiàn)實生活中一樣。長話短說看亮點:招聘公司Hirect為Y-combinator支持的初創(chuàng)公司舉辦了一場元宇宙招聘會。這里有一個大廳、一
Top 日韩成人免费在线_国产成人一二_精品国产免费人成电影在线观..._日本一区二区三区久久久久久久久不
亚洲欧美三级在线| 亚洲国产精品成人一区二区| 欧美激情第二页| 欧美日韩国产天堂| 国产精品女主播| 狠狠综合久久| 亚洲精品中文字幕有码专区| 亚洲线精品一区二区三区八戒| 欧美一级久久| 久久亚洲一区二区| 欧美日韩人人澡狠狠躁视频| 国产欧美一区二区色老头| 激情欧美丁香| 一区二区三区成人精品| 欧美一区二区三区日韩| 麻豆九一精品爱看视频在线观看免费| 欧美破处大片在线视频| 国产欧美日韩一区二区三区在线 | 亚洲精品之草原avav久久| 亚洲无限av看| 久久精品亚洲乱码伦伦中文| 欧美精品福利视频| 国产免费一区二区三区香蕉精| 在线观看一区二区视频| 亚洲网站啪啪| 久久久久免费视频| 欧美日韩一区二区视频在线观看| 国产亚洲视频在线观看| 日韩性生活视频| 久久国产视频网| 欧美精品999| 国产亚洲欧美一区二区| 亚洲精品一线二线三线无人区| 欧美一级网站| 欧美日韩精品在线| 尤物99国产成人精品视频| 亚洲一区视频在线| 欧美高清在线| 国产专区一区| 亚洲一区在线看| 欧美高清不卡在线| 国模套图日韩精品一区二区| 中日韩美女免费视频网址在线观看| 久久夜色精品国产| 国产欧美日韩| 亚洲色图综合久久| 欧美成人精品1314www| 国产三级欧美三级日产三级99| 亚洲裸体视频| 久久青青草综合| 国产嫩草影院久久久久 | 一个人看的www久久| 美国成人直播| 国产一区二区三区四区在线观看| 正在播放亚洲一区| 欧美国产欧美亚洲国产日韩mv天天看完整| 国产亚洲福利社区一区| 亚洲图中文字幕| 欧美激情一区二区三区四区| 在线欧美电影| 久久久噜噜噜久久| 国产有码在线一区二区视频| 亚洲深夜av| 欧美日韩免费看| 亚洲精品乱码久久久久| 美国十次成人| 一区二区在线视频| 久久久91精品国产一区二区三区| 国产女精品视频网站免费| 亚洲午夜在线观看| 欧美视频二区36p| 亚洲理论在线| 欧美韩日一区二区| 亚洲国产精品久久久久婷婷884| 久久电影一区| 国产一区二区三区丝袜| 久久激情综合| 国产综合av| 亚洲欧美国产不卡| 国产精品欧美日韩久久| 亚洲午夜av| 国产精品久久一卡二卡| 一本一本久久a久久精品综合麻豆| 欧美福利影院| 亚洲乱码久久| 欧美日韩精品高清| 中日韩视频在线观看| 国产精品v片在线观看不卡| 在线综合亚洲欧美在线视频| 欧美性猛交视频| 亚洲一区二区在线| 国产精品日日做人人爱| 性色av一区二区三区在线观看| 国产精自产拍久久久久久| 校园激情久久| 国内精品久久久久影院色 | 久久久国产成人精品| 国内自拍亚洲| 另类亚洲自拍| 999亚洲国产精| 国产精品成人一区二区| 亚洲女性喷水在线观看一区| 国产精品激情偷乱一区二区∴| 亚洲免费在线观看视频| 国产午夜亚洲精品理论片色戒| 久久久精品国产99久久精品芒果| 在线国产精品播放| 欧美女同在线视频| 亚洲无人区一区| 国产亚洲福利| 另类春色校园亚洲| 亚洲另类视频| 国产麻豆视频精品| 久久免费黄色| 日韩亚洲欧美一区| 国产精品日韩在线观看| 久久久久久久性| 亚洲日韩视频| 国产精品美女在线观看| 久久久99免费视频| 亚洲精品国产视频| 国产精品久久中文| 久久噜噜噜精品国产亚洲综合| 亚洲免费av观看| 国产欧美丝祙| 欧美国产在线观看| 香蕉成人伊视频在线观看| 在线欧美福利| 国产精品草草| 久久久久九九九| 99视频精品全部免费在线| 国产精品视频久久久| 老司机一区二区三区| 亚洲社区在线观看| 狠狠色狠色综合曰曰| 欧美日韩国产在线观看| 久久成人精品视频| 日韩视频一区二区在线观看 | 免费欧美日韩国产三级电影| 亚洲图色在线| 伊人成综合网伊人222| 欧美日韩视频不卡| 久久久久久久综合狠狠综合| 一本色道久久综合| 国内精品久久久久影院优| 欧美日韩美女在线| 久久噜噜噜精品国产亚洲综合| 一本大道av伊人久久综合| 国产婷婷成人久久av免费高清 | 久久久久国产精品www| 一本到高清视频免费精品| 国外成人免费视频| 欧美午夜不卡影院在线观看完整版免费 | 欧美伦理视频网站| 久久精品一区二区三区中文字幕| aa级大片欧美三级| 一区精品在线播放| 国产精品热久久久久夜色精品三区| 美女免费视频一区| 欧美一级理论性理论a| 一本色道久久88综合亚洲精品ⅰ| 黄网站免费久久| 国产精品免费看片| 欧美精品v日韩精品v韩国精品v| 久久精品视频网| 亚洲一区二区免费| 亚洲卡通欧美制服中文| 激情综合在线| 国产区精品视频| 国产精品国产a级| 欧美激情国产日韩| 久久日韩粉嫩一区二区三区| 亚洲欧美日本日韩| 一本色道久久综合亚洲精品婷婷| 亚洲国产精品久久久久秋霞不卡 | 亚洲国内精品在线| 激情视频一区二区三区| 国产欧美日韩不卡免费| 欧美日韩一区二区高清| 欧美mv日韩mv国产网站| 久久久久久9| 欧美综合国产| 午夜国产不卡在线观看视频| 99精品视频免费观看| 亚洲欧洲另类| 亚洲国产福利在线| 精品成人国产| 国内精品久久久久久久影视麻豆| 国产精品视频免费观看www| 欧美日韩色婷婷| 欧美激情综合| 欧美/亚洲一区| 毛片一区二区| 久久婷婷麻豆| 久久视频国产精品免费视频在线| 欧美一区成人| 欧美一级淫片aaaaaaa视频| 亚洲一区二区三区精品动漫| 99在线精品视频在线观看| 亚洲精品久久| 亚洲精选一区二区| 亚洲美女在线国产| 一本色道综合亚洲| 亚洲一级片在线观看|