日韩成人免费在线_国产成人一二_精品国产免费人成电影在线观..._日本一区二区三区久久久久久久久不

當(dāng)前位置:首頁 > 元宇宙 > AI

新研究:人類讀指針式時鐘準(zhǔn)確率達(dá) 89.1%,頂尖 AI 僅 13.3%

來源: 責(zé)編: 時間:2025-09-17 11:35:34 60觀看
導(dǎo)讀 9 月 14 日消息,一項新研究發(fā)現(xiàn),人類讀取指針式時鐘的準(zhǔn)確率可達(dá) 89.1%,而目前最優(yōu)秀的人工智能(AI)模型準(zhǔn)確率僅為 13.3%,該結(jié)果凸顯出當(dāng)前語言模型在視覺推理能力方面與人類存在巨大差距。阿萊克?薩法爾(Alek Saf

9 月 14 日消息,一項新研究發(fā)現(xiàn),人類讀取指針式時鐘的準(zhǔn)確率可達(dá) 89.1%,而目前最優(yōu)秀的人工智能(AI)模型準(zhǔn)確率僅為 13.3%,該結(jié)果凸顯出當(dāng)前語言模型在視覺推理能力方面與人類存在巨大差距。Nat28資訊網(wǎng)——每日最新資訊28at.com

Nat28資訊網(wǎng)——每日最新資訊28at.com

阿萊克?薩法爾(Alek Safar)采用名為“ClockBench”的全新測試,讓來自 6 家企業(yè)的 11 個大型語言模型與 5 名人類展開正面較量。該基準(zhǔn)測試包含 180 個定制的指針式時鐘及 720 道測試題,遵循“人類易上手、AI 難突破”的設(shè)計思路,這一思路在 ARC-AGI、SimpleBench 等基準(zhǔn)測試中也有所體現(xiàn)。Nat28資訊網(wǎng)——每日最新資訊28at.com

為確保公平性并避免與模型訓(xùn)練數(shù)據(jù)重疊,薩法爾從零開始構(gòu)建了該數(shù)據(jù)集。數(shù)據(jù)集包含 36 種獨特的鐘面設(shè)計,融合了羅馬數(shù)字與阿拉伯?dāng)?shù)字、不同朝向、時針標(biāo)識、鏡像布局及彩色背景等元素。每種設(shè)計他都制作了 5 個不同的時鐘,總共有 180 個時鐘。Nat28資訊網(wǎng)——每日最新資訊28at.com

每個時鐘均通過四類問題進(jìn)行測試:讀取時間、時間計算、按特定角度調(diào)整指針,以及時區(qū)轉(zhuǎn)換。薩法爾根據(jù)時鐘類型設(shè)置了不同的誤差允許范圍,例如,僅含時針的時鐘比同時具備時針、分針、秒針的時鐘誤差容忍度更高。Nat28資訊網(wǎng)——每日最新資訊28at.com

薩法爾表示,相較于“人類終極測試”(Humanity's Last Exam)這類側(cè)重知識儲備的測試,ClockBench 對 AI 模型的難度更高。測試結(jié)果表明,即便面對看似簡單的視覺任務(wù),AI 與人類的差距仍十分顯著。Nat28資訊網(wǎng)——每日最新資訊28at.com

谷歌旗下的 Gemini 2.5 Pro 模型以 13.3% 的準(zhǔn)確率位居榜首,Gemini 2.5 Flash 緊隨其后,準(zhǔn)確率為 10.5%。GPT-5 排名第三,準(zhǔn)確率 8.4%,且調(diào)整模型的推理預(yù)算對提升準(zhǔn)確率效果甚微。Nat28資訊網(wǎng)——每日最新資訊28at.com

Nat28資訊網(wǎng)——每日最新資訊28at.com

Grok 4 模型表現(xiàn)墊底,準(zhǔn)確率僅 0.7%,這一結(jié)果頗為出人意料,因為該模型在其他基準(zhǔn)測試中常常表現(xiàn)出色。Grok 4 將 63.3% 的時鐘判定為“無效”,但實際上 180 個時鐘中僅 37 個顯示的是“不可能時間”。這種極度謹(jǐn)慎的方式意味著,從技術(shù)層面來講,Grok 4 的正確答案數(shù)量最多,但這只是通過隨機將時鐘標(biāo)記為無效實現(xiàn)的。Nat28資訊網(wǎng)——每日最新資訊28at.com

Anthropic 公司的 Claude 4 Sonnet(準(zhǔn)確率 4.2%)與 Claude 4.1 Opus(準(zhǔn)確率 5.6%)表現(xiàn)同樣不佳。研究還發(fā)現(xiàn),61.7% 的時鐘未能被任何一個 AI 模型正確讀取。Nat28資訊網(wǎng)——每日最新資訊28at.com

相較于準(zhǔn)確率,誤差的嚴(yán)重程度更能反映問題本質(zhì)。人類讀取時間的中位誤差僅為 3 分鐘,而表現(xiàn)最佳的 AI 模型中位誤差達(dá) 1 小時,性能最差的 AI 模型誤差約為 3 小時,對于 12 小時制時鐘而言,這幾乎和隨機猜測差不多。Nat28資訊網(wǎng)——每日最新資訊28at.com

Nat28資訊網(wǎng)——每日最新資訊28at.com

注意到,部分鐘面特征對 AI 而言難度極高:當(dāng)鐘面采用羅馬數(shù)字時,AI 準(zhǔn)確率降至 3.2%;采用圓形數(shù)字時,準(zhǔn)確率僅為 4.5%。此外,秒針、彩色背景及鏡像布局也會對 AI 的判斷造成干擾。Nat28資訊網(wǎng)——每日最新資訊28at.com

僅含時針的時鐘對 AI 而言相對容易(準(zhǔn)確率 23.6%),這得益于其更高的誤差容忍度。采用阿拉伯?dāng)?shù)字和基礎(chǔ)表盤的標(biāo)準(zhǔn)時鐘,也能讓 AI 取得相對更好的成績。Nat28資訊網(wǎng)——每日最新資訊28at.com

Nat28資訊網(wǎng)——每日最新資訊28at.com

測試還獲得了一個意外發(fā)現(xiàn):當(dāng) AI 模型成功讀取時間后,它們在時間計算、指針調(diào)整或時區(qū)轉(zhuǎn)換任務(wù)中幾乎都能得出正確結(jié)果。這意味著,AI 面臨的挑戰(zhàn)并非“進(jìn)行時間相關(guān)的數(shù)學(xué)運算”,而是“從視覺信息中讀取時間”這一初始步驟。Nat28資訊網(wǎng)——每日最新資訊28at.com

薩法爾認(rèn)為,背后原因可能有三點:其一,讀取指針式時鐘對視覺推理能力是一項嚴(yán)峻考驗;其二,罕見或特殊的鐘面設(shè)計在訓(xùn)練數(shù)據(jù)中出現(xiàn)頻率極低;其三,將鐘面視覺信息轉(zhuǎn)化為文字描述,對當(dāng)前 AI 模型而言很可能是一項難題。Nat28資訊網(wǎng)——每日最新資訊28at.com

ClockBench 被定位為一項長期基準(zhǔn)測試。其完整數(shù)據(jù)集目前處于保密狀態(tài),以避免污染未來 AI 的訓(xùn)練過程,但已有一個規(guī)模較小的公開版本可供測試使用。Nat28資訊網(wǎng)——每日最新資訊28at.com

盡管 AI 在該測試中的得分普遍較低,薩法爾仍看到了希望:性能最佳的模型表現(xiàn)優(yōu)于隨機猜測,且展現(xiàn)出基礎(chǔ)的視覺推理能力。不過,這些能力能否通過“擴(kuò)大現(xiàn)有方法規(guī)模”得到提升,還是需要全新技術(shù)路徑來突破,目前仍是一個待解的問題。Nat28資訊網(wǎng)——每日最新資訊28at.com

一年前,中國一項研究也曾發(fā)現(xiàn)多模態(tài)語言模型存在類似的能力短板,但當(dāng)時的結(jié)果要好得多。彼時,GPT-4o 模型在包含“讀時鐘、讀儀表”的儀表盤任務(wù)中,準(zhǔn)確率達(dá)到 54.8%。而此次 ClockBench 測試中,AI 的最高準(zhǔn)確率僅為 13.3%,這一差距既表明新基準(zhǔn)測試難度顯著提升,也反映出 AI 的時鐘讀取能力并未取得明顯進(jìn)步。Nat28資訊網(wǎng)——每日最新資訊28at.com

本文鏈接:http://m.www897cc.com/showinfo-45-27648-0.html新研究:人類讀指針式時鐘準(zhǔn)確率達(dá) 89.1%,頂尖 AI 僅 13.3%

聲明:本網(wǎng)頁內(nèi)容旨在傳播知識,若有侵權(quán)等問題請及時與本網(wǎng)聯(lián)系,我們將在第一時間刪除處理。郵件:2376512515@qq.com

上一篇: OpenAI GPT-5 擁有博士級能力?谷歌 DeepMind CEO:無稽之談

下一篇: 科學(xué)家發(fā)現(xiàn) AI 能像人類一樣評估社交情境,科研效率遠(yuǎn)超人工

標(biāo)簽:
  • 熱門焦點
Top 日韩成人免费在线_国产成人一二_精品国产免费人成电影在线观..._日本一区二区三区久久久久久久久不
亚洲大胆av| 国产日产亚洲精品| 欧美成年人视频| 男女av一区三区二区色多| 欧美a级片一区| 欧美人与禽性xxxxx杂性| 欧美日韩另类视频| 国产女优一区| 伊人伊人伊人久久| 日韩午夜在线视频| 午夜精品免费视频| 久久久久国产成人精品亚洲午夜| 久久久亚洲国产美女国产盗摄| 美女性感视频久久久| 欧美电影资源| 国产精品美女久久久久av超清| 国产亚洲精品久| 在线日韩av| 亚洲最新在线视频| 欧美伊人久久久久久午夜久久久久 | 日韩亚洲视频在线| 亚洲午夜电影网| 久久精品成人| 亚洲欧美日韩国产精品| 欧美专区中文字幕| 免费成人av资源网| 欧美新色视频| 韩国一区电影| 99在线精品观看| 亚洲欧美制服另类日韩| 国产中文一区二区三区| 亚洲理伦在线| 欧美在线精品一区| 欧美日本一区二区三区| 国产亚洲精品aa| 亚洲毛片网站| 久久亚洲不卡| 国产精品欧美日韩久久| 亚洲激情黄色| 久久狠狠亚洲综合| 国产精品电影网站| 亚洲福利视频三区| 欧美一区亚洲一区| 欧美性片在线观看| 亚洲经典三级| 久久精品一区二区三区中文字幕 | 国产一区二区三区无遮挡| 夜夜精品视频| 国产一区二区福利| 一区二区久久久久久| 美女国内精品自产拍在线播放| 国产精品乱人伦一区二区 | 久久精品视频在线| 国产精品视频福利| 一区二区三区欧美日韩| 欧美福利一区| 激情六月婷婷久久| 性亚洲最疯狂xxxx高清| 欧美日韩亚洲高清| 亚洲精品视频一区二区三区| 久久免费99精品久久久久久| 国产视频在线观看一区二区三区| 一区二区三区四区精品| 欧美精品一区二区三区久久久竹菊| 好吊色欧美一区二区三区视频| 午夜精品久久久久久久99水蜜桃| 欧美日一区二区在线观看| 亚洲欧洲一区二区在线播放 | 欧美日韩国产另类不卡| 亚洲国产精品久久久久婷婷老年| 久久久综合视频| 国产亚洲日本欧美韩国| 亚洲欧美日本另类| 国产精品免费视频xxxx| 亚洲视频欧美在线| 欧美日韩亚洲另类| 在线视频欧美日韩精品| 欧美三级午夜理伦三级中文幕| 亚洲精品美女在线观看播放| 免费在线看一区| 亚洲国产高清aⅴ视频| 久久亚裔精品欧美| 精品成人在线视频| 久久在线视频在线| 亚洲国产91精品在线观看| 美女在线一区二区| 亚洲福利视频一区二区| 免费久久精品视频| 亚洲欧洲一级| 欧美日本免费一区二区三区| 日韩一二三区视频| 欧美日韩视频在线一区二区| 99视频+国产日韩欧美| 欧美日本高清| 夜夜嗨av一区二区三区网站四季av | 欧美mv日韩mv国产网站| 亚洲黄色成人| 欧美乱妇高清无乱码| 亚洲卡通欧美制服中文| 欧美日韩国产一区精品一区| 99精品99| 国产精品福利在线观看网址| 亚洲欧美在线免费| 国产一区二区三区视频在线观看 | 欧美久久婷婷综合色| 中文网丁香综合网| 国产精品视频xxxx| 久久精品成人| 亚洲国产99精品国自产| 欧美国产一区二区在线观看| 艳妇臀荡乳欲伦亚洲一区| 国产精品久久久久一区二区| 欧美一级午夜免费电影| 黄色小说综合网站| 欧美大片第1页| 一区二区成人精品| 国产精品超碰97尤物18| 欧美亚洲一区二区三区| 1024精品一区二区三区| 欧美国产三区| 亚洲一级在线| 国产在线观看精品一区二区三区| 久久综合色一综合色88| 亚洲七七久久综合桃花剧情介绍| 欧美日韩日本视频| 羞羞答答国产精品www一本| 在线精品视频免费观看| 欧美日韩的一区二区| 亚洲欧美文学| 有坂深雪在线一区| 欧美日韩免费在线| 欧美一级片在线播放| 亚洲人成高清| 国产精品一区在线观看| 美国十次了思思久久精品导航| 欧美三级资源在线| 欧美在线播放高清精品| 亚洲黄色影片| 国产精品美女久久久久久久| 久久香蕉国产线看观看av| 亚洲一区二区免费视频| 一区二区三区在线免费视频| 欧美日韩精品免费看| 久久精品99| 夜夜嗨一区二区| 激情成人av| 欧美午夜无遮挡| 另类专区欧美制服同性| 亚洲欧美国产日韩中文字幕| 亚洲国产欧美久久| 国产精品亚洲一区| 欧美理论在线播放| 久久久久久久久蜜桃| 亚洲神马久久| 伊人春色精品| 国产精品有限公司| 欧美日韩国产在线播放| 久久久久九九九九| 在线视频免费在线观看一区二区| 一区二区三区在线不卡| 国产精品欧美日韩一区二区| 欧美激情精品久久久久久变态 | 欧美一区二区视频在线| 夜夜夜久久久| 在线精品国精品国产尤物884a| 国产精品久久91| 欧美多人爱爱视频网站| 欧美制服丝袜| 亚洲系列中文字幕| 99亚洲视频| 亚洲国产成人久久综合一区| 国产日韩在线一区| 国产精品久久久久婷婷| 欧美日韩另类字幕中文| 美国三级日本三级久久99| 欧美一区二区私人影院日本| 国产精品99久久久久久久久| 亚洲人成网站在线播| 1024国产精品| 国产一区二区丝袜高跟鞋图片| 欧美午夜一区二区| 欧美日韩精品欧美日韩精品一| 欧美aa在线视频| 久久躁日日躁aaaaxxxx| 性色一区二区三区| 亚洲一区二区久久| 日韩天堂在线视频| 亚洲黄页视频免费观看| 激情欧美一区二区三区| 国产午夜久久久久| 国产人久久人人人人爽| 国产精品热久久久久夜色精品三区 | 欧美.www| 久久躁日日躁aaaaxxxx| 欧美在线视频观看免费网站| 欧美一二三区精品| 欧美一区视频在线| 欧美亚洲一区二区在线| 亚洲欧美日韩天堂一区二区| 亚洲自拍偷拍麻豆| 亚洲影音先锋| 亚洲在线成人精品| 亚洲欧美日韩另类精品一区二区三区| 一本久道久久综合狠狠爱|