當前位置：首頁 > 元宇宙 > AI

新研究：人類讀指針鐘準確率近九成，頂尖AI模型準確率僅一成多

來源：責編：時間：2025-09-15 11:51:32 57觀看

導讀一項名為“ClockBench”的全新測試揭示，人類在讀取指針式時鐘方面的準確率高達89.1%，而當前最先進的人工智能模型準確率僅為13.3%。這一差距凸顯了AI在視覺推理能力上與人類的顯著差異，尤其是在處理復雜視覺信息時，AI的表

一項名為“ClockBench”的全新測試揭示，人類在讀取指針式時鐘方面的準確率高達89.1%，而當前最先進的人工智能模型準確率僅為13.3%。這一差距凸顯了AI在視覺推理能力上與人類的顯著差異，尤其是在處理復雜視覺信息時，AI的表現遠未達到預期水平。

該測試由研究者阿萊克·薩法爾設計，旨在通過定制化的指針式時鐘數據集，評估AI在視覺推理任務中的表現。測試中，來自6家企業的11個大型語言模型與5名人類參與者展開對比。數據集包含180個獨特的指針式時鐘，涵蓋36種鐘面設計，融合了羅馬數字與阿拉伯數字、不同朝向、時針標識、鏡像布局及彩色背景等元素，確保測試的復雜性和多樣性。

每個時鐘需通過四類問題測試：讀取時間、時間計算、按特定角度調整指針及時區轉換。為保證公平性，數據集從零構建，避免與模型訓練數據重疊。測試結果顯示，AI模型在讀取時間時的中位誤差達1小時，而人類的中位誤差僅為3分鐘。性能最差的AI模型誤差甚至接近3小時，幾乎與隨機猜測無異。

在參與測試的AI模型中，谷歌旗下的Gemini 2.5 Pro以13.3%的準確率位居榜首，Gemini 2.5 Flash和GPT-5分別以10.5%和8.4%的準確率緊隨其后。然而，Grok 4模型的表現令人意外，其準確率僅0.7%，且將63.3%的時鐘判定為“無效”，遠高于實際無效時鐘的比例（180個中僅37個）。這種過度謹慎的策略雖在技術上增加了正確答案數量，但并未真正提升模型能力。

測試還發現，鐘面特征對AI判斷影響顯著。當鐘面采用羅馬數字時，AI準確率驟降至3.2%；采用圓形數字時，準確率也僅為4.5%。秒針、彩色背景及鏡像布局均會干擾AI的判斷。相比之下，僅含時針的時鐘（準確率23.6%）和采用阿拉伯數字的標準時鐘，能讓AI取得相對更好的成績。

一個意外發現是，AI模型在成功讀取時間后，能正確完成時間計算、指針調整或時區轉換任務。這表明，AI的挑戰并非在于時間相關的數學運算，而在于從視覺信息中提取時間的初始步驟。薩法爾分析，原因可能包括：指針式時鐘讀取對視覺推理能力要求極高；罕見或特殊的鐘面設計在訓練數據中極少出現；以及將視覺信息轉化為文字描述對當前AI模型而言難度較大。

ClockBench被定位為長期基準測試，其完整數據集目前保密，以避免污染未來AI的訓練過程，但已有一個公開版本供測試使用。盡管AI在該測試中得分普遍較低，薩法爾認為，性能最佳的模型已展現出基礎的視覺推理能力，優于隨機猜測。然而，這些能力能否通過擴大現有方法規模提升，還是需要全新技術路徑突破，仍是一個待解的問題。

此前，中國一項研究也曾發現多模態語言模型存在類似短板，但當時GPT-4o模型在包含“讀時鐘、讀儀表”的任務中準確率達54.8%。此次ClockBench測試中，AI最高準確率僅為13.3%，既表明新基準測試難度顯著提升，也反映出AI在時鐘讀取能力上并未取得明顯進步。

更多>同類資訊?OpenAI未來六年算力與研發投入或達3500億美元，2030年盈利穩定性存疑?09-14

海馬emoji是否存在？ChatGPT等AI深陷“記憶迷局”反復糾錯難自明09-14

螞蟻開源聯合Inclusion AI發布大模型生態全景圖，呈現AI開源新特征與三大開發趨勢09-14

OpenAI稱GPT-5有博士級能力，谷歌DeepMind CEO：尚缺全面博士能力，AGI或需5到10年09-14

缺錢仍具洞察：陶哲軒直指AI在數學研究中隱性目標被忽視之困09-14谷歌DeepMind CEO：當前AI系統難達博士級，GPT-5綜合能力被指差距大09-14OpenAI 2024-2030年擬投巨資：算力租賃與研發成本高企，盈利前景存疑09-14

岳麓大會十二年：從“閉門論道”到“鏈上生長”，湖南數字生態如何崛起？09-14谷歌DeepMind CEO：當前AI系統難達博士級，GPT-5能力被指夸大09-14

新學期新氣象！北京1400余所中小學全學段開設人工智能通識課09-14

宇樹王興興福耀科大開講：AI時代機遇均等，新生當懷熱忱逐夢前行09-14

螞蟻開源2025外灘大會發布大模型全景圖，AI開發現三大趨勢：工具、路線與生態分化月 13 日，在 2025 Inclusion·外灘大會AI開源見解論壇上，螞蟻開源聯合Inclusion AI 發布了全新的《全球大模型開源開發生態全景與趨勢告》。本次發布的大模型開源開發生態全景圖共收錄了…09-14

?對話京東方陳炎順：AI驅動產業升級，未來三年500億研發攜手伙伴共拓新局?“早在2024年初，京東方就將AI提高到了企業的整體發展戰略”，陳炎順對作者表示，“一方面我們成立了AI+創新與應用委員會，要求以營業收入的0.5%來用于AI的研發。陳炎順指出，從CES到SID等國際展會上…09-14

OpenAI奧爾特曼坦言：ChatGPT問世后，模型細微調整牽動數億人思維行為致其難眠9月14日消息，據《財富》報道，OpenAI CEO 薩姆·奧爾特曼在接受采訪時表示，“自從 ChatGPT 推出以來，我就沒睡過一個好覺。” 奧爾特曼描述了監管這項如今每天有數億人使用的技術的壓力，他擔憂的…09-14

上海創智學院：90后導師領航博士CEO逐夢機器人奇境挑戰未來2023年，劉鵬飛完成美國博后工作回國加盟上海交通大學，去年以雙聘的形式加盟創智學院，他深深感受時代的機遇正在眼前——“三個低概率事件”交匯：智能革命的發生、創智學院模式的獨一無二，學院對師生資源的傾斜。就…09-14點擊查看更多 +全站最新 鴻蒙智行MPV新車諜照現身智界品牌或迎新成員明年上半年有望上市

鴻蒙智行MPV新車諜照現身智界品牌或迎新成員明年上半年有望上市

岳麓大會十二年：從“閉門論道”到“鏈上生長”，湖南數字生態如何崛起？

抖音圖文創作新思路：精選素材+用心運營，輕松開啟自媒體變現路！

方形CMOS加持！iPhone 17前置攝像頭如何打破自拍構圖限制？

?杭州全球農創客大賽落幕：AI養豬、超濾凈水，青年科技繪就農業新藍圖?

億級賣家吞吞揭秘：TikTok美區直播如何選渠道、控成本、定布局？熱門內容

熱度攀升！千億科技龍頭頻獲機構調研，業務增長透露哪些行業新動向？
蘋果加速AI布局，或收購兩家法國AI初創企業
DeepSeek V3.1大模型升級，適配國產新芯片，性能顯著提升
蘋果秋季發布會亮相iPhone 17系列："史上最薄"Air登場，Pro Max 2TB版定價17999元
?小米16系列或提前登場，首發驍龍8 Elite Gen5，9月機圈大戰一觸即發?
蘋果AI布局加速，或將斥巨資收購歐洲兩大AI初創企業
紅米Note15系列前瞻：7s芯片、7000mAh大電池，防水新標桿即將登場
華為智能手表登頂全球，蘋果需直面挑戰求變革
科創板AI基金8月22日凈值飆升7.79%，重倉股表現搶眼
vivo X300系列新機入網：首發LYT-828+2億像素，衛通版支持北斗衛星短信
?字節跳動千人芯片團隊架構調整，轉至新加坡子公司Picoheart引關注?
蘋果加速布局中國市場！Apple Intelligence和新版Siri或年底至明年上線
OpenAI沖刺5000億估值，GPT-5遇冷：資本狂歡與技術瓶頸的碰撞
華為云重組風暴：多部門整合，聚焦AI領域引發關注
科大訊飛2026秋招啟動，畢業兩年內可投，多樣崗位等你來選！

本欄最新

岳麓大會十二年：從“閉門論道”到“鏈上生長”，湖南數字生態如何崛起？

新學期新氣象！北京1400余所中小學全學段開設人工智能通識課

宇樹王興興福耀科大開講：AI時代機遇均等，新生當懷熱忱逐夢前行

螞蟻開源2025外灘大會發布大模型全景圖，AI開發現三大趨勢：工具、路線與生態分化

?對話京東方陳炎順：AI驅動產業升級，未來三年500億研發攜手伙伴共拓新局?

OpenAI奧爾特曼坦言：ChatGPT問世后，模型細微調整牽動數億人思維行為致其難眠

本文鏈接：http://m.www897cc.com/showinfo-45-27565-0.html新研究：人類讀指針鐘準確率近九成，頂尖AI模型準確率僅一成多

聲明：本網頁內容旨在傳播知識，若有侵權等問題請及時與本網聯系，我們將在第一時間刪除處理。郵件：2376512515@qq.com

上一篇：美國最大出版商CEO控訴谷歌：用單一爬蟲抓內容助力AI，卻讓出版商陷入困境

下一篇： ?OpenAI未來六年算力與研發投入或達3500億美元，2030年盈利穩定性存疑?

標簽：

熱門焦點

“平均時代”：ChatGPT模仿秀的隱喻

來源：錦緞如果你問ChatGPT，Instagram上最美的女人是誰？它很可能會給你一個名字，叫卡戴珊。如果你觀察過Instagram這個美版小紅書：平臺上的所有網紅，展現的幾乎是統一面孔：統一的醫
不同于傳統數字經濟，元宇宙賦予商業生態更多數字資產價值！

作者：中科基大數據元宇宙是一個去中心化的開放平臺，而為了維護這樣的平臺，需要建立一個公平的游戲規則，確保每個元宇宙的參與者通過這個規則都可以掙到錢，他們的利益都可以得到保
亞馬遜AIGC全家桶來襲，巨頭AI大亂戰都有什么殺手锏

此前，亞馬遜云科技發布多款AIGC產品，其中包括AI大模型服務Amazon Bedrock、人工智能計算實例Amazon EC2 Trn1n和Amazon EC2 Inf2、自研“泰坦”（Titan）AI大模型、軟件
網易音樂、理想申請元宇宙商標被駁回，“啫喱”暫停新用戶進入

【《原神》開發商米哈游宣布創立元宇宙品牌】《原神》開發商米哈游宣布推出元宇宙品牌 HoYoverse，旨在通過各種娛樂服務為全球玩家創造并提供沉浸式虛擬世界體
影響元宇宙土地價格的五個因素

參考來源 | cryptonews編譯 | Ciel@iNFTnews.com元宇宙中的房地產價格主要取決于使用它的人數，以及為所有者創造收益的能力。專注于數字資產的投資公司LedgerPr
音樂NFT平臺里的下一匹黑馬是誰？

NFT 銷售額在 2021 年開始暴漲，從 2018 年的僅 4069 萬美元的交易量，到 2021 年，NFT 交易量飆升至 442 億美元以上，并不斷刷新記錄并達到新的高度。預測到2025 年N
NFT教育要從娃娃抓起！這些青少年藝術家已經賺取了幾千萬美金

一些藝術家通過將他們的創作作為NFT出售而獲得了巨大收益。令人驚訝的是，許多賺取了數百萬美元的藝術家們仍在讀高中。這可能有點讓人難以置信。然而，請記住，在短
如何在元宇宙中建立品牌忠誠度

Snoop Dogg、耐克、蘇富比和普華永道都有什么共同點？他們都投資于元宇宙的房地產。除了我們在屏幕上看到的二維世界--手機、筆記本電腦、臺式機或iPad--他們決
利用元宇宙平臺10天收入160萬，風口還是虎口？

美國Meta平臺有限公司，也就是原來的臉書公司，9日宣布，公司旗下的虛擬現實應用《地平線世界》正式向美國和加拿大的18歲以上人群開放。這也是目前Meta推出的最具象

日韩成人免费在线_国产成人一二_精品国产免费人成电影在线观..._日本一区二区三区久久久久久久久不

首頁

元宇宙

NFT

區塊鏈

虛擬人

AR/VR

AI

元宇宙百科

新研究：人類讀指針鐘準確率近九成，頂尖AI模型準確率僅一成多

“平均時代”：ChatGPT模仿秀的隱喻

不同于傳統數字經濟，元宇宙賦予商業生態更多數字資產價值！

亞馬遜AIGC全家桶來襲，巨頭AI大亂戰都有什么殺手锏

網易音樂、理想申請元宇宙商標被駁回，“啫喱”暫停新用戶進入

影響元宇宙土地價格的五個因素

音樂NFT平臺里的下一匹黑馬是誰？

NFT教育要從娃娃抓起！這些青少年藝術家已經賺取了幾千萬美金

如何在元宇宙中建立品牌忠誠度

利用元宇宙平臺10天收入160萬，風口還是虎口？

最新推薦

Kitten Coup社區反轉Cool Kittens NFT騙局

參加元宇宙里的招聘會是什么樣一種體驗？

元宇宙的應用行業研究：娛樂可能是元宇宙落地最快的場景之一

元宇宙不完全是想出來的，而是實打實做出來的

初探元宇宙

76億美金估值、2022年最具創新力公司，Dapper Labs如何做到？

猜你喜歡

熱門推薦

相關資訊