當前位置：首頁 > 科技 > 數碼

?三星自研AI性能基準測試工具TRUEBench上線，填補多語言多任務評估空白?

來源：責編：時間：2025-09-26 17:39:12 8觀看

導讀三星電子宣布推出一款自主研發的AI性能基準測試工具——TRUEBench，全稱為“可信真實場景使用評估基準”（Trustworthy Real-world Usage evaluation Benchmark）。該工具由三星研究院開發，旨在填補現有AI基準測試工具在多語

三星電子宣布推出一款自主研發的AI性能基準測試工具——TRUEBench，全稱為“可信真實場景使用評估基準”（Trustworthy Real-world Usage evaluation Benchmark）。該工具由三星研究院開發，旨在填補現有AI基準測試工具在多語言支持和復雜任務評估方面的空白，為企業級AI應用提供更貼近實際場景的評估標準。

三星研究院在開發過程中發現，傳統AI基準測試工具普遍存在兩大缺陷：一是語言覆蓋范圍有限，主要聚焦英語環境；二是測試場景過于單一，多局限于單輪問答結構。而TRUEBench通過構建包含12種語言的測試體系，覆蓋了從8個字符的簡短指令到2萬字符的長文檔處理等多樣化任務，形成了包含2485組測試集的評估框架。這些測試集被劃分為10個大類、46個子類，涵蓋內容生成、數據分析、文本摘要、跨語言翻譯等10項核心企業任務。

該工具的評估機制采用AI與人類專家協同設計的自動評分系統，通過多維度參數構建可靠性驗證模型。三星特別強調，TRUEBench的測試設計基于企業內部AI生產力提升的實踐經驗，能夠更精準地反映AI模型在實際業務場景中的問題解決能力。目前，工具的數據樣本及排行榜已在開源平臺Hugging Face上線，用戶可免費測試最多5個AI模型，并獲取性能效率對比報告。

三星電子DX部門首席技術官兼三星研究院院長Paul (Kyungwhoon) Cheun表示：“三星研究院在真實業務場景中積累了深厚的AI應用經驗，這使我們具備開發專業評估工具的獨特優勢。TRUEBench的推出不僅能為行業提供生產力領域的評估標準，也將進一步強化三星在技術創新領域的領導地位。”

本文鏈接：http://m.www897cc.com/showinfo-24-185071-0.html?三星自研AI性能基準測試工具TRUEBench上線，填補多語言多任務評估空白?

聲明：本網頁內容旨在傳播知識，若有侵權等問題請及時與本網聯系，我們將在第一時間刪除處理。郵件：2376512515@qq.com

上一篇：雷軍憶往昔：蘋果三星華為如大山壓頂，小米逆襲終成行業翹楚

下一篇： ?OpenAI內部測試GPT-Alpha智能體：基于GPT-5，支持多模態多任務處理?

標簽：

熱門焦點

鴻蒙OS 4.0公測機型公布：甚至連nova6都支持

華為全新的HarmonyOS 4.0操作系統將于今天下午正式登場，官方在發布會之前也已經正式給出了可升級的機型產品，這意味著這些機型會率先支持升級享用。這次的HarmonyOS 4.0支持
Mate60手機殼曝光致敬自己的經典設計

8月3日消息，今天下午博主數碼閑聊站帶來了華為Mate60的第三方手機殼圖，可以讓我們在真機發布之前看看這款華為全新旗艦的大致輪廓。從曝光的圖片看，Mate 60背后攝像頭面積依然
直屏旗艦來了 iQOO 12和K70 Pro同臺競技

旗艦機基本上使用的都是雙曲面屏幕，這就讓很多喜歡直屏的愛好者在苦等一款直屏旗艦，這次，你們等到了。據博主數碼閑聊站帶來的最新爆料稱，Redmi下代旗艦K70 Pro和iQOO 12兩款手
7月安卓手機性價比榜：努比亞+紅魔兩款新機入榜

7月登場的新機有努比亞Z50S Pro和紅魔8S Pro，除了三星之外目前唯二的兩款搭載超頻版驍龍8Gen2處理器的產品，而且努比亞和紅魔也一貫有著不錯的性價比，所以在本次的性價比榜單
掘力計劃第 20 期：Flutter 混合開發的混亂之治

在掘力計劃系列活動第20場，《Flutter 開發實戰詳解》作者，掘金優秀作者，Github GSY 系列目負責人戀貓的小郭分享了Flutter 混合開發的混亂之治。Flutter 基于自研的 Skia 引擎
東方甄選單飛：有些鳥注定是關不住的

文/彭寬鴻編輯/羅卿東方甄選創始人俞敏洪帶隊的“7天甘肅行”直播活動已在近日順利收官。成立后一年多時間里，東方甄選要脫離抖音自立門戶的傳聞不絕于耳，“7
AI芯片初創公司Tenstorrent獲三星和現代1億美元投資

Tenstorrent是一家由芯片行業資深人士Jim Keller領導的加拿大初創公司，專注于開發人工智能芯片，該公司周三表示，已經從現代汽車集團和三星投資基金等
機構稱Q2全球智能手機出貨量同比下滑11% 蘋果份額依舊第2

7月20日消息，據外媒報道，研究機構的報告顯示，由于需求下滑，今年二季度全球智能手機的出貨量，同比下滑了11%，三星、蘋果等主要廠商的銷量，較去年同期均有下
OPPO Reno10 Pro英雄聯盟定制禮盒公布：薩勒芬妮同款配色夢幻十足

5月24日，OPPO推出了全新的OPPO Reno 10系列，包含OPPO Reno10、OPPO Reno10 Pro和OPPO Reno10 Pro+三款新機，全系標配了超光影長焦鏡頭，是迄今為止拍照

日韩成人免费在线_国产成人一二_精品国产免费人成电影在线观..._日本一区二区三区久久久久久久久不

?三星自研AI性能基準測試工具TRUEBench上線，填補多語言多任務評估空白?

鴻蒙OS 4.0公測機型公布：甚至連nova6都支持

Mate60手機殼曝光致敬自己的經典設計

直屏旗艦來了 iQOO 12和K70 Pro同臺競技

7月安卓手機性價比榜：努比亞+紅魔兩款新機入榜

掘力計劃第 20 期：Flutter 混合開發的混亂之治

東方甄選單飛：有些鳥注定是關不住的

AI芯片初創公司Tenstorrent獲三星和現代1億美元投資

機構稱Q2全球智能手機出貨量同比下滑11% 蘋果份額依舊第2

OPPO Reno10 Pro英雄聯盟定制禮盒公布：薩勒芬妮同款配色夢幻十足

最新推薦

猜你喜歡

熱門推薦

相關資訊