三星電子宣布推出一款自主研發的AI性能基準測試工具——TRUEBench,全稱為“可信真實場景使用評估基準”(Trustworthy Real-world Usage evaluation Benchmark)。該工具由三星研究院開發,旨在填補現有AI基準測試工具在多語言支持和復雜任務評估方面的空白,為企業級AI應用提供更貼近實際場景的評估標準。
三星研究院在開發過程中發現,傳統AI基準測試工具普遍存在兩大缺陷:一是語言覆蓋范圍有限,主要聚焦英語環境;二是測試場景過于單一,多局限于單輪問答結構。而TRUEBench通過構建包含12種語言的測試體系,覆蓋了從8個字符的簡短指令到2萬字符的長文檔處理等多樣化任務,形成了包含2485組測試集的評估框架。這些測試集被劃分為10個大類、46個子類,涵蓋內容生成、數據分析、文本摘要、跨語言翻譯等10項核心企業任務。
該工具的評估機制采用AI與人類專家協同設計的自動評分系統,通過多維度參數構建可靠性驗證模型。三星特別強調,TRUEBench的測試設計基于企業內部AI生產力提升的實踐經驗,能夠更精準地反映AI模型在實際業務場景中的問題解決能力。目前,工具的數據樣本及排行榜已在開源平臺Hugging Face上線,用戶可免費測試最多5個AI模型,并獲取性能效率對比報告。
三星電子DX部門首席技術官兼三星研究院院長Paul (Kyungwhoon) Cheun表示:“三星研究院在真實業務場景中積累了深厚的AI應用經驗,這使我們具備開發專業評估工具的獨特優勢。TRUEBench的推出不僅能為行業提供生產力領域的評估標準,也將進一步強化三星在技術創新領域的領導地位。”
本文鏈接:http://m.www897cc.com/showinfo-24-185071-0.html?三星自研AI性能基準測試工具TRUEBench上線,填補多語言多任務評估空白?
聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。郵件:2376512515@qq.com