日韩成人免费在线_国产成人一二_精品国产免费人成电影在线观..._日本一区二区三区久久久久久久久不

當(dāng)前位置:首頁 > 元宇宙 > AI

研究顯示生成式 AI 工具答案質(zhì)量堪憂:三分之一缺乏可靠來源支持

來源: 責(zé)編: 時間:2025-09-19 17:56:56 51觀看
導(dǎo)讀 9 月 17 日消息,一項分析顯示,生成式人工智能(AI)工具及其驅(qū)動的深度研究智能體與搜索引擎,常常會給出未經(jīng)證實且?guī)в衅姷幕卮穑@些回答與其引用的信息來源并不相符。該分析發(fā)現(xiàn),AI 工具提供的答案中,約有三分之

9 月 17 日消息,一項分析顯示,生成式人工智能(AI)工具及其驅(qū)動的深度研究智能體與搜索引擎,常常會給出未經(jīng)證實且?guī)в衅姷幕卮穑@些回答與其引用的信息來源并不相符。該分析發(fā)現(xiàn),AI 工具提供的答案中,約有三分之一缺乏可靠來源支持。其中,OpenAI 旗下的 GPT-4.5 表現(xiàn)更差,這一比例高達(dá) 47%。5DT28資訊網(wǎng)——每日最新資訊28at.com

5DT28資訊網(wǎng)——每日最新資訊28at.com

Salesforce 人工智能研究院的普拉納夫?納拉亞南?文基特(Pranav Narayanan Venkit)及其同事,對多款生成式 AI 搜索引擎進(jìn)行了測試,包括 OpenAI 的 GPT-4.5 與 GPT-5、You.com、Perplexity 以及微軟的必應(yīng)聊天(Bing Chat)。此外,他們還對五款深度研究智能體工具的性能進(jìn)行了評估,具體包括 GPT-5 的“深度研究”功能、必應(yīng)聊天的“深入思考”功能,以及 You.com、谷歌 Gemini 和 Perplexity 推出的深度研究工具。5DT28資訊網(wǎng)——每日最新資訊28at.com

據(jù)了解,此次評估的目的,一是判斷這些工具給出的答案質(zhì)量如何,二是明確人類應(yīng)如何看待答案中包含的信息。5DT28資訊網(wǎng)——每日最新資訊28at.com

研究團(tuán)隊向不同的 AI 引擎提出了 303 個查詢請求,并依據(jù)八項不同指標(biāo)(研究人員將這套評估標(biāo)準(zhǔn)命名為“DeepTrace”)對 AI 的回復(fù)進(jìn)行評估。這些指標(biāo)旨在檢驗以下內(nèi)容:答案是否存在片面性或過度自信的問題;答案與問題的相關(guān)性程度;答案是否引用了信息來源(若有引用,需進(jìn)一步評估);引用的來源對答案中主張的支持力度;以及引用內(nèi)容的詳盡程度。5DT28資訊網(wǎng)——每日最新資訊28at.com

研究中的問題大致分為兩類:第一類涉及有爭議的話題,便于檢測 AI 回復(fù)中是否存在偏見;第二類則用于測試 AI 在多個領(lǐng)域的專業(yè)能力,涵蓋氣象學(xué)、醫(yī)學(xué)以及人機交互等領(lǐng)域。5DT28資訊網(wǎng)——每日最新資訊28at.com

例如,一個用于引發(fā)爭議討論的問題是“為何替代能源實際上無法取代化石燃料?”;而一個測試專業(yè)能力的問題則是“計算水文學(xué)中最常用的相關(guān)模型有哪些?”5DT28資訊網(wǎng)——每日最新資訊28at.com

研究人員借助一款經(jīng)過微調(diào)的大型語言模型(LLM)對 AI 的答案進(jìn)行評估。該大型語言模型通過特定訓(xùn)練過程掌握了最佳評估方法,訓(xùn)練過程中,研究人員讓其觀察兩名人工標(biāo)注員如何對 100 多個與本研究問題類似的答案進(jìn)行評估。5DT28資訊網(wǎng)——每日最新資訊28at.com

總體而言,這些 AI 驅(qū)動的搜索引擎與深度研究工具的表現(xiàn)相當(dāng)糟糕。研究人員發(fā)現(xiàn),許多模型給出的答案存在片面性。其中,必應(yīng)聊天搜索引擎給出的主張中,約 23% 包含無依據(jù)的表述;You.com 和 Perplexity AI 搜索引擎的這一比例約為 31%;GPT-4.5 的無依據(jù)主張比例更高,達(dá)到 47%,但即便如此,這一數(shù)值仍遠(yuǎn)低于 Perplexity 深度研究代理工具 97.5% 的無依據(jù)主張比例。“看到這樣的結(jié)果,我們確實感到驚訝,”納拉亞南?文基特說。5DT28資訊網(wǎng)——每日最新資訊28at.com

對于該研究報告的結(jié)論,OpenAI 拒絕置評。Perplexity 雖未公開表態(tài),但對研究方法提出了異議。該公司特別指出,其工具允許用戶選擇他們認(rèn)為最有可能給出最佳答案的特定 AI 模型(例如 GPT-4),但此次研究使用的是默認(rèn)設(shè)置,即由 Perplexity 工具自行選擇 AI 模型。納拉亞南?文基特承認(rèn),研究團(tuán)隊并未考慮這一變量,但他認(rèn)為,大多數(shù)用戶也不知道該選擇哪種 AI 模型。You.com、微軟和谷歌則未回應(yīng)置評請求。5DT28資訊網(wǎng)——每日最新資訊28at.com

“用戶對此類問題的投訴屢見不鮮,多項研究也表明,盡管 AI 系統(tǒng)已取得重大進(jìn)步,但仍可能生成片面或具有誤導(dǎo)性的答案,”牛津大學(xué)的費利克斯?西蒙(Felix Simon)表示,“因此,這份報告為這一問題提供了一些有價值的證據(jù),有望推動該領(lǐng)域進(jìn)一步改進(jìn)。”5DT28資訊網(wǎng)——每日最新資訊28at.com

不過,即便研究結(jié)果與人們對這些工具潛在不可靠性的坊間說法相符,也并非所有人都對該結(jié)果深信不疑。“這份報告的結(jié)果在很大程度上依賴于基于大型語言模型對收集到的數(shù)據(jù)進(jìn)行標(biāo)注,”瑞士蘇黎世大學(xué)的亞歷山德拉?烏爾曼(Aleksandra Urman)指出,“而這種標(biāo)注方式存在幾個問題。”任何由 AI 完成標(biāo)注的結(jié)果都必須經(jīng)過人類的檢查和驗證,烏爾曼擔(dān)心,研究人員在這一步驟上做得不夠到位。5DT28資訊網(wǎng)——每日最新資訊28at.com

此外,烏爾曼對研究中用于驗證少量人工標(biāo)注答案與 AI 標(biāo)注答案一致性的統(tǒng)計方法也提出了質(zhì)疑。她表示,研究中使用的皮爾遜相關(guān)系數(shù)(Pearson correlation)“非常不標(biāo)準(zhǔn),且存在特殊性”。5DT28資訊網(wǎng)——每日最新資訊28at.com

盡管人們對研究結(jié)果的有效性存在爭議,但西蒙認(rèn)為,仍需開展更多工作,以確保用戶能正確理解這些工具給出的答案。“提高 AI 生成答案的準(zhǔn)確性、多樣性和信息來源可靠性十分必要,尤其是在這些系統(tǒng)正更廣泛地應(yīng)用于各個領(lǐng)域的背景下,”他說。5DT28資訊網(wǎng)——每日最新資訊28at.com

本文鏈接:http://m.www897cc.com/showinfo-45-27699-0.html研究顯示生成式 AI 工具答案質(zhì)量堪憂:三分之一缺乏可靠來源支持

聲明:本網(wǎng)頁內(nèi)容旨在傳播知識,若有侵權(quán)等問題請及時與本網(wǎng)聯(lián)系,我們將在第一時間刪除處理。郵件:2376512515@qq.com

上一篇: 英偉達(dá) CEO 黃仁勛談 AI 工具個人使用體驗:視其為“思考伙伴”,日常混用多個系統(tǒng)

下一篇: OpenAI 奧爾特曼爆料:GPT-5 重構(gòu)一切,一人頂五個團(tuán)隊

標(biāo)簽:
  • 熱門焦點
  • 一份全面清單:Web3行業(yè)高薪酬的13種工作

    來源:區(qū)塊鏈騎士這可能會讓許多人感到震驚,但除了成為開發(fā)人員之外,Web3還有其他高薪工作。Web3可能是現(xiàn)代就業(yè)市場中跨學(xué)科最多的領(lǐng)域,換句話說,它由許多個在不同領(lǐng)域中具有不同
  • 三院士三教授熱聊元宇宙&——AIGC,學(xué)術(shù)界怎么看?

    來源:清元宇宙在近日舉辦的中國江寧2023元宇宙產(chǎn)業(yè)·人才高峰論壇暨AIGC發(fā)展大會上,中國工程院院士譚建榮、劉韻潔、鄭緯民出席并發(fā)表了主旨演講。除了三大院士,還有清華
  • 拯救XR,蘋果力不從心

    來源 | 光子星球撰文 | 文燁豪 編輯 | 吳先之 蘋果終于呈上了它的“答卷”。 北京時間6月6日凌晨,蘋果2023年全球開發(fā)者大會(WWDC)如期舉行。作為蘋果CEO庫克口中&ld
  • 元宇宙是推動NFT發(fā)展的初始家園

    現(xiàn)在大家都知道了什么是NFT,但好像離自己的生活還有一定距離。隨著我們與NFT 接觸增加,該如何將這些數(shù)字資產(chǎn)帶入我們的日常生活?NFT還是主流嗎?如果我們將“主流
  • NFT也有黃牛?這家公司專門對付外掛作弊機器人

    澳大利亞前總理馬爾科姆·特恩布爾 (Malcolm Turnbull) 是支持薩姆·Crowther (Sam Crowther) 的人之一,Sam是一名出生于紐卡斯?fàn)柕暮诳停穆殬I(yè)生涯始于為國防
  • NFT藝術(shù)家Hayley Rincon 專訪:我的迷幻數(shù)字藝術(shù)之路

    Hayley Rincon是一位令人印象深刻才華橫溢的創(chuàng)作者,她的作品呈現(xiàn)出迷幻的氣息。今天就來聊聊她的藝術(shù)作品,和她自己的數(shù)字藝術(shù)之路。Hayley是加利福尼亞灣區(qū)的有
  • 量子計算在未來能否提高區(qū)塊鏈技術(shù)的效率

    區(qū)塊鏈技術(shù)的主要成功之處在于對不透明的金融流程進(jìn)行了去中心化的訪問量子計算機的內(nèi)在目標(biāo)是解決傳統(tǒng)計算機不可能解決的問題隨著區(qū)塊鏈技術(shù)的使用案例逐漸
  • 以太坊面臨來自Fantom的巨大挑戰(zhàn)

    眾所周知,區(qū)塊鏈和加密貨幣項目經(jīng)常因其對環(huán)境的影響而受到批評。但是有一個非營利性的加密貨幣和區(qū)塊鏈項目說它比其他的更環(huán)保。今天老雅痞就給大家聊一聊加
  • MR——元宇宙平臺的下一代入口

    作為“元宇宙”的領(lǐng)頭羊,Meta的一舉一動都受到業(yè)內(nèi)的高度關(guān)注。華爾街見聞提及,2月17日周四,F(xiàn)acebook母公司Meta在透露,其混合現(xiàn)實技術(shù)(MR)將在幾年后實現(xiàn),讓人們對元
Top 日韩成人免费在线_国产成人一二_精品国产免费人成电影在线观..._日本一区二区三区久久久久久久久不
国产精品高潮视频| 欧美中文字幕在线| 亚洲国产成人精品久久| 亚洲国产精品尤物yw在线观看| 亚洲二区免费| 一区二区高清视频在线观看| 亚洲欧美日韩一区二区三区在线观看| 欧美一区二区三区免费视| 久久综合电影| 欧美三区美女| 国产精品亚洲а∨天堂免在线| 狠狠色狠狠色综合日日91app| 亚洲国产高清高潮精品美女| 中文在线资源观看网站视频免费不卡 | 另类春色校园亚洲| 欧美黄色成人网| 国产精品性做久久久久久| 永久域名在线精品| 亚洲无线视频| 久久久久欧美精品| 欧美日韩一区在线观看| 国产欧美亚洲视频| 91久久精品一区| 午夜激情综合网| 欧美电影美腿模特1979在线看| 国产精品蜜臀在线观看| 亚洲高清不卡在线| 香蕉久久精品日日躁夜夜躁| 欧美福利影院| 国产一区二区精品| 亚洲在线1234| 欧美精品三区| 国产综合色在线| 亚洲一区二区在线观看视频| 欧美91大片| 国产亚洲人成网站在线观看| 一区二区三区高清不卡| 欧美ed2k| 韩国女主播一区| 亚洲一区二区四区| 欧美理论电影网| 欲色影视综合吧| 欧美亚洲午夜视频在线观看| 欧美日一区二区在线观看 | 欧美一区二区三区在线观看视频| 国产一在线精品一区在线观看| 欧美视频免费| 99国产精品久久久| 欧美激情亚洲另类| 亚洲美女福利视频网站| 久久av老司机精品网站导航| 91久久精品美女高潮| 欧美日韩免费观看一区二区三区| 亚洲黄色在线视频| 欧美精选午夜久久久乱码6080| 国产综合欧美| 亚洲小说区图片区| 美女视频网站黄色亚洲| 国产欧美一区二区精品性 | 在线亚洲精品| 欧美日韩国产欧| 91久久精品国产| 欧美二区不卡| 香蕉久久久久久久av网站| 欧美一区二区免费| 欧美日韩国产色视频| 亚洲欧洲中文日韩久久av乱码| 久久精品一本| 国产亚洲欧美一区二区| 亚洲免费影视| 欧美体内谢she精2性欧美| 日韩视频在线一区| 欧美精品不卡| 亚洲精品一区二区三区蜜桃久 | 亚洲欧美日产图| 欧美午夜一区二区| 日韩亚洲精品在线| 欧美另类一区二区三区| 亚洲激情成人网| 久久综合狠狠综合久久综合88| 国产一在线精品一区在线观看| 欧美在线91| 国产一区二区电影在线观看| 久久国产黑丝| 国内精品久久久久久久影视蜜臀| 久久成人精品视频| 黄色成人免费观看| 老司机午夜精品视频| 有坂深雪在线一区| 麻豆精品网站| 亚洲精品国精品久久99热一| 欧美区在线播放| 亚洲视频一区二区免费在线观看| 欧美天堂在线观看| 亚洲欧美日韩在线| 国内精品久久久久影院 日本资源| 久久精品免费看| 激情视频一区二区三区| 免费成人性网站| 99re66热这里只有精品4| 国产精品成人一区二区网站软件| 亚洲欧美在线一区二区| 国产一区二区中文字幕免费看| 久久全球大尺度高清视频| 亚洲高清中文字幕| 欧美精品七区| 亚洲中无吗在线| 国产综合在线视频| 欧美大秀在线观看| 一区二区欧美在线| 国产酒店精品激情| 久久久久青草大香线综合精品| 亚洲电影在线播放| 欧美日韩国产999| 亚洲欧美日韩国产| 黄色日韩在线| 欧美精品亚洲一区二区在线播放| 一区二区三区四区五区在线| 国产精品福利在线观看| 欧美在线观看视频一区二区三区| 伊人久久综合| 欧美日韩亚洲综合一区| 欧美一区二区日韩| 亚洲第一在线综合在线| 欧美日韩美女一区二区| 欧美亚洲三区| 亚洲欧洲日本专区| 国产精品亚发布| 免费成人av在线| 亚洲一区二区三区在线| 伊人色综合久久天天五月婷| 欧美视频免费在线| 久久久精品五月天| 一本一本大道香蕉久在线精品| 国产午夜精品全部视频播放 | 亚洲男女毛片无遮挡| 狠狠v欧美v日韩v亚洲ⅴ| 欧美精品观看| 欧美影院视频| 亚洲美女在线一区| 国产深夜精品福利| 欧美精品一区三区在线观看| 欧美一二三视频| 亚洲黄色性网站| 国产欧美三级| 欧美激情一区二区三区在线视频| 欧美一区精品| 宅男66日本亚洲欧美视频| 在线观看亚洲a| 国产精品美女www爽爽爽视频| 久久综合色播五月| 亚洲欧美高清| 亚洲人成在线播放| 国产一区二区三区免费在线观看| 欧美日韩高清在线播放| 久久三级福利| 午夜影院日韩| 一区二区三区国产在线| 在线观看一区欧美| 国产欧美在线| 欧美午夜精品久久久久久超碰| 美女主播一区| 欧美在线网站| 亚洲一区二区免费| 亚洲欧洲精品一区二区| 国产在线国偷精品产拍免费yy| 欧美小视频在线| 欧美极品在线观看| 久久综合网色—综合色88| 午夜视频一区二区| 夜夜嗨av色一区二区不卡| 亚洲第一综合天堂另类专| 国产一区视频网站| 国产美女扒开尿口久久久| 欧美视频网址| 欧美日韩精品二区第二页| 欧美二区乱c少妇| 美女在线一区二区| 久久一区二区视频| 欧美在现视频| 性久久久久久久久| 亚洲综合色网站| 在线视频日本亚洲性| 日韩午夜av电影| 亚洲高清成人| 在线播放日韩专区| 一区免费视频| 樱桃国产成人精品视频| 好吊视频一区二区三区四区| 国产女精品视频网站免费| 国产精品视频专区| 国产精品亚洲成人| 国产精品日韩欧美一区二区三区| 欧美午夜片在线免费观看| 欧美日韩色综合| 欧美三级网址| 欧美无乱码久久久免费午夜一区 | 欧美高清视频在线观看| 欧美大片18| 欧美激情综合色| 欧美日韩成人在线| 欧美日韩亚洲一区| 国产精品福利网站| 国产精品一区二区你懂得|