近期,科技界傳來新動向,OpenAI與Anthropic兩大人工智能巨頭宣布了一項合作計劃。據悉,雙方將互相評估對方公開系統的安全對齊狀況,并公開分享評估結果。此次合作背景復雜,兩家公司在AI產品上各有千秋,但也暴露出一些不足,為未來的安全測試提供了新的思考方向。
在具體操作上,Anthropic對OpenAI的多款模型進行了深入評估,重點關注了它們在諂媚行為、告密傾向、自我保護機制、對人類濫用行為的支持,以及在破壞AI安全評估和監管方面的能力。評估結果顯示,OpenAI的o3和o4-mini模型的表現與Anthropic的模型相當,但GPT-4o和GPT-4.1這兩款通用模型存在被濫用的潛在風險。值得注意的是,除了o3模型外,其余參與測試的模型都或多或少表現出了諂媚行為。
此次評估并未涵蓋OpenAI最新發布的GPT-5。GPT-5配備了Safe Completions功能,旨在保護用戶和公眾免受有害查詢的影響。然而,OpenAI近期因一起涉及青少年自殺的事件而備受爭議。據報道,一名青少年在與ChatGPT進行了數月的自殺計劃討論后最終自殺,OpenAI因此面臨了首起不當死亡訴訟。
與此同時,OpenAI也對Anthropic的Claude模型進行了全面測試,測試內容涵蓋了指令層級、越獄能力、幻覺現象以及策劃能力。測試結果顯示,Claude在指令層級測試中表現出色,而在幻覺測試中,該模型在面臨不確定性可能導致回答錯誤的情況下,更傾向于拒絕提供答案,顯示出較高的謹慎性。
此次合作評估的背景頗為微妙。此前,OpenAI被指違反Anthropic的服務條款,在構建新GPT模型時未經授權使用了Claude模型,導致Anthropic本月初對OpenAI實施了工具使用禁令。在這樣的背景下,兩家公司能夠開展聯合評估,無疑引起了業界的廣泛關注。隨著越來越多的批評者和法律專家開始呼吁加強對AI工具,尤其是針對未成年人的保護,AI安全性的問題正日益凸顯。
舉報 0收藏 0打賞 0評論 0分享 0 更多>同類資訊巨人網絡上半年營收利潤雙增,計劃中期分紅2.84億08-28英偉達二季財報亮眼:營收467億美元,連續九季刷新紀錄08-282025百度云智大會啟幕:百舸千帆升級,AI數字員工"吳彥祖"等亮相08-28國產AI芯片領頭羊!寒武紀股價飆升,市值超6500億成A股新“股王”08-28寒武紀股價飆升近16%,力壓貴州茅臺,登頂A股“新貴之王”08-28
華為MateXTs與三星新機同日爭艷,9月科技圈再掀波瀾至于三星首款三折疊屏手機,可能會命名為三星Galaxy GFold,此番缺席9月4日的發布會,那么就可能會延期到年底、甚至明年才能和我們見面了。 三星Galaxy G Fold大戰華為MateXTs,9月…08-28科大訊飛2025上半年財報亮點:教育醫療業務強勁,研發投入持續加大在教育領域,智慧教育業務營收35.31億元,同比增長23.47%,占總營收比重提升至32.36%,其中AI學習機收入實現翻番增長,成為拉動教育業務的核心動力。 作為人工智能領域的重要力量,科大訊飛憑借自主可控…08-28OpenAI與Anthropic聯手測試AI安全,共筑行業安全防線08-28OpenAI回應青少年自殺事件:將推家長監控,升級技術干預危機08-28AI算力引領未來:IDC預測全球ICT市場五年將增至7.6萬億美元08-28英偉達財報亮眼:營收467億凈利潤264億,600億回購難阻股價盤后跌5%08-28科創AIETF(588790)日漲幅達3.02%,成交額突破17億,重倉股表現搶眼科創AIETF(588790)成立于2024年12月31日,基金全稱為博時上證科創板人工智能交易型開放式指數證券投資基金,基金簡稱為博時科創板人工智能ETF。 規模方面,截止8月26日,科創AIETF(58…08-28AI產業步入快車道,科創人工智能ETF鵬華(589090)今日上市引關注根據Wind數據顯示,截至2025年7月24日,科創人工智能指數成份股自由流通市值合計5451億元。此外,推理與訓練算力需求爆發拉動AI芯片市場規模擴張,隨著廠商加大研發及行業政策刺激,以寒武紀為代表的本土…08-28
A股新“股王”易主,寒武紀股價飆升,市值超6000億近期,高盛發布研報,進一步上調寒武紀目標價50%至1835元,主要原因包括中國云計算資本支出提高、芯片平臺多樣化、寒武紀研發投入增大等。 據TrendForce預測,2025年中國AI服務器市場中外采芯片比…08-28
機器人產業熱度攀升,機器人ETF易方達資金凈流入超十億國證機器人產業指數特點鮮明:1.指數人形機器人含量居首:指數中人形機器人相關公司權重顯著高于同類指數;2.指數聚焦高成長龍頭:前十大權重股占比約40%,涵蓋匯川技術、科大訊飛、石頭科技等細分領域龍頭,技術壁…08-28點擊查看更多 +全站最新
公募基金“限購潮”來襲,投資者如何理性應對布局?
法拍市場奇聞:從貍花貓到豪宅,荒誕與現實交織的財富游戲
北礦檢測市占率四年新低,退休返聘人員成簽發主力,訂單響應慢引客戶流失
老牌柴油機巨頭華豐股份上半年凈利大跌72%,印度市場受挫轉型尋新路
中海地產穩健前行:手握千億現金,加速核心城市布局
機構與散戶共舞,股市新推手顯現熱門內容
華為MateXTs與三星新機同日爭艷,9月科技圈再掀波瀾
A股新“股王”易主,寒武紀股價飆升,市值超6000億
機器人產業熱度攀升,機器人ETF易方達資金凈流入超十億
上海電信攜手上海AI實驗室,突破智算互聯瓶頸,榮獲算力中國年度大獎
小米官宣:28日15點發布澎湃OS3,Slogan“事事順心”,新功能搶先看
華為云Tokens服務升級,384超節點助力實現2400TPS高性能算力
本文鏈接:http://m.www897cc.com/showinfo-45-27099-0.htmlOpenAI與Anthropic互檢AI模型:GPT系列現諂媚傾向,Claude拒答高風險問題
聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。郵件:2376512515@qq.com