快科技9月7日消息,據報道,NVIDIA的RTX 5090和RTX PRO 6000顯卡近被發現存在一個可復現的虛擬化重置漏洞,該漏洞會導致顯卡完全無響應,直到主機系統物理重啟才能恢復。
CloudRift是一家GPU云服務提供商,他們在生產環境中多個配備Blackwell芯片的系統上遇到了這個問題后,詳細公布了問題的分析報告,并懸賞1000美元,公開征集能夠找到解決方案或根本原因的人。

根據CloudRift的日志,這個漏洞發生在GPU通過KVM和VFIO傳遞給虛擬機后。在虛擬機關閉或GPU重新分配時,主機系統會發出一個PCIe功能級重置(FLR)。
但與正常情況不同的是,GPU并沒有恢復到良好狀態,而是停止響應,內核報告稱:“FLR后65535毫秒仍未就緒;放棄。”
此時,顯卡也變得無法被lspci讀取,lspci會拋出“未知頭部類型7f”的錯誤,CloudRift指出,唯一恢復正常操作的方法是對整個機器進行斷電重啟。
AI初創公司Tiny Corp也復現了CloudRift的發現,并直接提出了一個問題:“RTX 5090和RTX PRO 6000是否有硬件缺陷?我們已經調查過,但找不到解決方案。”
社區的討論中,許多家庭用戶和其他RTX 5090的早期采用者也報告了類似的問題,一位用戶表示在關閉Windows虛擬機后,整個主機系統掛起,即使操作系統級別的重啟后,GPU也無法重新初始化。
用戶證實,切換PCIe ASPM或ACS設置并不能緩解故障,目前還沒有報告稱舊型號顯卡(如RTX 4090)存在類似問題,這表明該漏洞可能僅限于NVIDIA的Blackwell系列。

本文鏈接:http://m.www897cc.com/showinfo-24-181054-0.htmlRTX 5090遇詭異Bug完全無響應!懸賞1000美元尋解決方案
聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。郵件:2376512515@qq.com