9 月 8 日消息,GPU 計算云服務提供商 CloudRift 在上個月發布公告,GeForce RTX 5090 和 RTX PRO 6000 已被證實存在可復現的虛擬化故障,導致顯卡無法使用,直到整個系統重新上電,將懸賞 1000 美元(注:現匯率約合 7128 元人民幣)解決這個問題。

CloudRift 表示,在一些配備 RTX 5090 和 RTX PRO 6000 顯卡的節點上,這些顯卡偶爾會完全無響應 —— 通常在使用虛擬機幾天后,或在啟動 / 關閉過程中看似隨機的時間點。一旦發生這種情況,顯卡就無法重新分配。唯一的解決辦法是重啟整個節點。
CloudRift 已經排除了大多數常見問題:IOMMU 的 quirks、內核版本、驅動綁定以及 libvirt 的配置錯誤。該公司的 H100s、B200s 和較舊的 RTX 4090 都在運行穩定,但這些較新的 RTX 顯卡給他們帶來了大麻煩。
據 Tom's Hardware 昨日報道,Proxmox 論壇和 Level1Techs 上的用戶也報告了類似的問題。在其中一個案例中,Windows 虛擬機關閉后系統掛起,即使操作系統重啟后 GPU 也無法重新初始化。另一位用戶描述了 Linux 虛擬機關閉時 FLR 超時后主機 CPU 軟鎖,切換 PCIe ASPM 或 ACS 設置等嘗試未能解決問題。
CloudRift 正提供 1000 美元(現匯率約合 7128 元人民幣)的懸賞,用于確認的緩解措施或修復方案。如果找不到直接修復方法,獎勵將給予任何幫助揭示根本原因或提供可復現測試的人。
目前,英偉達尚未就重置故障發表任何聲明,該故障似乎僅限于基于 Blackwell 的顯卡。一位受影響的用戶表示,英偉達已經意識到這個問題,并且能夠復現它。
本文鏈接:http://m.www897cc.com/showinfo-24-181026-0.html英偉達 RTX 5090 和 RTX PRO 6000 顯卡被曝虛擬化故障,云服務商懸賞 1000 美元解決問題
聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。郵件:2376512515@qq.com