Skip to content

Passthrough iGPU to libvirt for server with IPMI

Published: at 03:39 PM

稍稍總結一下我為帶有 IPMI 的 Supermicro X13SAE-F 在穿透整個 Intel GPU (iGPU) 到 KVM 時遇到的種種困難。
我只講獨佔的 GVT-d 模式中受環境等影響而不標準的部分,對隨處可見的初級內容,或是可以讓主機和多虛擬機器共用 GVT-g / SR-IOV,都不是此文重點。

Table of contents

Open Table of contents

快速複習

「穿透」是讓虛擬機器直接利用主機的裝置,原因可能是為了提高效能,或是減少延遲等等…
在 KVM 下是依靠 VFIO - “Virtual Function I/O” 完成。

穿透一般裝置

如果有一個「普通」的 PCIe 裝置,要如何穿透到虛擬機器中呢?

  1. IOMMU 啟用:BIOS 設定無誤後,Intel 要特別加 intel_iommu=on 核心選項。
  2. 連接裝置到虛擬機器:在如 virt-manager 等虛擬機器設定中,加上硬體裝置。

不過,這樣的過程對顯示卡就不一定夠用了。例如還要提前加載 vfio-pci,甚至舊版 NVIDIA 會需要避免被檢測為虛擬環境等等。

GVT-d vs GVT-g

在虛擬機器使用 Intel iGPU 的兩種方式。

From Laptop GPU for Host use in PCI OVMF pass thru? + confusion re using iGPU : r/VFIO:

On Intel iGPUs, there are two methods: GVT-g and GVT-d. GVT-g is basically creating virtual instances of the iGPU for use in VMs, while GVT-d is passing through an entire iGPU to the guest in the same way you would do with a normal GPU.

However, GVT-g isn’t going to work smooth in all PCs/setups. It depends on things like the CPU power, the RAM speed…

UPT vs legacy

在 GVT-d 下又分為兩種模式

Legacy 模式雖然龜毛到要求一堆(後文會講),但是如果穿透顯卡的目的就是提供如主機一般的顯示效果,就還是值得一試。甚至因為 UPT 在我這邊會花掉,legacy 是唯一穩定的解法。

BIOS 設定

有 BMC 顯示卡時,可能需要啟用內顯並主顯示卡

此情形會發生在我使用的 Supermicro X13SAE-F 中。
在有 BMC 顯示卡時,Intel GPU 不會啟用。這時,需要在 BIOS 的 Chipset Configuration > Graphics Configuration 之下設定以下內容:

  1. Internal GraphicsEnabled
  2. Primary Display 設定為 IGFX。即使不準備將 IGFX 作為 Primary Display 也需要如此。

在只啟用 iGPU 而不設定 Primary Display 時,使用 lspci 可以觀察到裝置的類別 (class) 是 Display controller [0380] 而不是 VGA compatible controller [0300]

Terminal window
$ lspci -s 00:02.0 -vvv -nn
00:02.0 Display controller [0380]: Intel Corporation Raptor Lake-S GT1 [UHD Graphics 770] [8086:a780] (rev 04)

此時,無論使用何種 libvirt 組態,雖然可以在 Linux guest 中顯示內容,但是在 Windows guest 下,始終會在裝置管理員 (devmgmt.msc) 看到 錯誤 43

這很可能是因為找不到 OpRegion。此種情形,在設定了 x-igd-opregion=true 後,可以在 libvirtd 的日誌找到如下 error:

2024-05-03T05:49:40.999151Z qemu-system-x86_64: -device {"driver":"vfio-pci","host":"0000:00:02.0","id":"hostdev0","bus":"pci.0","addr":"0xb","x-igd-gms":8,"x-pci-class-code":196608,"x-igd-opregion":true}: vfio 0000:00:02.0: does not support requested IGD OpRegion feature: No such device

為什麼?我不是已經啟用 x-igd-opregion 了嗎?

這裡的 OpRegion 是 BIOS 功能,雖然在 Linux 下可選,但是使用 Windows 時,OpRegion 對 GVT-d 是必要的。 而在同時有 BMC 或其他顯示卡的情形下,BIOS 可能不會為 iGPU 加載 OpRegion,在之後的失敗紀錄部分,有相關內容的引用。

正確設定後,會變成 VGA 這樣:

Terminal window
$ lspci -s 00:02.0 -nn
00:02.0 VGA compatible controller [0300]: Intel Corporation Raptor Lake-S GT1 [UHD Graphics 770] [8086:a780] (rev 04)

要注意的是,判斷 OpRegion 是否成功不能只依靠 lspci 的輸出是否為 VGA,而 x-idg-opregi on 選項也沒有做對顯示卡必須在 VGA 模式下工作的檢查。

作業系統設定

作業系統核心模組與引導選項

大致上這樣就可以了…

{ config, pkgs, lib, ... }:
{
# https://gist.github.com/techhazard/1be07805081a4d7a51c527e452b87b26
# CHANGE: intel_iommu enables iommu for intel CPUs with VT-d
# use amd_iommu if you have an AMD CPU with AMD-Vi
boot.kernelParams = [
# prevents the IPMI VGA disconnecting
# https://forums.unraid.net/topic/76529-notes-about-supermicro-x11sca-f/page/2/
"i915.disable_display=1"
# avoid guest BSOD-ing
# https://gist.github.com/mikroskeem/fdbbbd35d7273aa77ba9ebc11e7b8e5d
"kvm.ignore_msrs=1"
# prevents Linux from touching devices which cannot be passed through
"iommu=pt"
# required for Intel IOMMU
"intel_iommu=on"
# https://astrid.tech/2022/09/22/0/nixos-gpu-vfio/
("vfio-pci.ids=" + lib.concatStringsSep "," ["8086:a780"])
];
boot.kernelModules = [
"kvm_intel"
"vfio_pci"
"vfio"
"vfio_iommu_type1"
"vfio_virqfd"
];
}

其中

虛擬機器環境和組態

使用 i440FX 而不是 Q35,即使是 UEFI 也一樣

00:1f.0 被佔用了,除非改 code 否則 Q35 就是不可能。參照 [Qemu-devel] [RFC PATCH v5 0/7] vfio IGD assignment

What about OVMF/Q35?

The VGA ROM is a critical component of IGD legacy mode, but IME the ROM is only a legacy ROM without UEFI support. Therefore I expect it would only be compatible with OVMF when run with a CSM, which is not our default. OpRegion support is certainly something we can investigate with OVMF for UPT+OpRegion mode on an OVMF VM.

Q35 is unfortunately incompatible with legacy mode because in most configurations it already places an LPC/ISA bridge at address 00:1f.0 in the VM. We can’t very well modify that PCI device to report itself as the host LPC bridge since the feature set of the Q35 bridge may be different. Again, UPT mode is the solution here. Legacy mode will not fail due to a Q35 machine type, but will fail if address 00:1f.0 is populated with anything other than a vfio-pci-igd-lpc-bridge device.

同時,用 Q35 初期化的虛擬機器需要一些修改才能改為用 i440FX,而且反過來不一定能成功

虛擬機器遠端連線

因為等一下會沒有圖形化主控台可以看,先設定一些備用方式。

啟用遠端桌面連線

Enable Remote Desktop on your PC | Microsoft Learn

按上文內容在遠端桌面的設定畫面點兩下就好了。

安裝 OpenSSH Server

Get started with OpenSSH for Windows | Microsoft Learn

按上文內容裝就可以了。只是設定時要留意管理者的 administrator keys%PROGRAMDATA%\ssh\administrators_authorized_keys 下。

啟用 EMS 以使用 Serial Console

Windows serial console - Server Fault

在沒有虛擬控制台後,除錯會變得有些不方便。這時,可以啟用 Windows 的 Emergency Management Services (EMS) 功能。

在安裝名為 Windows 緊急管理服務和序列控制台 (EMS and SAC Toolset) 的選用功能後,執行

Terminal window
bcdedit /bootems "{default}" ON
bcdedit /emssettings EMSPORT:1 EMSBAUDRATE:115200

就可以了。之後在 libvirt 加入串列埠,就可以從 libvirt 的序列控制台控制虛擬機器。

使用 Legacy Passthrough 模式的 libvirt XML

注意這裡不是說 UEFI 啟動,而是和 UPT 區別的 legacy。

Legacy passthrough 需要滿足的條件,可以參照qemu/docs/igd-assign.txt,而對應的 code 在 qemu/hw/vfio/igd.c。需要注意的除了使用 Q35 和 UEFI 外,還有就是一定要讓裝置出現在 00:02.0 了。

以下是一些可能會有用的設定,無關內容已經省略。

<domain xmlns:qemu="http://libvirt.org/schemas/domain/qemu/1.0" type="kvm">
<cpu mode="host-passthrough" check="none" migratable="on"/>
<features>
<hyperv mode="custom">
<relaxed state="on"/>
<vapic state="on"/>
<spinlocks state="on" retries="8191"/>
<vpindex state="on"/>
<synic state="on"/>
<stimer state="on"/>
<reset state="on"/>
<vendor_id state="on" value="1234567890ab"/>
</hyperv>
<kvm>
<hidden state="on"/>
</kvm>
<vmport state="off"/>
<ioapic driver="kvm"/>
</features>
<devices>
<hostdev mode="subsystem" type="pci" managed="yes">
<source>
<address domain="0x0000" bus="0x00" slot="0x02" function="0x0"/>
</source>
<rom bar="on" file="/opt/igd/igd_rpls.rom"/>
<address type="pci" domain="0x0000" bus="0x00" slot="0x02" function="0x0"/>
</hostdev>
<video>
<model type="none"/>
</video>
</devices>
<qemu:override>
<qemu:device alias="hostdev0">
<qemu:frontend>
<qemu:property name="x-igd-gms" type="unsigned" value="8"/>
<qemu:property name="x-igd-opregion" type="bool" value="true"/>
</qemu:frontend>
</qemu:device>
</qemu:override>
</domain>

以上內容中的 igd_rpls.rom 是從 gangqizai/igd 下載來的,文末也有自己 dump OpRegion 的方式。

qemu:override 的部分用來追加不能直接從 xml 設定的選項。

至於要判斷 legacy 模式有沒有生效,可以透過 libvirtd.service記錄確認。

問題解決

綜合

核心記錄 Unable to change power state from D3cold to D0, device inaccessible

From pci Unable to change power state from D3cold to D0 / Newbie Corner / Arch Linux Forums:

I discovered a workaround rather than a definitive solution. By including the parameter pcie_port_pm=off in the boot arguments, I was able to address the issue I was having similar to yours.

移除 Windows 裡的 Intel GPU 驅動

使用 https://www.intel.com/content/www/us/en/support/articles/000091878.html。 有看到用舊版本驅動可以解決 Code 43 的說法,但我未能成功。

失敗紀錄

「欺騙」PCI 裝置的 class id

我一開始以為,只要想辦法把我的 iGPU 的 PCI device id 偽裝成 PCI_CLASS_DISPLAY_VGA 也就是 0x3000 就可以出現 OpRegion 了。

欺騙方法是需要參照 [vfio-users] How to spoof device (sub)class ID for passthrough devices? 的 patch,對方大概是想做和我相似的事情,不過他是 NVIDIA 的顯示卡,有問題的 PCI class 是 0302 (3D controller) 而不是我的 0380 (display other):

Spoof the PCI sub vendor and sub device id, or patch the VBIOS to have these match my own card. Spoof the PCI device class, changing it from 0302 (3D controller, i.e. muxless card) to 0300 (VGA device).

在使用該 patch 建置後,在 libvirt XML 中加入

<domain>
<qemu:override>
<qemu:device alias="hostdev0">
<qemu:frontend>
...
<qemu:property name="x-pci-class-code" type="unsigned" value="196608"/>
</qemu:frontend>
</qemu:device>
</qemu:override>
</domain>

就可以了,這裡需要的值是 the base class and prog if,如我們的 1966080x030000,對應 base class 0x03000 對應 Display Controller - VGA Compatible Controller - VGA Controller。

不過就算用 Linux Live CD 確認偽裝成功了,事實證明還是會繼續 code 43,沒用。

至於失敗原因,就是 option ROM 根本沒有完成初期化,像 Are modern GPUs compatible with old school VGA memory locations? : r/osdev 中說的:

Most (all?) modern graphics cards still are VGA-compatible at the hardware level. And most (all?) of them also have a video BIOS with all the mode setting calls required for VGA and VESA compatibility, but if you boot from EFI, the video BIOS might not be initialized (some motherboards have a setting to initialize or not initialize “option ROMs” when booting in EFI mode, so make sure that’s turned on if you intend to boot from EFI).

對 Intel 內建 GPU 的場合,來自 linux-pci 郵寄清單的 Re: [PATCH 2/6] PCI/VGA: Deal with PCI VGA compatible devices only - Sui Jingfeng 講述就更直白了:

Yes, there do exist some PCI NON VGA-compatible display controllers, Strictly speaking, there are not VGA-compatible in the sense that they don’t respond the fixed legacy VGA aperture. Such a display controller also don’t cares about the extension ROM (option ROM). Loongson display controllers are one of the various examples.

Besides, Intel integrate GPU is capable switch to NON VGA-compatible. Especially in a multiple GPU co-exist hardware environment. Old BIOS of Intel platform will change its class code from 0x0300 to 0x0380. Newer BIOS do allow us to choose which one should be the primary GPU, but if a user don’t choose the Intel integrate GPU as primary, the BIOS still will alter its PCI class code from 0x0300 to 0x0380.

只欺騙 PCI class id 的話,對以上問題是完全沒有幫助的。

參考文獻

QEMU IGD References

Intel GOP and UEFI References

Platform GOP Policy 來自 projectacrn/acrn-edk2#10。相似的 Code 也出現在 tianocore/edk2-platforms 的 edk2-platforms/Platform/Intel/Vlv2TbltDevicePkg/PlatformGopPolicy/PlatformGopPolicy.c,不過好像 NixOS 預設的 edk2 裡是沒有的。

直接從 UEFI Shell 下取得或測試 GOP 的方法可以看

如果需要自己 dump OpRegion,可以參考 Qemu FwCFG Workaround · patmagauran/i915ovmfPkg Wiki,但看起來應該先懷疑其他問題。順便一說,這個專案似乎可以為 iGPU 提供開源的,在啟動階段就能夠使用的 OpRegion,可惜是不再更新了。

還有一個概念是 Video BIOS Table (VBT)