Nvidia Grid vGPU の仮想マシンが Xid エラーに遭遇し、移行が 68% でスタックし "移行データの待機中にタイム アウトになりました。 " により失敗する
search cancel

Nvidia Grid vGPU の仮想マシンが Xid エラーに遭遇し、移行が 68% でスタックし "移行データの待機中にタイム アウトになりました。 " により失敗する

book

Article ID: 424564

calendar_today

Updated On:

Products

VMware vSphere ESXi

Issue/Introduction

Nvidia Grid vGPU を使用している仮想マシンで断続的に vMotion による移行が失敗します。移行が失敗する際には vMotion タスクが 68% でスタックし、最終的に "移行データの待機中にタイム アウトになりました。 " により失敗します。

vmware.log から、nvidia デバイスの pciPassthru が checkpoint の保存に失敗する事が確認できます。

YYYY-MM-DDThh:mm:ss.###Z No(00) vcpu-0 - CheckpointTiming save: pciPassthru0 took 121238511 us
YYYY-MM-DDThh:mm:ss.###Z In(05) vcpu-0 - CPT: error saving group pciPassthru0, 0
YYYY-MM-DDThh:mm:ss.###Z In(05) vcpu-0 - Progress 0% (none)
YYYY-MM-DDThh:mm:ss.###Z In(05) vcpu-0 - Progress 101% (none)
YYYY-MM-DDThh:mm:ss.###Z In(05) vcpu-0 - DUMPER: Ending save. Expected 71 groups, but got 45.
YYYY-MM-DDThh:mm:ss.###Z In(05) vcpu-0 - MigrateWriteHostLog: Writing to log file took 3547 us.
YYYY-MM-DDThh:mm:ss.###Z In(05) vcpu-0 - MigrateSetStateFinished: type=1 new state=MIGRATE_TO_VMX_FINISHED
YYYY-MM-DDThh:mm:ss.###Z In(05) vcpu-0 - MigrateSetState: Transitioning from state MIGRATE_TO_VMX_CHECKPT (4) to MIGRATE_TO_VMX_FINISHED (6).
YYYY-MM-DDThh:mm:ss.###Z No(00) vcpu-0 - ConfigDB: Setting config.readOnly = "FALSE"
YYYY-MM-DDThh:mm:ss.###Z In(05) vcpu-0 - Migrate_SetFailureMsgList: switching to new log file.
YYYY-MM-DDThh:mm:ss.###Z In(05) vcpu-0 - Migrate_SetFailureMsgList: Now in new log file.
YYYY-MM-DDThh:mm:ss.###Z In(05) vcpu-0 - Migrate: Caching migration error message list:
YYYY-MM-DDThh:mm:ss.###Z In(05) vcpu-0 - [msg.vmx.plugin.vmiop.migrate.get.checkpoint.buffer.failed] Failed to get device checkpoint buffer.
YYYY-MM-DDThh:mm:ss.###Z In(05) vcpu-0 - [msg.checkpoint.migration.writefail] Failed to write checkpoint data (offset 472195, size 6375): Failed to resume virtual machine.
YYYY-MM-DDThh:mm:ss.###Z In(05) vcpu-0 - Msg_Post: Error
YYYY-MM-DDThh:mm:ss.###Z In(05) vcpu-0 - [msg.checkpoint.migration.writefail] Failed to write checkpoint data (offset 472195, size 6375): Failed to resume virtual machine.
YYYY-MM-DDThh:mm:ss.###Z In(05) vcpu-0 - [msg.vmx.plugin.vmiop.migrate.get.checkpoint.buffer.failed] Failed to get device checkpoint buffer.

vmkernel.log からは、Nvida デバイスからの Xid エラーが確認できます。

YYYY-MM-DDThh:mm:ss.###Z In(182) vmkernel: cpu3:2098990)NVRM: Xid (PCI:0000:3f:00): XX

Environment

VMware vSphere ESXi

Cause

これは NVIDIA デバイスの問題と ESXi の不具合が組み合わさった複合的な問題ですです。ESXi は vMotion 中に発生した NVIDIA Xid エラーを正常に処理できず、最終的に移行が失敗します。ただし、NVIDIA デバイス自体が Xid エラーを発生させる状況はそれ自体が問題であり、ハードウェア観点で調査が必要です。

Resolution

[Cause] セクションに記載のESXiの不具合に対する修正は、ESXi 8.0 U3h以降で適用されます。

また、Xidエラーの原因調査については、NVIDIA 製品観点で別途対応頂くことが推奨されます。

Additional Information

VMs using Nvidia Grid vGPU hitting Xids and failing to migrate at 68% with an error "Timed out waiting for migration data"