NVIDIA vGPU が割り当てられた仮想マシンの vMotion または Storage vMotion がタイムアウトで失敗する
search cancel

NVIDIA vGPU が割り当てられた仮想マシンの vMotion または Storage vMotion がタイムアウトで失敗する

book

Article ID: 439450

calendar_today

Updated On:

Products

VMware vSphere ESXi

Issue/Introduction

免責事項:これは英文の記事「vMotion or Storage vMotion of a Virtual Machine Assigned with NVIDIA vGPU Fails with a Timeout (439447)」の日本語訳です。記事はベストエフォートで翻訳を進めているため、ローカライズ化コンテンツは最新情報ではない可能性があります。最新情報は英語版の記事で参照してください。


  • NVIDIA vGPU プロファイルが割り当てられた仮想マシンにおいて、vMotion または Storage vMotion を実行すると、処理が進行した後にタスクがタイムアウトで失敗することがあります。

  • 対象仮想マシンの vmware.log を確認すると、移行タスクの Stop and Copy フェーズにおいて、以下のようなメッセージが出力されます。

Er(02) vcpu-x - vmiop_log: (0x0): Copy sysmem tracking failed, 0x7
Er(02) vcpu-x - vmiop_log: (0x0): CPU RPC async recv response failed: 0x7
Er(02) vcpu-x - vmiop_log: (0x0): Recv MIGRATION Stop and Copy RPC response failed, 0x7
Er(02) vcpu-x - vmiop_log: (0x0): stop and copy failed

Note: 上記のメッセージの他に以下のメッセージが出力されていることもあります。

Er(02) vthread-xxxxxxx - vmiop_log: (0x0): GSP plugin task crashed. VM shutdown is required.

Environment

VMware vSphere ESXi

Cause

vMotion または Storage vMotion の移行フェーズにおいて NVIDIA GSP プラグインが正常に機能していないことで、vmiop モジュールを介したフレーム バッファおよびメモリ状態の継続的な同期を行うことができず、Stop and Copy フェーズでタイム アウトとなり、vMotion または Storage vMotion のタスクが失敗します。

Note: コールド移行(パワーオフ状態での移行)では vmiop によるメモリ トラッキングが要求されないため、本事象は発生しません。

Resolution

この問題は、NVIDIA 社が提供する vGPU モジュールの動作に起因するため、vSphere 側の設定変更による恒久的な解決策はありません。
継続して本事象が発生している場合は、NVIDIA サポートへお問い合わせください。