NVIDIA PCIe GPU を PCI パススルー デバイスとして構成した VM の起動時に ESXi ホストで PSOD が発生する
search cancel

NVIDIA PCIe GPU を PCI パススルー デバイスとして構成した VM の起動時に ESXi ホストで PSOD が発生する

book

Article ID: 424739

calendar_today

Updated On:

Products

VMware vSphere ESXi

Issue/Introduction

免責事項: これは英文の記事 「ESXi host fails with PSOD when starting a VM configured with an NVIDIA PCIe GPU as a PCI Pass-Through device (424738)」の日本語訳です。記事はベストエフォートで翻訳を進めているため、ローカライズ化コンテンツは最新情報ではない可能性があります。最新情報は英語版の記事で参照してください。

  • 仮想マシンの電源がオンになった直後に、ESXi ホストで紫色の診断画面 (PSOD) が表示されます。
  • 仮想マシンは、PCI パススルー デバイスとして NVIDIA PCIe GPU で構成されています。
  • /var/run/log/LogEFI.log のログには、nvidia カーネル モジュール内でページ フォールト (例外 14) が発生したことが示されています。
    XXXX-XX-XXTXX:XX:XX.XXXZ In(14) LogEFI: cpu61:40457370)ESC[45mESC[33;1mVMware ESXi 8.0.3 [Releasebuild-24022510 x86_64]ESC[0m
    XXXX-XX-XXTXX:XX:XX.XXXZ In(14) LogEFI[2099381]: #PF Exception 14 in world 40457370:vmx IP 0x42001e14266b addr 0x9f
    XXXX-XX-XXTXX:XX:XX.XXXZ In(14) LogEFI[2099381]: PTEs:0xaed5bdc027;0xae709ba027;0x0;
    XXXX-XX-XXTXX:XX:XX.XXXZ In(14) LogEFI[2099381]:
    XXXX-XX-XXTXX:XX:XX.XXXZ In(14) LogEFI[2099381]: Module(s) involved in panic: [nvidia 570.158.02 (External)]
    :::
    XXXX-XX-XXTXX:XX:XX.XXXZ In(14) LogEFI: cpu61:40457370)Code start: 0x42001ce00000 VMK uptime: 165:03:53:09.926
    XXXX-XX-XXTXX:XX:XX.XXXZ In(14) LogEFI: cpu61:40457370)0x453b0f29aee0:[0x42001e14266b]_nv040484rm@(nvidia)#<None>+0x14b stack: 0x1
    XXXX-XX-XXTXX:XX:XX.XXXZ In(14) LogEFI: cpu61:40457370)base fs=0x0 gs=0x42004f400000 Kgs=0x0
  • クラッシュの直前、PCI パススルーデバイスが構成された仮想マシンのパワーオン処理が実施されました。

Environment

VMware vSphere ESXi

Cause

この PSOD は、ESXi ホストにインストールされている NVIDIA ドライバーカーネルモジュールによって引き起こされます。
バックトレースは _nv040484rm@(nvidia) が障害が発生した際に実行されていた関数であることが示されています。
エラー #PF Exception 14 はドライバーが無効なメモリアドレス (addr 0x9f) にアクセスしようとしたことを示しています。

Resolution

この問題を解決するために、以下のアクションプランを検討してください。

  • 互換性の確認
    インストールされている NVIDIA ドライバーのバージョンが、使用している特定の ESXi バージョンおよびサーバーハードウェアと互換性があることを確認してください。
    Broadcom 互換性ガイド」および NVIDIA 社提供の vGPU ソフトウェアのリリースノートを参照してください。

  • GPU ドライバーとファームウェアの更新
    この特定の PSOD に対処する新しいバージョンの NVIDIA ドライバーが提供されていないか確認してください。

  • ハードウェア診断の実行
    物理的な障害が起きている可能性を除外するため、GPU デバイスのハードウェア診断を実行してください。
    必要に応じて、診断の実施についてハードウェアベンダーにお問い合わせください。

上記対応策を実施しても事象が再現する場合は、vm-support ログバンドルを収集し、Broadcom Support とハードウェアベンダサポートにお問い合わせください。