vGPU を搭載した仮想マシンのパワーオンに失敗する
search cancel

vGPU を搭載した仮想マシンのパワーオンに失敗する

book

Article ID: 417651

calendar_today

Updated On:

Products

VMware vSphere ESXi

Issue/Introduction

以下のエラーメッセージが表示され、仮想マシンのパワーオンタスクに失敗する。
「 親リソース プールで使用可能なグラフィック リソース量が、この操作に対して不足しています。 仮想マシンの起動に失敗しました。 モジュール「DevicePowerOnEarly」のパワーオンに失敗しました。 vGPU「nvidia_l40s-24q」で利用できるグラフィック デバイスはありません」

vpxd.log に以下が記録される。
-----
YYYY-MM-DDTHH:MM:SS. error vpxd[3121139] [Originator@6876 sub=VmProv opID=XXXXX] Get exception while executing
action vpx.vmprov.PowerOnVm:
--> (vim.fault.InsufficientGraphicsResourcesFault) {
-->    faultMessage = (vmodl.LocalizableMessage) [
-->       (vmodl.LocalizableMessage) {
-->          key = "msg.vmx.plugin.vmiop.vgpu.not.avail",
-->          arg = (vmodl.KeyAnyValue) [
-->             (vmodl.KeyAnyValue) {
-->                key = "1",
-->                value = "nvidia_l40s-24q"
-->             }
-->          ],
-->          message = "No graphics device is available for vGPU 'nvidia_l40s-24q'."
-->       },
-->       (vmodl.LocalizableMessage) {
-->          key = "msg.moduletable.powerOnFailed",
-->          arg = (vmodl.KeyAnyValue) [
-->             (vmodl.KeyAnyValue) {
-->                key = "1",
-->                value = "DevicePowerOnEarly"
-->             }
-->          ],
-->          message = "Module 'DevicePowerOnEarly' power on failed. "
-->       },
-----



nvidia-smi コマンドの実行結果に、「 GPU requires reset 」が表示される。

#nvidia-smi -q
------
GPU 00000000:82:00.0
    Product Name                          : NVIDIA L40S
    Product Brand                         : NVIDIA
    Product Architecture                  : Ada Lovelace
    Display Mode                          : Enabled
    Display Active                        : Disabled
    Persistence Mode                      : Enabled
:::
    MIG Mode
        Current                           : GPU requires reset <<<
        Pending                           : GPU requires reset <<<
:::        
    GPU UUID                              : GPU requires reset <<<
------

Environment

ESXi 8.0

Resolution

仮想マシンのパワーオンの失敗は GPU デバイスに起因しています。
"GPU requires reset" が表示されている状態に関しては、NVIDIA 社による調査が必要です。