ESXi ホストが HP ProLiant Gen8 サーバでの断続的な NMI パープル スクリーンで失敗する
search cancel

ESXi ホストが HP ProLiant Gen8 サーバでの断続的な NMI パープル スクリーンで失敗する

book

Article ID: 340040

calendar_today

Updated On:

Products

VMware vSphere ESXi

Issue/Introduction

  • 5.5 p10、5.5 ep11、6.0 p04、6.0 U3、6.5 GA のいずれかを実行している ESXi ホストでは、HPE ProLiant Gen8 サーバのマスク不可割り込み (NMI) が原因でパープル スクリーンが表示され、障害が発生する場合がある。
  • NMI(マスク不可)または LINT1 割り込みが記録される、次のような断続的なパープル スクリーンが表示される。

    2017-04-29T08:12:14.617Z cpu0:33074)@BlueScreen: LINT1/NMI (motherboard nonmaskable interrupt), undiagnosed. This may be a hardware problem; please contact your hardware vendor.
    2017-04-29T08:12:14.617Z cpu0:33074)Code start: 0x41800d200000 VMK uptime: 1:10:11:25.236
    2017-04-29T08:12:14.618Z cpu0:33074)0x4390c991b1b0:[0x41800d2780da]PanicvPanicInt@vmkernel#nover+0x37e stack: 0x4390c991b248
    2017-04-29T08:12:14.618Z cpu0:33074)0x4390c991b240:[0x41800d2783a5]Panic_NoSave@vmkernel#nover+0x4d stack: 0x4390c991b2a0
    2017-04-29T08:12:14.619Z cpu0:33074)0x4390c991b2a0:[0x41800d274373]NMICheckLint1Bottom@vmkernel#nover+0x53 stack: 0x4390c991b370
    2017-04-29T08:12:14.619Z cpu0:33074)0x4390c991b2b0:[0x41800d23307e]BH_DrainAndDisableInterrupts@vmkernel#nover+0xe2 stack: 0x0
    2017-04-29T08:12:14.620Z cpu0:33074)0x4390c991b340:[0x41800d256e22]IDT_IntrHandler@vmkernel#nover+0x1c6 stack: 0x0
    2017-04-29T08:12:14.620Z cpu0:33074)0x4390c991b370:[0x41800d2c8044]gate_entry_@vmkernel#nover+0x0 stack: 0x0
    2017-04-29T08:12:14.620Z cpu0:33074)0x4390c991b430:[0x41800d5048aa]Power_HaltPCPU@vmkernel#nover+0x1ee stack: 0x417fcd483f20
    2017-04-29T08:12:14.621Z cpu0:33074)0x4390c991b480:[0x41800d411c48]CpuSchedIdleLoopInt@vmkernel#nover+0x2f8 stack: 0x117308c314611
    2017-04-29T08:12:14.621Z cpu0:33074)0x4390c991b500:[0x41800d4153a3]CpuSchedDispatch@vmkernel#nover+0x16b3 stack: 0x4394002a7100
    2017-04-29T08:12:14.622Z cpu0:33074)0x4390c991b620:[0x41800d415f68]CpuSchedWait@vmkernel#nover+0x240 stack: 0x0
    2017-04-29T08:12:14.622Z cpu0:33074)0x4390c991b6a0:[0x41800d4162a5]CpuSchedTimedWaitInt@vmkernel#nover+0xc9 stack: 0x2001
    2017-04-29T08:12:14.623Z cpu0:33074)0x4390c991b720:[0x41800d416376]CpuSched_TimedWait@vmkernel#nover+0x36 stack: 0x430337ad30c0
    2017-04-29T08:12:14.623Z cpu0:33074)0x4390c991b740:[0x41800d219228]PageCacheAdjustSize@vmkernel#nover+0x344 stack: 0x0
    2017-04-29T08:12:14.623Z cpu0:33074)0x4390c991bfd0:[0x41800d416bfe]CpuSched_StartWorld@vmkernel#nover+0xa2 stack: 0x0
    2017-04-29T08:12:14.627Z cpu0:33074)base fs=0x0 gs=0x418040000000 Kgs=0x0



Symptoms:
免責事項:これは英文の記事「ESXi host fails with intermittent NMI PSOD on HP ProLiant Gen8 servers (2149043)」の日本語訳です。記事はベストエフォートで翻訳を進めているため、ローカライズ化コンテンツは最新情報ではない可能性があります。最新情報は英語版の記事で参照してください。

Environment

VMware vSphere ESXi 6.0
VMware vSphere ESXi 5.5
VMware vSphere ESXi 6.5

Cause

この問題は、ESXi 5.5 p10、5.5 ep11、6.0 p04、6.0 U3、6.5 GA における変更(Intel IOMMU(別名 VT-d)の割り込み再マッピング機能が ESXi で無効にされたことを含む)により発生しました。HPE ProLiant Gen8 サーバでは、この変更により PCI エラーが発生します。その結果、プラットフォームで NMI が生成され、ESXi ホストにパープル スクリーンが表示され、障害が発生します。

HPE は、HPE ProLiant DL560 Gen8 サーバと HPE ProLiant DL380p Gen8 サーバで発生している問題は、高パフォーマンスで低遅延の PCIe アダプタがスロット 3に設置され、システムが高負荷の状態にあることが原因であると特定しました。詳細については、「HPE CUSTOMER ADVISORY」を参照してください。
免責事項:VMware は、サードパーティの Web サイトのデータ、意見、アドバイス、ステートメントに対して責任を負いません。そのようなリンクが含まれていても、VMware がそのようなサイトのコンテンツに対する責任を承認、推奨、または受け入れることを暗示するわけではありません。

Resolution

これは、HPE ProLiant Gen8 サーバ上の ESXi 5.5 p10、ESXi 5.5 ep11、ESXi 6.0 p04、6.0 U3、ESXi 6.5 GA に影響する既知の問題です。この情報は、HPE advisory でも参照できます。
ESXi 6.5 の場合
この問題は VMware Patch Downloads から入手可能な「ESXi 6.5 パッチ リリース ESXi650-201703001」で解決されています。パッチのダウンロードの詳細については、「How to download patches in MyVMware (1021623)」を参照してください。
ESXi 6.0 の場合
この問題は VMware Patch Downloads から入手可能な「ESXi 6.0 パッチ リリース ESXi600-201706001」で解決されています。パッチのダウンロードの詳細については、「How to download patches in MyVMware (1021623)」を参照してください。
または:

この問題を解決するには、IOMMU リマッパーを無効にした HPE ProLiant DL560 Gen8 サーバまたは HPE ProLiant DL380p Gen8 サーバで、低遅延または高パフォーマンスの PCIe カードをスロット 1、2、4、5 または 6 に移動します(セカンダリ ライザー ボードが設置されている場合はその種類に応じて決まります)。

この問題を回避するには、次のように ESXi ホストで Intel IOMMU の割り込み再マッピングを再度有効にします。
  1. SSH セッションと root 認証情報を使用して ESXi ホストに接続します。
  2. 次のコマンドを実行します。

    esxcli system settings kernel set --setting=iovDisableIR -v FALSE

  3. ESXi ホストを再起動します。
  4. 次のコマンドを実行して、iovDisableIR が確実に FALSE に設定されるようにします。

    esxcli system settings kernel list -o iovDisableIR

    例:

    esxcli system settings kernel list -o iovDisableIR

    Name Type Description Configured Runtime Default
    ------------ ---- --------------------------------------- ---------- ------- -------
    iovDisableIR Bool Disable Interrupt Routing in the IOMMU... FALSE FALSE TRUE


Additional Information

ESXi host fails with intermittent NMI PSOD on HP ProLiant Gen8 servers