ホストがマシンチェック例外 (MCE) に関する紫色の診断画面 (PSOD - purple screen of death) で停止する
search cancel

ホストがマシンチェック例外 (MCE) に関する紫色の診断画面 (PSOD - purple screen of death) で停止する

book

Article ID: 430664

calendar_today

Updated On:

Products

VMware vSphere ESXi

Issue/Introduction

免責事項:これは英文の記事「Host halts with a purple diagnostic screen(PSOD - purple screen of death) referencing Machine Check Exception (MCE)」の日本語訳です。記事はベストエフォートで翻訳を進めているため、ローカライズ化コンテンツは最新情報ではない可能性があります。最新情報は英語版の記事で参照してください。

 

  • ESXi にて紫色の診断画面 (PSOD) が発生した際に、「マシンチェック例外」に関する表示を確認できる場合があります。

  • ESXi のコンソールでは、紫色の診断画面に次のようなメッセージが表示されます。

    VMware ESXi #.#.# [Releasebuild-######## x86_64]
    Machine Check Exception on PCPU## in world ######:idle51
    System has encountered a Hardware Error - Please contact the hardware vendor


    Uncorrectable/recoverable memory error in world ####; unable to recover in kernel context
    Data Cache DataRead Error

  • /var/run/log/vmkernel.log に次のようなログが表示される場合があります。

    YYYY-MM-DDTHH:MM:SS.FFFZ cpu##:40848027)ALERT: MCA: 200: SRAR Excp G7 B1 ###### Cache Hierarchy: Level 0 Data Cache DataRead Error.

    YYYY-MM-DDTHH:MM:SS.FFFZ cpu##:40848027)MCAIntel: 1120: Force retiring MPN ###### to recover from MCA error detected by cpu## in bank1.
    YYYY-MM-DDTHH:MM:SS.FFFZ cpu##:40848027)ALERT: MCA: 200: SRAR Excp G7 B1 ###### Cache Hierarchy: Level 0 Data Cache DataRead Error.
    YYYY-MM-DDTHH:MM:SS.FFFZ cpu##:40848027)MCAIntel: 1120: Force retiring MPN ######to recover from MCA error detected by cpu## in bank1.

  • このエラーは故障したハードウェアデバイスによっても引き起こされる場合があります。このような場合では、PSOD 画面に次のようなエラーが報告される場合があります。

    YYYY-MM-DDTHH:MM:SS.FFFZ cpu##:40848027)IDT: 1895: Uncorrectable/unrecoverable machine check error
    YYYY-MM-DDTHH:MM:SS.FFFZ cpu##:40848027)MCA: 208: UC Excp G4 86 Sbb00002000000e0b AB M180008 P8/8 I/O error reported by PCI 0000:00:03.0.

Cause

マシンチェックアーキテクチャは、ハードウェア異常を検知し、報告するよう設計された CPU の機能です。ハードウェアが重大あるいは致命的な状態を検出した際に、Machine Check Exception (MCE) が引き起こされます。これらの例外は深刻かつ修正不能と見なされ、ESXi のクラッシュをもたらし、しばしば Purple Screen of Death (PSOD) を引き起こします。

このシナリオでは、MCE は SRAR (Software Recoverable Action Required) に分類され、次を示します。

修正不能: エラーはハードウェアによって自動的に修正できません。

回復可能: システムレベルの操作は理論的には問題を軽減できる場合があります。

必要な対応: 影響を受けたメモリページ番号 (MPN) にアクセスしているスレッドを終了するような特定の修正手順が必要です。


欠陥のあるスレッドは vmkernel コンテキスト内で実行されていたため、ESXi はそのスレッドを隔離あるいは終了することができませんでした。これは MCE が致命的なエラーとなり、クラッシュを引き起こすこととなります。

Resolution

  • ホストの再起動: この問題が一時的なハードウェアイベントによって引き起こされた場合、ESXi の再起動で一時的に機能が回復する場合があります。
  • ハードウェアベンダと連携: 取得した MCE/PSOD データと共にサーバのハードウェアベンダへ問い合わせます。MCE の根本原因と特定し、ハードウェアの交換あるいはファームウェアのアップデートが必要かどうか評価するためには、十分なハードウェアレベルの調査が必要です。

Additional Information

Decoding Machine Check Error (MCE) output after an ESXi panic (Purple Screen)