免責事項:これは英文の記事「Host halts with a purple diagnostic screen(PSOD - purple screen of death) referencing Machine Check Exception (MCE)」の日本語訳です。記事はベストエフォートで翻訳を進めているため、ローカライズ化コンテンツは最新情報ではない可能性があります。最新情報は英語版の記事で参照してください。
VMware ESXi #.#.# [Releasebuild-######## x86_64]Machine Check Exception on PCPU## in world ######:idle51
System has encountered a Hardware Error - Please contact the hardware vendorUncorrectable/recoverable memory error in world ####; unable to recover in kernel contextData Cache DataRead Error/var/run/log/vmkernel.log に次のようなログが表示される場合があります。
YYYY-MM-DDTHH:MM:SS.FFFZ cpu##:40848027)ALERT: MCA: 200: SRAR Excp G7 B1 ###### Cache Hierarchy: Level 0 Data Cache DataRead Error.YYYY-MM-DDTHH:MM:SS.FFFZ cpu##:40848027)MCAIntel: 1120: Force retiring MPN ###### to recover from MCA error detected by cpu## in bank1.YYYY-MM-DDTHH:MM:SS.FFFZ cpu##:40848027)ALERT: MCA: 200: SRAR Excp G7 B1 ###### Cache Hierarchy: Level 0 Data Cache DataRead Error.YYYY-MM-DDTHH:MM:SS.FFFZ cpu##:40848027)MCAIntel: 1120: Force retiring MPN ######to recover from MCA error detected by cpu## in bank1.YYYY-MM-DDTHH:MM:SS.FFFZ cpu##:40848027)IDT: 1895: Uncorrectable/unrecoverable machine check errorYYYY-MM-DDTHH:MM:SS.FFFZ cpu##:40848027)MCA: 208: UC Excp G4 86 Sbb00002000000e0b AB M180008 P8/8 I/O error reported by PCI 0000:00:03.0.
マシンチェックアーキテクチャは、ハードウェア異常を検知し、報告するよう設計された CPU の機能です。ハードウェアが重大あるいは致命的な状態を検出した際に、Machine Check Exception (MCE) が引き起こされます。これらの例外は深刻かつ修正不能と見なされ、ESXi のクラッシュをもたらし、しばしば Purple Screen of Death (PSOD) を引き起こします。
このシナリオでは、MCE は SRAR (Software Recoverable Action Required) に分類され、次を示します。
修正不能: エラーはハードウェアによって自動的に修正できません。
回復可能: システムレベルの操作は理論的には問題を軽減できる場合があります。
必要な対応: 影響を受けたメモリページ番号 (MPN) にアクセスしているスレッドを終了するような特定の修正手順が必要です。
欠陥のあるスレッドは vmkernel コンテキスト内で実行されていたため、ESXi はそのスレッドを隔離あるいは終了することができませんでした。これは MCE が致命的なエラーとなり、クラッシュを引き起こすこととなります。