免責事項:これは英文の記事「Unexpected ESXi host reboot with Processor Transition to Non-recoverable event in IPMI SEL and no PSOD(42143)」の日本語訳です。記事はベストエフォートで翻訳を進めているため、ローカライズ化コンテンツは最新情報ではない可能性があります。最新情報は英語版の記事で参照してください。
ESXi ホストが予期せず再起動します。この際、以下の現象が見られます。
ESXi ホスト上で Purple Diagnostic Screen (PSOD) は発生していません。
コアダンプ (vmkernel-zdump) が生成されていません。
/var/run/log/vmkernel.log などの ESXi ログを確認すると、特定のエラーを出力することなくログが突然途絶えています。
再起動後、localcli hardware ipmi sel list コマンドなどを実行して IPMI System Event Log (SEL) を確認すると、ESXi のログが停止した時刻付近にハードウェアエラーが記録されています。
ログ出力例:
Record:X:
Record Id: X
When: YYYY-MM-DDTHH:MM:SS
Event Type: 7 (Fatal/NonRecoverable)
SEL Type: 2 (System Event)
Message: Assert + Processor Transition to Non-recoverable
Sensor Number: 13
iDRAC や iLO などの BMC (Baseboard Management Controller) 管理画面において、CPU に関する Machine Check error や Fatal error が記録されている場合があります。
VMware vSphere ESXi
この問題は、ESXi ソフトウェアがエラー処理やログ出力を行う前に、プロセッサなどのハードウェアコンポーネントで致命的な障害が発生し、ハードウェアレベルで即座にシステムが停止または再起動したために発生します。ソフトウェアレベルでのクラッシュではないため、ESXi 側には障害の記録が残りません。
この問題はハードウェアに起因しています。以下の手順を実施してください。
IPMI SEL またはハードウェア管理コンソール (iDRAC、iLO、IMM など) のイベントログを確認し、CPU やメモリ、マザーボードなどのコンポーネントに関連する致命的なエラーが記録されているか特定します。
記録されているハードウェアエラーの詳細情報 (スクリーンショットやハードウェアログ) を収集します。
サーバーハードウェアのサポート窓口へ連絡し、ハードウェア障害としての調査および対応を依頼してください。
ESXi のログが突然停止し、再起動後に vmkernel.log に起動時ログしか確認できない場合、多くはハードウェアによる電源断やリセットが原因です。