IPMI SEL に Processor Transition to Non-recoverable イベントが記録され、PSOD を伴わずに ESXi ホストが予期せず再起動する
search cancel

IPMI SEL に Processor Transition to Non-recoverable イベントが記録され、PSOD を伴わずに ESXi ホストが予期せず再起動する

book

Article ID: 421431

calendar_today

Updated On:

Products

VMware vSphere ESXi

Issue/Introduction

免責事項:これは英文の記事「Unexpected ESXi host reboot with Processor Transition to Non-recoverable event in IPMI SEL and no PSOD(42143)」の日本語訳です。記事はベストエフォートで翻訳を進めているため、ローカライズ化コンテンツは最新情報ではない可能性があります。最新情報は英語版の記事で参照してください。

ESXi ホストが予期せず再起動します。この際、以下の現象が見られます。

  • ESXi ホスト上で Purple Diagnostic Screen (PSOD) は発生していません。

  • コアダンプ (vmkernel-zdump) が生成されていません。

  • /var/run/log/vmkernel.log などの ESXi ログを確認すると、特定のエラーを出力することなくログが突然途絶えています。

  • 再起動後、localcli hardware ipmi sel list コマンドなどを実行して IPMI System Event Log (SEL) を確認すると、ESXi のログが停止した時刻付近にハードウェアエラーが記録されています。

ログ出力例:

Record:X:
 Record Id: X
 When: YYYY-MM-DDTHH:MM:SS
   Event Type: 7 (Fatal/NonRecoverable)
   SEL Type: 2 (System Event)
   Message: Assert + Processor Transition to Non-recoverable
   Sensor Number: 13

iDRAC や iLO などの BMC (Baseboard Management Controller) 管理画面において、CPU に関する Machine Check error や Fatal error が記録されている場合があります。

Environment

VMware vSphere ESXi

Cause

この問題は、ESXi ソフトウェアがエラー処理やログ出力を行う前に、プロセッサなどのハードウェアコンポーネントで致命的な障害が発生し、ハードウェアレベルで即座にシステムが停止または再起動したために発生します。ソフトウェアレベルでのクラッシュではないため、ESXi 側には障害の記録が残りません。

Resolution

この問題はハードウェアに起因しています。以下の手順を実施してください。

  1. IPMI SEL またはハードウェア管理コンソール (iDRAC、iLO、IMM など) のイベントログを確認し、CPU やメモリ、マザーボードなどのコンポーネントに関連する致命的なエラーが記録されているか特定します。

  2. 記録されているハードウェアエラーの詳細情報 (スクリーンショットやハードウェアログ) を収集します。

  3. サーバーハードウェアのサポート窓口へ連絡し、ハードウェア障害としての調査および対応を依頼してください。

Additional Information

ESXi のログが突然停止し、再起動後に vmkernel.log に起動時ログしか確認できない場合、多くはハードウェアによる電源断やリセットが原因です。