ESXi ホストが “ warning: PCPU ## didn't have a heartbeat ” のメッセージを伴い予期せずして再起動する
search cancel

ESXi ホストが “ warning: PCPU ## didn't have a heartbeat ” のメッセージを伴い予期せずして再起動する

book

Article ID: 421620

calendar_today

Updated On:

Products

VMware vSphere ESXi

Issue/Introduction

免責事項:これは英文の記事「 ESXi host reboots unexpectedly with "warning: PCPU ## didn't have a heartbeat" messages 」の日本語訳です。記事はベストエフォートで翻訳を進めているため、ローカライズ化コンテンツは最新情報ではない可能性があります。最新情報は英語版の記事で参照してください。

Symptoms

  • ESX iホストが予期せず再起動し、適切なクラッシュダンプを生成しない場合があります。
  • 再起動前に、vCenter Server は「ホストが応答しません」や「ホストを同期できません」を含む複数のエラーを報告します。
  • vSphere HA はホスト障害を検出し、クラスタ内の他のホスト上で仮想マシンを再起動します。
  • 再起動後、ホストは正常な動作に戻るが、根本的な原因に対処しない限り、予期せぬ再起動が再発する可能性があります。
  • vmkernel ログには、この状態を示す以下の特定のエントリが表示されます :
    WARNING: Heartbeat: 961: PCPU 40 didn't have a heartbeat for 5 seconds, timeout is 10, 1 IPIs sent; *may* be locked up.
    WARNING: Heartbeat: 961: PCPU 41 didn't have a heartbeat for 15 seconds, timeout is 10, 2 IPIs sent; *may* be locked up.

Environment

  • VMware vSphere ESXi 7.0 and newer

Cause

予期せぬ再起動は、特定の物理 CPU コア(PCPU)におけるハードウェアレベルの障害によって引き起こされます。1つ以上の物理 CPU コアが応答しなくなると、ESXi ハートビート監視システムはこれらのコアがプロセッサ間割り込み(IPI)に応答していないことを検出します。ロックアップしたコアとの通信が複数回失敗した後、サーバーは障害状態に陥り、再起動がトリガーされます。

これらのハートビート障害は、ソフトウェア設定の変更では解決できない物理 CPU ハードウェアの問題の兆候です。

Resolution

これはハードウェア関連の問題であるため、以下の手順を実施してください:

  1. 影響を受けるホストをメンテナンスモードに設定し、問題が再発した場合にワークロードが影響を受けないようにします。
  2. ESXi ホストの vmkernel.log を確認し、PCPU ハートビート障害メッセージを確認します。
  3. サーバーハードウェアベンダーに連絡し、包括的なハードウェア診断を実施してもらいます。
  4. サーバーファームウェアを更新します:
    1. サーバーモデル向けの最新の BIOS の更新を確認し適用します。
    2. 関連するファームウェアコンポーネント(チップセット、管理コントローラー)を更新します。
    3. プロセッサモデル向けに利用可能なマイクロコード更新を適用します。
  5. ファームウェア更新後も問題が継続する場合は、ハードウェアベンダーと協力して解決してください。

Additional Information

  • この問題は物理 CPU コアに特に影響し、仮想 CPU(vCPU)スケジューリングの問題とは異なります。
  • 問題は断続的に発生する可能性があり、事象直後のログを調査しなければ診断が困難です。
  • このシナリオでは、CPU ハードウェアの問題により適切なクラッシュダンプが生成されないため、vmkernel クラッシュダンプが存在しないのが一般的です。
  • ハードウェア問題を直ちに解決できない場合は、以下の一時的な緩和策を検討してください:
    • ホストをメンテナンスモードのままにして、本番ワークロードの中断を防止します。
    • ホストを稼働状態に維持する必要がある場合は、DRS 設定を調整し、新規 VM 配置におけるホストの優先度を下げます。
  • ESXi host reboots unexpectedly with "warning: PCPU ## didn't have a heartbeat" messages