仮想マシンが応答しなくなった場合のトラブルシューティング(応答なし/フリーズ)
search cancel

仮想マシンが応答しなくなった場合のトラブルシューティング(応答なし/フリーズ)

book

Article ID: 320660

calendar_today

Updated On:

Products

VMware vSphere ESXi

Issue/Introduction

この記事では、vSphere仮想マシンが応答しなくなる原因を特定する手順を説明します。

無応答に陥った仮想マシンは、一切の接続要求にも応答せず、パワーサイクルにも応答しない場合があります。仮想マシンが無応答状態に陥る理由はさまざまなですが、この記事では、一般的な原因を特定および解決して、仮想マシンを使用可能な状態に戻すための手順を記載しています。

無応答状態に陥った際、原因についてトラブルシューティングを行うことなく仮想マシンを強制パワーオフすることは可能ですが、それ場合、無応答状態に陥った根本原因を究明するための情報収集と分析が行えなくなります。仮想マシンのシャットダウンについては、Powering off a virtual machine on an ESXi host (1014165)Powering off an unresponsive virtual machine on an ESX host (1004340)をご確認ください。

この資料では、無応答状態が現在発生していることを前提としています。過去に発生した問題をトラブルシューティングする場合、ここに記載されている情報が有効でない場合があります。


Symptoms:

免責事項:これは英文の記事 「Troubleshooting a virtual machine that has stopped responding (1007819)」の日本語訳です。記事はベストエフォートで翻訳を進めているため、ローカライズ化コンテンツは最新情報ではない可能性があります。最新情報は英語版の記事で参照してください。


 

ESX/ESXi上で実行中の仮想マシンが外部からの入力に応答しない、または何の反応も示さない。具体的には:

  • 仮想マシンが物理サーバで応答なし/フリーズ/ハングしていると同様のように見える
  • 仮想マシンが応答なし/フリーズ/ハングしているように見える
  • 仮想マシン上で実行されたタスクが失敗するかタイムアウトになる、または開始されない
  • 仮想マシンがネットワークトラフィックやディスクのトラフィックを生成しない
  • 仮想マシンが RDP、vCenter Server 仮想マシンコンソールまたはその他の方法でアクセスができない
  • 仮想マシンにネットワーク経由でアクセスできない
  • ESX/ESXi 上の仮想マシンをサスペンドして診断情報を収集する
  • esxtop の VSCSI I/O 警告カウンターが非アクティブを示す
  • 仮想マシンが無効な状態を報告している
  • 仮想マシンのコンソール画面が停止しており、画面が変更または更新されない
  • このようなエラーが見られる

    Virtual machine screen is black and does not refresh.
  • 次のエラーが 1 つ以上表示される場合がある

    /init: /init: 151: Syntax error: 0xforce=panic
    Kernel panic - not syncing: Attempted to kill init!
    PAGE_FAULT_IN_NONPAGED_AREA
    Error codes 6005, 6008 in Windows Event Viewer.

Environment

VMware vSphere ESXi 7.x
VMware vSphere ESXi 8.x

Cause

事象はこれらの原因の可能性があります。

  • 仮想マシンのスケジュール バックアップが I/O の負荷が高くなり、応答なしとなる可能性があります。
  • ハードディスクの空き容量が枯渇している場合、応答なしとなる可能性があります。
  • 仮想マシン上のゲストオペレーションシステムの影響で、応答なしとなる可能性があります。
  • 仮想マシンのディスクコントローラがベストプラクティスに準じていない
  • ESXi と vSphere Clien との間の通信経路でファイアーウォールがある場合

Resolution

仮想マシンのサービスは、仮想マシン内のアプリケーションまたはゲストOSに関連する問題、仮想マシンモニタまたは仮想デバイスに関連する問題、ホスト上のリソース競合の問題、ストレージまたはネットワークインフラストラクチャの問題など、さまざまな原因により無応答またはアクセス不能になる可能性があります。

ゲストOSが何らかのサービスを提供しているのであれば、仮想マシンは正常に実行されています。このケースでは、無応答は接続障害やリソースの競合、またはゲストOS内で実行中のアプリケーションやサービスなどの上位レベルのコンポーネントの可能性があります。

調査範囲の特定

正確な症状を把握することや問題の調査範囲を認識することは重要です。問題の調査範囲を特定するには、下記項目をそれぞれチェックしてください。

  1. 仮想マシンが本当に応答しないことを確認してください。仮想マシンが1つのインターフェースを経由して応答していなくても、ほかのインターフェースでは機能しているかもしれません。仮想マシンが無応答かどうかテストをする場合、Confirming whether virtual machine is unresponsive (1007802) をご確認ください。

    仮想マシンが応答するが、パフォーマンスが低下している場合は、Troubleshooting ESX virtual machine performance issues (2001003)をご確認ください。
     
  2. 仮想マシンの電源が入っていることを確かめてください。仮想マシンが予期せず電源オフ状態になっている場合、電源をオンに戻してから、予期せずシャットダウンした原因をトラブルシュートしてください。詳細については、以下KBをご確認ください。
     

    注意:仮想マシンが電源オフの状態の後、電源オンにできない場合、Troubleshooting a virtual machine that is unable to power on (2001005)をご確認ください。

  3. この問題が、複数の仮想マシンに影響を与えているのか、またはひとつの仮想マシンのみに影響を与えているのかを確認してください。複数の仮想マシンが影響を受けている場合、可能性を絞っていく際は、影響を受けている仮想マシン間での類似性を確認してください。 特に影響を受けている仮想マシンが共有しているインフラストラクチャに焦点をあて、そのインフラストラクチャを使用するすべての仮想マシン影響が受けているかどうかを確認してください。
     
  4. ゲストOSが仮想マシンコンソールに応答するかを確認してください。問題が仮想マシン内のゲストOSやアプリケーションに絞り込まれ、かつゲストOSがコンソールに応答する場合は、問題を特定するためにコンソールでゲストOSを操作します。詳細については、Troubleshooting virtual machine network connection issues (1003893)をご確認ください。
     
  5. ゲストOSが重大なエラーをコンソールに報告していないか、または停止状態でないかを確認してください。詳細については、Identifying critical Guest OS failures within virtual machines (1003999)をご確認ください。
     
  6. ESX/ESXiホストが無応答でないことを確認してください。もし、ESX/ESXiホストも同様に無応答な場合、調査対象は想定よりも大きいと考えられます。下記KBをご確認ください。Determining why an ESX/ESXi host does not respond to user interaction at the console (1017135).

原因の特定

ここまでの時点で、1つまたは複数の仮想マシンが仮想コンソールでもネットワークを経由でも応答しないことが判明しています。ESX/ESXiホスト自体は応答します。この場合問題は、リソースへのアクセスや競合、ストレージやネットワークインフラストラクチャーに存在する可能性があります。

原因を特定するには:

  1. 仮想マシン上で実行される操作やタスクが問題のトリガかどうか確認してください。例えば、スナップショットおよびVMotionの操作によって、メモリの状態がネットワーク越しにまたはディスクにコピーされる間、仮想マシンは短時間ダウンタイムがあります。詳細については、Taking a snapshot with virtual machine memory stuns the virtual machine while the memory is written to disk (1013163) をご確認ください。
     
  2. リソースを要求している間などに、構成エラーにより仮想マシンが応答不能になることもあります。そのため、仮想マシンとホストの設定を確認してください。詳細については、下記KBをご確認ください。
     
  3. 仮想マシンは、インフラストラクチャに依存します。仮想マシンが依存しているストレージやネットワークインフラに問題がある場合、仮想マシンがゲストOSに提供する仮想ハードウェアが影響を受ける可能性があります。ストレージまたはネットワークの問題の対処は、下記KBをご確認ください。
     
  4. 仮想マシンは、使用可能なホストのリソース(CPUやメモリ)に依存しており、ゲストOSがそれらのリソースを消費します。仮想マシンのリソースの可用性や内部や外部のスケジューリング問題は、無応答状態を引き起こす場合があります。仮想マシンが、使用付加のリソースをブロックしていたり、vCPUを100%使い切っている可能性があります。詳細については、Troubleshooting a virtual machine that has stopped responding: VMM and Guest CPU usage comparison (1017926)をご確認ください。

アクションプラン

ここまでの時点で、仮想マシンを実行しているホストが応答しており、共有ストレージまたはネットワークインフラストラクチャの問題が発生していないことが確認できています。ゲストOSでも重大なエラーが発生していないにもかかわらず、仮想マシンのコンソールにもネットワーク経由でも応答しません。

原因と考えられるアーキテクチャーレイヤーを中心に、応答のない仮想マシンの復旧や情報収集に向けたアクションを実行します。

  • 問題がゲストOSに特定できている場合や、または%RUNが比較的高いが仮想マシンモニタが正確に機能している場合、仮想マシンのゲストOSまたはアプリケーションに調査の対象を絞ります。ゲストOSは、物理ハードウェアで発生するのと同じ理由で仮想マシン内でも応答しなくなることがあります。詳細については、Troubleshooting unresponsive guest operating system issues (1007818)をご確認ください。
    1. 問題発生時にパフォーマンスデータを収集してください。
       
    2. 手動でゲストOSのカーネルパニックを発生させてゲストOS内部の情報を取得してください。詳細については、以下をご確認ください。
       
    3. ステップ2で有用な情報を得られなかった場合、ゲストOSの内部情報を収集するために仮想マシンをサスペンドし、VMwareサポートに問い合わせください。詳細については、以下をご確認ください。
       
      1. 対象の仮想マシンをサスペンドし、サスペンド状態の.vmssファイルをご取得ください。
        詳細については、以下をご確認ください。Suspending a virtual machine on ESX/ESXi to collect diagnostic information (2005831)
      2. 仮想マシンを実行しているホストからログを取得する。詳細については、Collecting diagnostic information for VMware products (1008524) をご確認ください。
      3. 再び仮想マシンをパワーオンして、リセットします。
      4. 手順1、3aと3bで収集した情報をVMwareのサポートに送ります。詳細については、How to File a Support Request をご確認ください。
      注意:別の管理タスクが進行中で、仮想マシンをサスペンドできない場合は、Restarting the Management agents on an ESX or ESXi Server (1003490)を参照ください。管理タスクが存在しないにもかかわらず仮想マシンのサスペンドが失敗する場合は、次のセクションを飛ばして仮想マシンをクラッシュさせてください。

  • 問題が仮想マシンモニタに特定できている場合や、%WAITが比較的高い、または仮想マシンのサスペンドに失敗する場合、追加情報を取得するため、パフォーマンスデータを収集してから、仮想マシンを強制クラッシュさせてください。
     
    1. 問題が発生しているときにパフォーマンスデータを収集してください。
       
    2. 内部情報を取得するために仮想マシンをクラッシュさせてください。
       
    3. 手順1と2で収集した情報をVMwareサポートに送ってください。詳細については、How to File a Support Request をご確認ください。

  • 問題が仮想マシンモニタに特定できているが仮想マシンのサスペンドまたはクラッシュに失敗する場合、これはVMkernelの問題です。そのため、ホストのログバンドルを収集し、影響を受けていない仮想マシンをホストからすべて退避させてください。その後、NMIを使用してパープルスクリーンを故意に生成してください。
    1. 問題が発生している間のパフォーマンスデータを収集してください。
       
    2. 影響を受けてない仮想マシンをvMotionでほかのホストに移動させてください。もし、可能であればその他の仮想マシンが起動されないように、メンテナンスモードに移行した後に実行してください。
       
    3. Non-maskable interrupt(NMI)を受け手パニックを起こすようにホストの設定を行ってから、NMIを実行します。詳細については、Using hardware NMI facilities to troubleshoot unresponsive hosts (1014767) をご確認ください。
       
    4. ホストがパープルスクリーンになり診断情報が出力された後、ホストのコンソールのスクリーンショットか写真を取得してからホストを再起動してください。
       
    5. ホストの診断情報を取得してください。詳細については、Collecting diagnostic information from an ESX or ESXi host that experiences a purple diagnostic screen (1004128) をご確認ください。
       
    6. 手順1、4、5で収集した情報をVMwareのサポートに送ってください。詳細についてはHow to File a Support Request をご確認ください。

Additional Information


Restarting the Management agents in ESXi
Powering on an ESX/ESXi host's virtual machine
Verifying that ESX/ESXi virtual machine storage is accessible
Troubleshooting virtual machine network connection issues
Identifying critical Guest OS failures within virtual machines
Collecting diagnostic information for VMware products
ESX Server virtual machines stop responding due to shared storage connectivity issues
Powering off an unresponsive virtual machine on an ESX host
Confirming whether a virtual machine is unresponsive
Common ESX/ESXi host configuration issues which can cause virtual machines to become unresponsive
Virtual machine becomes unresponsive or inactive when taking a snapshot
Unable to power off the virtual machine in an ESXi host
Using hardware NMI facilities to troubleshoot unresponsive hosts
Determining why an ESX/ESXi host does not respond to user interaction at the console
Troubleshooting a virtual machine that has stopped responding: VMM and Guest CPU usage comparison
Determining why a virtual machine was powered off or restarted
Troubleshooting ESX/ESXi virtual machine performance issues
Troubleshooting a virtual machine that is unable to power on