FTT のポリシーを超える vSAN ホストを停止させると、仮想マシンが停止する場合がある
search cancel

FTT のポリシーを超える vSAN ホストを停止させると、仮想マシンが停止する場合がある

book

Article ID: 424285

calendar_today

Updated On:

Products

VMware vSAN

Issue/Introduction

vSAN 環境において、許容される障害の数(FTT)を超えるホストが同時に停止すると、以下の事象が発生する場合があります。

  • 仮想マシンの電源操作(パワーオン/シャットダウン)が完了しない
  • 仮想マシンの状態が「無効」や「アクセス不可」となる
  • ゲストOSが応答しない
  • vSphere HA によるフェイルオーバーが正常に完了せず、アラームが表示される

Environment

VMware vSAN 7.x
VMware vSAN 8.0

Cause

これは、vSAN の FTT に基づく想定された動作です。

この問題は、ストレージポリシーの「許容される障害の数(FTT)」を超えたホスト停止により発生します。
FTT を超える数のホストが同時に停止すると、vSAN オブジェクト(vmdkなど)のアクセスに必要なコンポーネントの数が不足し、一部の vSAN オブジェクトがアクセス不可となる場合があります。
仮想マシンの構成ファイル (.vmx) や、仮想ディスク(vmdk) へのアクセスが妨げられるため、電源操作が受け付けられない、仮想マシンが停止するなどの影響があります。
vSAN コンポーネントの配置状況によっては、仮想マシン構成ファイルや仮想ディスクの一方だけがアクセス不可の影響を受ける場合がありますが、いずれの場合でも仮想マシンが応答しない状況となります。

また、vSphere HA による再起動は、再起動先のホストでもアクセス不可の状況であるため、待機状態となります。

Resolution

vSAN ホストを複数台停止して仮想マシンに影響が発生した場合は、停止したホストを復旧させ、vSAN オブジェクトの可用性を回復させる必要があります。

vSAN ホストの復旧手順 

  1. 停止している ESXi ホストをパワーオンします
  2. メンテナンスモードに設定していた場合は、解除します
  3. 全ホストの起動後、vSAN オブジェクトの健全性が「健全」に回復したことを確認します
    vSphere Client > [対象クラスタ] > [監視] タブ > [vSAN] > [Skyline Health] > [すべて] タブ > [vSAN オブジェクトの健全性]

仮想マシンの復旧手順

  1. 仮想マシンが「無効」状態や vSAN オブジェクトの UUID で表示されている場合は、ESXi ホストの管理サービス(hostd)を再起動します
    再起動方法は、ESXi の管理エージェントの再起動 を参照してください。
  2. 影響を受けた仮想マシンを順次再起動するなどでI/Oを回復させます
  3. 影響を受けた際、ゲストOSのファイルシステムに問題が生じた場合は、ゲストOS側でファイルシステムの修復を行ったり、バックアップからリストアが必要になる場合があります

運用の注意点

  • FTT を超える台数のホストを同時に停止させないでください
  • メンテナンスモードに移行する際に「アクセシビリティの確保」を選択し、仮想マシンの動作に必要な vSAN オブジェクトへのアクセスが確保されるようにします
  • 複数台のホストを停止させる状況が想定される場合は、事前にストレージポリシーで FTT を引き上げることも検討ください

Additional Information