vSAN クラスタ内のホストにおける I/O の損失またはスタックの対処方法
search cancel

vSAN クラスタ内のホストにおける I/O の損失またはスタックの対処方法

book

Article ID: 412037

calendar_today

Updated On:

Products

VMware vSAN VMware vSAN 6.x VMware vSAN 7.x VMware vSAN 8.x

Issue/Introduction

免責事項:これは英文の記事「 How to handle lost or stuck I/O on a host in vSAN cluster」の日本語訳です。記事はベストエフォートで翻訳を進めているため、ローカライズ化コンテンツは最新情報ではない可能性があります。最新情報は英語版の記事で参照してください。

はじめに
損失した I/O またはスタックした I/O とは、ESXi の外側(デバイスコントローラ/ファームウェア)で停止したまま完了せず、アボート要求に応答しない、あるいはアボートが完了しない I/O を指します。
I/O が ESXi の外で停止しているため、ESXi が取れる唯一の手段はアボートを送信することです。デバイス/コントローラが120秒(デフォルトのタイムアウト)以内にアボートに応答しない場合、vSAN はディスク/ディスクグループをオフライン状態に移行し、vSAN クラスタ全体への影響を回避します。

症状の例

 

 
SSH / Putty 経由で vSAN ホストのいずれかに接続し、Skyline Health アラーム「 Operation Health 」を確認してください: 
次のコマンドを実行してください:
esxcli vsan health cluster get -t 'Operation health'
 
出力例: 
Operation health red
Host      Disk      Overall health Metadata health Operational health In CMMDS/VSI OperationalState Description Recommendation UUID
HOSTNAME  Disk(xxx) red            red             red                Yes     /Yes                  Stuck I/O is detected Migrate workload & power cycle host
HOSTNAME  Disk(xxx) red            red             red                Yes     /Yes                  Stuck I/O is detected Migrate workload & power cycle host

 
 
Logs:
ストレージコントローラまたはストレージディスク上でI/Oがスタックまたは失われた場合、ESXiストレージスタックはタスク管理要求を使用してそれらを中止しようと試み、以下のコンソールメッセージを表示します :
yyyy-mm-ddThh:mm:ss.000Z cpu30:1001397101)ScsiDeviceIO: PsaScsiDeviceTimeoutHandlerFn:12834: TaskMgmt op to cancel IO succeeded for device naa.55abcd134efg567 and the IO did not complete. WorldId 0, Cmd 0x28, CmdSN = 0x428.Cancelling of IO will be
yyyy-mm-ddThh:mm:ss.000Z cpu30:1001397101)retried.


 
ホスト上でこのような失われたI/Oが検出された場合、vSANは /var/run/log/vobd.log に記録される通り、クラスター内の他のホストに影響を与えないようディスクをオフライン化します。 :
yyyy-mm-ddThh:mm:ss.000Z: [vSANCorrelator] 19607827057us: [vob.vsan.lsom.stuckiooffline] vSAN device ########-########-####-####-####-########22f8 detected stuck I/O error. Marking the device as offline.
yyyy-mm-ddThh:mm:ss.000Z: [vSANCorrelator] 19607829404us: [esx.problem.vob.vsan.lsom.stuckiooffline] vSAN device ########-########-####-####-####-########22f8 detected stuck I/O error. Marking the device as offline


 
重複排除が無効な場合:キャッシュ階層でスタックI/Oが発生すると、管理対象のディスクグループ全体がオフライン状態に設定されます。
重複排除が有効な場合:ディスク上でスタックしたI/Oが検出されると、そのディスクが管理するディスクグループ全体がオフライン状態に設定されます。
yyyy-mm-ddThh:mm:ss.000Z: [vSANCorrelator] 19607827040us: [vob.vsan.lsom.stuckiopropagated] vSAN device ########-########-####-####-####-########f0bc is under propagated stuck I/O error. Marking the device as offline.
yyyy-mm-ddThh:mm:ss.000Z: [vSANCorrelator] 19607828405us: [esx.problem.vob.vsan.lsom.stuckiopropagated] vSAN device ########-########-####-####-####-########f0bc is under propagated stuck I/O error. Marking the device as offline.

Environment

VMware vSAN 6.7.x
VMware vSAN 7.0.x
VMware vSAN 8.0.x

Resolution

ワークロードを移行し、ホストの電源を入れ直してください。ホストの電源入れ直し後、driver/firmware のログと共に vm-support を収集してください。
これらの問題は、ハードウェアの故障またはファームウェアのバグが原因で発生します。
ハードウェアベンダーにケースをオープンしてください。
 
I/O の停止または損失が検出された場合の想定動作:
バージョン7.0 U3 以降:ディスク/ディスクグループがオフライン状態に設定されます。
バージョン7.0 U3 以前:クラスタ内の他のホストに影響を与えないよう、ホストは PSOD(パープルスクリーン)を表示します。

Additional Information