免責事項:これは英文の記事「 How to handle lost or stuck I/O on a host in vSAN cluster」の日本語訳です。記事はベストエフォートで翻訳を進めているため、ローカライズ化コンテンツは最新情報ではない可能性があります。最新情報は英語版の記事で参照してください。
はじめに:
損失した I/O またはスタックした I/O とは、ESXi の外側(デバイスコントローラ/ファームウェア)で停止したまま完了せず、アボート要求に応答しない、あるいはアボートが完了しない I/O を指します。
I/O が ESXi の外で停止しているため、ESXi が取れる唯一の手段はアボートを送信することです。デバイス/コントローラが120秒(デフォルトのタイムアウト)以内にアボートに応答しない場合、vSAN はディスク/ディスクグループをオフライン状態に移行し、vSAN クラスタ全体への影響を回避します。
症状の例:
esxcli vsan health cluster get -t 'Operation health'
Operation health redHost Disk Overall health Metadata health Operational health In CMMDS/VSI OperationalState Description Recommendation UUID
HOSTNAME Disk(xxx) red red red Yes /Yes Stuck I/O is detected Migrate workload & power cycle host
HOSTNAME Disk(xxx) red red red Yes /Yes Stuck I/O is detected Migrate workload & power cycle host
yyyy-mm-ddThh:mm:ss.000Z cpu30:1001397101)ScsiDeviceIO: PsaScsiDeviceTimeoutHandlerFn:12834: TaskMgmt op to cancel IO succeeded for device naa.55abcd134efg567 and the IO did not complete. WorldId 0, Cmd 0x28, CmdSN = 0x428.Cancelling of IO will be
yyyy-mm-ddThh:mm:ss.000Z cpu30:1001397101)retried.yyyy-mm-ddThh:mm:ss.000Z: [vSANCorrelator] 19607827057us: [vob.vsan.lsom.stuckiooffline] vSAN device ########-########-####-####-####-########22f8 detected stuck I/O error. Marking the device as offline.
yyyy-mm-ddThh:mm:ss.000Z: [vSANCorrelator] 19607829404us: [esx.problem.vob.vsan.lsom.stuckiooffline] vSAN device ########-########-####-####-####-########22f8 detected stuck I/O error. Marking the device as offlineyyyy-mm-ddThh:mm:ss.000Z: [vSANCorrelator] 19607827040us: [vob.vsan.lsom.stuckiopropagated] vSAN device ########-########-####-####-####-########f0bc is under propagated stuck I/O error. Marking the device as offline.
yyyy-mm-ddThh:mm:ss.000Z: [vSANCorrelator] 19607828405us: [esx.problem.vob.vsan.lsom.stuckiopropagated] vSAN device ########-########-####-####-####-########f0bc is under propagated stuck I/O error. Marking the device as offline.VMware vSAN 6.7.x
VMware vSAN 7.0.x
VMware vSAN 8.0.x
ワークロードを移行し、ホストの電源を入れ直してください。ホストの電源入れ直し後、driver/firmware のログと共に vm-support を収集してください。
これらの問題は、ハードウェアの故障またはファームウェアのバグが原因で発生します。
ハードウェアベンダーにケースをオープンしてください。
I/O の停止または損失が検出された場合の想定動作:
バージョン7.0 U3 以降:ディスク/ディスクグループがオフライン状態に設定されます。
バージョン7.0 U3 以前:クラスタ内の他のホストに影響を与えないよう、ホストは PSOD(パープルスクリーン)を表示します。