免責事項:これは英文の記事「vSAN performance and/or data-availability issues due to device(s) with critically low remaining 'Media Wearout Indicator' value.」の日本語訳です。
記事はベストエフォートで翻訳を進めているため、ローカライズ化コンテンツは最新情報ではない可能性があります。最新情報は英語版の記事で参照してください。
SSD ストレージ デバイスは、データの書き込みと保存にフラッシュ メモリを使用します。
これらのデバイスは、ユーザー/ハイパーバイザー/ゲスト OS には表示されないオーバープロビジョニングされた領域がベンダーによって構成されており、デバイスのパフォーマンスを向上させる (例えば、ウェアレベリングによるパフォーマンス向上) ため、およびデバイスの寿命/耐久性を延ばす (例えば、障害が発生した/故障しつつあるブロックを交換する) ために使用されます。
このオーバープロビジョニングされた領域は無制限のリソースではありません。デバイスが持つオーバープロビジョニングされた領域の量は、定格耐久性クラス/DWPD、デバイスのサイズ、ベンダーの仕様によって異なります。
VMware vSAN 6.x
VMware vSAN 7.x
VMware vSAN 8.x
時間の経過とともに、ストレージ デバイスへの書き込み IO により、オーバープロビジョニングされたブロックの量が徐々に増加し、最終的にアクティブに使用されるようになります。その結果、使用可能なブロックの量は減少します。これは、デバイスの 'Media Wearout Indicator' の SMART 値が、新しいデバイスの初期値である 'Media Wearout Indicator 100' から減少することで示されます。
デバイスの使用状況でオーバープロビジョニングされた領域が枯渇し始めると (例: 'Media Wearout Indicator 10' - 残り 10% の場合)、デバイスの動作が正常な動作でなくなる可能性があります。残り容量が数 % しかないデバイスの典型的な症状は、デバイス上で観測される遅延の増加 (場合によっては散発的/断続的) です。
これは、次のようなパターンで vmkernel.log に記録される場合があります。 (ここでの、naa.xxxxxxxxxxxxxxxxxx はデバイスの識別子です)WARNING: ScsiDeviceIO: xxxx: Device naa.xxxxxxxxxxxxxxxx performance has deteriorated. I/O latency increased from average value of 396 microseconds to 168821 microseconds.WARNING: ScsiDeviceIO: xxxx: Device naa.xxxxxxxxxxxxxxxx performance has deteriorated. I/O latency increased from average value of 396 microseconds to 329795 microseconds.WARNING: ScsiDeviceIO: xxxx: Device naa.xxxxxxxxxxxxxxxx performance has deteriorated. I/O latency increased from average value of 396 microseconds to 735467 microseconds.
これは、SSH 経由でノードにログインし esxtop の u オプションを使うことでも確認できます。問題のあるデバイスでは、DAVG/cmd が予期せず高くなる可能性があります。 (例: IO の処理に 100 ミリ秒かかる)
この問題は、vSAN キャッシュ層デバイスとして使用されるデバイスで発生する可能性が高くなります。これらのデバイスは、容量層デバイスよりも多くの書き込み IO を処理するためです。そのため、特にワークロードが書き込み集中型である場合は、より高い耐久性クラス/DWPD/サイズのデバイスのキャッシュ層デバイスの使用を検討することが重要です。
ノード-ローカル デバイスの現在の 'Media Wearout Indicator' の値は、ノードへの SSH 経由で確認できます。[root@hostname] localcli storage core device smart get -d naa.xxxxxxxxxxxxxxxxSMART Data for Disk : naa.xxxxxxxxxxxxxxxxParameter Value Threshold Worst Raw-----------------------------------------------------------Health Status OK N/A N/A N/AMedia Wearout Indicator 1 0 1 0 <<<---(ここを確認)Power-on Hours 100 0 100 10Power Cycle Count 100 0 100 16Reallocated Sector Count 100 10 100 0Drive Temperature 100 0 100 27Write Sectors TOT Count 100 0 100 182Read Sectors TOT Count 100 0 100 112Initial Bad Block Count 100 0 100 0Program Fail Count 100 0 100 0Erase Fail Count 100 0 100 0Uncorrectable Error Count 100 0 100 0Pending Sector Reallocation Ct 100 0 100 0------------------------------------------------------------
vSAN パーティションがあるすべてのノード -ローカル ディスクの SMART 統計を照会する基本ループの例 (SSH 経由で各 vSAN ノードで実行):# for i in $(vdq -Hi| grep -E "SSD|MD"| awk '{print $2}');do echo $i;localcli storage core device smart get -d $i;done
すべてのデバイスが 'Media Wearout Indicator' のSMART 統計取得をサポートしているわけではないため、サポートしていないこれらのデバイスでは "N/A" という値が返されますが、これは正常かつ予想される動作です。
'Media Wearout Indicator' の値に類似した統計は、iDRAC/iLO/XClarity などのハードウェア管理ソリューションで参照できる場合があり、デバイス上で使用可能な残りのオーバープロビジョニングされた領域の容量を示すためにも使用できます。
オーバープロビジョニングされた領域の枯渇による深刻な問題(頻繁で予期しない高レイテンシなど)の兆候を明確に示しているデバイスは、直ちに物理的に交換する必要があります。
デバイスが正常に動作するために必要な 'Media Wearout Indicator' の残量%に決まった基準はありませんが、残量が1桁%に達したデバイスについては、注意深く監視し、ベンダーの承認を得た上でプロアクティブ (予防措置的) に交換することを推奨します。
そのデバイスがどのくらいの期間vSANで使用されているか(または最後に再パーティション化されてからの期間)は、`localcli vsan storage list` の出力にある "Creation Time(作成時間)"フィールドから推測できる場合があります。
1つのデバイスが1桁%台になり末期的な問題が発生している場合、vSANのI/O分散の仕組み上、他のディスクも同様に低い値に達している可能性があるため、すべてのデバイスを確認することをお勧めします。