メディア摩耗インジケーター(Media Wearout Indicator)の深刻な残量の低下によるvSANのパフォーマンスおよびデータ可用性の問題

Products

VMware vSAN

Issue/Introduction

免責事項：これは英文の記事「vSAN performance and/or data-availability issues due to device(s) with critically low remaining 'Media Wearout Indicator' value.」の日本語訳です。
記事はベストエフォートで翻訳を進めているため、ローカライズ化コンテンツは最新情報ではない可能性があります。最新情報は英語版の記事で参照してください。

SSD ストレージデバイスは、データの書き込みと保存にフラッシュメモリを使用します。

これらのデバイスは、ユーザー/ハイパーバイザー/ゲスト OS には表示されないオーバープロビジョニングされた領域がベンダーによって構成されており、デバイスのパフォーマンスを向上させる (例えば、ウェアレベリングによるパフォーマンス向上) ため、およびデバイスの寿命/耐久性を延ばす (例えば、障害が発生した/故障しつつあるブロックを交換する) ために使用されます。

このオーバープロビジョニングされた領域は無制限のリソースではありません。デバイスが持つオーバープロビジョニングされた領域の量は、定格耐久性クラス/DWPD、デバイスのサイズ、ベンダーの仕様によって異なります。

Environment

VMware vSAN 6.x
VMware vSAN 7.x
VMware vSAN 8.x

Cause

時間の経過とともに、ストレージデバイスへの書き込み IO により、オーバープロビジョニングされたブロックの量が徐々に増加し、最終的にアクティブに使用されるようになります。その結果、使用可能なブロックの量は減少します。これは、デバイスの 'Media Wearout Indicator' の SMART 値が、新しいデバイスの初期値である 'Media Wearout Indicator 100' から減少することで示されます。

デバイスの使用状況でオーバープロビジョニングされた領域が枯渇し始めると (例: 'Media Wearout Indicator 10' - 残り 10% の場合)、デバイスの動作が正常な動作でなくなる可能性があります。残り容量が数 % しかないデバイスの典型的な症状は、デバイス上で観測される遅延の増加 (場合によっては散発的/断続的) です。

これは、次のようなパターンで vmkernel.log に記録される場合があります。 (ここでの、naa.xxxxxxxxxxxxxxxxxx はデバイスの識別子です)
WARNING: ScsiDeviceIO: xxxx: Device naa.xxxxxxxxxxxxxxxx performance has deteriorated. I/O latency increased from average value of 396 microseconds to 168821 microseconds.
WARNING: ScsiDeviceIO: xxxx: Device naa.xxxxxxxxxxxxxxxx performance has deteriorated. I/O latency increased from average value of 396 microseconds to 329795 microseconds.
WARNING: ScsiDeviceIO: xxxx: Device naa.xxxxxxxxxxxxxxxx performance has deteriorated. I/O latency increased from average value of 396 microseconds to 735467 microseconds.

これは、SSH 経由でノードにログインし esxtop の u オプションを使うことでも確認できます。問題のあるデバイスでは、DAVG/cmd が予期せず高くなる可能性があります。 (例: IO の処理に 100 ミリ秒かかる)

この問題は、vSAN キャッシュ層デバイスとして使用されるデバイスで発生する可能性が高くなります。これらのデバイスは、容量層デバイスよりも多くの書き込み IO を処理するためです。そのため、特にワークロードが書き込み集中型である場合は、より高い耐久性クラス/DWPD/サイズのデバイスのキャッシュ層デバイスの使用を検討することが重要です。

ノード-ローカルデバイスの現在の 'Media Wearout Indicator' の値は、ノードへの SSH 経由で確認できます。

[root@hostname] localcli storage core device smart get -d naa.xxxxxxxxxxxxxxxx
SMART Data for Disk : naa.xxxxxxxxxxxxxxxx
Parameter Value Threshold Worst Raw
-----------------------------------------------------------
Health Status OK N/A N/A N/A
Media Wearout Indicator 1 0 1 0 <<<---(ここを確認)
Power-on Hours 100 0 100 10
Power Cycle Count 100 0 100 16
Reallocated Sector Count 100 10 100 0
Drive Temperature 100 0 100 27
Write Sectors TOT Count 100 0 100 182
Read Sectors TOT Count 100 0 100 112
Initial Bad Block Count 100 0 100 0
Program Fail Count 100 0 100 0
Erase Fail Count 100 0 100 0
Uncorrectable Error Count 100 0 100 0
Pending Sector Reallocation Ct 100 0 100 0
------------------------------------------------------------

vSAN パーティションがあるすべてのノード -ローカルディスクの SMART 統計を照会する基本ループの例 (SSH 経由で各 vSAN ノードで実行):

# for i in $(vdq -Hi| grep -E "SSD|MD"| awk '{print $2}');do echo $i;localcli storage core device smart get -d $i;done

すべてのデバイスが 'Media Wearout Indicator' のSMART 統計取得をサポートしているわけではないため、サポートしていないこれらのデバイスでは "N/A" という値が返されますが、これは正常かつ予想される動作です。

'Media Wearout Indicator' の値に類似した統計は、iDRAC/iLO/XClarity などのハードウェア管理ソリューションで参照できる場合があり、デバイス上で使用可能な残りのオーバープロビジョニングされた領域の容量を示すためにも使用できます。

Resolution

オーバープロビジョニングされた領域の枯渇による深刻な問題（頻繁で予期しない高レイテンシなど）の兆候を明確に示しているデバイスは、直ちに物理的に交換する必要があります。

デバイスが正常に動作するために必要な 'Media Wearout Indicator' の残量％に決まった基準はありませんが、残量が1桁％に達したデバイスについては、注意深く監視し、ベンダーの承認を得た上でプロアクティブ (予防措置的) に交換することを推奨します。

そのデバイスがどのくらいの期間vSANで使用されているか（または最後に再パーティション化されてからの期間）は、`localcli vsan storage list` の出力にある "Creation Time(作成時間)"フィールドから推測できる場合があります。

1つのデバイスが1桁％台になり末期的な問題が発生している場合、vSANのI/O分散の仕組み上、他のディスクも同様に低い値に達している可能性があるため、すべてのデバイスを確認することをお勧めします。

Additional Information

vSAN performance and/or data-availability issues due to device(s) with critically low remaining 'Media Wearout Indicator' value.