Mellanox NIC を利用するvSAN ホストにて vSAN アラーム 「物理 NIC エラー率が高くなっています」 が検出される
search cancel

Mellanox NIC を利用するvSAN ホストにて vSAN アラーム 「物理 NIC エラー率が高くなっています」 が検出される

book

Article ID: 409725

calendar_today

Updated On:

Products

VMware vSAN 8.x VMware vSAN 7.x VMware vSphere ESXi 8.0 VMware vCenter Server 8.0

Issue/Introduction

この記事では、Mellanox NIC を搭載した vSphere において、 vSAN アラーム 「物理 NIC エラー率が高くなっています」 が発生する問題について説明します。
この問題は、nmlx5_core ドライバを使用している ConnectX-4 および ConnectX-6 NIC で報告されています。

免責事項:これは英文の記事「Seeing "High pNIC error rate" vSAN alarm on vSAN Hosts with Mellanox NIC Cards」の日本語訳です。記事はベストエフォートで翻訳を進めているため、ローカライズ化コンテンツは最新情報ではない可能性があります。最新情報は英語版の記事で参照してください。

Environment

VMware vSphere ESXi 7.0.x
VMware vSphere ESXi 8.0.x

VMware vCenter Server 7.0.x
VMware vCenter Server 8.0.x

VMware vSAN 7.x
VMware vSAN 8.x

Cause

nmlx5_core ドライバにて Mellanox NIC の Rx エラーを報告する方法が変更されたため、リングバッファの問題により、vSAN アラーム 「物理 NIC エラー率が高くなっています」 が発生する可能性があります。
Rx miss error は、Rx の処理スレッドが NIC ドライバの Rx リングバッファからパケットを取り出せない場合に発生します。

FIFO (First In, First Out) は、NIC の内部メモリのキューイングメカニズムです。NIC が「バッファ不足」状態になると、キューバッファがフラッシュされ、すべての I/O が破棄されてから新しいトラフィックが開始されるまで、新しいパケットを処理できません。
この 5 分以内のバッファキューのダンプにより、大量のパケットがドロップされ、vSAN アラーム 「物理 NIC エラー率が高くなっています」 が発生する可能性があります。
一時的なキューダンプでは目に見える問題は発生しないかもしれませんが、継続的なパケットのドロップは vSAN のパフォーマンスに影響を及ぼします。

Resolution

VMware by Broadcom は、上記のような特定の時点におけるキューのドロップによってこのアラームがトリガーされる可能性があることを認識しています。
しかしvSAN パケットの 1% の損失がクラスタに与える影響はvSAN のお客様にとって潜在的に大きく、アラームの本来の意図とは異なるとしてもその計算の結果は効果的です。

回避策として、以下のオプションがあります。

- アラートが複数回発生しない限り無視する
- NIC のリングバッファサイズを増やす

Troubleshooting NIC errors and other network traffic faults in ESXi」に従いNIC のリングバッファを調整することで、アラートの頻度を減らすことができます。

Additional Information

パケットドロップはvSANのパフォーマンスに悪影響を及ぼす可能性があります。「 vSAN Networking – Network Oversubscription.」で詳しく説明されているように、1%のドロップ率はvSANのIOPスループットの10%に影響します。
 
Receive Missed Errors detected on Mellanox pNICs
High pNIC error rate, which is exceeding the expected threshold of 100%
Alarm about high pNIC error rate being detected