この記事では、Mellanox NIC を搭載した vSphere において、 vSAN アラーム 「物理 NIC エラー率が高くなっています」 が発生する問題について説明します。
この問題は、nmlx5_core ドライバを使用している ConnectX-4 および ConnectX-6 NIC で報告されています。
免責事項:これは英文の記事「Seeing "High pNIC error rate" vSAN alarm on vSAN Hosts with Mellanox NIC Cards」の日本語訳です。記事はベストエフォートで翻訳を進めているため、ローカライズ化コンテンツは最新情報ではない可能性があります。最新情報は英語版の記事で参照してください。
VMware vSphere ESXi 7.0.x
VMware vSphere ESXi 8.0.x
VMware vCenter Server 7.0.x
VMware vCenter Server 8.0.x
VMware vSAN 7.x
VMware vSAN 8.x
nmlx5_core ドライバにて Mellanox NIC の Rx エラーを報告する方法が変更されたため、リングバッファの問題により、vSAN アラーム 「物理 NIC エラー率が高くなっています」 が発生する可能性があります。
Rx miss error は、Rx の処理スレッドが NIC ドライバの Rx リングバッファからパケットを取り出せない場合に発生します。
FIFO (First In, First Out) は、NIC の内部メモリのキューイングメカニズムです。NIC が「バッファ不足」状態になると、キューバッファがフラッシュされ、すべての I/O が破棄されてから新しいトラフィックが開始されるまで、新しいパケットを処理できません。
この 5 分以内のバッファキューのダンプにより、大量のパケットがドロップされ、vSAN アラーム 「物理 NIC エラー率が高くなっています」 が発生する可能性があります。
一時的なキューダンプでは目に見える問題は発生しないかもしれませんが、継続的なパケットのドロップは vSAN のパフォーマンスに影響を及ぼします。
VMware by Broadcom は、上記のような特定の時点におけるキューのドロップによってこのアラームがトリガーされる可能性があることを認識しています。
しかしvSAN パケットの 1% の損失がクラスタに与える影響はvSAN のお客様にとって潜在的に大きく、アラームの本来の意図とは異なるとしてもその計算の結果は効果的です。
回避策として、以下のオプションがあります。
- アラートが複数回発生しない限り無視する
- NIC のリングバッファサイズを増やす
「Troubleshooting NIC errors and other network traffic faults in ESXi」に従いNIC のリングバッファを調整することで、アラートの頻度を減らすことができます。
パケットドロップはvSANのパフォーマンスに悪影響を及ぼす可能性があります。「 vSAN Networking – Network Oversubscription.」で詳しく説明されているように、1%のドロップ率はvSANのIOPスループットの10%に影響します。
Receive Missed Errors detected on Mellanox pNICs
High pNIC error rate, which is exceeding the expected threshold of 100%
Alarm about high pNIC error rate being detected