LACP のリンクダウンが繰り返し発生する
search cancel

LACP のリンクダウンが繰り返し発生する

book

Article ID: 429496

calendar_today

Updated On:

Products

VMware vSphere ESXi

Issue/Introduction

免責事項: これは英文の記事 「The host is encountering repeated LACP Down events.」の日本語訳です。記事はベストエフォートで翻訳を進めているため、ローカライズ化コンテンツは最新情報ではない可能性があります。最新情報は英語版の記事で参照してください。

 

/var/run/log/vmkernel.log 内で LACP アップリンクである vmnic# がフラッピングしていることが以下のように確認できる:

<DATE_TIME> cpu43:2098552)Team.vswitch: TeamVSLACPLAGEventCB:9083: [nsx@6876 comp="nsx-esx" subcomp="vswitch"]Received event UPLINK LINK STATUS, LAG /945396023, link UNKNOWN, uplink vmnic#/0x86000017, link DOWN
<DATE_TIME> cpu43:2098552)Team.vswitch: TeamVSLACPLAGEventCB:9083: [nsx@6876 comp="nsx-esx" subcomp="vswitch"]Received event UPLINK LINK STATUS, LAG /945396023, link UNKNOWN, uplink vmnic#/0x86000017, link UP

 

ESXi ホスト上で採取されたパケットキャプチャ内で物理スイッチから送信された形跡のあるパケットが確認できない。
毎秒 LACP パケットの痕跡が物理スイッチと ESXi ホストの両方で記録されるべきだが、ESXi ホスト上で採取されたパケットキャプチャでは 1 つのパケットが欠落している:

# 物理スイッチのパケットキャプチャ

<DATE> <TIME>  <Source>   Slow-Protocols  LACP    124 v1 ACTOR <MAC_ADDRESS> P: 3 K: 102 **DCSGSA PARTNER <MAC_ADDRESS> P: 4 K: 79 **DCSGSA
<DATE> <TIME>  <Source>   Slow-Protocols  LACP    124 v1 ACTOR <MAC_ADDRESS> P: 3 K: 102 **DCSGSA PARTNER <MAC_ADDRESS> P: 4 K: 79 **DCSGSA
<DATE> <TIME>  <Source>   Slow-Protocols  LACP    124 v1 ACTOR <MAC_ADDRESS> P: 3 K: 102 **DCSGSA PARTNER <MAC_ADDRESS> P: 4 K: 79 **DCSGSA
<DATE> <TIME>  <Source>   Slow-Protocols  LACP    124 v1 ACTOR <MAC_ADDRESS> P: 3 K: 102 **DCSGSA PARTNER <MAC_ADDRESS> P: 4 K: 79 **DCSGSA

 

# ESXi ホストのパケットキャプチャ

<DATE> <TIME>  <Source>   Slow-Protocols  LACP    124 v1 ACTOR <MAC_ADDRESS> P: 3 K: 102 **DCSGSA PARTNER <MAC_ADDRESS> P: 4 K: 79 **DCSGSA
<DATE> <TIME>  <Source>   Slow-Protocols  LACP    124 v1 ACTOR <MAC_ADDRESS> P: 3 K: 102 **DCSGSA PARTNER <MAC_ADDRESS> P: 4 K: 79 **DCSGSA
<DATE> <TIME>  <Source>   Slow-Protocols  LACP    124 v1 ACTOR <MAC_ADDRESS> P: 3 K: 102 **DCSGSA PARTNER <MAC_ADDRESS> P: 4 K: 79 **DCSGSA
--> 欠落

 

加えて、ESXi サポートログバンドルの /commands/nicinfo.sh.txt から txBusy の数値が高いことが確認できる:

NIC:  vmnic#
   vmnic# 0000:5e:00.0 i40en Up Up 10000 Full <MAC_ADDRESS> 9100 Intel(R) Ethernet Controller X710 for 10GbE SFP+

 

   NIC Private statistics:
      Number of packets assigned to an invalid queue: 0

      ...
      txq0: totalPkts=1821079920 totalBytes=678993173391 restartQueue=14222255 txBusy=14219716 queueFull=14219716 pktDropped=0
      txq1: totalPkts=1948947390 totalBytes=1195888523074 restartQueue=60998 txBusy=60948 queueFull=60948 pktDropped=0
      txq2: totalPkts=10394929 totalBytes=9960475523 restartQueue=22397 txBusy=22382 queueFull=22382 pktDropped=0
      txq3: totalPkts=6520813 totalBytes=1164502036 restartQueue=15067 txBusy=15049 queueFull=15049 pktDropped=0
      txq4: totalPkts=3025390 totalBytes=759232782 restartQueue=6175 txBusy=6168 queueFull=6168 pktDropped=0
      txq5: totalPkts=791696 totalBytes=201090078 restartQueue=101 txBusy=99 queueFull=99 pktDropped=0
      txq6: totalPkts=142384 totalBytes=27710611 restartQueue=4 txBusy=4 queueFull=4 pktDropped=0
      ...
      txq23: totalPkts=406627557 totalBytes=58554368208 restartQueue=0 txBusy=0 queueFull=0 pktDropped=0
      ...

Environment

VMware vSphere ESXi

Cause

この問題は バースト IO によりパケットロスすることで発生する可能性があります。

Resolution

この問題を軽減するには、以下 2 つのオプション適用を検討します:

  • KB 341594 に沿って、pNIC の RX と TX リングバッファサイズを増やします。
  • KB 324551に沿って、イーサネットフロー制御(一時停止フレーム)を有効化します。