Ntg3 ドライバにおいて Ntg3XmitPktList と Ntg3TxCompletion の間で TX ハングが発生し、ESXi ホスト上の VM がネットワーク接続を失う
search cancel

Ntg3 ドライバにおいて Ntg3XmitPktList と Ntg3TxCompletion の間で TX ハングが発生し、ESXi ホスト上の VM がネットワーク接続を失う

book

Article ID: 436699

calendar_today

Updated On:

Products

VMware vSphere ESXi

Issue/Introduction

免責事項:これは英文の記事「VMs lose network connectivity on ESXi hosts with Ntg3 driver due to TX hang between Ntg3XmitPktList and Ntg3TxCompletion.(370372)」の日本語訳です。記事はベストエフォートで翻訳を進めているため、ローカライズ化コンテンツは最新情報ではない可能性があります。最新情報は英語版の記事で参照してください。

  • 仮想マシン(VM)が、すべてまたは一部のネットワーク宛先に対して突然接続できなくなります。これらの宛先への ping も失敗します。
  • VM の稼働中、vmxnet3 vNIC が /var/run/log/vmkernel.log に以下のような「hang detected」メッセージを出力します。
    "Vmxnet3: 21228: vmname,##:##:##:##:##:##, portID(xxxxxxxx): Hang detected,numHangQ: 4, enableGen: 9218"
    "WARNING: Uplink: 2101#: Queue 0 of device vmnicX stuck, resetting the device"
  • 影響を受けた VM のネットワークを、同一ホストまたは別ホスト上の別の vmnic に移行すると、接続は復旧します。
  • 一方で、vmnic のリンクを Up/Down しても改善しません。

Environment

VMware vSphere ESXi 7.0.x
VMware vSphere ESXi 8.0.x

 

Cause

この問題(TX ハング)は、ntg3 ドライバ内の Ntg3XmitPktList と Ntg3TxCompletion の間で発生する、まれなデータ競合が原因と考えられます。
この事象は、Ntg3XmitPktList が TXQ のフル状態を検知したごく狭いタイミングで、Ntg3TxCompletion が TXQ 全体の完了処理(たとえば、ほぼ満杯の状態から空の状態になるまで)をマークした場合に発生します。

 

Resolution

これは VMware ESXi ホストに影響する既知の問題であり、修正は inbox ドライバ ntg3 バージョン 4.1.15 に含まれています。
本問題は、Broadcom Downloads で提供されている VMware vSphere ESXi 7.0 Update 3v および ESXi 8.0 Update 3e で修正されています。
ソフトウェアの検索やダウンロードが難しい場合は、Broadcom 製品およびソフトウェアのダウンロードに関する KB を参照してください。