nmlx5_QueryNicVportContext:188 command failed: IO was aborted
<NMLX_ERR> nmlx5_core: 0000:45:00.0: Health: Miss counters detected<NMLX_INF> synd 0x0: unrecognized error<NMLX_INF> extSynd 0x0000<NMLX_ERR> nmlx5_QueryNicVportContext:188 command failed: IO was aborted<NMLX_ERR> nmlx5_QueryVportCounter:1851 command failed: IO was aborted
免責事項:これは英文の記事「"Health: Miss counters detected" alerts for Mellanox driver」の日本語訳です。記事はベストエフォートで翻訳を進めているため、ローカライズ化コンテンツは最新情報ではない可能性があります。最新情報は英語版の記事で参照してください。
vSphere ESXi 8.0.x
本事象は nmlx5 ヘルスチェック・ロジックの既知の不具合に起因します。NIC ファームウェアが正常稼働している場合でも、ドライバーが誤判定により NIC を故障状態と認識します。この検出が行われると、ドライバーは該当する vmnic 上の全 I/O 処理をサスペンドします。
この問題は、VMware ESXi 8.0U3e(nmlx5_core ドライバーバージョン:4.23.6.5)および VCF 9.0 の標準ドライバー(nmlx5_core バージョン:4.24.0.7)で解決されています。
Broadcom ポータルからのダウンロード方法については、リファレンス KB「Download Broadcom products and software」のガイダンスを確認してください。
回避策:
現時点では、この事象の発生を防止したり回避したりするための回避策はありません。一度この事象が発生すると、アップリンクを復旧させるには ESXi ホストの再起動が必要となります。
ESXi の /var/log/vmkernel.log に記録されたエラーコードが extSynd 0x8a02 である場合、ドライバーからファームウェアへのコマンド送信が失敗していることを示しています。この問題はハードウェアまたはファームウェアのレイヤーで発生しており、NIC ベンダーによるさらなる調査が必要です。
<NMLX_ERR> nmlx5_core: 0000:c1:00.0: Health: Miss counters detected
<NMLX_INF> Device internal error state is set
<NMLX_INF> assertVar[0] 0x00000000
<NMLX_INF> assertVar[1] 0x00000000
<NMLX_INF> assertVar[2] 0x00000000
<NMLX_INF> assertVar[3] 0x00000000
<NMLX_INF> assertVar[4] 0x00000000
<NMLX_INF> assertExitPtr 0x20a37df8
<NMLX_INF> assertCallra 0x20a3ebcc
<NMLX_INF> firmwareVersion 0x1a2903e9
<NMLX_INF> hwId 0x00000216
<NMLX_INF> iriscIndex 6
<NMLX_INF> synd 0x1: firmware internal error
<NMLX_INF> extSynd 0x8a02
<NMLX_INF> driver 4.23.6.5
<NMLX_INF> nmlx5_core: 0000:c1:00.0: Health: thread is stopped 0x43199284db88
<NMLX_WRN> nmlx5_core: vmnic1: nmlx5_en_UpdateStatsWork - (nmlx5_core_en_main.c:1882) Device internal error state is set! Stop updating