「Health: Miss counters detected」Mellanoxドライバーのアラートについて
search cancel

「Health: Miss counters detected」Mellanoxドライバーのアラートについて

book

Article ID: 429462

calendar_today

Updated On:

Products

VMware vSphere ESXi

Issue/Introduction

  • ESXi バージョン 8.0.2 および 8.0.3 にて、Mellanox ドライバーに対して以下の警告が記録されます。

nmlx5_QueryNicVportContext:188 command failed: IO was aborted

  • ESXi において、/var/log/vmkernel.log 内にエラーコード「extSynd 0x0000」を含む以下のログが不定期に出力されます。

<NMLX_ERR> nmlx5_core: 0000:45:00.0: Health: Miss counters detected
<NMLX_INF> synd 0x0: unrecognized error
<NMLX_INF> extSynd 0x0000
<NMLX_ERR> nmlx5_QueryNicVportContext:188 command failed: IO was aborted
<NMLX_ERR> nmlx5_QueryVportCounter:1851 command failed: IO was aborted

  • 「extSynd 0x0000」の発生以降、アップリンクのステータス更新が停止し、対向スイッチ側の実際の接続状態が反映されない事象が発生します。

免責事項:これは英文の記事「"Health: Miss counters detected" alerts for Mellanox driver」の日本語訳です。記事はベストエフォートで翻訳を進めているため、ローカライズ化コンテンツは最新情報ではない可能性があります。最新情報は英語版の記事で参照してください。

Environment

vSphere ESXi 8.0.x

Cause

本事象は nmlx5 ヘルスチェック・ロジックの既知の不具合に起因します。NIC ファームウェアが正常稼働している場合でも、ドライバーが誤判定により NIC を故障状態と認識します。この検出が行われると、ドライバーは該当する vmnic 上の全 I/O 処理をサスペンドします。

Resolution

この問題は、VMware ESXi 8.0U3e(nmlx5_core ドライバーバージョン:4.23.6.5)および VCF 9.0 の標準ドライバー(nmlx5_core バージョン:4.24.0.7)で解決されています。

Broadcom ポータルからのダウンロード方法については、リファレンス KB「Download Broadcom products and software」のガイダンスを確認してください。

回避策:
現時点では、この事象の発生を防止したり回避したりするための回避策はありません。一度この事象が発生すると、アップリンクを復旧させるには ESXi ホストの再起動が必要となります。

Additional Information

ESXi の /var/log/vmkernel.log に記録されたエラーコードが extSynd 0x8a02 である場合、ドライバーからファームウェアへのコマンド送信が失敗していることを示しています。この問題はハードウェアまたはファームウェアのレイヤーで発生しており、NIC ベンダーによるさらなる調査が必要です。

<NMLX_ERR> nmlx5_core: 0000:c1:00.0: Health: Miss counters detected
<NMLX_INF> Device internal error state is set
<NMLX_INF> assertVar[0] 0x00000000
<NMLX_INF> assertVar[1] 0x00000000
<NMLX_INF> assertVar[2] 0x00000000
<NMLX_INF> assertVar[3] 0x00000000
<NMLX_INF> assertVar[4] 0x00000000
<NMLX_INF> assertExitPtr 0x20a37df8
<NMLX_INF> assertCallra 0x20a3ebcc
<NMLX_INF> firmwareVersion 0x1a2903e9
<NMLX_INF> hwId 0x00000216
<NMLX_INF> iriscIndex 6
<NMLX_INF> synd 0x1: firmware internal error
<NMLX_INF> extSynd 0x8a02
<NMLX_INF> driver 4.23.6.5
<NMLX_INF> nmlx5_core: 0000:c1:00.0: Health: thread is stopped 0x43199284db88
<NMLX_WRN> nmlx5_core: vmnic1: nmlx5_en_UpdateStatsWork - (nmlx5_core_en_main.c:1882) Device internal error state is set! Stop updating