Broadcom NIC ファームウェアのクラッシュによるリンクダウン(エラー 0x89021)
search cancel

Broadcom NIC ファームウェアのクラッシュによるリンクダウン(エラー 0x89021)

book

Article ID: 427926

calendar_today

Updated On:

Products

VMware vSphere ESXi

Issue/Introduction

免責事項:これは英文の記事「Broadcom NIC Firmware Crash resulting in Link Down (Error 0x89021)」の日本語訳です。記事はベストエフォートで翻訳を進めているため、ローカライズ化コンテンツは最新情報ではない可能性があります。最新情報は英語版の記事で参照してください。


この記事では、ホスト上の特定のインターフェース(例:vmnic#)でネットワーク接続が失われるシナリオについて説明します。ネットワークアダプターが応答不能になり、その結果、ドライバーがリンク状態を「ダウン」としてマークします。

この事象の発生時、カーネルログには通常、ドライバーがファームウェアからの応答を受け取れなくなったことが記録されます。まず、ポート統計を収集するためのコマンド(HWRM_FUNC_QSTATS)がタイムアウトします:

####-##-##T##:##:##.###Z Wa(###) vmkwarning: cpu##:#######)WARNING: bnxtnet: hwrm_send_msg:###: [vmnic# : 0x############] HWRM cmd resp_len timeout, cmd_type 0x##(HWRM_FUNC_QSTATS) seq #####

その後、ドライバーがファームウェアの状態を調査すると、特定のエラーコード(0x89021)が返されます。これにより、デバイスのファームウェアがクラッシュしたことが確定します。

####-##-##T##:##:##.###Z Wa(###) vmkwarning: cpu##:#######)WARNING: bnxtnet: hwrm_get_version:####: [vmnic# : 0x############] VER_GET failed- FW_STATUS_REG: 0x89021

Environment

VMware vSphere ESXi

Cause

原因は、ネットワークカードのファームウェア内にある RE CFA(Complex Flow Accelerator)で発生した TCAM パリティエラーであると特定されました。この特定の状態はファームウェアのトレースダンプによって確認されており、クラッシュ事象とともに『CRT FATAL ERROR』が記録されます。

####-##-##T##:##:##Z In(###) vmkernel: ####.#:D:Register re_cfa_int_sts_0:0x########: 0x9021
####-##-##T##:##:##Z In(###) vmkernel: ####.#:D:CRT FATAL ERROR: 0x9021

このエラーは通常、環境要因(TCAMメモリ内のビットを反転させるランダムなアルファ線など)によって引き起こされる、一時的な「ソフトエラー」です。まれに、この問題が繰り返し発生する場合は、物理的なハードウェアの欠陥を示している可能性があります。

Resolution

接続を復旧するには、以下の手順を実行してください:

  • コールドリブート(完全再起動)の実行: ホストのフルパワーサイクル(一度シャットダウンしてから電源を入れ直す操作)を行ってください。多くの場合、ドライバーの再起動だけでは不十分です。NICのファームウェアを完全に再起動し、エラービットをクリアするには、フルパワーサイクルが必要となります。
  • 再発の監視: ホストがオンラインに戻ったら、該当のインターフェースを監視してください。
    • 問題が解決した場合: このエラーは一時的な「ソフトエラー」であった可能性が高いため、これ以上の対応は不要です。
    • 問題が解決しない場合: 再起動後すぐにクラッシュが再発する場合は、ハードウェアの欠陥を示しています。そのネットワークデバイスは交換する必要があります。