HCX ネットワークタスクは、「ndd」プロセスによるメモリ使用量が多いために失敗します
search cancel

HCX ネットワークタスクは、「ndd」プロセスによるメモリ使用量が多いために失敗します

book

Article ID: 422082

calendar_today

Updated On:

Products

VMware HCX

Issue/Introduction

免責事項:これは英文の記事「HCX Network tasks failing due to high memory usage by the "ndd" process」の日本語訳です。記事はベストエフォートで翻訳を進めているため、ローカライズ化コンテンツは最新情報ではない可能性があります。最新情報は英語版の記事で参照してください。

  • HCX のネットワークタスク(Extension、Unextension、または MON(Mobility Optimized Networking)の有効化)を実行している際、/common/logs/admin/app.log に以下のエラーが確認されます:
    <timestamps> UTC [NetworkStretchService_SvcThread-154, j: ########, s: ########, , TxId: ########-####-####-####-############] ERROR c.v.v.h.n.i.AbstractJobInt- InterconnectServiceJobs workflow InterconnectServiceConfigJob failed. Error: Interconnect Service Workflow GenerateAndPostConfig failed. Error: Operation timedout in state POST_CONFIG_VIX
    
     UTC [NetworkStretchService_SvcThread-154, j: ########, s: ########, , TxId: ########-####-####-####-############] ERROR c.v.v.h.n.i.UnstretchNetworkJobInt- Error encountered in Unstretch network job
    java.lang.RuntimeException: Interconnect Service Workflow GenerateAndPostConfig failed. Error: Operation timedout in state POST_CONFIG_VIX
  • HCX Manager UI → Interconnect → Service Mesh でアプライアンスを確認し、"i - info" アイコンをクリックすると、以下のアラームが表示されます:
    System state is critical
    Config engine is in systemdBad state
    Memory usage is high



  • 高メモリ使用プロセスを確認するには、以下の手順を実施します:
  1. HCX Manager に admin ユーザーで SSH ログインします。
  2. ログイン後、以下を入力します:
    • ccli
    • list
    • go #(# は NE アプライアンス ID)

      show system memory コマンドを実行し、メモリを確認します。
      [admin@HCX-NE-R#] show system memory
      MemTotal:        3075532 kB
      MemFree:           75913 kB
      MemAvailable:          15120 kB  >>>>>>>
    • ssh
    • top
    • Shift + M を押下 → メモリ使用率の高いプロセスを確認



    • NE の /var/log/messages に以下のログが確認されます。
      <timestamp> <Fleet-Appliance> cgw 1098 - - [Info-Tasker] : Timeout vmware-toolbox-cmd stat balloon <timestamp> <Fleet-Appliance> cgw 1098 - - [Err-Tasker] : cmd (/usr/bin/vmware-toolbox-cmd stat balloon) done, error: Timeout <timestamp> <Fleet-Appliance> cgw 1098 - - [Err-ops] : getBalloonStat() failed, /usr/bin/vmware-toolbox-cmd stat balloon: Timeout <timestamp> <Fleet-Appliance> cgw 1098 - - [Warning-ops] : Memory usage is probably high (free: %3) <timestamp> <Fleet-Appliance> cgw 1098 - - [Info-opsEvent] : new system event: SystemEvent[<timestamp>, <timestamp>, 60002, critical, Memory usage is high, map[balloon:0 MB cache:32772096 free:102031360 total:3149344768 used:3047313408]] 

       

Environment

VMware HCX

Cause

NEアプライアンスで、nddプロセスに影響を与えるメモリリークが検出されました。
これによりメモリ使用量が増加し、NEアプライアンスはリソースを割り当てることができず、タスクが失敗します。

Resolution

この問題は VMware HCX 4.11.1 で解消されており、Broadcom ダウンロードから入手可能です。
ソフトウェアの検索やダウンロードに問題がある場合は、Download Broadcom products and software KB をご参照ください。

回避策(Workaround):

  1. Config engine is in systemdBad state のアプライアンスの場合:
    • 対象アプライアンスを Force オプションを使用して再デプロイします。詳細については以下をご参照ください: Manage Service Mesh Appliances
    • 再デプロイが完了したら、問題の再発を防ぐため ndd プロセスを停止・無効化してください。

      注意: NE の Force redeploy にはダウンタイムが必要であり、メンテナンス時間中にのみ実施してください。

      再デプロイが失敗する場合は、Broadcom Support にサポートケースをオープンし、本 KB を参照してください。詳細は以下をご参照ください: Creating and managing Broadcom support cases.

  2. Memory usage is high が表示され、かつ Config engine is in systemBad state が **表示されていない** アプライアンスの場合は、以下の回避策を実施してください:
    1. HCX Manager に admin ユーザーで SSH ログインします。
    2. ログイン後、以下を入力します:
      • ccli
      • list
      • go # (# は NE アプライアンス ID)
      • ssh
      • systemctl stop ndd
      • systemctl disable ndd

注意: NE Appliance VM 上で ndd サービスを無効化しても、トラフィック転送やシステム安定性に影響はありません。ただし、Transport Analytics 機能はこれらの NE アプライアンスでは使用できなくなります。その代替として、オンデマンドの帯域幅テストを利用できます。

注意: HCX 4.11.0 またはそれ以前を使用している場合、将来の発生を防ぐため、パッチがリリースされるまで Workaround 2 を事前に実施することを推奨 します。 これは HCX NE-I(Source/Initiator)および NE-R(Target/Receiver)の両アプライアンスで実施する必要があります。

Additional Information

VMware HCX 4.11.1 リリースノート、以下をご覧ください。
修正された問題 3528977: Network Detection Daemon (ndd) プロセスの実行時間が長いと、Network Extension (NE) および Interconnect (IX) アプライアンスでシステムのメモリ不足が発生することがあります。

KB: メモリ使用量の増加により HCX NE トンネルがダウンする