免責事項:これは英文の記事「HCX Network tasks failing due to high memory usage by the "ndd" process」の日本語訳です。記事はベストエフォートで翻訳を進めているため、ローカライズ化コンテンツは最新情報ではない可能性があります。最新情報は英語版の記事で参照してください。
/common/logs/admin/app.log に以下のエラーが確認されます:<timestamps> UTC [NetworkStretchService_SvcThread-154, j: ########, s: ########, , TxId: ########-####-####-####-############] ERROR c.v.v.h.n.i.AbstractJobInt- InterconnectServiceJobs workflow InterconnectServiceConfigJob failed. Error: Interconnect Service Workflow GenerateAndPostConfig failed. Error: Operation timedout in state POST_CONFIG_VIX
UTC [NetworkStretchService_SvcThread-154, j: ########, s: ########, , TxId: ########-####-####-####-############] ERROR c.v.v.h.n.i.UnstretchNetworkJobInt- Error encountered in Unstretch network job
java.lang.RuntimeException: Interconnect Service Workflow GenerateAndPostConfig failed. Error: Operation timedout in state POST_CONFIG_VIX
HCX Manager UI → Interconnect → Service Mesh でアプライアンスを確認し、"i - info" アイコンをクリックすると、以下のアラームが表示されます:System state is criticalConfig engine is in systemdBad stateMemory usage is highadmin ユーザーで SSH ログインします。cclilistgo #(# は NE アプライアンス ID)show system memory コマンドを実行し、メモリを確認します。[admin@HCX-NE-R#] show system memory
MemTotal: 3075532 kB
MemFree: 75913 kB
MemAvailable: 15120 kB >>>>>>>
sshtopShift + M を押下 → メモリ使用率の高いプロセスを確認/var/log/messages に以下のログが確認されます。<timestamp> <Fleet-Appliance> cgw 1098 - - [Info-Tasker] : Timeout vmware-toolbox-cmd stat balloon <timestamp> <Fleet-Appliance> cgw 1098 - - [Err-Tasker] : cmd (/usr/bin/vmware-toolbox-cmd stat balloon) done, error: Timeout <timestamp> <Fleet-Appliance> cgw 1098 - - [Err-ops] : getBalloonStat() failed, /usr/bin/vmware-toolbox-cmd stat balloon: Timeout <timestamp> <Fleet-Appliance> cgw 1098 - - [Warning-ops] : Memory usage is probably high (free: %3) <timestamp> <Fleet-Appliance> cgw 1098 - - [Info-opsEvent] : new system event: SystemEvent[<timestamp>, <timestamp>, 60002, critical, Memory usage is high, map[balloon:0 MB cache:32772096 free:102031360 total:3149344768 used:3047313408]]
VMware HCX
NEアプライアンスで、nddプロセスに影響を与えるメモリリークが検出されました。
これによりメモリ使用量が増加し、NEアプライアンスはリソースを割り当てることができず、タスクが失敗します。
この問題は VMware HCX 4.11.1 で解消されており、Broadcom ダウンロードから入手可能です。
ソフトウェアの検索やダウンロードに問題がある場合は、Download Broadcom products and software KB をご参照ください。
回避策(Workaround):
Config engine is in systemdBad state のアプライアンスの場合:
Memory usage is high が表示され、かつ Config engine is in systemBad state が **表示されていない** アプライアンスの場合は、以下の回避策を実施してください:
admin ユーザーで SSH ログインします。cclilistgo # (# は NE アプライアンス ID)sshsystemctl stop nddsystemctl disable ndd注意: NE Appliance VM 上で ndd サービスを無効化しても、トラフィック転送やシステム安定性に影響はありません。ただし、Transport Analytics 機能はこれらの NE アプライアンスでは使用できなくなります。その代替として、オンデマンドの帯域幅テストを利用できます。
注意: HCX 4.11.0 またはそれ以前を使用している場合、将来の発生を防ぐため、パッチがリリースされるまで Workaround 2 を事前に実施することを推奨 します。 これは HCX NE-I(Source/Initiator)および NE-R(Target/Receiver)の両アプライアンスで実施する必要があります。
VMware HCX 4.11.1 リリースノート、以下をご覧ください。
修正された問題 3528977: Network Detection Daemon (ndd) プロセスの実行時間が長いと、Network Extension (NE) および Interconnect (IX) アプライアンスでシステムのメモリ不足が発生することがあります。