NSX がインストールされた ESXi ホスト上で nestdb エージェントがダウンしています
search cancel

NSX がインストールされた ESXi ホスト上で nestdb エージェントがダウンしています

book

Article ID: 438263

calendar_today

Updated On:

Products

VMware NSX

Issue/Introduction

免責事項:これは英文の記事「nestdb agent is down on an NSX prepared ESXi Host」の日本語訳です。記事はベストエフォートで翻訳を進めているため、ローカライズ化コンテンツは最新情報ではない可能性があります。最新情報は英語版の記事で参照してください。

 

  • ESXホストにNSXがインストールされています。
  • ホスト上の仮想マシンは、トラフィックの送受信を行うことができません。
  • ホスト上ではNSXの設定変更ができません。
  • ESXホスト上でnsx-nestdbサービスが「not running」と表示されます。
     
    例:

    [root@esxi-host:~] /etc/init.d/nsx-nestdb status
    NSX-NESTDB is not running

  • ESXホストにてget controllers」コマンドで確認したところ、ホストとコントローラ間の接続がダウンしています。

    例:
    get controllers

    [root@esxi-host:~] nsxcli -c get controllers

     Controller IP    Port     SSL         Status       Is Physical Master   Session State  Controller FQDN           Failure Reason

      #.#.#.18     1235   enabled      not used            false              null              NA                       NA
      #.#.#.17     1235   enabled      not used            false              null              NA                       NA
      #.#.#.19     1235   enabled    disconnected           true              down              NA              CONNECTION_TIMED_OUT

  • 他ホストへのvMotionは不可能です。
  • /var/run/log/nsx-syslogには、以下のログメッセージが記録されています

<date-time> nestdb-server[390039091]: NSX 390039091 - [nsx@6876 comp="nsx-esx" subcomp="nsx-nestdb" tid="390039091" level="ERROR" errorCode="NST0103"] leveldb::DB::Write() failed: IO error: /var/lib/vmware/nsx/nestdb/db/8437570.ldb: No space left on device

<date-time-1> nestdb-server[390040348]: NSX 390040348 - [nsx@6876 comp="nsx-esx" subcomp="nsx-nestdb" tid="390040348" level="ERROR" errorCode="NST0103"] leveldb::DB::Write() failed: IO error: /var/lib/vmware/nsx/nestdb/db/8437575.ldb: No space left on device

<date-time-2> nestdb-server[390040382]: NSX 390040382 - [nsx@6876 comp="nsx-esx" subcomp="nsx-nestdb" tid="390040382" level="ERROR" errorCode="NST0103"] leveldb::DB::Write() failed: IO error: /var/lib/vmware/nsx/nestdb/db/8437578.ldb: No space left on device

  • このディレクトリに/var/lib/vmware/nsx/nestdb/db/lostは、RAMディスクの容量をすべて消費しているファイルが多数含まれています。

Environment

VMware NSX-T Data Center

Cause

nestdbエージェントで回復不能なエラーが発生した場合、再起動前に現在のnestdbのコピーを/var/lib/vmware/nsx/nestdb/db/lostに保存します
時間が経つにつれてnestdbでエラーが継続すると、多くのファイルが /var/lib/vmware/nsx/nestdb/db/lostに作成されラムディスクの空き容量が不足します。

ラムディスクがいっぱいになるとnestdbは再起動できなくなり、ダウンしたままになり問題が発生する症状が現れます。

Resolution

この問題は VMware NSX 3.2.3.1 および 4.1.1 で解決されておりBroadcom Downloadsから入手可能です
ソフトウェアの検索やダウンロードに問題がある場合は、  Broadcom 製品およびソフトウェアのダウンロードに関するナレッジ ベース記事を参照してください。


回避策:

  • API /api/v1/transport-nodes/<uuid>/status?source=realtimeを使用して、トランスポートノードの RAM ディスク使用率を監視します。以下は結果の例です。

...

                {
                    "file_system": "nestdb",
                    "mount": "/var/lib/vmware/nsx/nestdb/db",
                    "total": 524288,
                    "type": "ramdisk", 
       "used": 10548                 },             

...

  • 使用 値が400000を超える場合はこの問題の発生を防ぐために、/var/lib/vmware/nsx/nestdb/db/lost配下のすべてのファイルを削除してください。
  • 既に問題が発生していて nestdbがダウンしている場合は、/var/lib/vmware/nsx/nestdb/db/lost配下のすべてのファイルを削除し、  ESXi ホスト上でnsx-nestdb サービスを再起動します。コマンドは/etc/init.d/nsx-nestdb restartです。

nsx-nestdbを再起動してもESXiホストには影響はありません。nestdbは永続ストレージとして使用されないためです。nestdbが再起動すると、CCP(中央制御プレーン)との完全な同期が実行されます。