NSXノード上のアプリケーションがクラッシュしたというアラーム
search cancel

NSXノード上のアプリケーションがクラッシュしたというアラーム

book

Article ID: 422318

calendar_today

Updated On:

Products

VMware NSX

Issue/Introduction

免責事項:これは英文の記事「Application on NSX node has crashed alarm」の日本語訳です。記事はベストエフォートで翻訳を進めているため、ローカライズ化コンテンツは最新情報ではない可能性があります。最新情報は英語版の記事で参照してください。

 

イベントID: infrastructure_service.application_crashed
アラームの説明:

  • 目的:このアラームは、アラームの説明にあるノード (ホスト名または ID 付き) によってアプリケーション クラッシュが報告されたことをユーザーに通知します。
  • 影響:    サービスクラッシュし、アプライアンスがそれぞれのコアまたはヒープ ダンプ ファイルを生成しました。
    • NSX UI に次のようなアラームが表示されます。
      Application on NSX node <node> has crashed. The number of core files found is 1. Collect the Support Bundle including core dump files and contact VMware Support team. Recommended Action Collect Support Bundle for NSX node <nsx manager> using NSX Manager UI or API.
    • /var/log/syslog.logNSX アプライアンス ノード (統合アプライアンス、Edge など) の次のようなメッセージ:

      2023-05-19T02:50:34.898Z local-manager NSX 85581 MONITORING [nsx@6876 alarmId="e44e47ae-####-####-####-7a1#####d7ee" alarmState="OPEN" comp="nsx-manager" entId="####-####-####-####-####" errorCode="MP701099" eventFeatureName="infrastructure_service" eventSev="CRITICAL" eventState="On" eventType="application_crashed" level="FATAL" nodeId="####-####-####-####-d#####b" subcomp="monitoring"] Application on NSX node local-manager has crashed. The number of core files found is 1. Collect the Support Bundle including core dump files and contact VMware Support team.
    • ノードが ESXi ホスト トランスポート ノードである場合、上記と同じメッセージが次の場所に表示されます/var/log/nsx-syslog.log

      2023-05-18T10:07:31Z nsx-sha: NSX 268653 - [nsx@6876 comp="nsx-esx" subcomp="nsx-sha" username="root" level="CRITICAL" eventFeatureName="infrastructure_service" eventType="application_crashed" eventSev="critical" eventState="On" entId="####-####-####-####-####"] Application on NSX node has crashed. The number of core files found is 1. Collect the Support Bundle including core dump files and contact VMware Support team.

注:上記のログの抜粋はあくまで例です。日付、時刻、環境変数は環境によって異なる場合があります。

Environment

VMware NSX 4.x

Cause

サービスがクラッシュし、システムがそれぞれのコアダンプファイルを生成します。すべてのNSXサービスは、クラッシュ時に自動的に再起動するように設定されています。クラッシュしたアプリケーションによっては、それに依存する他のサービスが正常に動作しない可能性があります。クラッシュしたサービスのステータスを確認し、実行状態を確認することをお勧めします。NSX Managerでは、コアファイルは または のいずれかで生成され/var/log/core/ます/image/core/

  • NSX アプライアンス ノードで、以下のように CLI 経由でサービス ステータスを確認します。
    nsxcli> get service <service-name>
    or
    nsxcli> get services
  • アプリケーションがクラッシュすると、NSX ノードにコア ダンプまたはヒープ ダンプが生成されます。これは、以下のように CLI で確認できます。
    nsxcli>  get core-dumps
    Directory: /var/log/core
    20762624     May 18 2023 11:44:13 UTC  core.nginx.1559278043.gz

    注: 上記の出力例では、サービスnginx がクラッシュし、システムによってコア ダンプ ファイルが生成されました。

    nsx_manager1> get core-dumps
    Directory: /image/core
    123456     Aug 30 2024 18:00:04 UTC  proxy_oom.hprof
    注: 上記の出力例では、プロキシ サービスでメモリ不足によるクラッシュが発生しています。

ネットワーク ケーブルの障害など、ネットワーク冗長性の問題や vSAN 接続の問題につながる外部原因が存在する可能性があります。

Resolution

  • NSXサービスは、クラッシュ発生後に自動的に再起動するように設定されています。このようなクラッシュを警告するアラームが生成されるため、ユーザーは環境が適切に動作していることを確認できます。 
  • 多くの場合、これらのアラームはNSX環境のアップグレード後に発生し、アップグレード前には発生していませんでした。このような場合、問題が認識されておらず、何らかの介入措置も講じられていないにもかかわらず、コアダンプが長期間にわたって存在していた可能性があります。
  • 場合によっては、アプリケーションのクラッシュにより依存サービスが正常に動作しなくなる可能性があります。そのため、サービスの状態を確認し、関連するすべてのサービスが実行されていることを確認することをお勧めします。通常、サービスに問題が見つかることは期待できません。
  • 通常、サービスは追加の問題なく自動的に再起動しますが、クラッシュが繰り返し発生する場合やサービスに問題がある兆候がある場合は、Broadcom サポートに問い合わせて検証または追加の分析を行う必要があります。

アプリケーションクラッシュの問題を報告するには、次の手順に従います。

    1. アプリケーションクラッシュアラームが観測されたcore dump and audit logsノードからオプションを追加して最新のサポートバンドルを収集してください。 コアログと監査ログを含むサポートバンドルの収集方法の詳細については、「サポートバンドルの収集」を参照してください。

    2. 個々のコア ダンプ ファイルは、管理 CLI コマンドを使用して NSX アプライアンス ノードからリモートの場所にコピーできます。copy core-dump 
      管理 CLI コマンドの出力に応じて、コア ファイルの完全なパスを指定する必要があることに注意してください。パスファイル名を実際の値にget core-dumps
      置き換えてください。
      nsxcli>  get core-dumps
      Directory: /var/log/core
      20762624     May 18 2023 11:44:13 UTC  core.nginx.1559278043.gz
      nsxcli> copy core-dump /var/log/core/core.nginx.1559278043.gz url scp://root@<Remote location IP address>/tmp/
      root@<Remote location IP address>'s password:
    3. この問題について Broadcom サポートに連絡する場合は、NSX UI からのアラームのテキスト、ログ ファイル、コア ダンプを提供してください。

    4. サポートバンドルを収集した後、それぞれのノードからコアダンプ ファイルを削除することで、アプリケーション クラッシュ アラームを解決できます。

      1. NSX アプライアンス ノードでは、次のコマンドを使用してコア ファイルとヒープ ダンプ ファイルを削除できます。del core-dump
        コマンドの出力に応じて、コア ファイルのフル パスを指定する必要があることに注意してください。パスファイル名を実際の値に get core-dumps
        置き換えてください。
        nsxcli>  get core-dumpsDirectory: /var/log/core20762624     May 18 2023 11:44:13 UTC  core.nginx.1559278043.gznsxcli> del core-dump /var/log/core/core.nginx.1559278043.gz
        または上記の
        nsxcli> del core-dump all
        all」オプションを使用すると、そのアプライアンス上でコアが生成される可能性のあるすべての場所からコアが削除されます。たとえば、NSX Managerでは/var/log/core/と/image/core/の両方から削除されます。NSX

        バージョン4.1.1以降では、以下のコマンドを使用して、サポートバンドルの収集の一環としてコアダンプファイルも削除できます。get support-bundle
        nsxcli> get support-bundle file support-bundle.tgz all remove-core-files
      2. ESXi ホスト トランスポート ノードでは、NSX バージョンに応じて次のコマンドを使用してコア ダンプ ファイルを削除できます。
        1. NSX バージョン 4.1 以下の場合:

          ESXi ホストのシェル コンソールで以下のコマンドを実行します。

          root# rm -rf /var/core
        2. NSX バージョン 4.1.1 以上の場合:

          ESXi ホストの NSX CLI で以下のコマンドを実行します。

          nsxcli> del core-dump all

          または

          nsxcli> del core-dump <core-dump-file>

動作への影響: なし

 

Additional Information

このアラームは NSX 4.2.1 以降では発生しません。

以下の記事では、既知のアプリケーションクラッシュの問題について詳しく説明しています。