Issue/Introduction
免責事項: これは英文の記事 「Management connection status is down for transport node even if TCP connection state is established(372464)」の日本語訳です。記事はベストエフォートで翻訳を進めているため、ローカライズ化コンテンツは最新情報ではない可能性があります。最新情報は英語版の記事で参照してください。
ポート 1234 を経由してトランスポート ノードから NSX Manager ノードへの TCP 接続が確立されているにもかかわらず、NSX-T Manager UI または API で、TN から管理プレーンへの接続がダウンしているように見えます。
UI からの検証手順:
NSX GUI > システム > ノード > Edge トランスポートノード > ノードの状態 が"停止"
API を使用した検証手順:
GET https://<nsx-mgr>/api/v1/transport-zones/transport-node-status応答で "mgmt_connection_status": "DOWN" を確認します。
Edge TN の syslog (/var/log/syslog) またはホスト TN の syslog (/var/log/nsx-syslog.log) から、常に 1 つのマネージャーで Discovery を実行しようとしており、ノードが不整合な状態にあります。
ここで、参考として Edge ノードは APH への接続が、接続されている状態と接続されていない状態に同時に存在します。
API を使用した検証手順:
GET https://<nsx-mgr>/api/v1/transport-zones/transport-node-status応答で "mgmt_connection_status": "DOWN" を確認します。
Edge TN の syslog (/var/log/syslog) またはホスト TN の syslog (/var/log/nsx-syslog.log) から、常に 1 つのマネージャーで Discovery を実行しようとしており、ノードが不整合な状態にあります。
ここで、参考として Edge ノードは APH への接続が、接続されている状態と接続されていない状態に同時に存在します。
以下では NOT_CONNECTED と表示されています。
yyyy-mm-ddThh:mm:nnZ NSX 4945 - [nsx@6876 comp="nsx-edge" subcomp="nsx-proxy" s2comp="mpa-proxy-lib" tid="4965" level="INFO"] ForwardingEngine::ReconcileConnections adding ssl://10.4.##.##:1234 uuid <uuid> -- existing connection state is NOT_CONNECTED
以下では AphConnectionManager と CONNECTED と表示されています。
yyyy-mm-ddThh:mm:nnZ NSX 4945 - [nsx@6876 comp="nsx-edge" subcomp="nsx-proxy" s2comp="mpa-proxy-lib" tid="4965" level="ERROR" invalid="true"] AphConnectionManager: Already connected to endpoint ssl://10.4.##.##:1234 uuid <uuid>
1 つのスレッドが構成の更新を行い、もう 1 つがディスカバリを行っているところで、スレッド 2855675 と 2855687 の両方が ProcessConfig を実行している競合状態を観察できます。
yyyy-mm-ddThh:mm:nnZ nsx-proxy[2855675]: NSX 2855675 - [nsx@6876 comp="nsx-esx" subcomp="nsx-proxy" s2comp="mpa-proxy-lib" tid="2855675" level="INFO"] DiscoveryManager: Received following call status from endpoint ssl://10.4.##.##:1234: SUCCESS
yyyy-mm-ddThh:mm:nnZ nsx-proxy[2855675]: NSX 2855675 - [nsx@6876 comp="nsx-esx" subcomp="nsx-proxy" s2comp="mpa-proxy-lib" tid="2855675" level="INFO"] Adding member aph ssl://10.4.##.##:1234 - 10.4.##.##:1234
yyyy-mm-ddThh:mm:nnZ nsx-proxy[2855675]: NSX 2855675 - [nsx@6876 comp="nsx-esx" subcomp="nsx-proxy" s2comp="mpa-proxy-lib" tid="2855687" level="INFO"] Entity added: MP, <uuid>, master = true
yyyy-mm-ddThh:mm:nnZ nsx-proxy[2855675]: NSX 2855675 - [nsx@6876 comp="nsx-esx" subcomp="nsx-proxy" s2comp="mpa-proxy-lib" tid="2855675" level="INFO"] Entity added: MP, <uuid>, master = true
yyyy-mm-ddThh:mm:nnZ nsx-proxy[2855675]: NSX 2855675 - [nsx@6876 comp="nsx-esx" subcomp="nsx-proxy" s2comp="mpa-proxy-lib" tid="2855675" level="INFO"] Writing APH info to file '/etc/vmware/nsx/appliance-info.xml'
yyyy-mm-ddThh:mm:nnZ nsx-proxy[2855675]: NSX 2855675 - [nsx@6876 comp="nsx-esx" subcomp="nsx-proxy" s2comp="mpa-proxy-lib" tid="2855687" level="INFO"] Writing APH info to file '/etc/vmware/nsx/appliance-info.xml'
yyyy-mm-ddThh:mm:nnZ nsx-proxy[2855675]: NSX 2855675 - [nsx@6876 comp="nsx-esx" subcomp="nsx-proxy" s2comp="mpa-proxy-lib" tid="2855675" level="INFO"] Successfully updated /etc/vmware/nsx/appliance-info.xml
yyyy-mm-ddThh:mm:nnZ nsx-proxy[2855675]: NSX 2855675 - [nsx@6876 comp="nsx-esx" subcomp="nsx-proxy" s2comp="mpa-proxy-lib" tid="2855687" level="INFO"] Successfully updated /etc/vmware/nsx/appliance-info.xml
yyyy-mm-ddThh:mm:nnZ nsx-proxy[2855675]: NSX 2855675 - [nsx@6876 comp="nsx-esx" subcomp="nsx-proxy" s2comp="mpa-proxy-lib" tid="2855687" level="INFO"] ActionDiscovery: Timed out waiting to get connected with Master APH.
このホスト上でディスカバリシーケンスと構成の更新が同時に進行しているためディスカバリが成功しません。
VMware NSX
VMware NSX-T Data Center
マスター MP からの ConfigUpdate の処理とディスカバリ応答の処理を同時に行うと、競合状態が発生します。
この後、接続状態は回復せず切断されたままになり、その結果システムが不整合な状態に陥ります。
この競合状態は NSX 3.2.4 および NSX 4.x で解決されています。
回避策:
TN から 'nsx-proxy' サービスを再起動します。
Edge/Host TN の root にログインし、コマンド '/etc/init.d/nsx-proxy restart' を実行するか、特定の Edge/Host を再起動します。