VMware Cloud Director がデータベース再接続のアラートを管理者に頻繁に送信する
search cancel

VMware Cloud Director がデータベース再接続のアラートを管理者に頻繁に送信する

book

Article ID: 434551

calendar_today

Updated On:

Products

VMware vCenter Server

Issue/Introduction

免責事項:これは英文の記事「VMware Cloud Director is frequently sending database reconnect alerts to administrators」の日本語訳です。記事はベストエフォートで翻訳を進めているため、ローカライズ化コンテンツは最新情報ではない可能性があります。最新情報は英語版の記事で参照してください。

  • 下記メッセージを含むメールアラートが頻繁に送信される

"VMware Cloud Director cell with IP address ##.##.##.## is successful in reconnecting to the database"

もしくは

"VMware Cloud Director cell with IP address ##.##.##.## restored the connection to the database"

  • VCD サービスが予期せず再起動される
  • ログファイル /opt/vmware/vcloud-director/logs/vmware-vcd-watchdog.log を確認すると、サービスが再起動されていることが確認できます。

<YYYY-MM-DD> 09:16:29 | INFO  | vmware-vcd-cell running
<YYYY-MM-DD> 09:21:30 | ALERT | vmware-vcd-cell is dead but /var/run/vmware-vcd-cell.pid exists, attempting to restart it
<YYYY-MM-DD> 09:21:40 | INFO  | Started vmware-vcd-cell (pid=478962)
<YYYY-MM-DD> 09:21:40 | WARN  | Server status returned HTTP/1.1 404
<YYYY-MM-DD> 09:22:40 | WARN  | Server status returned HTTP/1.1 503
<YYYY-MM-DD> 09:23:40 | WARN  | Server status returned HTTP/1.1 503
<YYYY-MM-DD> 09:24:40 | WARN  | Server status returned HTTP/1.1 503
<YYYY-MM-DD> 09:26:41 | INFO  | vmware-vcd-cell running
<YYYY-MM-DD> 09:31:41 | INFO  | vmware-vcd-cell running

  • アプライアンス上で dmesg コマンドを実行して出力を確認すると、OOM (Out Of Memory) Killer が作動し、プロセスの強制終了が開始されたことが確認できます。

 [11#######] oom-kill:constraint=CONSTRAINT_NONE,nodemask=(null),cpuset=/,mems_allowed=0,global_oom,task_memcg=/system.slice/vmware-vcd.service,task=java,pid=41###,uid=1###
 [11#######] Out of memory: Killed process 41#### (java) total-vm:16181468kB, anon-rss:5105644kB, file-rss:0kB, shmem-rss:16kB, UID:1003 pgtables:14688kB oom_score_adj:0

  • アプライアンスで journalctl コマンドを実行して出力を確認すると、カーネルパニック RIP(レジスタ命令ポインタ)が発生し、メモリ不足(OOM Killer)が呼び出されたことが確認できます。

<cell>.example.com kernel: pool-jetty-1680 invoked oom-killer: gfp_mask=0x100cca(GFP_HIGHUSER_MOVABLE), order=0, oom_score_adj=0
<cell>.example.com kernel: CPU: 2 PID: 3288855 Comm: pool-jetty-1680 Not tainted 5.10.224-3.ph4 #1-photon
<cell>.example.com kernel: Hardware name: VMware, Inc. VMware Virtual Platform/440BX Desktop Reference Platform, BIOS 6.00 11/12/2020
<cell>.example.com kernel: Call Trace:
<cell>.example.com kernel:  dump_stack+0x70/0x8f
<cell>.example.com kernel:  dump_header+0x4f/0x1fa
.....
.....
<cell>.example.com kernel: RIP: 0033:0x7fd3bc9e72b0
<cell>.example.com kernel: Code: Unable to access opcode bytes at RIP 0x7fd3bc9e7286.
.....
.....
<cell>.example.com kernel: oom-kill:constraint=CONSTRAINT_NONE,nodemask=(null),cpuset=/,mems_allowed=0-1,global_oom,task_memcg=/system.slice/vmware-vcd.service,task=java,pid=3281,uid=1003
<cell>.example.com kernel: Out of memory: Killed process 3281 (java) total-vm:20708864kB, anon-rss:9066416kB, file-rss:0kB, shmem-rss:16kB, UID:1003 pgtables:24464kB oom_score_adj:0

Environment

VMware Cloud Director 10.6.x

Cause

アプライアンスの処理能力を超える速さでメモリが消費されました。その結果、メモリ(RAM)が極端に不足した際にシステム全体のクラッシュを防ぐため、カーネルがプロセスを強制終了させました。

Resolution

Cloud Director サーバーグループのサイジングを拡張するか、リクエスト数を制限する必要があります。

サーバーグループ内の Cloud Director アプライアンスの現在のサイジングを再確認し、「VMware Cloud Director Appliance Sizing Guidelines」に記載されている通り、サイジングを Large または Extra Large(VVS)に拡張する是正措置を講じてください。

サイジング変更の手順は、こちらに記載されています:「Recommended Procedure for resizing VMware Cloud Director Appliances

アプライアンスがすでに適切なサイズである場合は、Cloud Director へのリクエスト数を制限する必要があります。この制限は、VMware Cloud Director の外部にあるロードバランサー層で実施する必要があります。