Aria Automation Provisioning PoD が頻繁に再起動する

Products

VCF Automation

Issue/Introduction

免責事項：これは英文の記事「Aria Automation Provisioning PoD constantly restarts」の日本語訳です。記事はベストエフォートで翻訳を進めているため、ローカライズ化コンテンツは最新情報ではない可能性があります。最新情報は英語版の記事で参照してください。

仮想マシン ( VM ) のデプロイ時、または複数の VM インスタンスのテスト実行中に、プロビジョニングポッドが頻繁にクラッシュして再起動します。この動作により、デプロイワークフローが失敗し、VM のプロビジョニングが正常に実行されません。

Log のパス:
/services-logs/prelude/provisioning-service-app/file-logs/provisioning-service-app.log

ERROR provisioning [host='provisioning-service-app-<ID>' thread='reactor-http-epoll-8' user='' org='' trace='' parent=''span=''] c.v.a.a.gateway.ProvisioningGatewayImpl.lambda$registerADAdapterEndpoint$1:88 - [ad-integration]Registration of endpoint adapter [http://provisioning-service.prelude.svc.cluster.local:8282/provisioning/adapter/activedirectory/endpoint-config] for type [AD Integration] at [http://provisioning-service.prelude.svc.cluster.local:8282/config/photon-model-adapters-registry] failed with error finishConnect(..) failed: Connection refused: provisioning-service.prelude.svc.cluster.local/<IP Address>:8282

ERROR provisioning [host='provisioning-service-app-<ID>' thread='reactor-http-epoll-9' user='' org='' trace='' parent=''span=''] c.v.a.i.s.i.EndpointConfigAdapterServiceImpl.lambda$registerEndpoint$1:121 - Registration of endpoint adapter [http://provisioning-service.prelude.svc.cluster.local:8282/provisioning/adapter/ipam/endpoint-config] for type [IPAM Endpoint] at [http://provisioning-service.prelude.svc.cluster.local:8282/config/photon-model-adapters-registry] failed with error finishConnect(..) failed: Connection refused: provisioning-service.prelude.svc.cluster.local/<IP Address>:8282

Environment

Aria Automation 8.18.x

Cause

diskOperationTaskState には多数のストレージプロファイルが含まれており、これらすべてのプロファイルがメモリにロードされると、メモリ不足状態 (Out-of-Memory) が発生します。その結果、プロビジョニングポッドがクラッシュし、再起動を繰り返すことになります。

Resolution

この回避策は、複数のストレージプロファイルが存在する場合にのみ適用されます。複数のストレージプロファイルが存在しない場合は、この回避策は適用されません。

回避策:

保留中または停止中のタスクを確認する
- ポッドが再起動して disk_operation_task_state テーブルから古いデータをロードすると、これらのタスクが再開される可能性があるため、Pending 状態のままになっている古いタスクがないか確認します。
- インフラストラクチャ → リクエストの下にあるすべてのタスクを確認し、不完全なタスクを特定します。
タスク状態テーブルのクリーンアップ
- 古い操作が再ロードされるのを防ぎ、古いデータを再処理せずにポッドが正常に起動するようにするために、タスク状態テーブルから古いエントリを削除します。
```
DELETE FROM request_status WHERE sub_stage NOT IN ('COMPLETED', 'ERROR');
```
この問題が再発しないようにするには、推奨されるアクションを実行してください。
- 同じコンピューティング (空でも可) またはストレージポリシー (空でも可)、あるいはその両方を持つINCLUDE ALLタイプのストレージプロファイルが複数ある場合は、 INCLUDE ALLのプロファイルを 1 つだけ用意し、他の ' INCLUDE ALL ' タイプのストレージプロファイルから重複しているすべてのタグをコピーします。
- 単一のデータストアを持つ複数のストレージプロファイルがある場合は、MANUAL ストレージプロファイルを使用してそれらをグループ化し、複数のデータストアを単一のストレージプロファイルにし、それに応じて制約タグを追加することを検討してください。

推奨構成（ベストプラクティス）:

要件：
- 特定のデータストアを割り当ててターゲットにする機能。
現在の設定:
- MANUAL フィルターを使用する、データストアごとに 1 つのストレージプロファイル ( としてタグ付け) <CLUSTER_NAME><DATASTORE_NAME>。
8.18 機能を使用した推奨設定 (プロファイルごとに複数のデータストア):
- 各データストアに、Resources → Storage → Datastore<DATASTORE_NAME>のタグを付けます。
- コンピューティングクラスターごとに 1 つのストレージプロファイルを作成し、コンピューティングクラスター名でタグ付けします。
- 必要なデータストアをこのプロファイルに追加します (データストアタグはすでにあります)。
- クラウドテンプレートで、次の 2 つの制約タグを指定します。
  - コンピューティングクラスタタグ
  - データストアタグ

この構成により、ストレージプロファイルの数が削減され、メモリの過負荷が防止され、問題の再発が回避されます。