Aria Automation Provisioning PoD が頻繁に再起動する
search cancel

Aria Automation Provisioning PoD が頻繁に再起動する

book

Article ID: 425523

calendar_today

Updated On:

Products

VCF Automation

Issue/Introduction

免責事項: これは英文の記事「Aria Automation Provisioning PoD constantly restarts」の日本語訳です。記事はベストエフォートで翻訳を進めているため、ローカライズ化コンテンツは最新情報ではない可能性があります。最新情報は英語版の記事で参照してください。

仮想マシン ( VM ) のデプロイ時、または複数の VM インスタンスのテスト実行中に、プロビジョニングポッドが頻繁にクラッシュして再起動します。この動作により、デプロイワークフローが失敗し、VM のプロビジョニングが正常に実行されません。

Log のパス:
/services-logs/prelude/provisioning-service-app/file-logs/provisioning-service-app.log

ERROR provisioning [host='provisioning-service-app-<ID>' thread='reactor-http-epoll-8' user='' org='' trace='' parent=''span=''] c.v.a.a.gateway.ProvisioningGatewayImpl.lambda$registerADAdapterEndpoint$1:88 - [ad-integration]Registration of endpoint adapter [http://provisioning-service.prelude.svc.cluster.local:8282/provisioning/adapter/activedirectory/endpoint-config] for type [AD Integration] at [http://provisioning-service.prelude.svc.cluster.local:8282/config/photon-model-adapters-registry] failed with error finishConnect(..) failed: Connection refused: provisioning-service.prelude.svc.cluster.local/<IP Address>:8282

ERROR provisioning [host='provisioning-service-app-<ID>' thread='reactor-http-epoll-9' user='' org='' trace='' parent=''span=''] c.v.a.i.s.i.EndpointConfigAdapterServiceImpl.lambda$registerEndpoint$1:121 - Registration of endpoint adapter [http://provisioning-service.prelude.svc.cluster.local:8282/provisioning/adapter/ipam/endpoint-config] for type [IPAM Endpoint] at [http://provisioning-service.prelude.svc.cluster.local:8282/config/photon-model-adapters-registry] failed with error finishConnect(..) failed: Connection refused: provisioning-service.prelude.svc.cluster.local/<IP Address>:8282

Environment

Aria Automation 8.18.x

Cause

diskOperationTaskState には多数のストレージプロファイルが含まれており、これらすべてのプロファイルがメモリにロードされると、メモリ不足状態 (Out-of-Memory) が発生します。その結果、プロビジョニングポッドがクラッシュし、再起動を繰り返すことになります。

Resolution

この回避策は、複数のストレージプロファイルが存在する場合にのみ適用されます。複数のストレージプロファイルが存在しない場合は、この回避策は適用されません。

回避策:

  1. 保留中または停止中のタスクを確認する

    • ポッドが再起動して disk_operation_task_state テーブルから古いデータをロードすると、これらのタスクが再開される可能性があるため、Pending 状態のままになっている古いタスクがないか確認します。

    • インフラストラクチャ → リクエストの下にあるすべてのタスクを確認し、不完全なタスクを特定します。

  2. タスク状態テーブルのクリーンアップ

    • 古い操作が再ロードされるのを防ぎ、古いデータを再処理せずにポッドが正常に起動するようにするために、タスク状態テーブルから古いエントリを削除します。

      DELETE FROM request_status WHERE sub_stage NOT IN ('COMPLETED', 'ERROR');
  3. この問題が再発しないようにするには、推奨されるアクションを実行してください。
    • 同じコンピューティング (空でも可) またはストレージ ポリシー (空でも可)、あるいはその両方を持つINCLUDE ALLタイプのストレージ プロファイルが複数ある場合は、 INCLUDE ALLのプロファイルを 1 つだけ用意し、他の ' INCLUDE ALL ' タイプのストレージ プロファイルから重複しているすべてのタグをコピーします

    • 単一のデータストアを持つ複数のストレージ プロファイルがある場合は、MANUAL ストレージ プロファイルを使用してそれらをグループ化し、複数のデータストアを単一のストレージ プロファイルにし、それに応じて制約タグを追加することを検討してください。

推奨構成(ベストプラクティス):

  1. 要件

    • 特定のデータストアを割り当ててターゲットにする機能。

  2. 現在の設定:

    • MANUAL フィルターを使用する、データストアごとに 1 つのストレージ プロファイル ( としてタグ付け) <CLUSTER_NAME><DATASTORE_NAME>

  3. 8.18 機能を使用した推奨設定 (プロファイルごとに複数のデータストア):

    • 各データストアに、Resources → Storage → Datastore<DATASTORE_NAME>のタグを付けます

    • コンピューティング クラスターごとに 1 つのストレージ プロファイルを作成し、コンピューティング クラスター名でタグ付けします。

    • 必要なデータストアをこのプロファイルに追加します (データストア タグはすでにあります)。

    • クラウド テンプレートで、次の 2 つの制約タグを指定します。

      • コンピューティングクラスタタグ

      • データストアタグ

この構成により、ストレージ プロファイルの数が削減され、メモリの過負荷が防止され、問題の再発が回避されます。