アップグレード後、スーパーバイザーが「設定中」の状態で停止しており、コア スーパーバイザー サービスが構成出来ない
search cancel

アップグレード後、スーパーバイザーが「設定中」の状態で停止しており、コア スーパーバイザー サービスが構成出来ない

book

Article ID: 377401

calendar_today

Updated On:

Products

vSphere with Tanzu VMware vSphere with Tanzu

Issue/Introduction

免責事項:これは英文の記事 「Post upgrade, Supervisor stuck in "Configuring" because it cannot configure the Core Supervisor Services (373329)」の日本語訳です。
記事はベストエフォートで翻訳を進めているため、ローカライズ化コンテンツは最新情報ではない可能性があります。
最新情報は英語版の記事で参照してください。


  1. vSphere UI のワークロード管理で、スーパーバイザークラスターのステータスが「設定中」と表示されている。
  2. スーパーバイザー内のすべてのポッドとサービスは起動して実行されている。
  3. "kubectl get ns" コマンドを実行すると、名前空間: vmware-system-capw、vmware-system-pkgs、vmware-system-tkg、vmware-system-ucs が「終了しています」の状態で停止している。
  4. これらの名前空間に関連するAPIリソースにはファイナライザが関連付けられておらず、いずれのリソースも削除中で停止している。
  5. スーパーバイザーや vCenter サーバー自体に、HTTPまたはHTTPSプロキシが構成されていない。
  6. 「終了しています」の状態で停止している名前空間を確認すると、以下のようにwebhookを呼び出すことができないと表示される。

    NamespaceDeletionContentFailure              True      ContentDeletionFailed   Failed to delete all resource types, 4 remaining: Internal error occurred: failed calling webhook "capi.validating.tanzukubernetescluster.run.tanzu.vmware.com": failed to call webhook: Post "https://vmware-system-tkg-webhook-service.vmware-system-tkg.svc:443/capi-validate?timeout=10s": service "vmware-system-tkg-webhook-service" not found, Internal error occurred: failed calling webhook "capi.validating.tanzukubernetescluster.run.tanzu.vmware.com": failed to call webhook: Post "https://vmware-system-tkg-webhook-service.vmware-system-tkg.svc:443/capi-validate?timeout=10s": service "vmware-system-tkg-webhook-service" not found, Internal error occurred: failed calling webhook "capi.validating.tanzukubernetescluster.run.tanzu.vmware.com": failed to call webhook: Post "https://vmware-system-tkg-webhook-service.vmware-system-tkg.svc:443/capi-validate?timeout=10s": service "vmware-system-tkg-webhook-service" not found, Internal error occurred: failed calling webhook "utkg.clusterclass.validating.clusterclass.run.tanzu.vmware.com": failed to call webhook: Post "https://vmware-system-tkg-webhook-service.vmware-system-tkg.svc:443/utkg-clusterclass-validate-cluster-x-k8s-io-v1beta1-clusterclass?timeout=10s": service "vmware-system-tkg-webhook-service" not found.
     
  7. WCPによると、パッケージインストール内でスーパーバイザーサービスパッケージが表示されないため、アップグレードが停止し、スーパーバイザーが「設定中」のまま停止している。

    error wcp [controller/core_service_controller.go:585] [opID=CoreServiceController] error registering core services: error creating spec for registering core service 'sample-pkg.test.carvel.dev': open /etc/vmware/wcp/supervisorservices/packages/sample-pkg.test.carvel.dev-1.0.0.yaml: no such file or directory
    info wcp [controller/core_service_controller.go:141] [opID=CoreServiceController] Reconciling core services on all Supervisors
    debug wcp [kubelifecycle/kube_instance_grouped_conditions.go:351] [opID=CoreServiceController] No Core Services found to set condition.
    debug wcp [controller/image_registry_controller.go:80] [opID=ContainerImageRegistryController] synchronizing Container Image Registries to all Supervisors
    debug wcp [logger/trace.go:77] [opID=ContainerImageRegistryController] [BEGIN] [supervisor/controller.(*ContainerImageRegistryController).syncImageRegistriesToSupervisors:130] synchronizing Container Image Registries onto Supervisor clusters

Environment

vSphere with Tanzu 8.0
VMware vCenter server 8.0.x

Cause

vCenter を RDU でバージョン 8.0U3 または 8.0U3a にアップグレードすると、ソース vCenter の VCSA 上の設定ファイルが新しいターゲット vCenter にコピーされ、core-services.json と Supervisor Services allow-list.txt の正しい値を上書きします。
その結果、wcpsvc は 「sample-pkg.test.carvel.dev」 を繰り返し検索します。これは、コアサービス機能が有効になる前の vCenter バージョンでプレースホルダとして存在していた未リリースの ID です。

Resolution

この問題はU3bで修正されています。
以下の回避策もあります。8.0U3(24022515)または8.0U3a(24091160)でない場合は、この回避策を実行しないでください。

  1. /etc/vmware/wcp/supervisorservices/core-services.json の内容を以下のテキストで置き換えます。
    {
      "services": {
        "tkg.vsphere.vmware.com": {
          "versions": [
            {
              "content_type": "CARVEL_APPS_YAML",
              "content_file": "/etc/vmware/wcp/supervisorservices/packages/tkg-package.yaml",
              "yaml_service_config_file": ""
            }
          ],
          "install_by_default": true,
          "install_on_nonpodvm_supervisor": true
        },
        "velero.vsphere.vmware.com": {
          "versions": [
            {
              "content_type": "CARVEL_APPS_YAML",
              "content_file": "/etc/vmware/wcp/supervisorservices/packages/velero-package.yaml",
              "yaml_service_config_file": ""
            }
          ],
          "install_by_default": true,
          "migrate_from": "velero-vsphere",
          "install_on_nonpodvm_supervisor": false
        }
      }
    }


  2. /etc/vmware/wcp/supervisor-services-allow-list.txt の内容を以下のテキストで置き換えます。
    # List of SupervisorService IDs allowed to be created
    # if "allow_all_services" in the service config is turned off.
    # The following IDs correspond to the PSP services already shipped.

    # Minio
    minio

    # Cloudian
    hyperstore

    # Velero Services (vDPP and newer version)
    velero-vsphere
    velero.vsphere.vmware.com

    # ECS Objectscale
    objectscale

    # Sample service ID
    sample

    # Argo CD
    argo-cd

    # CA Cluster Issuer
    ca-clusterissuer.vsphere.vmware.com

    # Harbor from the TKG packages
    # See https://gitlab.eng.vmware.com/core-build/tkg-packages/-/blob/main/standard/harbor/2.5.3/upstream-package.yaml
    harbor.tanzu.vmware.com

    # Contour from the TKG packages
    # See https://gitlab.eng.vmware.com/core-build/tkg-packages/-/blob/main/standard/contour/1.18.2/upstream-package.yaml
    contour.tanzu.vmware.com

    # External DNS from the TKG packages
    # See https://gitlab.eng.vmware.com/core-build/tkg-packages/-/blob/main/standard/external-dns/upstream-metadata.yaml
    external-dns.tanzu.vmware.com

    # Wildcard pattern for allowing Flings. The following line permits services named as "service1.fling.vsphere.vmware.com" or "my-service.fling.vsphere.vmware.com".
    *.fling.vsphere.vmware.com

    # TKG Supervisor Service
    tkg.vsphere.vmware.com

    # NSX Management Proxy Supervisor Service
    nsx-management-proxy.nsx.vmware.com

    # CCI NS Supervisor Service
    cci-ns.vmware.com
  3. 影響を受けた vCenter server で wcp サービスを再起動します。
    vmon-cli -r wcp