DRS 功能受 vSphere 集群服务 (vCLS) 的不正常状态影响
search cancel

DRS 功能受 vSphere 集群服务 (vCLS) 的不正常状态影响

book

Article ID: 321973

calendar_today

Updated On:

Products

VMware vCenter Server

Issue/Introduction

本文介绍了有关解决 vCLS 运行状况问题的信息,以便 DRS 在集群中正常运行。

Symptoms:
免责声明:本文是 DRS functionality impacted by unhealthy state of the vSphere Cluster Services (vCLS) 的翻译版本。尽管我们会不断努力为本文提供最佳翻译版本,但本地化的内容可能会过时。有关最新内容,请参见英文版本。


在 vSphere 7.0 Update 1 中,集群的 vSphere DRS 依赖于 vSphere 集群服务 (vCLS) 的运行状况。集群上的 vCLS 对集群中的 vCLS 系统虚拟机配置仲裁。需要这些虚拟机来维护集群服务的运行状况。如果 vCLS 运行状况因为这些虚拟机在集群中不可用而受到影响,则在 vCLS 虚拟机恢复之前,vSphere DRS 将在集群中不起作用。

下面列出了在 DRS 不起作用时可能会失败的操作。另请注意,在一个已启用 DRS 的新集群上部署并打开第一个 vCLS 虚拟机的电源之前,在该集群上也无法执行以下操作。
  • 放置/打开新工作负载虚拟机的电源。 
  • 为从 vCenter 中的另一个集群/主机迁移的虚拟机选择主机。 
  • 迁移的虚拟机可能在未选择 DRS 的主机上打开电源。 
  • 如果主机具有任何已打开电源的虚拟机,则将该主机置于维护模式可能会停滞
  • 调用 DRS API(例如 ClusterComputeResource.placeVm() 和 ClusterComputeResource.enterMaintenanceMode())将收到 InvalidState。
  • 配置工作负载管理、主管集群和 Tanzu Kubernetes 集群将失败。
注意:如果在此类集群上未启用 DRS,则 vSphere 集群运行状况将处于已降级状态。在 vSphere Client UI 中,您会看到类似以下内容的错误:

vSphere DRS functionality was impacted due to unhealthy state vSphere Cluster Services caused by the unavailability of vSphere Cluster Service VMs. vSphere Cluster Service VMs are required to maintain the health of vSphere DRS.
有关详细信息,请参见 vSphere Cluster Services (vCLS) in vSphere 7.0 Update 1

Cause

可能有多个问题导致出现此错误。
  • 用户对已启用 DRS 的集群中的 vCLS 虚拟机关闭电源或将其删除。
  • vCLS 虚拟机部署失败。
  • vCLS 虚拟机打开电源失败。
  • 使用撤回模式禁用集群上的 vCLS。
  • 在主机或存储出现故障时,HA 无法对 vCLS 虚拟机进行故障切换。

Resolution

这是一个影响 VMware vCenter Server 7.0 Update 1 的已知问题。

当前,没有解决办法。

Workaround:
vCLS 服务将自动打开 vCLS 虚拟机电源或重新创建。这些虚拟机应在首次/全新部署中部署的任何工作负载虚拟机之前进行部署。进行升级时,应在配置 vSphere DRS 以在集群上运行之前部署这些虚拟机。在关闭所有 vCLS 虚拟机的电源或将其全部删除时,该集群的 vSphere 集群状态将变为已降级(黄色)。vSphere DRS 需要有一个 vCLS 虚拟机在 vSphere 集群中运行才能正常运行。如果在这些虚拟机恢复之前运行 DRS,则集群服务将处于不正常(红色)状态,直到 vCLS 虚拟机恢复为止。

vCLS 虚拟机部署可能会失败的情况和解决方案:
  • 集群中没有足够的可用资源 - 在具有 3 个以上主机的集群上需要 400 MHz 的 CPU、400 MB 内存和 2 GB 存储空间。有关这些虚拟机的资源要求的详细信息,请参见 vSphere Resource Management Guide 中的“vCLS 虚拟机资源分配”部分。vCLS 为每个集群预留的插槽等于虚拟机的仲裁大小 + 1。vCLS 虚拟机需要集群具备这么多额外资源才能成功部署。 
  • 在单节点和双节点 vSAN 集群中部署失败 - vCLS 虚拟机无法在单节点和双节点 vSAN 集群上部署,并显示以下错误:Can't provision VM for ClusterAgent due to lack of suitable datastore。由于 vCLS 使用数据存储默认策略选择数据存储,因此,如果 vSAN 是集群中唯一可用的数据存储,则默认策略需要三节点 vSAN 集群。在此类集群中,部署这些虚拟机将失败。如果双节点 vSAN 集群具有见证节点,则部署 vCLS 虚拟机将成功。权宜措施是增加 vSAN 集群的大小或更改数据存储默认策略。
  • 孤立虚拟机情况 - 如果由于断开连接和重新连接主机导致 vCenter Server 中存在孤立的 vCLS 虚拟机,则在此类集群中添加主机后部署新 vCLS 虚拟机可能会失败。建议的权宜措施是清理清单中的任何失效/孤立 vCLS 虚拟机。
vCLS 虚拟机打开电源可能会失败的情况和解决方案:
  • 集群中没有足够的可用资源。
  • 打开断开连接/孤立的 vCLS 虚拟机的电源可能会失败 - 如果由于断开连接和重新连接主机导致 vCenter 中存在孤立的 vCLS 虚拟机,则打开这些孤立虚拟机的电源可能会失败,因为这些虚拟机已断开连接。权宜措施是手动删除这些虚拟机,以便在正确连接的主机/数据存储中自动进行 vCLS 虚拟机的新部署。
  • 由于更改虚拟机配置而导致打开电源失败 - 如果用户更改了 vCLS 虚拟机的配置,则打开此类虚拟机的电源可能会失败。用户不应更改这些虚拟机的任何配置。