在主节点上执行重新配置 VMware HA 操作引发意外虚拟机故障切换
search cancel

在主节点上执行重新配置 VMware HA 操作引发意外虚拟机故障切换

book

Article ID: 340907

calendar_today

Updated On:

Products

VMware vCenter Server

Issue/Introduction

Symptoms:
免责声明:本文为 Performing a Reconfigure for VMware HA operation on a master node causes an unexpected virtual machine failover (2017778) 的翻译版本。尽管我们会不断努力为本文提供最佳翻译版本,但本地化的内容可能会过时。有关最新内容,请参见英文版本。


  • 在 HA 群集中的主节点上执行重新配置 VMware HA 操作时,该主节点上运行的虚拟机出现意外虚拟机故障切换。

  • “vCenter Server 事件”选项卡显示类似下文的消息:

    vCenter Server 已与在数据中心 HA_DRS_Cluster 中的主机 <master hostname> 上运行的主 HA 代理断开连接 - 数据中心 HA_DRS_Cluster 群集中 <master hostname> 上的 vSphere HA 代理被禁用

    数据中心 HA_DRS_Cluster 群集中主机 <master hostname> 的 vSphere HA 可用性状态已更改为未初始化

    数据中心 HA_DRS_Cluster 群集中主机 <slave hostname> 的 vSphere HA 可用性状态已更改为选举

    vSphere HA 故障切换数据中心 HA_DRS_Cluster 群集中 <slave hostname> 上的 <virtual machine> 失败。如果尚未超出重试的最大次数,则 vSphere HA 将重试。原因:处于当前状态时不允许该操作。


Environment

VMware vCenter Server 5.5.x
VMware vCenter Server 5.1.x
VMware vCenter Server 5.0.x

Cause

为 HA 手动重新配置主 HA 主机会导致剩余的从属主机参与选举,以找到新的主 HA 主机。

新选举的主 HA 主机会将在旧的主 HA 主机上运行的虚拟机置于未知电源状态,并最多等待 10 秒钟的时间,以获得旧的主 HA 主机上的虚拟机已打开并正在运行的通知。

如果旧的主 HA 主机并未在 10 秒间隔内成为从属主机,则新的主 HA 主机将假定虚拟机关闭,并尝试重新启动虚拟机。这会引发错误的故障切换事件,进而导致故障切换任务失败,因为虚拟机从未关闭。在这种情况下,虚拟机不受任何影响。

Resolution

要解决此问题,请延长监控时间:

  1. 在 vCenter 中,右键单击该群集,然后单击编辑设置
  2. 单击 vSphere HA,然后单击高级选项
  3. 添加新的选项:

    das.config.fdm.policy.unknownStateMonitorPeriod = 10

    将值从 10 更改为 30

  4. 禁用并重新启用群集的 HA 设置。


Additional Information

Performing a Reconfigure for VMware HA operation on a master node causes an unexpected virtual machine failover

Impact/Risks:
延长监控时间也会将启动虚拟机故障切换的时间延长相同的时间(此示例为 20 秒),如果在 HA 真正发生故障期间主节点停止运行。