vmware-hostd 服务失败或在 ESX/ESXi 主机上停止响应时排除故障
search cancel

vmware-hostd 服务失败或在 ESX/ESXi 主机上停止响应时排除故障

book

Article ID: 341041

calendar_today

Updated On:

Products

VMware vSphere ESXi

Issue/Introduction

Symptoms:

免责声明:本文为 Troubleshooting vmware-hostd service if it fails or stops responding on an ESX/ESXi host (1002849)的翻译版本。尽管我们会不断努力为本文提供最佳翻译版本,但本地化的内容可能会过时。有关最新内容,请参见英文版本。


您会看到以下错误:
  • VPXA 日志错误:
Authd error: 514 Error connecting to hostd-vmdb service instance.
Failed to connect to host :902. Check that authd is running correctly (lib/connect error 11)
  • vCenter Server 错误:

Unable to access the specified host.It either does not exist, the server software is not responding, or there is a network problem.

  • 尝试使用 vSphere/VMware Infrastructure Client 将主机添加或重新连接到 vCenter Server 时,您会看到以下错误:

    VMware Infrastructure Client 无法与服务器 <your server> 建立初始连接。详细信息: 发生连接故障 (VMware Infrastructure Client could not establish the initial connection with server <your server>. Details: A connection failure occurred)。

  • 尝试直接连接到 ESX/ESXi 主机时,您会在 vSphere/VMware Infrastructure Client 中看到以下错误:

    无法访问指定主机。该主机不存在,服务器软件无响应,或者存在网络问题 (Unable to access the specified host. It does not exist, the server software is not responding, or there is a network problem)。


Environment

VMware ESXi 4.1.x Installable
VMware ESXi 4.0.x Embedded
VMware ESX Server 3.0.x
VMware ESXi 4.0.x Installable
VMware ESXi 3.5.x Installable
VMware ESXi 4.1.x Embedded
VMware vSphere ESXi 5.0
VMware ESX 4.0.x
VMware vSphere ESXi 5.5
VMware ESX Server 3.5.x
VMware ESX 4.1.x
VMware ESXi 3.5.x Embedded
VMware vSphere ESXi 5.1

Resolution

注意:其中某些步骤仅对 ESX 有效,而对 ESXi 无效,因为服务控制台已被移除。

vmware-hostd 管理服务是 ESX/ESXi 主机和 VMkernel 之间的主要通信通道。如果 vmware-hostd 失败,则 ESX/ESXi 主机会断开与 vCenter Server/VirtualCenter 的连接,从而无法对其加以管理,即使您直接连接到 ESX/ESXi 主机也是如此。如果出现此情况,您会看到这些错误。

要解决此问题,请验证下面每个故障排除步骤是否适合您的环境。为便于验证某个步骤和采取必要的补救措施,这些步骤提供了相关说明或文档链接。这些步骤按最恰当的顺序排列,旨在帮助您隔离问题并找到正确的解决方法。执行完每个步骤之后,请尝试重新启动管理代理。请勿跳过任何一个步骤。

注意:有关重新启动 mgmt-vmware 的信息,请参见 Restarting the Management agents on an ESX or ESXi Server (1003490)

在 vmware-hostd 服务响应失败时

  1. 验证与 ESX 服务控制台或 ESXi 管理控制台的网络连接。有关详细信息,请参见 Testing network connectivity with the ping command (1003486)

  2. 验证 vmware-hostd 是否正在运行。有关详细信息,请参见 Verifying that the Management Service is running on an ESX host (1003494)Verifying if management services are running on an ESXi host (2030663)

  3. 通过运行以下命令验证端口 80 或 443 是否已打开:

    netstat -an 命令

    有关详细信息,请参见 Determining if a port is in use (1003971)

  4. 验证 /etc/hosts 文件是否已正确写入,并且包含类似以下内容的条目:

    # Do not remove the following line, or various programs
    # that require network functionality will fail.
    127.0.0.1 <localhost>.<localdomain> <localhost>
    10.0.0.1 <server>.<domain> <server>

  5. 验证服务控制台分区是否有足够的可用磁盘空间。如果 //var/log 已满,则无法启动 vmware-hostd,因为它正尝试向已满的磁盘写入信息。有关 ESX 主机上磁盘空间使用情况的详细信息,请参见 Investigating disk space on an ESX or ESXi host (1003564)

  6. 通过运行以下命令,验证是否存在 SAN 连接,以及是否正确添加或移除了 SAN:

    ls /vmfs/volumes



    vdf -h

    如果这些命令要花很长时间才能完成,或报告了错误,请参见 Identifying shared storage issues with ESX or ESXi (1003659)

  7. 只有在 ESX 主机上,才能验证 /etc/vmware/esx.conf 文件没有丢失或损坏。如果此文件丢失或损坏,请执行 /var/log/oldconf/ 命令以使用备份副本将其替换。有关详细信息,请参见 Troubleshooting an ESX host that does not boot (10065)

  8. 仅对于 ESX 主机,验证 /etc/vmware/firewall/services.xml 文件中不存在任何语法错误:

    • 检查 /var/log/vmware/hostd.log 中是否存在以下错误:

      ['ServiceSystem' 3076444288 verbose] Command finished with status 0
      ['FirewallSystem' 3076444288 verbose] Loading firewall configuration file '/etc/vmware/firewall/services.xml'
      ['App' 3076444288 panic] Application error: no element found
    • 运行以下命令:

      esxcfg-firewall -q

      您可能会看到以下错误:

      No element found at line 480, column 0, byte 11664 at /usr/lib/perl5/vendor_perl/5.8.0/i386-linux-thread-multi/XML/Parser.pm line 185

      如果您看到任何此类错误,请参见 Troubleshooting the firewall policy on an ESX host (1003634)

  9. 通过运行以下命令,验证 CPU 使用率是否低于 90%:

    esxtop

    有关 esxtop 的详细信息,请参见 Using esxtop to Troubleshoot Performance Problems

    如果 vmware-hostd 的 CPU 资源使用率超过 90%,请增加分配给 ESX 服务控制台的内存量(仅适用于 ESX)。有关详细信息,请参见 Increasing the amount of RAM assigned to the ESX Server service console (1003501)

    如果第三方组件的 CPU 资源使用率超过 90%:

    • 检查 HP Insight Manager 进程 cmahostd 是否正在占用 CPU。如果此进程正在运行,请升级 HP Insight Manager。
    • 检查第三方软件是否正在服务控制台上运行。如果您在服务控制台上安装了第三方产品,请停止适当的进程和服务,然后尝试启动管理代理。

      有关详细信息,请参见 Third-Party Software in the Service Console

  10. 仅对于 ESX,检查从 ESX 2.5.x 迁移或使用 VMware Converter 进行了 P2V 配置的任何虚拟机。有关详细信息,请参见 vmware-hostd may use a lot of CPU or has generated a core dump on an ESX host (4718356)

  11. 仅对于 ESX,请检查网络上的安全扫描仪。有关详细信息,请参见 The ESX Management agent fails when scanned by network security scanner (1002707)

如果以上步骤需要任何其他帮助,请通过 VMware 支持提出支持请求,然后在问题描述中记录此知识库文章 ID (1002849)。有关详细信息,请参见 How to Submit a Support Request

在 vmware-hostd 服务启动失败时

如果 vmware-hostd 服务启动失败,请执行以下故障排除步骤:
  1. 检查 ESX/ESXi 主机上是否装载了失败的网络文件系统 (NFS) 或服务器邮件阻止 (SMB)。如果装载了失败的 NFS 或 SMB,请禁用或删除这些装载,然后重新启动 mgmt-vmware

  2. 仅对于 ESX,检查 /etc/vmware/firewall 目录中是否存在除 service.xml 之外的任何文件。如果此目录中存在任何其他文件,请将其移动到备用位置。

  3. 检查虚拟机配置文件是否损坏。有关详细信息,请参见 Re-registering orphaned virtual machines (1007541)

  4. 检查 /etc/vmware/hostd/config.xml 是否损坏(方式是查找空白的 hostd 日志)。如果 config.xml 文件已损坏,请重新安装它:

    1. 仅对于 ESX,从安装介质中复制 RPM Package Manager。在安装 CD 上,它位于 \VMware\RPMS\VMware-hostd-xxxxx.i386.rpm

      注意:请确保为您要使用的 ESX 版本复制相同版本的 hostd。要找到您要使用的 hostd 的精确版本,请运行以下命令:

      rpm -qa | grep hostd

    2. 运行以下命令:

      rpm -ivh --replacepkgs VMware-hostd-xxxxx.i386.rpm

  5. 仅对于 ESX,检查是否有任何第三方监视应用程序正在使用端口 9080,例如:

    • Computer Associates (CA) Network System Manager (NSM) (R11)
    • CA Advanced System Manager (ASM) (R11.1)
    • CAeAC - etrust
  1. 在 ESXi 5.x 中,运行以下命令:

    /etc/init.d/hostd status
    /etc/init.d/hostd start
    /etc/init.d/hostd stop

    如果第三方监控应用程序正在使用端口 9080,您可能会看到以下错误消息:

    ['Solo' 3076436096 info] Micro web server port: 9080
    ['App' 3076436096 panic] Application error: Address already in use

    ['App' 3076436096 panic] Backtrace generated

禁用此服务可解决此问题。有关详细信息,请参见 Third-Party Software in the Service Console

如果尝试本文中的步骤后问题仍然存在,请执行以下操作:

其他信息:



Additional Information

Troubleshooting vmware-hostd service if it fails or stops responding on an ESX/ESXi host