确定 ESXi/ESX 主机关闭电源或重新启动的原因
search cancel

确定 ESXi/ESX 主机关闭电源或重新启动的原因

book

Article ID: 341090

calendar_today

Updated On:

Products

VMware vSphere ESXi

Issue/Introduction

本文提供了用于确定 ESX 或 ESXi 主机是否已关闭电源或重新启动的步骤。

Symptoms:
免责声明:本文为 Determining why an ESXi/ESX host was powered off or restarted (1019238) 的翻译版本。尽管我们会不断努力为本文提供最佳翻译版本,但本地化的内容可能会过时。有关最新内容,请参见英文版本。

  • ESXi/ESX 主机已禁用(灰显)并显示为无响应 (Not Responding)
  • ESXi/ESX 主机已禁用(灰显)并显示为已断开连接 (Disconnected)
  • 不能再访问连接到一台或多台虚拟机中运行的服务的客户端。
  • 依赖于一台或多台虚拟机中运行的服务的应用程序报告错误。
  • 一台或多台虚拟机不再响应网络连接。


Environment

VMware ESXi 4.0.x Embedded
VMware ESX Server 3.5.x
VMware ESXi 3.5.x Embedded
VMware ESXi 3.5.x Installable
VMware ESXi 4.1.x Installable
VMware vSphere ESXi 5.1
VMware ESX 4.1.x
VMware vSphere ESXi 5.5
VMware ESXi 4.0.x Installable
VMware ESXi 4.1.x Embedded
VMware vSphere ESXi 5.0
VMware ESX 4.0.x
VMware vSphere ESXi 6.0

Resolution


ESX 4.x

要确定 ESX 主机突然关闭或重新引导的原因,请执行以下操作:
  1. 如果主机当前已关闭,请重新打开主机。

  2. 确保没有可能指示硬件问题的硬件指示灯。有关详细信息,请咨询硬件供应商。

  3. 在控制台上以 root 用户身份登录到主机。

  4. 运行以下命令:

    # cat /var/log/vmksummary

  5. 确定 ESX 主机是否已有意重新引导。在用户或脚本重新引导 VMware ESX 主机后,它会在 /var/log/vmksummary 下生成类似于以下内容的一系列事件:

    localhost logger: (1265803308) hb: vmk loaded, 1746.98, 1745.148, 0, 208167, 208167, 0, vmware-h-59580, sfcbd-7660, sfcbd-3524
    localhost vmkhalt: (1268148282) Rebooting system...
    localhost vmkhalt: (1268148374) Starting system...
    localhost logger: (1268148407) loaded VMkernel


    Hostd: [2010-03-16 12:51:54.284 27D13B90 info 'TaskManager'] Task Created : haTask-ha-host-vim.HostSystem.reboot-50

    如果 ESX 主机已有意重新启动,请查看 vCenter Server 日志来确定是否任何近期任务要求 ESX 主机重新引导。以下是帮助确定 ESX 主机重新引导原因的其他资源列表:

  6. 确定 VMware ESX 主机是否已有意关闭。在用户或脚本关闭 VMware ESX 主机后,生成类似于以下内容的一系列事件:

    localhost logger: (1265803308) hb: vmk loaded, 1746.98, 1745.148, 0, 208167, 208167, 0, vmware-h-59580, sfcbd-7660, sfcbd-3524
    localhost vmkhalt: (1268149354) Halting system...
    localhost vmkhalt: (1268149486) Starting system...
    localhost logger: (1268149540) loaded VMkernel


    如果 VMware ESX 主机已有意关闭,请查看 vCenter Server 日志来确定是否任何近期任务要求 VMware ESX 主机重新引导。使用以下其他资源列表帮助确定 VMware ESX 主机关闭的原因:

    • 有关跟踪用户登录和活动的信息,请参见 Tracking ESX host user logins and activities (1010026)
    • 驻留在服务控制台的第三方产品或使用 VMware vSphere API 可能会操控 VMware ESX 主机的功能。有关服务控制台中第三方软件的详细信息,请参见 Third-Party Software in the Service console
    • 如果已启用服务器硬件监视程序定时器,则它在检测到操作系统无响应时会自动重新引导 ESX 主机。有关服务器硬件监视程序定时器的详细信息,请参考适用软件文档和支持。有关 Hewlett Packard 服务器硬件监视程序的详细信息,请参见 HP Automatic Server Recovery in a VMware ESX Environment (1010842),如果需要,请参考 Hewlett Packard 文档和支持。
    • 有时,如果 ESX Server 重新引导或关闭,可能是因为使用 HP 服务器上的 iLO 关闭/重新启动虚拟电源。

  7. 确定 ESX 主机是否遇到内核错误。如果 ESX 主机遇到内核错误,它会生成类似于以下内容的一系列事件:

    vsphere5 logger: (1251788469) hb: vmk loaded, 3597562.98, 3597450.113, 13, 164009, 164009, 356, vmware-h-79976, vpxa-54148, sfcbd-12600
    vsphere5 vmkhalt: (1251797195) Starting system...
    vsphere5 logger: (1251797206) VMkernel error
    vsphere5 logger: (1251797261) loaded VMkernel


    如果 ESX 主机遇到内核错误,请参见 Interpreting an ESXi/ESX host purple diagnostic screen (1004250)

  8. 运行以下命令以检查 ESXi 主机是否配置为在显示紫色诊断屏幕后自动重新引导:

    esxcfg-advcfg -g /Misc/BlueScreenTimeout

    如果值不是 0,ESXi 主机将在显示紫色诊断屏幕后自动重新引导。

    有关详细信息,请参见 Configuring an ESX/ESXi host to restart after becoming unresponsive with a purple diagnostic screen (2042500)

    当主机在出现故障后重新引导时,如果核心转储成功,/var/log/vmksummary.log 将显示找到核心转储。

    例如:

    2014-09-09T12:53:47Z bootstop: Host has booted
    2014-09-09T12:53:47Z bootstop: file core dump found


    注意:上述信息指示 ESXi 主机出现故障,而非指示 ESXi 主机自动重新启动。

  9. 确定 VMware ESX 主机硬件是否已突然重新引导。当 VMware ESX 主机硬件突然重新引导时,会生成一系列类似以下内容的事件:

    localhost logger: (1265803308) hb: vmk loaded, 1746.98, 1745.148, 0, 208167, 208167, 0, vmware-h-59580, sfcbd-7660, sfcbd-3524
    localhost vmkhalt: (1268149486) Starting system...
    localhost logger: (1268149540) loaded VMkernel


    如果您的 VMware ESX 主机遇到中断,且这不是内核错误、有意重新引导或关闭导致的,则物理硬件可能已突然自行重新启动。已知硬件由于断电、组件出现故障及热量问题而突然重新引导。要进一步调查原因,请咨询硬件供应商。

  10. 或者,可能是管理员通过以物理方式按电源按钮以关闭硬件或使用硬件工具(如 iLO、DRAC、RAS 等)有意触发了中断。这种情况可能会在 ESX 主机的 /var/log/vmkernel 日志中生成以下事件:

    VMKAcpi: 1865: In PowerButton Helper

  11. 如果您的 VMware ESX 主机遇到中断,且这不是内核错误、有意重新引导或关闭导致的,则物理硬件可能已突然自行重新启动。硬件可能突然重新引导的原因是,发生断电、组件出现故障及发生热量问题。要进一步调查原因,请咨询硬件供应商。

    或者,如果管理员由于控制台不响应用户交互而以物理方式关闭或重新启动了物理硬件,请参见 Determining why an ESXi/ESX host does not respond to user interaction at the console (1017135)

    注意

    • 当通过系统管理界面(如 HP iLO)关闭服务器电源时,也会记录此消息。
    • 如果通过按电源按钮关闭服务器电源且持续按此按钮超过 10 秒,则不会记录此事件。

如果管理员由于控制台未响应用户交互而以物理方式关闭或重新启动了物理硬件,请参见 Determining why an ESXi/ESX host does not respond to user interaction at the console (1017135)

ESXi 4.x/5.x/6.x

  1. 要确定 VMware ESXi 主机突然关闭或重新引导的原因,请执行以下操作:

    注意:默认情况下,VMware ESXi 日志在重新引导后不再存在。如果 VMware ESXi 主机由于 VMkernel 错误之外的原因遇到突然重新引导问题,这些日志不会存在,您必须在重新引导以确定原因之前访问这些日志。此部分中的步骤假定 VMware ESXi 主机已配置为将日志重定向到日志仍然存在的位置。有关如何将 VMware ESXi 主机配置为将日志重定向到备用位置,请参见适用于您 ESXi 版本的 Basic Administration Guide 中的在 ESXi 主机上配置 Syslog

    1. 如果 ESXi 主机当前已关闭,请重新打开主机。

    2. 确保没有可能指示硬件问题的硬件指示灯。有关详细信息,请咨询硬件供应商。

    3. 确定要将日志重定向到的位置:

      1. 打开 vSphere Client。
      2. 连接到 ESXi 主机或管理 ESXi 主机的 vCenter Server。
      3. 提供管理员用户的凭据。
      4. 在清单中选择 ESXi 主机。
      5. 单击配置选项卡。
      6. 单击高级设置
      7. 在“高级设置”对话框中,验证要将日志文件重定向到的位置:

        注意:如果以下任一设置都未正确配置,则日志在重新引导后不再存在,并且可能会限制可收集用于进行故障排除的信息量。

        • Syslog > 本地 > Syslog.Local.DatastorePath 包含日志位置(如果日志已重定向到 VMFS 卷)。
        • Syslog > 远程 > Syslog.Remote.Hostname 包含此主机的日志所在的 Syslog 服务器的 IP 地址或主机名。

    4. 导航到日志文件的位置,并根据文件的修改日期使用首选编辑器打开日志文件。

    5. 确定 ESXi 主机是否已被有意重新启动。如果 ESXi 主机已被有意重新启动,/var/log/hostd.log 文件将包含类似以下内容的事件:

      • Hostd: [12:51:54.284 27D13B90 info 'TaskManager'] Task Created : haTask-ha-host-vim.HostSystem.reboot-50



      • DCUI: reboot

        注意:在 ESXi 5.5 中,这些条目将位于 /var/log/shell.log。

        如果您的主机已被有意关闭,请查看 vCenter Server 日志,确定是否存在可能已指示主机关闭电源的任何近期任务。

    6. 确定 ESXi 主机是否已被有意关闭。如果 ESXi Server 已被有意关闭,则会包含一个类似以下内容的事件:

      • Hostd: [2010-03-16 13:01:00.550 2FEDEB90 info 'TaskManager'] Task Created : haTask-ha-host-vim.HostSystem.shutdown-78



      • DCUI: poweroff

      如果您的主机已被有意关闭,请查看 vCenter Server 日志,确定是否存在可能已指示主机关闭电源的任何近期任务。

      ESXi 5.x 还可能会在 vmkernel.log 文件中包含类似以下内容的 PowerButton Helper 事件:

      T02:04:13.069Z cpu6:8222)VMKAcpi: 217: In PowerButton Helper

    7. 验证虚拟机或 ESXi 主机是否已生成核心转储:

      1. 登录到技术支持模式。有关详细信息,请参见 Tech Support Mode for Emergency Support (1003677)

      2. ESXi 主机不会自动收集核心转储。要收集核心转储,请手动运行 esxcfg-dumppart 命令。有关详细信息,请参见 Manually regenerating core dump files in VMware ESXi/ESX (1002769)

        注意:如果未配置核心转储分区,则可能会干扰对突然重新引导的分析。有关设置核心转储分区的信息,请参见 Configuring an ESXi/ESX host to capture a VMkernel coredump from a purple diagnostic screen (1000328)

      3. 如果您的 VMware ESXi 主机遇到内核错误,请参见 Interpreting an ESX host purple diagnostic screen (1004250)

    8. 通过执行以下命令检查 ESXi 是否配置为在显示紫色屏幕后自动重新引导:

      esxcfg-advcfg -g /Misc/BlueScreenTimeout

      如果值不是 0,ESXi 将在显示紫色屏幕后自动重新引导。

      有关详细信息,请参见 Configuring an ESX/ESXi host to restart after becoming unresponsive with a purple diagnostic screen (2042500)

      当主机在崩溃后重新引导时,如果核心转储成功,/var/log/vmksummary.log 将显示找到核心转储。

      例如:
      2014-09-09T12:53:47Z bootstop: Host has booted
      2014-09-09T12:53:47Z bootstop: file core dump found

      注意:此信息并不意味着 ESXi 在崩溃时自动重新启动,只是表明会重新启动。

    9. 如果您的 VMware ESXi 主机遇到中断,且这不是内核错误、有意重新引导或关闭所导致的,则物理硬件可能已突然自行重新启动。硬件可能突然重新引导的原因是,发生断电、组件出现故障及发生热量问题。要进一步调查原因,请咨询硬件供应商。

      或者,如果管理员由于控制台不响应用户交互而以物理方式关闭或重新启动了物理硬件,请参见 Determining why an ESXi/ESX host does not respond to user interaction at the console (1017135)

    10. ESXi 5.x 日志文件 /var/log/vmksummary.log 包含有关 ESXi 主机启动和关闭、正常运行时间内每小时的检测信号以及其他衡量指标的相关信息。如需了解详细/相关信息,请参见 Format of the ESXi 5.0 vmksummary log file (2004566)


Additional Information

有关所有其他 ESXi 5.x 日志文件位置的信息,请参见 Location of ESXi 5.0 log files (2004201)Determining why an ESXi/ESX host was powered off or restarted