ESX/ESXi 主机中的 “LINT1 主板中断 (LINT1 motherboard interrupt)” 错误
search cancel

ESX/ESXi 主机中的 “LINT1 主板中断 (LINT1 motherboard interrupt)” 错误

book

Article ID: 301402

calendar_today

Updated On:

Products

VMware vSphere ESXi

Issue/Introduction

Symptoms:
免责声明:本文为 "LINT1 motherboard interrupt" error in an ESX/ESXi host (1804) 的翻译版本。尽管我们会不断努力为本文提供最佳翻译版本,但本地化的内容可能会过时。有关最新内容,请参见英文版本。

  • ESXi/ESX 主机不稳定,可能会出现故障,并显示一个表明出现 NMI、不可屏蔽或 LINT1 中断的紫色诊断屏幕(紫屏)。
  • 控制台显示类似以下内容的条目:

    LINT1 主板中断。这是硬件故障: 请联系您的硬件供应商。(LINT1 motherboard interrupt. This is a hardware problem: please contact your hardware vendor.)

    备注:有关其他症状和日志条目,请参见“附加信息”部分。


Environment

VMware ESXi 4.0.x Embedded
VMware vSphere ESXi 5.1
VMware vSphere ESXi 6.0
VMware ESXi 4.0.x Installable
VMware ESXi 3.5.x Installable
VMware vSphere ESXi 5.5
VMware ESX 4.1.x
VMware ESX 4.0.x
VMware ESXi 3.5.x Embedded
VMware ESX Server 3.0.x
VMware ESXi 4.1.x Embedded
VMware vSphere ESXi 6.5
VMware ESX Server 2.5.x
VMware ESX Server 3.5.x
VMware ESXi 4.1.x Installable
VMware vSphere ESXi 5.0

Resolution

NMI 是物理硬件事件。通常起因于系统 BIOS 和/或管理芯片集所遇到的不可恢复的状况(在特定引导周期内连续操作的情况下)。

NMI 事件

NMI 事件由 CPU 通过高级可编程中断控制器 (APIC) 经操作系统内核(本例中为 VMkernel)路由到操作系统(本例中为 ESXi 主机)。NMI 数据通过端口 0x61(与 ISA 兼容的寄存器地址十六进制 61)进行传输,该端口是为 NMI 数据保留的 8 位寄存器。

当出现如下硬件问题时会发生 NMI 事件:

  • 内存模块或处理器故障。
  • 关键组件出现严重的热循环,常见于停机时间过长或冷却组件出现故障之后。
  • 组件超规范运行,如与电压调整器模块有关的硬件故障导致的过压或欠压状况。
  • 未经批准或不兼容的组件,如设计修订版本对底盘而言太低的活动内存底板。
  • 固件、BIOS 或其他组件不匹配。例如,修订版本为 X 的扩展卡要求扩展卡固件修订版本至少为 Y,底盘 BIOS 修订版本至少为 Z。
  • 用于将设备 DMA 内存从主机操作系统映射到客户机操作系统的 CPU IOMMU 功能发生错误,无法继续。通过从 ESXi shell 中运行 lspci,您可以确定 vmkernel 核心转储中设备(设备 007:00.0)的 PCI ID 并确定该设备。然后,可以将该 PCI ID 与设备匹配。请注意,PCI 设备可能并非引发故障的原因,而只是导致另一个硬件组件问题的触发因素。
  • 由于硬件或软件条件,为了释放 CPU,ESXi 内核可能会使用 IPI NMI。

如果您遇到 NMI 事件:

  • 确定在发生 NMI 事件时已打开电源的虚拟机(如果有)。
  • 确定打开特定虚拟机的电源是否会触发 NMI 事件。
  • 验证将可疑内存模块移至新的插槽(从而导致内存地址空间变大或变小)是否会改变此行为。

    注意:替换或重新放置硬件组件不一定能帮您找出 NMI 事件的根本原因,反而可能会导致意外的停机。

要解决 NMI 事件,请联系硬件供应商并提供这些数据:

  • 事件发生的时间范围。
  • 事件发生前至少 10 分钟的日志。
  • 底盘诊断日志输出和管理芯片集日志输出。
  • 底盘重要产品数据。
  • vm-support 输出的副本。
  • 相关 VMware 服务请求号(如果仍未解决)。

注意

  • 底盘管理芯片集通常充当底盘故障的智能处理程序,在 NMI 事件中可捕获大量信息。
  • IBM xSeries 底盘包括 BIOS 选项 Reboot on System NMI。启用该选项将导致底盘立即重新引导而不是底盘停止。在此事件中,ESXi 主机日志不会提及 NMI。其他企业硬件供应商可能会提供类似的 BIOS 选项。

附加信息

您还会遇到以下症状:

注意:根据 ESXi 版本和配置的不同,NMI 日志条目可能会出现在 /var/log/vmkernel /var/log/messages 日志文件、控制台或 VMkernel 核心转储文件中(如果该状况会触发 VMkernel 紫色诊断屏幕(紫屏))。
  • 位于 /var/log/vmkernel /var/log/messages 的 VMkernel 日志文件包含类似以下内容之一的条目:

    ALERT: APIC: 1143: Lint1 interrupt on pcpu 0 (port x61 contains 0x5)
    ALERT: APIC: 1150: Lint1 interrupt on pcpu 0 (port x61 contains 0xb1)
    WARNING: NMI: 2550: Forwarding LINT1 motherboard interrupt to host (75188 forwarded so far)
    Fatal NMI: IO Parity Error (0xNN)
    Fatal NMI: RAM Parity Error (0xNN)

  • VMkernel 日志条目表明发生了不可屏蔽中断 (NMI) 事件。
  • 位于 /var/log/messages 的消息日志包含类似以下内容的条目:

    kernel: [1831046.301319] Uhhuh. NMI received for unknown reason 11.
    kernel: [1831046.323134] Dazed and confused, but trying to continue


  • 当经过设备到达虚拟机时可能会出现紫屏,而当查看 VMkernel 核心转储时,会看到这些事件:

    WARNING: IOMMUIntel: 2211: IOMMU Unit # 0: R/W = 1, Device 007:00.0 Faulting PA = 0xdf63e000 Fault Reason = 6


  • 在运行 ESXi 5.5 的无响应主机上的紫色诊断屏幕(紫屏)中,您会看到类似以下内容的条目:

    YYYY-MM-DDT03:12:21.546Z cpu0:16969934)@BlueScreen: LINT1/NMI (motherboard nonmaskable interrupt), undiagnosed. This may be a hardware problem; please contact your hardware vendor.

    注意:上述日志摘录仅为示例。日期、时间和环境变量可能会因环境而有所不同。


Additional Information

"LINT1 motherboard interrupt" error in an ESX/ESXi host