ホストのハードウェア障害

Products

VMware vSphere ESXi

Issue/Introduction

免責事項 :
これは英文の記事「Hardware faults on hosts」の日本語訳です。
記事はベストエフォートで翻訳を進めているため、ローカライズ化コンテンツは最新情報ではない可能性があります。最新情報は英語版の記事を参照してください。

一般的なハードウェア障害が発生した場合、ESXi ホストでは次のような現象が見られることがあります：

ホストの動作が不安定になる
パープルスクリーンエラーが発生する
ディスクドライブが破損する
仮想マシンの動作が不安定になる

ホストのハードウェアログまたは CIM ログにアラートが表示される

以下のカテゴリは、解決のために必要な措置を示す状態の重大度であり、その例として以下のログエントリを示します。

プロセッサエラー：

Processor IERR
Processor Thermal Trip
Processor Configuration Error
Processor Machine Check Exception
Processor Correctable Machine Check

メモリエラー：

Memory Configuration Error
Memory Uncorrectable ECC
Memory Transition to Critical
Memory Critical Overtemperature

ディスクエラー：

Drive Slot In Critical Array
Drive Slot In Failed Array
Drive Bay in Critical Array
Drive Bay in Failed Array
Drive Slot Drive Faul

バスエラー：

PCI PERR
PCI SERR
Bus Correctable Error
Bus Uncorrectable Error
Bus Fatal Error
Add-in Card Install Error
Cable/Interconnect Transition to Critical from less severe
Slot/Connector Transition to Critical
Slot/Connector Transition to Non-critical

ファンエラー：

Fan Transition to Critical from less severe
Fan Transition to Off Line

温度エラー:

Temperature Lower Critical going low
Temperature Transition to Critical from less severe
Temperature Transition to Non-recoverable from less severe
Temperature Upper Critical going high

電圧エラー:

Voltage Limit Exceeded
Voltage Transition to Critical from less severe

例

以下は、CIM 診断ログに表示される可能性のある内容の例です。

OMC_IpmiLogRecord.CreationClassName="OMC_IpmiLogRecord",LogCreationClassName="OMC_IpmiRecordLog",LogName="IPMI SEL",MessageTimestamp="YYYYMMDDHHMMSS.000000+000",RecordID="1"
RecordID = 1
MessageTimestamp = (NULL)
LogName = IPMI SEL
LogCreationClassName = OMC_IpmiRecordLog
CreationClassName = OMC_IpmiLogRecord
RecordFormat = *string CIM_Sensor.DeviceID*uint8[2] IPMI_RecordID*uint8 IPMI_RecordType*uint8[4] IPMI_Timestamp*uint8[2] IPMI_GeneratorID*uint8 IPMI_EvMRev*uint8 IPMI_SensorType*uint8 IPMI_SensorNumber*boolean IPMI_AssertionEvent*uint8 IPMI_EventType*uint8 IPMI_EventData1*uint8 IPMI_EventData2*uint8 IPMI_EventData3*uint32 IANA*
RecordData = *0.0.0*0 0*0*0 0 0 0*0 0*0*0*0*false*0*0*0*0*0*
ElementName = IPMI SEL
Description = Assert + Voltage Transition to Critical from less severe
Caption = Assert + Voltage Transition to Critical from less severe
PerceivedSeverity = (NULL)
Locale = (NULL)
InstanceID = (NULL)
DataFormat = (NULL)

Environment

ESXi 8.x

Cause

ハードウェアエラーが発生すると、ホストはアラートを生成し、"ハードウェアの健全性" その問題を表示します。
ただし、アラートはハードウェアエラーが発生している間のみ表示され、場合によっては消えることがあります。
これは、ハードウェアの障害が発生しなくなったことを示すものではなく、単に障害の表示が停止したことを意味します。
ハードウェア障害が発生した場合、たとえ一時的な状態であっても、ホストはその障害をハードウェアおよび CIM 診断ログに記録します。

Resolution

さらなるトラブルシューティングやサポートが必要な場合は、ハードウェアベンダーにお問い合わせください。

インテリジェント・プラットフォーム・マネジメント・インターフェース (IPMI) は、システムサブシステムの監視および制御方法に関する標準を定義しています。
これらの標準は、温度、電圧、ファン、バスエラー、メモリなどの要素を監視するためにも使用されます。
このシステムは、許容レベルを超えた場合に、さまざまなアラーム機能を提供します。

たとえば、プロセッサのエラーは、エラーが発生している間のみアクティブに表示される場合があります。
ログ記録機能の目的は、過去にエラーが発生したかどうかを確認することにあります。
これは、ホストが依然として障害状態にあるにもかかわらず、それらの障害を報告していない可能性があることを示唆するものです。

このような場合、通常はハードウェアベンダーとより詳細な調査を行う必要があります。