ホストのハードウェア障害
search cancel

ホストのハードウェア障害

book

Article ID: 437134

calendar_today

Updated On:

Products

VMware vSphere ESXi

Issue/Introduction

免責事項 :
これは英文の記事「Hardware faults on hosts」の日本語訳です。
記事はベストエフォートで翻訳を進めているため、ローカライズ化コンテンツは最新情報ではない可能性があります。最新情報は英語版の記事を参照してください。

 

一般的なハードウェア障害が発生した場合、ESXi ホストでは次のような現象が見られることがあります:

  • ホストの動作が不安定になる
  • パープルスクリーンエラーが発生する
  • ディスクドライブが破損する
  • 仮想マシンの動作が不安定になる

ホストのハードウェアログまたは CIM ログにアラートが表示される

以下のカテゴリは、解決のために必要な措置を示す状態の重大度であり、その例として以下のログエントリを示します。

プロセッサエラー:

  • Processor IERR
  • Processor Thermal Trip
  • Processor Configuration Error
  • Processor Machine Check Exception
  • Processor Correctable Machine Check

メモリエラー:

  • Memory Configuration Error
  • Memory Uncorrectable ECC
  • Memory Transition to Critical
  • Memory Critical Overtemperature

ディスクエラー:

  • Drive Slot In Critical Array
  • Drive Slot In Failed Array
  • Drive Bay in Critical Array
  • Drive Bay in Failed Array
  • Drive Slot Drive Faul

バスエラー:

  • PCI PERR
  • PCI SERR
  • Bus Correctable Error
  • Bus Uncorrectable Error
  • Bus Fatal Error
  • Add-in Card Install Error
  • Cable/Interconnect Transition to Critical from less severe
  • Slot/Connector Transition to Critical
  • Slot/Connector Transition to Non-critical

ファンエラー:

  • Fan Transition to Critical from less severe
  • Fan Transition to Off Line

温度エラー:

  • Temperature Lower Critical going low
  • Temperature Transition to Critical from less severe
  • Temperature Transition to Non-recoverable from less severe
  • Temperature Upper Critical going high

電圧エラー:

  • Voltage Limit Exceeded
  • Voltage Transition to Critical from less severe

以下は、CIM 診断ログに表示される可能性のある内容の例です。

OMC_IpmiLogRecord.CreationClassName="OMC_IpmiLogRecord",LogCreationClassName="OMC_IpmiRecordLog",LogName="IPMI SEL",MessageTimestamp="YYYYMMDDHHMMSS.000000+000",RecordID="1"
RecordID = 1
MessageTimestamp = (NULL)
LogName = IPMI SEL
LogCreationClassName = OMC_IpmiRecordLog
CreationClassName = OMC_IpmiLogRecord
RecordFormat = *string CIM_Sensor.DeviceID*uint8[2] IPMI_RecordID*uint8 IPMI_RecordType*uint8[4] IPMI_Timestamp*uint8[2] IPMI_GeneratorID*uint8 IPMI_EvMRev*uint8 IPMI_SensorType*uint8 IPMI_SensorNumber*boolean IPMI_AssertionEvent*uint8 IPMI_EventType*uint8 IPMI_EventData1*uint8 IPMI_EventData2*uint8 IPMI_EventData3*uint32 IANA*
RecordData = *0.0.0*0 0*0*0 0 0 0*0 0*0*0*0*false*0*0*0*0*0*
ElementName = IPMI SEL
Description = Assert + Voltage Transition to Critical from less severe
Caption = Assert + Voltage Transition to Critical from less severe
PerceivedSeverity = (NULL)
Locale = (NULL)
InstanceID = (NULL)
DataFormat = (NULL)

Environment

ESXi 8.x

Cause

  • ハードウェアエラーが発生すると、ホストはアラートを生成し、"ハードウェアの健全性" その問題を表示します。
  • ただし、アラートはハードウェアエラーが発生している間のみ表示され、場合によっては消えることがあります。
  • これは、ハードウェアの障害が発生しなくなったことを示すものではなく、単に障害の表示が停止したことを意味します。
  • ハードウェア障害が発生した場合、たとえ一時的な状態であっても、ホストはその障害をハードウェアおよび CIM 診断ログに記録します。

Resolution

さらなるトラブルシューティングやサポートが必要な場合は、ハードウェアベンダーにお問い合わせください。

インテリジェント・プラットフォーム・マネジメント・インターフェース (IPMI) は、システムサブシステムの監視および制御方法に関する標準を定義しています。
これらの標準は、温度、電圧、ファン、バスエラー、メモリなどの要素を監視するためにも使用されます。
このシステムは、許容レベルを超えた場合に、さまざまなアラーム機能を提供します。

たとえば、プロセッサのエラーは、エラーが発生している間のみアクティブに表示される場合があります。
ログ記録機能の目的は、過去にエラーが発生したかどうかを確認することにあります。
これは、ホストが依然として障害状態にあるにもかかわらず、それらの障害を報告していない可能性があることを示唆するものです。

このような場合、通常はハードウェアベンダーとより詳細な調査を行う必要があります。

Additional Information

関連情報 :
Hardware faults on hosts