停電後、ESXiホストのポートチャネル接続が確立できない
search cancel

停電後、ESXiホストのポートチャネル接続が確立できない

book

Article ID: 426514

calendar_today

Updated On:

Products

VMware vSphere ESXi

Issue/Introduction

免責事項:これは英文の記事「ESXi Host Port Channel Connectivity Fails After Power Outage(412029)」の日本語訳です。記事はベストエフォートで翻訳を進めているため、ローカライズ化コンテンツは最新情報ではない可能性があります。最新情報は英語版の記事で参照してください。

停電が発生し、電源復旧後に、ESXiホストでネットワーク接続障害が発生します。ESXiホストと物理スイッチ間のポートチャネルが、Link Aggregation Control Protocol(LACP)のネゴシエーションを正常に確立できず、その結果、ネットワーク接続が劣化、または完全に失われます。

この問題は、電源復旧時に物理ネットワークスイッチがESXiホストより先に起動してしまう場合に発生します。ネットワークトンネルがDownとして表示され、ワークロードの接続が断たれ、vMotionはタイムアウトエラーで失敗します。

観測される症状:

  • ポートチャネル内の一方のポートはActiveだが、もう一方がInactiveまたはIsolatedになっている
  • 本来は両方Activeであるべきポートチャネルで、両ポートがDownとして表示される
  • ESXiホストからインフラストラクチャコンポーネントへのネットワーク接続が失敗する
  • vMotionが「Connection closed by remote host」エラーで失敗する
  • 管理ネットワークが断続的に接続できる、または完全に接続できない
  • 仮想マシンのネットワークトラフィックが遮断・断続する

ポートチャネルの状態を確認し、本事象であることを確証するには、vmkpingコマンドを用いた「VMkernelネットワーク接続(vmkping)による疎通確認」を実施してください。冗長経路が存在するはずにもかかわらず、vmkpingで片系のみ疎通する/もう片系が疎通しない、または両系とも疎通しない場合、本メンテナンス手順の実施が必要です。

Environment

  • VMware vSphere ESXi
  • LACPポートチャネル設定を持つ物理ネットワークスイッチ
  • ポートチャネルにより冗長化されたネットワークアップリンク(vmnic)

Cause

電源復旧時、物理ネットワークスイッチがESXiホストよりも速く初期化を完了します。スイッチ側はポートチャネル設定を初期化しますが、ESXi側のネットワークサービスがまだ初期化中のため、ホスト側からのLACPネゴシエーションを受け取れません。このタイミング不整合により、スイッチがリンクアグリゲーションを正しく認識できない不整合状態のままポートチャネルが残存します。

この状態が継続する主な理由は以下のとおりです。

  • スイッチとホスト間のLACPハンドシェイクが完了していない
  • スイッチ側のポートチャネルメンバーポートがIsolated、または個別(Individual)モードになっている
  • スイッチ側のボンディングプロトコルのステートマシンがホスト側と同期していない

Resolution

物理スイッチ上で、影響を受けているポートチャネルを管理的に無効化(shutdown)し、再度有効化(no shutdown)することでLACPの再ネゴシエーションを強制します。

  1. 影響を受けているESXiホストと、それに対応するスイッチのポートチャネルを特定する  
    • ホストの管理IPアドレスを控える  
    • どのvmnicがどのスイッチポートに接続されているかを記録する  
  2. 物理スイッチの管理インターフェースにアクセスする  
  3. 影響を受けている各ポートチャネルについて、ポートチャネルのインターフェースを管理的に無効化する  
  4. インターフェースが完全にDownするまで10秒待つ  
  5. ポートチャネルのインターフェースを再度有効化する  
  6. スイッチベンダーに応じたshowコマンドでLACP状態を確認し、全メンバーポートがActiveかつBundledであることを確認する  
  7. ESXiホスト側でネットワーク疎通を確認する  
    • vSphere Clientの[構成(Configure)]>[ネットワーク(Networking)]>[物理アダプタ(Physical adapters)]で、vmnicの状態が「Up」であることを確認  
    • 影響を受けているホスト間でvmkpingを実施して疎通を確認  
    • vMotionおよび管理ネットワークのオペレーションが正常に動作することを確認  
  8. 影響を受けている各ESXiホストのポートチャネルについて、手順3~7を繰り返す

注:本手順は、影響を受けるESXiホストに対して短時間のネットワーク断を発生させます。停電復旧シナリオにおいては、これが最も迅速な解決手段であり、ホスト再起動を回避できます。

再発防止策

  • スイッチインターフェースでLACP rateをfastに設定し、収束を早める  
  • プラットフォームで利用可能であれば、スイッチのブート遅延タイマーを実装する  
  • LACPタイムアウト値を見直し、必要に応じて調整する  

上記手順を実施しても問題が継続する場合は、Broadcom Supportへお問い合わせください。

Broadcomへのサポートリクエスト時に提供すべき情報:

  • ESXiホスト名および管理IPアドレス  
  • 物理スイッチのベンダー/モデル/ファームウェアバージョン  
  • スイッチのポートチャネル設定(コンフィグ)  
  • LACPネイバー状態の出力(showコマンド結果)  
  • ESXiホストのネットワーク設定詳細  
  • 停電が発生した時刻