Solução de problemas em uma máquina virtual que parou de responder

search cancel

Solução de problemas em uma máquina virtual que parou de responder

book

Article ID: 344581

calendar_today

Updated On:

Products

VMware vCenter Server VMware vSphere ESXi

Issue/Introduction

Disclaimer: Este artigo é uma tradução do Troubleshooting a virtual machine that has stopped responding (1007819). Como os artigos são traduzidos em uma base de melhor esforço, o conteúdo pode tornar-se desatualizado. Para obter o conteúdo mais recente, consulte o artigo em Inglês.

Symptoms:

Uma máquina virtual funcionando em ESX/ESXi VMware não responde a nenhuma entrada externa ou não apresenta nenhuma atividade. Especificamente:

O OS convidado não responde a atividade do teclado ou do mouse no console.
O OS convidado não responde à comunicação de rede, incluindo ping, RDP, SSH, etc.
A tela do console da máquina virtual está estática e não muda ou atualiza.
As tarefas executadas na máquina virtual ,falham, atingem o tempo limite ou não iniciam.
A máquina virtual não produz o tráfego de rede ou de disco.

Environment

VMware vSphere ESXi 5.0
VMware ESX 4.0.x
VMware ESXi 4.1.x Installable
VMware ESXi 4.0.x Installable
VMware VirtualCenter 2.0.x
VMware vCenter Server 4.1.x
VMware vCenter Server 5.0.x
VMware ESX 4.1.x
VMware ESXi 3.5.x Embedded
VMware ESXi 4.1.x Embedded
VMware vCenter Server 4.0.x
VMware ESXi 3.5.x Installable
VMware ESXi 4.0.x Embedded
VMware ESX Server 3.0.x
VMware VirtualCenter 2.5.x
VMware ESX Server 3.5.x

Resolution

Este artigo fornece as etapas para isolar as possíveis causas de uma máquina virtual de vSphere tornar-se sem resposta.

Uma máquina virtual sem resposta não responde a nenhuma tentativa de conexão e pode não responder a nenhuma tentativa de inicialização. Há uma variedade de razões para que uma máquina virtual possa acabar em um estado no qual não responde. Este artigo habilita você a identificar e resolver estas causas comuns e, quando resolvido, retornar a máquina virtual para um estado operacional.

É possível desligar uma máquina virtual sem solucionar o motivo, mas isso vai evitar a coleta e a análise de informações que possam ajudar a determinar a causa raiz da interrupção. Para obter mais informações sobre desligar a máquina virtual, consulte Powering off a virtual machine on an ESXi host (1014165) and Powering off an unresponsive virtual machine on an ESX host (1004340).

Este artigo pressupõe que o problema está ocorrendo atualmente. Se você estiver solucionando um problema que ocorreu no passado, algumas informações necessárias podem não estar disponíveis.

Resolução

Os serviços que uma máquina virtual fornece podem ficar sem resposta ou inacessíveis devido a uma série de causas, incluindo problemas com os aplicativos ou sistema operacional convidado dentro da máquina virtual, problemas com o monitor da máquina virtual ou dispositivos virtuais, contenção de recursos no host ou problemas com armazenamento subjacente ou de infraestrutura de comunicação de rede.

Se o sistema operacional convidado está produzindo qualquer atividade, ele está funcionando. Neste caso, a falta de resposta é provavelmente devido a um problema de conectividade ou contenção de recursos ou é específico para um componente de nível superior, como um aplicativo dentro do serviço executado no sistema operacional convidado.

Validar o escopo

É importante ter sintomas precisos e uma compreensão do escopo de um problema. Para confirmar o escopo do problema, faça estas verificações:

Confirme se a máquina virtual não está respondendo atualmente. É possível que a máquina virtual não esteja respondendo através de uma interface, mas esteja funcionando corretamente em outras. Para obter mais informações sobre o teste para verificar se uma máquina virtual está genuinamente não respondendo, consulte Confirming whether virtual machine is unresponsive (1007802).

Se uma máquina virtual está respondendo, mas com um mau desempenho, consulte Troubleshooting ESX virtual machine performance issues (2001003).
Verifique se a máquina virtual está ligada. Se a máquina virtual foi desligada de forma inesperada, ligue-a novamente e solucione a causa do desligamento inesperado. Para obter mais informações, consulte:
- Powering on an ESX/ESXi host's virtual machine (1003738)
- Determining why a virtual machine was powered off or restarted (1019064).

Observação: Se uma máquina virtual é desligada e não pode ser ligada novamente, consulte Troubleshooting a virtual machine that is unable to power on (2001005).

Determine se este problema está afetando várias máquinas virtuais ou apenas uma. Se várias máquinas virtuais são afetadas, considere as semelhanças entre as máquinas virtuais afetadas durante a tentativa de diminuir o escopo potencial. Em particular, coloque foco na infraestrutura compartilhada, do qual o grupo de máquinas virtuais afetadas depende e se todas as máquinas virtuais dependendo desta infraestrutura comum estão afetadas. Para obter mais informações, consulte Assessing commonalities of an outage affecting multiple virtual machines (1019000).
Determine se o sistema operacional convidado está respondendo a interação no console da máquina virtual. Se um problema foi isolado para o sistema operacional convidado ou aplicativos dentro da máquina virtual, e o sistema operacional convidado está respondendo no console, interaja com o sistema operacional convidado no console para resolver o problema. Para obter mais informações, consulte Troubleshooting virtual machine network connection issues (1003893).
Determine se o sistema operacional convidado ou seus serviços de aplicativos estão respondendo à interação através da rede. Se o sistema operacional convidado ou serviços respondem à comunicação de rede, mas o console não responde ou não funciona, consulte Troubleshooting virtual machine console and MKS issues in the vSphere Client (749640) ou Ensuring that a virtual machine is not inaccessible due to a VMware vCenter or VirtualCenter issue (1007808).
Determine se o sistema operacional convidado relatou quaisquer erros críticos para o console e se está em um estado parado. Para obter mais informações, consulte Identifying critical Guest OS failures within virtual machines (1003999).
Determine se o host ESX/ESXi não está respondendo também. Se o host não está respondendo também, o escopo é maior do que o inicialmente assumido. Para obter mais informações, consulte Determining why an ESX/ESXi host does not respond to user interaction at the console (1017135).

Identificar a causa

Neste ponto, você estabeleceu que uma ou mais máquinas virtuais não responde(m), tanto ao console virtual quanto através da rede. O próprio host está respondendo. Pode haver um problema com a acessibilidade ou contenção de recursos ou com armazenamento subjacente ou com a infraestrutura de comunicação de rede.

Para identificar a causa:

Determine se o problema é desencadeado por uma operação ou tarefa sendo executada na máquina virtual. Por exemplo, ambas as operações, instantâneo e vMotion, provocam choque em uma máquina virtual por breves períodos, enquanto o estado da memória é copiado através da rede ou para o disco. Para obter mais informações, consulte Taking a snapshot with virtual machine memory stuns the virtual machine while the memory is written to disk (1013163).
Alguns erros comuns de configuração podem levar uma máquina virtual a tornar-se sem resposta, como quando está esperando por um recurso. Reveja a configuração da máquina virtual e do host. Para obter mais informações, consulte:
- Common ESX/ESXi host configuration issues which can cause virtual machines to become unresponsive (1007813)
- Common ESX/ESXi virtual machine configuration issues which can cause virtual machines to become unresponsive (1007814)</u>

Máquinas virtuais dependem de infraestrutura de apoio funcional. Se há um problema com o armazenamento de suporte ou infraestrutura de comunicação de rede do qual a máquina virtual depende, o equipamento virtual que uma máquina virtual apresenta para o sistema operacional convidado pode ser afetado. Verifique o armazenamento subjacente ou o problema de comunicação de rede. Para obter mais informações, consulte:

As máquinas virtuais dependem de recursos de host disponíveis (CPU, Memória) e o sistema operacional convidado consome estes recursos. Um problema com a disponibilidade de recursos ou agendamento dentro ou fora da máquina virtual pode fazer com que ela pare de responder. A máquina virtual também pode estar bloqueando recursos indisponíveis ou girando a 100% de utilização da vCPU. Para obter mais informações, consulte Troubleshooting a virtual machine that has stopped responding: VMM and Guest CPU usage comparison (1017926).

Plano de ação

Neste ponto, você estabeleceu que o host executando a máquina, ou máquinas, virtual está tanto respondendo quanto não encontrando nenhum armazenamento compartilhado ou problemas de infraestrutura de comunicação de rede. O sistema operacional convidado não falhou com um erro crítico, mas permanece sem resposta no console da máquina virtual e através da rede.

Tome medidas para recuperar ou coletar informações sobre a máquina virtual que não responde com base na camada da arquitetura que é suspeita:

Se um problema foi isolado para o sistema operacional convidado ou a %RUN é relativamente alta, mas o monitor de máquina virtual está funcionando corretamente, mova a investigação para dentro do sistema operacional convidado ou aplicativos da máquina virtual. Um sistema operacional convidado pode não responder dentro de uma máquina virtual da mesma maneira que pode também no equipamento físico. Para obter mais informação, consulte Troubleshooting unresponsive guest operating system issues (1007818).
1. Colete dados de desempenho enquanto o problema está acontecendo. Para obter mais informação, consulte Using performance collection tools to gather data for fault analysis (1006797).
2. Tente induzir manualmente um pânico no kernel dentro do sistema operacional convidado para coletar informações adicionais sobre o seu estado interno. Para obter mais informações, consulte:
  - Crashing a virtual machine on ESX/ESXi to collect diagnostic information (2005715)
  - Artigo 927069 da Microsoft: Como gerar um arquivo de despejo de memória completo ou um arquivo de despejo de memória kernel usando um NMI em um sistema baseado no Windows
  - Artigo 303021 da Microsoft: Como gerar um arquivo de despejo de memória quando um servidor deixa de responder
  - Artigo de projeto de documentação do Linux: Magic SysRq key
    
    Observação: Os links anteriores estavam corretos em 31.08.11. Se você achar que há falhas em algum link, envie um comentário a um funcionário da VMware para que link seja atualizado.

Se as informações de diagnóstico úteis são produzidas pelo sistema operacional convidado em resposta a um destes eventos, envolva o fornecedor do sistema operacional convidado para investigar mais.

Se a etapa 2 não produzir informações úteis, suspenda a máquina virtual para coletar informações sobre seu estado interno e abra um caso com o Suporte da VMware. Para obter mais informações, consulte:

a. Suspenda a máquina virtual e colete o arquivo de estado suspenso .vmss. Para obter mais informação, consulte Suspending a virtual machine on ESX/ESXi to collect diagnostic information (2005831).

b. Colete logs do host executando a máquina virtual. Para obter mais informação, consulte Collecting diagnostic information for VMware products (1008524).

c. Ligue a máquina virtual novamente, e a reinicie.

d. Envolva o Suporte da VMware fornecendo as informações coletadas nas etapas 1, 3a e 3b. Para obter mais informação, consulte How to File a Support Request.

Observação: Se a máquina virtual não pode ser suspensa porque outra tarefa de gestão está em andamento, consulte Collecting information about tasks in VMware ESX and ESXi (1013003) e Restarting the Management agents on an ESX or ESXi Server (1003490). Se as tentativas de suspender a máquina virtual falharem e não parece que tarefa de gestão está presente, pule para a próxima seção e tente travar a máquina virtual.

Se um problema foi isolado com o monitor de máquina virtual, ou a %WAIT é relativamente elevada ou as tentativas de suspender a máquina virtual falharam, colete dados de desempenho e trave a máquina virtual vigorosamente para coletar informações adicionais sobre o seu estado interno.

Colete dados de desempenho enquanto o problema está acontecendo. Para obter mais informação, consulte Using performance collection tools to gather data for fault analysis (1006797).

Trave a máquina virtual para coletar informações sobre o seu estado interno. Para obter mais informação, consulte Crashing a virtual machine on ESX/ESXi to collect diagnostic information (2005715).

Observação: Se as tentativas de travar a máquina virtual falham, pule para a próxima seção e tente travar o host.

Envolva o Suporte da VMware, fornecendo as informações coletadas nas etapas 1 e 2. Para obter mais informações, consulte How to File a Support Request.

Se um problema foi isolado para o monitor de máquina virtual, mas as tentativas de suspender ou travar a máquina virtual falharam, isto reflete um problema com o VMkernel. Colete um pacote de registro do host, evacue todas as máquinas virtuais não afetadas do host e use um NMI para, intencionalmente, gerar uma tela roxa de diagnóstico.

Colete dados de desempenho enquanto o problema está acontecendo. Para obter mais informação, consulte Using performance collection tools to gather data for fault analysis (1006797).

Mova todas as máquinas virtuais não afetadas para fora do host usando o vMotion. Se possível, use o Modo de Manutenção para evitar que máquinas virtuais adicionais sejam iniciadas no host.

Configure o host para pânico ao receber uma interrupção não mascarável e em seguida emita um NMI para disparar um pânico. Para obter mais informações, consulte Using hardware NMI facilities to troubleshoot unresponsive hosts (1014767).

Depois que o host gerou uma tela roxa de diagnóstico e completou o despejo de informação de diagnóstico, tire um instantâneo ou fotografia do console e reinicie o host.

Colete informações de diagnóstico do host. Para obter mais informação, consulte Collecting diagnostic information from an ESX or ESXi host that experiences a purple diagnostic screen (1004128).

Envolva o Suporte da VMware, fornecendo as informações coletadas nas etapas 1, 4 e 5. Para obter mais informações, consulte How to File a Support Request.

Additional Information

Troubleshooting a virtual machine that has stopped responding Crashing a virtual machine on ESX/ESXi to collect diagnostic information Troubleshooting virtual machine console and MKS issues in the vSphere Client

Feedback

thumb_up Yes

thumb_down No