Pérdida definitiva del dispositivo (PDL) y caída de todas las rutas (APD) en vSphere 5.x

search cancel

Pérdida definitiva del dispositivo (PDL) y caída de todas las rutas (APD) en vSphere 5.x

book

Article ID: 344000

calendar_today

Updated On:

Products

VMware vCenter Server VMware vSphere ESXi

Issue/Introduction

Este artículo analiza una pérdida definitiva del dispositivo (PDL) y caída de todas las rutas (APD) en ESXi 5.x, y proporciona información sobre cómo hacer frente a cada uno de estos escenarios.

Symptoms:

Renuncia: Este artículo es una traducción de Permanent Device Loss (PDL) and All-Paths-Down (APD) in vSphere 5.x (2004684). Dado que los artículos se traducen siguiendo el principio del mejor esfuerzo, el contenido localizado puede estar desactualizado. Para ver el contenido más reciente, consulte el artículo en inglés.

Pérdida definitiva del dispositivo (PDL)

Un almacén de datos se muestra como no disponible en la vista de almacenamiento.
Un adaptador de almacenamiento indica el estado operativo del dispositivo como Lost Communication.
Todas las rutas al dispositivo están marcadas como Dead.
El archivo /var/log/vmkernel.log muestra mensajes similares a los siguientes:

cpu2:853571)VMW_SATP_ALUA: satp_alua_issueCommandOnPath:661: Path "vmhba3:C0:T0:L0" (PERM LOSS) command 0xa3 failed with status Device is permanently unavailable. H:0x0 D:0x2 P:0x0 Valid sense data: 0x5 0x25 0x0. cpu2:853571)VMW_SATP_ALUA: satp_alua_issueCommandOnPath:661: Path "vmhba4:C0:T0:L0" (PERM LOSS) command 0xa3 failed with status Device is permanently unavailable. H:0x0 D:0x2 P:0x0 Valid sense data: 0x5 0x25 0x0. cpu2:853571)WARNING: vmw_psp_rr: psp_rrSelectPathToActivate:972:Could not select path for device "naa.60a98000572d54724a34642d71325763". cpu2:853571)WARNING: ScsiDevice: 1223: Device :naa.60a98000572d54724a34642d71325763 has been removed or is permanently inaccessible. cpu3:2132)ScsiDeviceIO: 2288: Cmd(0x4124403c1fc0) 0x9e, CmdSN 0xec86 to dev "naa.60a98000572d54724a34642d71325763" failed H:0x8 D:0x0 P:0x0 cpu3:2132)WARNING: NMP: nmp_DeviceStartLoop:721:NMP Device "naa.60a98000572d54724a34642d71325763" is blocked. Not starting I/O from device. cpu2:2127)ScsiDeviceIO: 2316: Cmd(0x4124403c1fc0) 0x25, CmdSN 0xecab to dev "naa.60a98000572d54724a34642d71325763" failed H:0x1 D:0x0 P:0x0 Possible sense data: 0x5 0x25 0x0. cpu2:854568)WARNING: ScsiDeviceIO: 7330: READ CAPACITY on device "naa.60a98000572d54724a34642d71325763" from Plugin "NMP" failed. I/O error cpu2:854568)ScsiDevice: 1238: Permanently inaccessible device :naa.60a98000572d54724a34642d71325763 has no more open connections. It is now safe to unmount datastores (if any) and delete the device. cpu3:854577)WARNING: NMP: nmpDeviceAttemptFailover:562:Retry world restore device "naa.60a98000572d54724a34642d71325763" - no more commands to retry

Caída de todas las rutas (APD)

Un almacén de datos se muestra como no disponible en la vista de almacenamiento.
Un adaptador de almacenamiento indica el estado operativo del dispositivo como Dead o Error.
Todas las rutas al dispositivo están marcadas como Dead.
No puede conectarse directamente al host ESXi con vSphere Client.
El host ESXi se muestra como desconectado en vCenter Server.
El archivo /var/log/vmkernel.log muestra mensajes similares a los siguientes:

cpu1:2049)WARNING: NMP: nmp_IssueCommandToDevice:2954:I/O could not be issued to device "naa.60a98000572d54724a34642d71325763" due to Not found cpu1:2049)WARNING: NMP: nmp_DeviceRetryCommand:133:Device "naa.60a98000572d54724a34642d71325763": awaiting fast path state update for failover with I/O blocked. No prior reservation exists on the device. cpu1:2049)WARNING: NMP: nmp_DeviceStartLoop:721:NMP Device "naa.60a98000572d54724a34642d71325763" is blocked. Not starting I/O from device. cpu1:2642)WARNING: NMP: nmpDeviceAttemptFailover:599:Retry world failover device "naa.60a98000572d54724a34642d71325763" - issuing command 0x4124007ba7c0 cpu1:2642)WARNING: NMP: nmpDeviceAttemptFailover:658:Retry world failover device "naa.60a98000572d54724a34642d71325763" - failed to issue command due to Not found (APD), try again... cpu1:2642)WARNING: NMP: nmpDeviceAttemptFailover:708:Logical device "naa.60a98000572d54724a34642d71325763": awaiting fast path state update... cpu0:2642)WARNING: NMP: nmpDeviceAttemptFailover:599:Retry world failover device "naa.60a98000572d54724a34642d71325763" - issuing command 0x4124007ba7c0 cpu0:2642)WARNING: NMP: nmpDeviceAttemptFailover:658:Retry world failover device "naa.60a98000572d54724a34642d71325763" - failed to issue command due to Not found (APD), try again... cpu0:2642)WARNING: NMP: nmpDeviceAttemptFailover:708:Logical device "naa.60a98000572d54724a34642d71325763": awaiting fast path state update...
Un reinicio de los agentes de administración puede mostrar estos errores:

Not all VMFS volumes were updated; the error encountered was 'No connection'. Errors: Rescan complete, however some dead paths were not removed because they were in use by the system. Please use the 'storage core device world list' command to see the VMkernel worlds still using these paths. Error while scanning interfaces, unable to continue. Error was Not all VMFS volumes were updated; the error encountered was 'No connection'.
También puede ver que el dispositivo ya no aparece:

cpu17:10107)WARNING: Vol3: 1717: Failed to refresh FS 4beb089b-68037158-2ecc-00215eda1af6 descriptor: Device is permanently unavailable cpu17:10107)ScsiDeviceIO: 2316: Cmd(0x412442939bc0) 0x28, CmdSN 0x367bb6 from world 10107 to dev "eui.00173800084f0005" failed H:0x1 D:0x0 P:0x0 Possible sense data: 0x0 0x0 0x0. cpu17:10107)Vol3: 1767: Error refreshing PB resMeta: Device is permanently unavailable

Environment

VMware vCenter Server 5.1.x
VMware vSphere ESXi 5.5
VMware vCenter Server 5.5.x
VMware vSphere ESXi 5.0
VMware vCenter Server 5.0.x
VMware vSphere ESXi 5.1

Resolution

En vSphere 4.x, se produce una situación de APD cuando todas las rutas de un dispositivos están caídas. Dado que no existe indicación de si esta es una pérdida de dispositivo permanente o temporaria, el host ESXi sigue intentando establecer conexión. Comúnmente las situaciones del estilo APD se producen cuando, incorrectamente, el LUN deja de presentarse en el host ESXi/ESX. El host ESXi/ESX, como sigue interpretando que el dispositivo está disponible, reintenta todos los comandos SCSI de forma indefinida. Esto tiene un impacto en los agentes de administración, ya que no se responderá a sus comandos hasta que el dispositivo esté accesible nuevamente. Esto origina que no pueda accederse al host ESXi/ESX o que este no responda en vCenter Server.

En vSphere 5.x, se ha realizado una diferencia clara entre un dispositivo que se ha perdido permanentemente (PDL) y un problema transitorio en el que todas las rutas están caídas (APD) por una causa desconocida.

Por ejemplo, en los logs VMkernel, si el dispositivo de almacenamiento registra el código de detección de SCSI de H:0x0 D:0x2 P:0x0 Valid sense data: 0x5 0x25 0x0 o Logical Unit Not Supported en ESXi 5.xhost, indica que el host ESXi no puede acceder al dispositivo de forma permanente o que este está en un estado de pérdida definitiva del dispositivo (PDL). El host ESXi ya no intenta restablecer la conexión o emitir comandos para el dispositivo.

También se reconoce a los dispositivos que sufren un error de hardware no recuperable como en estado de pérdida definitiva del dispositivo (PDL).

Esta tabla detalla los posibles códigos de detección de SCSI que determinan si un dispositivo está en un estado de PDL:

Código de detección de SCSI	Descripción
`H:0x0 D:0x2 P:0x0 Valid sense data: 0x5 0x25 0x0`	`LOGICAL UNIT NOT SUPPORTED`
`H:0x0 D:0x2 P:0x0 Valid sense data: 0x4 0x4c 0x0`	`LOGICAL UNIT FAILED SELF-CONFIGURATION`
`H:0x0 D:0x2 P:0x0 Valid sense data: 0x4 0x3e 0x3`	`LOGICAL UNIT FAILED SELF-TEST`
`H:0x0 D:0x2 P:0x0 Valid sense data: 0x4 0x3e 0x1`	`LOGICAL UNIT FAILURE`

Para obtener más información sobre los códigos de detección de SCSI en vSphere, consulte Interpreting SCSI sense codes (289902).

Nota: Algunas matrices iSCSI asignan LUN al destino en una relación de uno a uno. Es decir, existe un único LUN por destino. En este caso, las matrices iSCSI no devuelven el código de detección de SCSI apropiado, por lo que la PDL en estos tipos de matrices no puede detectarse. No obstante, en ESXi 5.1, se han realizado mejoras y ahora el iniciador de iSCSI intenta volver a iniciar sesión en el destino después de que se interrumpe una sesión. Si no puede accederse al dispositivo, el sistema de almacenamiento rechaza el esfuerzo del host para acceder al almacenamiento. Según la respuesta desde la matriz, el host ahora puede marcar el dispositivo como PDL.

Caída de todas las rutas (APD)

Si no se devuelven los códigos de detección de PDL SCSI desde un dispositivo (cuando no puede ponerse en contacto con la matriz de almacenamiento o con una matriz de almacenamiento que no devuelve los códigos de PDL SCSI admitidos), el dispositivo está en un estado de caída de todas las rutas (APD), y el host ESXi sigue enviando las solicitudes de I/O hasta que recibe una respuesta.

Como el host ESXi no puede determinar si la pérdida del dispositivo es permanente (PDL) o transitoria (APD), reintenta el I/O de SCSI indefinidamente, lo que incluye:

I/O del ámbito del usuario (agente de administración hostd)
I/O invitado de la máquina virtual

Nota: Si se emite una solicitud de I/O desde un invitado, el sistema operativo debe desconectarse y abortar el I/O.

Debido a la naturaleza de una situación de APD, no existe una forma correcta de recuperarse.

La situación de APD debe resolverse en la capa de tejido/matriz de almacenamiento para restablecer la conexión con el host.
Todos los hosts ESXi afectados pueden requerir de un reinicio para eliminar cualquier referencia residual a los dispositivos afectados que están en un estado de APD.

Nota: No es posible realizar una migración de vMotion de máquinas virtuales no afectadas, dado que los agentes de administración pueden verse afectados por una condición de APD, y es probable que el host ESXi no pueda administrarse. Como resultado, un reinicio de un host ESXi afectado fuerza una interrupción para todas las máquinas virtuales no afectadas en ese host.

PDL planificada contra PDL no planificada

Se produce una PDL planificada cuando existe un intento de quitar un dispositivo presentado al host ESXi. Primero debe desmontarse el almacén de datos y después desasociarse el dispositivo antes de que el dispositivo de almacenamiento pueda dejar de presentarse en la matriz de almacenamiento. Para obtener más información sobre cómo dejar de presentar un LUN en ESXi 5.x correctamente, consulte Unmounting a LUN or detaching a datastore/storage device from multiple ESXi 5.x hosts (2004605).

Una PDL no planificada se produce cuando el dispositivo de almacenamiento inesperadamente deja de presentarse desde la matriz de almacenamiento sin que se ejecute el desmontaje y la desasociación en el host ESXi.

En ESXi 5.5, VMware ofrece una característica llamada Auto-remove para eliminar automáticamente los dispositivos durante una PDL no planificada. Para obtener más información, consulte PDL AutoRemove feature in vSphere 5.5 (2059622).

Para limpiar una PDL no planificada:

Todas las máquinas virtuales en ejecución desde el almacén de datos deben apagarse y se debe eliminar su registro en vCenter Server.
En vSphere Client, vaya a la pestaña Configuration del host ESXi y haga clic en Storage.
Haga clic con el botón derecho en el almacén de datos que quiera eliminar y haga clic en Unmount.

Aparece la ventana Confirm Datastore Unmount. Cuando se hayan cumplido los criterios de requisito previo, aparece el botón OK.

Si ve este error al desmontar el LUN:

Call datastore refresh for object <name_of_LUN> on vCenter server <name_of_vCenter> failed

Es probable que se haya presentado un LUN de snapshot. Para resolver este problema, quite el LUN de snapshot del lado de la matriz.
Realice un nuevo análisis de todos los hosts ESXi que podían ver el LUN.

Nota: Si existen referencias activas al dispositivo o I/O pendiente, el host ESXi sigue enumerando el dispositivo después de repetir el análisis. Compruebe las máquinas virtuales, plantillas, imágenes de ISO, imágenes de unidades de disco y asignaciones de dispositivo en bruto que puedan seguir teniendo una referencia activa al dispositivo o almacén de datos.
Si el LUN sigue usándose y está disponible nuevamente, vaya al host, haga clic con el botón derecho en el LUN y haga clic en Mount.

Nota: Una posible causa para una PDL no planificada es que el LUN se quedó sin espacio, lo que hace que quede inaccesible.

Additional Information

Permanent Device Loss (PDL) and All-Paths-Down (APD) in vSphere 5.x and 6.x

Feedback

thumb_up Yes

thumb_down No