Este artículo analiza una pérdida definitiva del dispositivo (PDL) y caída de todas las rutas (APD) en ESXi 5.x, y proporciona información sobre cómo hacer frente a cada uno de estos escenarios.
Renuncia: Este artículo es una traducción de Permanent Device Loss (PDL) and All-Paths-Down (APD) in vSphere 5.x (2004684). Dado que los artículos se traducen siguiendo el principio del mejor esfuerzo, el contenido localizado puede estar desactualizado. Para ver el contenido más reciente, consulte el artículo en inglés.
/var/log/vmkernel.log
muestra mensajes similares a los siguientes:cpu2:853571)VMW_SATP_ALUA: satp_alua_issueCommandOnPath:661: Path "vmhba3:C0:T0:L0" (PERM LOSS) command 0xa3 failed with status Device is permanently unavailable. H:0x0 D:0x2 P:0x0 Valid sense data: 0x5 0x25 0x0.
cpu2:853571)VMW_SATP_ALUA: satp_alua_issueCommandOnPath:661: Path "vmhba4:C0:T0:L0" (PERM LOSS) command 0xa3 failed with status Device is permanently unavailable. H:0x0 D:0x2 P:0x0 Valid sense data: 0x5 0x25 0x0.
cpu2:853571)WARNING: vmw_psp_rr: psp_rrSelectPathToActivate:972:Could not select path for device "naa.60a98000572d54724a34642d71325763".
cpu2:853571)WARNING: ScsiDevice: 1223: Device :naa.60a98000572d54724a34642d71325763 has been removed or is permanently inaccessible.
cpu3:2132)ScsiDeviceIO: 2288: Cmd(0x4124403c1fc0) 0x9e, CmdSN 0xec86 to dev "naa.60a98000572d54724a34642d71325763" failed H:0x8 D:0x0 P:0x0
cpu3:2132)WARNING: NMP: nmp_DeviceStartLoop:721:NMP Device "naa.60a98000572d54724a34642d71325763" is blocked. Not starting I/O from device.
cpu2:2127)ScsiDeviceIO: 2316: Cmd(0x4124403c1fc0) 0x25, CmdSN 0xecab to dev "naa.60a98000572d54724a34642d71325763" failed H:0x1 D:0x0 P:0x0 Possible sense data: 0x5 0x25 0x0.
cpu2:854568)WARNING: ScsiDeviceIO: 7330: READ CAPACITY on device "naa.60a98000572d54724a34642d71325763" from Plugin "NMP" failed. I/O error
cpu2:854568)ScsiDevice: 1238: Permanently inaccessible device :naa.60a98000572d54724a34642d71325763 has no more open connections. It is now safe to unmount datastores (if any) and delete the device.
cpu3:854577)WARNING: NMP: nmpDeviceAttemptFailover:562:Retry world restore device "naa.60a98000572d54724a34642d71325763" - no more commands to retry
/var/log/vmkernel.log
muestra mensajes similares a los siguientes:cpu1:2049)WARNING: NMP: nmp_IssueCommandToDevice:2954:I/O could not be issued to device "naa.60a98000572d54724a34642d71325763" due to Not found
cpu1:2049)WARNING: NMP: nmp_DeviceRetryCommand:133:Device "naa.60a98000572d54724a34642d71325763": awaiting fast path state update for failover with I/O blocked. No prior reservation exists on the device.
cpu1:2049)WARNING: NMP: nmp_DeviceStartLoop:721:NMP Device "naa.60a98000572d54724a34642d71325763" is blocked. Not starting I/O from device.
cpu1:2642)WARNING: NMP: nmpDeviceAttemptFailover:599:Retry world failover device "naa.60a98000572d54724a34642d71325763" - issuing command 0x4124007ba7c0
cpu1:2642)WARNING: NMP: nmpDeviceAttemptFailover:658:Retry world failover device "naa.60a98000572d54724a34642d71325763" - failed to issue command due to Not found (APD), try again...
cpu1:2642)WARNING: NMP: nmpDeviceAttemptFailover:708:Logical device "naa.60a98000572d54724a34642d71325763": awaiting fast path state update...
cpu0:2642)WARNING: NMP: nmpDeviceAttemptFailover:599:Retry world failover device "naa.60a98000572d54724a34642d71325763" - issuing command 0x4124007ba7c0
cpu0:2642)WARNING: NMP: nmpDeviceAttemptFailover:658:Retry world failover device "naa.60a98000572d54724a34642d71325763" - failed to issue command due to Not found (APD), try again...
cpu0:2642)WARNING: NMP: nmpDeviceAttemptFailover:708:Logical device "naa.60a98000572d54724a34642d71325763": awaiting fast path state update...
Not all VMFS volumes were updated; the error encountered was 'No connection'.
Errors:
Rescan complete, however some dead paths were not removed because they were in use by the system. Please use the 'storage core device world list' command to see the VMkernel worlds still using these paths.
Error while scanning interfaces, unable to continue. Error was Not all VMFS volumes were updated; the error encountered was 'No connection'.
cpu17:10107)WARNING: Vol3: 1717: Failed to refresh FS 4beb089b-68037158-2ecc-00215eda1af6 descriptor: Device is permanently unavailable
cpu17:10107)ScsiDeviceIO: 2316: Cmd(0x412442939bc0) 0x28, CmdSN 0x367bb6 from world 10107 to dev "eui.00173800084f0005" failed H:0x1 D:0x0 P:0x0 Possible sense data: 0x0 0x0 0x0.
cpu17:10107)Vol3: 1767: Error refreshing PB resMeta: Device is permanently unavailable
En vSphere 4.x, se produce una situación de APD cuando todas las rutas de un dispositivos están caídas. Dado que no existe indicación de si esta es una pérdida de dispositivo permanente o temporaria, el host ESXi sigue intentando establecer conexión. Comúnmente las situaciones del estilo APD se producen cuando, incorrectamente, el LUN deja de presentarse en el host ESXi/ESX. El host ESXi/ESX, como sigue interpretando que el dispositivo está disponible, reintenta todos los comandos SCSI de forma indefinida. Esto tiene un impacto en los agentes de administración, ya que no se responderá a sus comandos hasta que el dispositivo esté accesible nuevamente. Esto origina que no pueda accederse al host ESXi/ESX o que este no responda en vCenter Server.
En vSphere 5.x, se ha realizado una diferencia clara entre un dispositivo que se ha perdido permanentemente (PDL) y un problema transitorio en el que todas las rutas están caídas (APD) por una causa desconocida.
Por ejemplo, en los logs VMkernel, si el dispositivo de almacenamiento registra el código de detección de SCSI de H:0x0 D:0x2 P:0x0 Valid sense data: 0x5 0x25 0x0
o Logical Unit Not Supported
en ESXi 5.xhost, indica que el host ESXi no puede acceder al dispositivo de forma permanente o que este está en un estado de pérdida definitiva del dispositivo (PDL). El host ESXi ya no intenta restablecer la conexión o emitir comandos para el dispositivo.
También se reconoce a los dispositivos que sufren un error de hardware no recuperable como en estado de pérdida definitiva del dispositivo (PDL).
Esta tabla detalla los posibles códigos de detección de SCSI que determinan si un dispositivo está en un estado de PDL:
Código de detección de SCSI | Descripción |
H:0x0 D:0x2 P:0x0 Valid sense data: 0x5 0x25 0x0 | LOGICAL UNIT NOT SUPPORTED |
H:0x0 D:0x2 P:0x0 Valid sense data: 0x4 0x4c 0x0 | LOGICAL UNIT FAILED SELF-CONFIGURATION |
H:0x0 D:0x2 P:0x0 Valid sense data: 0x4 0x3e 0x3 | LOGICAL UNIT FAILED SELF-TEST |
H:0x0 D:0x2 P:0x0 Valid sense data: 0x4 0x3e 0x1 | LOGICAL UNIT FAILURE |
hostd
) Debido a la naturaleza de una situación de APD, no existe una forma correcta de recuperarse.
Call datastore refresh for object <name_of_LUN> on vCenter server <name_of_vCenter> failed