Casos relevantes exitosos en recuperación de RAID

Sistemas RAID en servidores, sistemas virtualizados VMFS o ESXI

CASO DE ÉXITO: El caso del RAID que nunca se acababa...

RAID 6

  • 16 discos en una cabina con varias LUN y diferentes VM
  • 4 estaban dañados físicamente
  • Formato RAID 6. Fallo en funcionamiento el RAID. Trabajo anormal en la cabina. Se substituyen discos y acaban fallando dos más sin finalizar el proceso de reconstrucción del RAID

Recuperación discos

  • Realización de las imágenes de los 6 discos “sanos”
  • Recuperación de las imágenes de los 4 discos dañados tras sustitución de unidad lectora. El cliente no recuerda el orden en el que fallaron los discos y la cabina no ofrece información al respecto. Se decide realizar la recuperación de los 4 discos dañados para comprobar cuales son válidos.

Reconstrucción RAID

  • Procesos propios de reconstrucción del RAID
    • Encontrar el Block Size
    • Encontrar la paridad y la dirección de ésta
    • Encontrar el orden lógico de los discos
    • Identificar discos Spare y discos antiguos
    • Mediante el algoritmo Reed-Solomon se inicia el proceso
    • Reconstrucción exitosa

Comprobación de las máquinas virtuales con cliente y… Sorpresa: ¡¡la información estaba cifrada!!. En este momento el cliente entendió el porqué la cabina estaba trabajando con una carga de la CPU tan alta. Varias máquinas virtuales habían sido cifradas con un Ramsomware.

  • Tras la comprobación por parte del cliente nos pide ayuda para intentar descifrar la información y la restauración de las máquinas virtuales afectadas.
  • Identificamos las máquinas virtuales afectadas
  • Realizamos un escaneo de los identificadores del Ramsomware
  • Encontramos 3 identificadores distintos en total (tres claves diferentes durante el proceso global de cifrado)
  • Se realizan los procesos necesarios para extraer la información cifrada y revertir la situación.
  • Se restauran las máquinas virtuales.
  • El cliente decide cambiar todos los discos de la cabina, recrear el RAID y volcar el contenido.

Resultado: 

RAID 5 reconstruido, máquinas virtuales recuperadas con información descifrada y cabina en funcionamiento de nuevo ¡¡100% éxito!!

  • Un uso continuo de los discos mientras se está haciendo el rebuild del RAID puede causar la rotura de otros discos del conjunto del RAID.
  • En estos casos, siempre es preferible mientras se hace el REBUILD no usar el sistema.
    • Sí, somos conscientes que los milagros, a Lourdes.

CASO DE ÉXITO: El caso del RAID humeante...

RAID 0

  • El cliente indica que no se puede acceder a la información tras haber conectado un transformador erróneo y salir humo del dispositivo
  • Se recibe un Western Digital MY CLOUD DUO con dos discos de 18 TB cada uno.
  • La configuración del WD MY CLOUD DUO por defecto es un RAID 0 formando una unidad de 36 TB. Además tiene la peculiaridad de guardar la información cifrada codificando los nombres y ficheros internamente en una base de datos SQL LITE.
  • Tras el análisis del dispositivo se constata que los dos discos tienen las placas dañadas. Además, el NAS de WD también está completamente dañado. Dispone de alimentación correcta, pero el procesador no da señal ni por el BUS SATA ni tampoco de power up por lo que se tendrá que remontar el RAID manualmente.

Recuperación RAID

  • Se realiza la reparación de los componentes de la placa dañada de un dispositivo, pero no inicializa.
  • Se decide realizar el trasplante de la MCU así como otros componentes a otra placa donante. El resultado es positivo, pero la unidad lectora está en corto.
  • Es necesaria la apertura del disco de helio en sala limpia y realizar el cambio de la unidad lectora. El segundo disco presenta la misma sintomatología. No obstante, la unidad lectora no se ha visto afectada en este caso, solo la placa electrónica.

Reconstrucción RAID

  • Con las imágenes realizadas, se procede a remontar el RAID 0.
    • Encontrar el Block Size
    • Encontrar el orden lógico de los discos
    • Con el acceso a datos, ahora se debe realizar el proceso de extracción de datos de la base de datos SQL y realizar el proceso de conversión de datos genéricos sin estructura a la estructura original del cliente.
    • Reconstrucción y extracción de datos del RAID 0 Western Digital (WD) My Cloud exitosa.
  • No hubieron imprevistos durante el proceso de recuperación del RAID 0
  • El meme no guarda relación con el RAID pero nos ha parecido gracioso…

CASO DE ÉXITO: El caso de un RAID que lo tenía todo para no ser recuperado

RAID 5

  • Se reciben 4 discos WD RED NAS. El cliente indica que han fallado 3 discos, 1 al principio y cuando lo cambió fallaron los otros 2. Cree que es un RAID 5 pero no está seguro.
  • Tras el análisis de los dispositivos, se comprueba que:
    • Hay un disco con fallo en la unidad lectora
    • Otro disco con fallo en la S.A (Service Area del disco)
    • El tercer disco con muchos sectores defectuosos. Estos sectores defectuosos están producidos por una degradación de la unidad lectora ya que en zonas vacías, la unidad muestra lectura correcta pero, en zona de datos, la unidad no muestra lectura correcta.
  • El cliente está confuso ya que periodicamente revisa el SMART de los discos y no vio ningún mensaje de error.

Recuperación RAID

  • Se procede a la substitución de la unidad lectora defectuosa del disco dañado y a realizar la imagen.
  • Se realiza la reparación de la S.A del disco dañado. Unos módulos se han escrito incorrectamente por fallo en el propio firmware del dispositivo, dejando el disco inoperativo. Tras la reparación el disco vuelve a funcionar correctamente. No obstante, por precaución se realiza la imagen a otro disco.
  • Del tercer disco dañado, se realiza la imagen de las unidades lectoras funcionales (desactivando la degradada).
    • una vez finalizada, se procede a la substitución de la unidad lectora defectuosa para completar la imagen.

Reconstrucción RAID

  • Procesos propios de reconstrucción del RAID
    • Encontrar el Block Size
    • Encontrar la paridad y la dirección de ésta
    • Encontrar el orden lógico de los discos
    • Reconstrucción exitosa
  • Con todos los elementos restantes funcionando, se remonta el RAID: es un RAID 5 con sistema VMFS
  • Se procede a la extracción de las máquinas virtuales contenidas y se insta al cliente a realizar un control remoto para comprobar el funcionamiento de dichas máquinas en un entorno controlado.
  • Una de las máquinas virtuales no arranca. Y como siempre, la ley de Murphy dictamina que era la más importante.
  • Se procede a realizar el análisis de la máquina virtual. Es un fallo del propio windows al no «apagarse correctamente»
  • Se consigue arrancar el sistema operativo Windows 2016 server correctamente y se insta a realizar otro control remoto.
  • Tras el control remoto, el cliente da por válido el proceso de recuperación e insta a volcar la información a otro dispositivo para intentar replicar el funcionamiento que tenía previo a la pérdida de información.
  • El SMART es un proceso automatizado del propio disco. Es un sistema de autodiagnósis que a priori debe ser fiable. No obstante, el SMART puede fallar y puede ser alterado tanto internamente (fallo del disco, fallo de programación del firmware etc.) como por factores externos (programas).
  • La prevención y planificación pueden ayudar en este tipo de fallos (sustitución de discos)
Laby-Smart

SMART, realizando autodiagnósticos erróneos (algunos) desde 2004

CASO DE ÉXITO: El caso de un RAID sin identidad por culpa de un disco.

RAID 0

  • El cliente nos comunica que no conoce la configuración inicial del RAID, solo sabe que ha fallado uno de los discos y el dispositivo ha dejado de funcionar.
  • Tras el análisis previo se determina que uno de los discos tiene un fallo en la unidad lectora.
  • El análisis previo sobre el resto de discos hace inclinar la balanza hacia un RAID0
    • Un RAID 0 No tiene tolerancia a fallos por lo que la unidad rota en este caso, ha hecho perder todo el sistema.
  • El disco dañado, además suena de forma anómala (indicio de marcas sobre la superficie de los discos producidas por los cabezales / cabezas lectoras)

Recuperación RAID

  • Se procede a realizar un cambio de aguja lectora en el dispositivo y a realizar la imagen en otro dispositivo.
  • Durante la apertura se observa polvo metálico tanto en el filtro HEPA como polvo adherido en la unidad lectora.
  • Se consigue leer un 97% del total del disco.
  • Con la imagen realizada parcialmente, se remonta el RAID, se extrae el contenido a otro dispositivo.
  • Se decide realizar un control remoto para que el cliente verifique la información.
  • Tras la verificación el cliente da el OK a los datos recuperados y se procede al volcado del mismo.

  • Recuperación con éxito casi total.

Reconstrucción RAID

  • Con las imágenes realizadas, se procede a remontar el RAID 0.
    • Encontrar el Block Size
    • Encontrar el orden lógico de los discos
  • Realización de dos cambios de unidad lectora / cabezales.
  • Durante el proceso se realizaron dos cambios de cabezales lectoras.

  • En el primer cambio de cabezales, la aguja lectora rompe aproximadamente al 5% de lectura.

  • Se extrae para su observación bajo microscopio y se comprueba la existencia de polvo metálico adherido a la superficie.

  • Se prueba un segundo juego de cabezas lectoras con la peculiaridad de realizar el proceso de lectura de atrás hacia adelante y limitando la velocidad de lectura a 5 MB/S,  a fin de evitar la rotura de nuevo de la aguja lectora. 

  • El polvo metálico en según que casos puede eliminarse mediante ultra sonidos y líquidos especializados para no dejar restos. 
  • En otros casos, puede usarse un pincel y mucha práctica.
  • En algunos otros no es posible eliminar el polvo metálico por lo que las probabilidades de recuperación serán bajas.
LABY RAID 0

RAID 0, provocando infartos desde tiempos inmemoriales

CASO DE ÉXITO: El caso de un RAID con recuperación parcial, la dificultad de recuperar en tecnologías flash.

RAID 0

  • Se reciben dos discos duros Western Digital de 480Gb SSD formando un RAID 0 dentro de un NAS.
  • El sistema ha caído y tras varios intentos de remontar el dispositivo, no funciona.
  • Se analizan los dispositivos y uno de ellos, presenta claramente una zona con degradación de superficie.
    • Un RAID 0 no ofrece tolerancia a fallos por lo que la unidad defectuosa o degradada, imposibilita el acceso a datos.

Recuperación RAID

  • Se realizan las imágenes a otros dispositivos en buen estado.
  • Realizadas las imágenes, se remonta el RAID correctamente (RAID 0) pero no aparecen datos con estructura según ha indicado el cliente.
  • Tras un análisis minucioso de la imagen extraída del RAID, se comprueba que el sistema de ficheros XFS está dañado.
  • Se realiza un escaneo en modo RAW para extraer los datos sin estructura para la comprobación por parte de cliente.
  • El cliente comprueba los datos recuperados mediante sesión remota en máquina virtual habilitada y acepta el contenido recuperado aunque la recuperación no es completa.
  • Recuperación con éxito parcial.

Reconstrucción RAID

  • Con las imágenes realizadas, se procede a remontar el RAID 0.
    • Encontrar el Block Size
    • Encontrar el orden lógico de los discos
  • Lectura del dispositivo SSD con bloques de memoria degradados a nueva unidad. Los sectores defectuosos, se hacen diversos intentos de relectura, aumentando el time out para mejorar el resultado final.
  • El resto de sectores defectuosos se escribe el patron con 0x00.
  • El sistema de ficheros XFS está dañado. No aparece toda la estructura de ficheros. Es posible que se haya aplicado el comando TRIM por realizar varios intentos de rehacer el RAID.

  • El comando TRIM se encarga de eliminar bloques de memoria previo a su reescritura, por lo que es posible que parte de los metadatos y datos importantes se hayan eliminado.

  • Se realizan varios procesos en paralelo para extraer el máximo de información con estructura, pero no es posible.
  • Un fallo en físico en un SSD como la degradación de superficie combinado con acciones del propio usuario, puede provocar un fallo catastrófico involuntario. La activación del comando TRIM. Este comando sobre escribe el espacio eliminado para borrar el contenido y permitir escribir de nuevo rápidamente.
  • El uso del comando TRIM está ejecutado por el propio sistema operativo (Windows, Linux, MacOS)
Disco SSD (Sardina State Disk)

No estamos muy seguros de la capacidad del SSD anterior…

CASO DE ÉXITO: El caso de un RAID que ni con copia de seguridad…

RAID 10

  • Se reciben en Laboratorio los 4 discos duros SAS que fallaron.
    • El cliente ya había sustituido tres discos que fallaron en el servidor.
    • Además, disponía de una copia de seguridad  realizada con anterioridad.
    • Tras restaurar la copia, observaron que no contenía todos los archivos, en particular una base de datos SQL de vital importancia.
  • El sistema de copias de seguridad las realiza sobre el mismo RAID dañado.
  • Dos de los discos presentan zonas muy degradadas con muchos sectores defectuosos y baja velocidad.
  • El tercer disco presenta un fallo en la unidad lectora.
  • El cuarto disco funciona correctamente.

RAID 10

  • Se realizan las imágenes de los tres dispositivos funcionales (dos con degradación) a otros dispositivos en buen estado. 
  • El tercer disco se inicia el cambio de unidad lectora para posteriormente realizar la imagen del disco al igual que en los otros tres.
  • Finalizados los procesos, se remonta el RAID
  • Se comprueba que efectivamente es un RAID 10.
  • Se procede a realizar la imagen del RAID y extraerla unitariamente a un último dispositivo para comprobación por parte de cliente
  • Mediante  un control remoto se verifica la existencia del fichero solicitado mediante máquina virtual habilitada a tal efecto.
  • Recuperación con éxito.

Reconstrucción RAID

  • Con las imágenes realizadas, se procede a remontar el RAID 0.
    • Encontrar el Block Size
    • Identificar discos espejos y descartarlos del sistema.
    • Encontrar el orden lógico de los discos
  • El sistema de ficheros XFS está dañado. No aparece toda la estructura de ficheros. Es posible que se haya aplicado el comando TRIM por realizar varios intentos de rehacer el RAID.

  • El comando TRIM se encarga de eliminar bloques de memoria previo a su reescritura, por lo que es posible que parte de los metadatos y datos importantes se hayan eliminado.

  • Se realizan varios procesos en paralelo para extraer el máximo de información con estructura, pero no es posible.
  • No hubieron imprevistos durante el proceso de recuperación del RAID 0

Fiel reflejo de la realidad que nos rodea… 

 

Y si ya ha pasado lo peor y no puedes acceder a tus datos, contacta con nosotros.

Somos una empresa especializada en recuperación de datos, disponemos de laboratorio propio y somos la mar de salaos.

 

Artículos relacionados