Porque los raid5 quedaron obsoletos?

Información que deberías saber a la hora de elegir tu disco M.2
6 marzo, 2022

Si está pensando en SATA RAID para uso doméstico o comercial, o si usa RAID hoy en día, necesita saber por qué.

RAID 5 protege contra fallas de un solo disco. Puede recuperar todos sus datos si se rompe un solo disco. El problema: una vez que se rompe un disco, hay otra falla cada vez más común al acecho. Y en 2022 es muy seguro que te encontrará.

Los discos fallan Si bien los discos son dispositivos increíblemente confiables, fallan. Nuestros mejores datos, de CMU y Google, muestran que más del 3 % de las unidades fallan cada año durante los primeros tres años de vida útil de la unidad, y luego las tasas de falla comienzan a aumentar rápidamente.

Con 7 discos nuevos, tiene ~20 % de probabilidad de ver una falla en el disco cada año. Tenga en cuenta el aumento de la tasa de fallas con la edad y durante 4 años es casi seguro que verá una falla de disco durante la vida útil de esos discos.

Pero estás protegido por RAID 5, ¿verdad? No en 2022.

Las unidades SATA con errores de lectura se especifican comúnmente con una tasa de error de lectura irrecuperable (URE) de 10^14. Lo que significa que una vez cada 100.000.000.000.000 bits, el disco le dirá muy cortésmente eso, lo siento, pero realmente no puedo leerle ese sector.

Cien billones de bits son unos 12 terabytes. ¿Suena como mucho? No en 2022.

Las capacidades de los discos se duplican Las capacidades de las unidades de disco se duplican cada 18 a 24 meses. Tenemos unidades de 10 TB ahora y en 2022 tendremos unidades de 20 TB.

Ejemplo con disco de 2TB, (Una capacidad donde se observo una tasa de falla)
Con una falla de disco RAID 5 de 7 unidades, tendrá 6 unidades de 2 TB restantes. Como el controlador RAID está ocupado leyendo esos 6 discos para reconstruir los datos de la unidad fallida, es casi seguro que verá un URE.

Entonces la lectura falla. Y cuando eso sucede, eres un tecnico infeliz. El mensaje “no podemos leer este volumen RAID” asciende por la cadena de mando hasta que aparece un mensaje de error en la pantalla. 12 TB de sus cuidadosamente protegido datos desaparece- ¡pensaste! – los datos ya no estan. Oh!!!, ¿no hiciste una copia de seguridad en en otro lado? ¡Gorrón!

¿Y ahora que? La respuesta obvia, y la que los especialistas en marketing de almacenamiento han comenzado a difundir, es RAID 6, que protege sus datos contra 2 fallas. Lo cual está muy bien, hasta que considere esto: a medida que las unidades aumentan de tamaño, cualquier falla en la unidad siempre estará acompañada de un error de lectura. Por lo tanto, RAID 6 no le brindará más protección que RAID 5 ahora, pero de todos modos pagará más por capacidad de disco adicional y un rendimiento de escritura más lento.

¡Vaya, pagando más por menos! ¡Apenas puedo esperar!

Los bits de almacenamiento hablan Los usuarios de arreglos de almacenamiento empresarial tienen menos de qué preocuparse: sus diminutos y costosos discos tienen menos capacidad y, por lo tanto, tienen menos posibilidades de encontrar un URE. Y su tasa de URE especificada de 10^15 también ayuda.

También hay otras soluciones, algunas bastante obvias y otras, estoy seguro, esperando que alguien mucho más inteligente que yo las invente. Pero incluso hoy en día, un RAID 5 de 7 unidades con discos de 1 TB tiene un 50 % de posibilidades de fallar en la reconstrucción. RAID 5 está llegando al final de su vida útil.

El punto clave que parece pasarse por alto en muchos de los comentarios es que cuando un disco falla en una matriz RAID 5 y tiene que reconstruirse, existe una posibilidad significativa de que se produzca un error de lectura no recuperable durante la reconstrucción (BER/UER). Como ya no hay redundancia, la matriz RAID no puede reconstruirse, esto no depende de si está ejecutando Windows o Linux, hardware o software RAID 5, es simple matemática. Un controlador RAID honesto registrará esto y, por lo general, cancelará, lo que le permitirá restaurar los datos no dañados de la copia de seguridad en una matriz nueva.

RAID 6 lo protegerá bastante bien contra esto, al igual que RAID 5 lo protege contra una falla de un solo disco en la actualidad. En el futuro, sin embargo, necesitará RAID 6 para protegerse contra fallas de un solo disco + la inevitable URE, por lo que, efectivamente, RAID 6 en unos pocos años no le brindará más protección que la que brinda RAID 5 en la actualidad. Esto no es culpa de RAID 6. En cambio, se debe a la capacidad cada vez mayor de los discos y su tasa URE constante. RAID 5 no funcionará en absoluto y, en cambio, RAID 6 reemplazará a RAID 5.

Originalmente, los desarrolladores de RAID sugirieron RAID 6 como un medio de protección contra fallas de 2 discos. Como sabemos ahora, una sola falla de disco significa que es mucho más probable que ocurra una segunda falla de disco; consulte el pdf de CMU Fallas de disco en el mundo real: ¿Qué significa para usted un MTTF de 1,000,000 horas? para obtener más detalles, o consulte mi sinopsis en Todo lo que sabe acerca de los discos es incorrecto . La protección RAID 5 es un poco dudosa hoy en día debido a este efecto y RAID 6, en unos años, no podrá ayudar.

Para recapitular el problema es la tasa de error de lectura irrecuperable (URE) de las unidades SATA utilizadas en las matrices de almacenamiento de consumo. Con una tasa de error de lectura irrecuperable de 10^-14, podría esperar una lectura de bloque fallida una vez cada 12,5 TB más o menos.

Si tuviera una matriz de 8 unidades con unidades de 2 TB con una falla, su probabilidad de tener un error de lectura irrecuperable sería cercana al 100%. Ese segundo bloque ilegible durante una recuperación RAID5 es suficiente para destruir el grupo RAID y borrar todos los datos que contiene. ¡No es bueno!

Incluso con un RAID5 de cuatro unidades, y unidades de 2 TB, tendría alrededor de un 40 % de posibilidades de que falle la reconstrucción. Mejor, pero no lo suficientemente bueno.

La combinación del aumento de la capacidad de las unidades SATA, la constante tasa de errores de lectura irrecuperables y la cantidad de unidades en la franja RAID llevó a la predicción de que RAID5 ya no sería viable en 2009.

Hoy dia

Hace un par de años comencé a ver unidades de consumo con especificaciones de 10^-15, una respuesta racional al problema de RAID5. Con una décima parte de la tasa URE, las matrices RAID5 de consumo estarían bien.

Pero al revisar las especificaciones actuales de la unidad SATA de 3,5″ de HGST, Seagate y WD, ¿adivina qué? Todas vuelven a 10^-14.

Lo que significa que no se puede confiar en las matrices RAID5 de consumo para almacenar sus datos de manera confiable.

  • Rápido, sí.
  • En particiones grandes, eso sí.
  • Más simple que las unidades USB individuales, sí.

Pero no más confiable que una sola unidad.

Sin embargo, RAID no se trata solo de disponibilidad. Sus otras ventajas son importantes y, para la mayoría, posiblemente más importantes.

  • Rendimiento.  La división de datos en varias unidades puede aumentar drásticamente el ancho de banda para aplicaciones de archivos grandes como la edición de video. 
  • Capacidad.  Al colocar de 4 a 12 unidades en un RAID, se obtiene un disco virtual grande que es mucho más grande que cualquier unidad individual.
  • Gestión.  Después del proceso de instalación, a menudo doloroso, y hasta que algo se rompa, las matrices RAID son más fáciles de administrar que los discos individuales.

Los bits de almacenamiento hablan

Parece que la gente usa arreglos RAID5 pequeños más por conveniencia que por disponibilidad de datos. O eso, o realmente no entienden cuán vulnerables son sus datos, como descubrió una empresa recientemente, y prefieren la felicidad de la ilusión de RAID5. 

Muchos todavía usan matrices RAID5 pequeñas con tasas de error de 10^-14, ¡yo también! – y RAID5 parece funcionar bien. Pero se deben hacer ajustes para tener en cuenta las tasas de error sin cambios.

  • Mantenga siempre un mínimo de 2 copias de los datos almacenados en un RAID: 1 en el RAID y 1 en otro lugar.
  • Cuando haya una falla en la unidad, extraiga todos los datos sin copia de seguridad (los últimos documentos que no tienen copia de seguridad) del RAID antes de reemplazar la unidad fallida.

Dado que las matrices RAID son más complejas que las unidades individuales, es más probable que fallen. Pero hasta que lo hagan, son más convenientes, más rápidos y más grandes que cualquier unidad individual.

A %d blogueros les gusta esto: