La codificación de borrado y la duplicación de copias múltiples se desarrollaron en respuesta a la incapacidad del RAID tradicional para mantener …
con las ganancias de densidad de la unidad de disco duro (HDD). A pesar de que las unidades de disco duro han aumentado en densidad de área, no han mejorado la tasa de error de bits ni el número de cabezales por plato. La probabilidad de un error de bit no recuperable ha aumentado, lo que aumenta la posibilidad de que se produzcan fallos en el disco duro y la consiguiente pérdida de datos del grupo RAID. Las velocidades más lentas por gigabyte aumentan los tiempos de reconstrucción del disco duro, así como la ventana de riesgo de fallas simultáneas del disco duro y pérdida de datos del grupo RAID.
RAID 6, RAID 60 y RAID 6 de triple paridad han ayudado hasta cierto punto; sin embargo, los tiempos prolongados de reconstrucción del disco duro y los ejercicios de adrenalina que provocan ataques cardíacos provocados por la falla del disco duro crearon una necesidad urgente de una alternativa sólida. Esto se volvió cada vez más obvio, especialmente para los datos nearline que deben conservarse durante años o incluso décadas sin forma de volver a crearlos en caso de que se pierdan.
La duplicación de copias múltiples resuelve el problema al realizar múltiples copias de los datos en diferentes HDD detrás de varios controladores de almacenamiento (comúnmente llamados nodos). Cuando ocurre una falla en el disco duro o el disco duro tiene un error de bit no recuperable, simplemente se copia una buena copia de los datos en otra unidad. El número de fallas simultáneas de HDD o nodos que se pueden tolerar determina la cantidad de copias: dos fallas concurrentes requieren dos copias de los datos, mientras que tres fallas concurrentes requieren tres copias de los datos. Copiar datos de otra buena copia hace que esta sea una opción de protección y recuperación de datos muy rápida, pero es muy costosa. Cada copia de los datos consume capacidad de almacenamiento adicional, que se acumula rápidamente.
La codificación de borrado está diseñada para ser más eficiente porque divide los datos en fragmentos. El número de trozos totales se llama ancho, mientras que el número de fragmentos necesarios para leer el datagrama completo se denomina amplitud. Cada fragmento tiene parte de los datos o una representación de los datos (como una fórmula) e información de metadatos sobre todo el datagrama. Las relaciones comunes de ancho a ancho para códigos de borrado son 16:10, lo que significa que una vez que se leen los primeros 10 fragmentos, se recrea el datagrama completo. Si falta algún fragmento (hasta seis), se vuelve a crear y se escribe en otros HDD y / o nodos.
La codificación de borrado también es mucho más económica que la duplicación de copias múltiples. El ejemplo 16:10 protege contra hasta seis fallas simultáneas de HDD o nodos sin perder un byte de datos. Para hacerlo, solo se requiere un 60% más de almacenamiento en comparación con el 600% necesario para la duplicación de copias múltiples. Si la proporción de ancho a ancho fuera de 26:20, el almacenamiento adicional consumido sería de un mero 30% y aún protegería contra hasta seis fallas simultáneas de HDD o nodos. La desventaja es que la fragmentación agrega una sobrecarga de procesamiento considerable, lo que ralentiza las escrituras y lecturas. Esto hace que la codificación de borrado sea más útil para datos secundarios o almacenamiento nearline, como el almacenamiento de objetos en la nube pública y privada.