La compresión y la deduplicación de datos tienen comienzos humildes como complementos opcionales para empresas con problemas de capacidad, pero en la era moderna, son características imprescindibles para casi todos los sistemas de almacenamiento. Juntos, han ayudado a marcar el comienzo de una era de almacenamiento flash de alto rendimiento que mantiene al menos una apariencia de cordura en los precios. Sin ellos, es poco probable que la revolución relámpago hubiera sido tan generalizada.
Sin embargo, estas tecnologías a veces son controvertidas cuando se trata de determinar su impacto. El impacto de la capacidad tanto de la compresión como de la deduplicación depende en gran medida de los datos subyacentes que se administran. Lo que a veces se pasa por alto es el hecho de que pueden tener un efecto tanto positivo como negativo en el rendimiento del almacenamiento.
En el frente negativo, tanto la compresión como la deduplicación pueden requerir importantes recursos de CPU para hacer su magia. Para la deduplicación, a medida que se introducen bloques de datos en el sistema de almacenamiento, se toman las huellas digitales de cada uno y se verifican con una tabla maestra de huellas digitales llamada tabla de picadillo. Si ya existe una huella digital, eso significa que el bloque de datos ya existe en el sistema de almacenamiento y los datos no se vuelven a escribir. Si la huella dactilar no existe, los datos se escriben como de costumbre.
Este proceso de verificación de huellas dactilares puede imponer una mayor latencia en las operaciones de escritura de almacenamiento, aunque, con los avances en los sistemas de almacenamiento modernos, esto es prácticamente insignificante. El motor de deduplicación en sí requiere ciclos de CPU para procesar la búsqueda, por lo que puede tener algún efecto en otras operaciones de almacenamiento. Dicho esto, las CPU modernas son gigantes multinúcleo que tienen ciclos de sobra. En el pasado, esto pudo haber sido una consideración más que hoy. Los procesadores más antiguos eran mucho menos eficientes que los que se usan ahora.
A partir de ahí, si la deduplicación es positiva o negativa desde una perspectiva de rendimiento se vuelve un poco más confusa y depende de los datos en sí. Si hay mucha duplicación de datos, la deduplicación puede ser un resultado neto positivo, ya que básicamente puede desechar más operaciones de escritura. Las operaciones de escritura tienden a ser la variedad más lenta, por lo que cuanto menos tenga que realizar, menor será el impacto en el rendimiento. Para cargas de trabajo regulares, simplemente tiene que tomar una decisión: ¿el impacto insignificante en el rendimiento se ve superado por los ahorros de capacidad que experimenta?
La compresión es una historia similar. Obtiene resultados de capacidad de almacenamiento reducida a expensas de algunos ciclos de CPU. En este caso, los tipos de datos subyacentes son muy importantes. Si está tratando de almacenar datos que ya están comprimidos, como ciertos formatos de video y fotos, la compresión en realidad no producirá ningún ahorro, por lo que solo estará desperdiciando ciclos de CPU tratando de obtener más ganancias que no se materializarán. Sin embargo, en el caso de datos comprimibles, debe realizar una evaluación similar a la de la deduplicación: ¿Vale la pena el potencial de impacto de la CPU por la ganancia de capacidad?
El mejor método para determinar si la compresión y la deduplicación son adecuadas para usted es probarlas y ver cuál es su impacto en términos de costo y rendimiento.