Últimamente hemos visto aparecer muchos servicios de Hadoop que agregan software de administración y análisis a la infraestructura de Hadoop. ¿Existe alguna innovación en torno a la arquitectura de los clústeres de almacenamiento, o es el software el único lugar donde veremos cambios o mejoras en el futuro?
Los dos componentes arquitectónicos principales de Hadoop, por así decirlo, son el marco MapReduce y el Sistema de archivos distribuido de Hadoop (HDFS). Se ha trabajado mucho para mejorar HDFS. Hay una distribución que está fuera de MapR, por ejemplo, que reemplaza HDFS con una versión del sistema de archivos que admite la infraestructura de Hadoop y elimina el único punto de falla representado en el NameNode en el marco de Hadoop. Así que ese es un enfoque que se está adoptando.
Otro enfoque que están adoptando algunos proveedores es proponer un sistema de archivos alternativo a HDFS. Entonces, por ejemplo, Symantec tiene una versión de CIFS que, nuevamente, soluciona algunas de las deficiencias en HDFS. Red Hat tiene el sistema de archivos Gluster del que han creado una versión empresarial de Hadoop, por lo que lo han propuesto como una alternativa a HDFS.
En un momento, IBM quiso impulsar GPFS como alternativa, pero se han alejado de eso. Creo que la razón de esto es interesante, porque la comunidad de Hadoop quiere mantener una disponibilidad de código abierto del 100% para el código de Hadoop. Algunas de estas ramificaciones se consideran bifurcaciones del código base. Hay varios puristas que quieren mantener HDFS como el sistema de archivos para la infraestructura de Hadoop, y si hay deficiencias, la comunidad de Hadoop las abordará. Eso está sucediendo mientras hablamos. Durante mucho tiempo se ha sentido que HDFS debería tener capacidad de instantánea, por lo que está en la hoja de ruta. También se está abordando la respuesta al problema de la conmutación por error de NameNode, o la incapacidad de NameNode para conmutar por error a un secundario de alguna manera automatizada. Hay una serie de otros problemas que se abordarán en Hadoop 2.0.
Hasta ese momento, no ha impedido que algunos de los proveedores presenten extensiones propietarias o simplemente reemplazos a gran escala, en algunos casos, para partes del marco de Hadoop.
Sobre el Autor:
John Webster es socio senior de Evaluator Group Inc., donde contribuye a la investigación en curso de la empresa sobre tecnologías de almacenamiento de datos, incluida la gestión de hardware, software y servicios.