El almacén de datos fue objeto de críticas en los últimos años, ya que un excedente de grandes datos no estructurados llevó a algunas empresas a reconsiderar la analítica. El entusiasmo por Hadoop, durante un tiempo, puso los almacenes de datos a la defensiva.
Pero el almacén de datos puede estar regresando, a veces, en forma de almacén de datos en la nube. Cuente a un consultor veterano entre aquellos que ven un renacimiento del interés en el almacén de datos.
«Hoy en día, puede ver a la gente tratando de restablecer la idea del almacén de datos en la organización», dijo William McKnight, presidente de McKnight Consulting Group en Plano, Texas. Señaló que los planes para nuevos enfoques de almacenamiento de datos se producen en un contexto de cambios en Hadoop.
En la forma del lago de datos de Hadoop, la plataforma de procesamiento de datos distribuidos de Hadoop desvió la atención de los almacenes de datos establecidos y escalables verticalmente. Ahora, Hadoop se enfrenta a una nueva competencia en forma de almacenes de datos en la nube.
La migración a la nube y el interés en el almacenamiento de objetos en la nube, en lugar del almacenamiento del sistema de archivos distribuido de Hadoop, dijo McKnight, es un impulsor parcial del interés por el nuevo almacén de datos, y el hecho de que los almacenes de datos existentes pueden estar mostrando su antigüedad.
«El almacén de datos es probablemente ahora el lugar donde la infraestructura de datos necesita remediación, más que en cualquier otro lugar», dijo.
Línea de almacenamiento de datos
Los participantes recientes en el almacenamiento de datos, como Snowflake Computing y Yellowbrick Data, sugieren que los nuevos enfoques pueden fortalecer el almacenamiento de datos.
Snowflake, que toma su nombre del esquema de copos de nieve amado por los arquitectos de almacenes de datos, proporciona un almacén de datos SQL en columnas como un servicio y está dirigido por el CEO Bob Muglia, quien alguna vez fue director de los negocios de herramientas y servidores de Microsoft.
Yellowbrick, solo por sigilo, es un fabricante de un dispositivo de almacenamiento de datos basado en memoria flash y está dirigido por el CEO Neil Carson, ex CEO de Fusion.io, especialista en almacenamiento flash. Los primeros objetivos de Yellowbrick son las implementaciones locales, híbridas y de nube privada, sin incluir aún la nube pública.
Hoy en día, estos y otros sistemas compiten con los esfuerzos de almacenamiento de datos de los proveedores de la nube. La categoría de nube está liderada por Amazon, que se convirtió en una fuerza inmediata en la esfera del almacenamiento de datos en la nube con su entrada a Amazon Redshift en 2013.
También están listos para ayudar a los almacenes de datos a subir a la nube IBM con Db2 on Cloud, Microsoft con Azure SQL Data Warehouse, Oracle con Autonomous Data Warehouse, Teradata con Vantage y otros.
Eso sin mencionar a los jugadores de Hadoop, como MapR, y Hortonworks y Cloudera, ahora fusionados como Cloudera, que apuntan a aplicaciones de almacenamiento de datos, entre otras, para sus plataformas orientadas al código abierto.
La racha de popularidad de 10 años de Hadoop le ganó críticos entre los rangos de almacenamiento de datos, es decir, al menos, si Matt Glickman es una guía.
«Hadoop pasará a la historia como una de las mayores falsificaciones en tecnología», dijo Glickman, vicepresidenta de estrategia de clientes y productos en Snowflake.
Si bien reconoció que los tipos de lagos de datos que han crecido alrededor de Hadoop pueden ser útiles, sostuvo que Hadoop todavía está rezagado en términos de consultas de alta concurrencia, un área en la que Snowflake ha tratado de enfocarse.
Entrenamiento de almacén de datos
Para Carlin Eng, ingeniero de datos del proveedor de aplicaciones de rendimiento deportivo Strava, el servicio de almacenamiento de datos en la nube Snowflake ha demostrado ser una plataforma útil.
Al observar los análisis creados en el almacén de datos, Strava, con sede en San Francisco, puede adaptar nuevas funciones para los usuarios que emplean un rastreador GPS para ayudar a crear sus propios planes de entrenamiento, analizar su propia actividad de ejercicio y participar en la red social de Strava.
Formada en 2009, Strava «nació en la nube», dijo Eng. Los datos de los dispositivos móviles de sus usuarios van primero a la nube, por lo que un almacén de datos en la nube tiene mucho sentido, enfatizó. Es importante seleccionar esos datos para las tendencias, al igual que comprender lo que les gusta a las personas, para que los desarrolladores puedan priorizar los esfuerzos.
«Hay muchos productos potenciales que podemos construir, pero tenemos que saber cuáles son los primeros en abordar», dijo Eng.
La eficiencia en el uso del tiempo de los miembros del equipo técnico esbelto también fue una razón clave para optar por Snowflake, continuó.
«Hay muchas herramientas de código abierto para el análisis de big data, pero administrarlas puede ser un problema», dijo.
Incluyó plataformas Hadoop innovadoras entre las herramientas de código abierto que ha considerado, pero algunas encontraron inconvenientes.
«Hadoop era una tecnología realmente interesante que permitía muchas cosas que antes eran imposibles, pero es poco probable que un equipo de nuestro tamaño quiera administrar los clústeres de Hadoop», dijo Eng.
Eng se negó a identificar otros almacenes de datos que Strava ha utilizado, pero dijo que el soporte para consultas simultáneas fue una de las principales razones por las que Strava eligió la plataforma Snowflake.
Sin embargo, es evidente que la reducción de la administración de la infraestructura a través de un almacén de datos en la nube también fue un poderoso impulsor del cambio de Strava a Snowflake.
«No queremos tener algo que requiera mucho cuidado y alimentación», dijo Eng.
Problemas de infraestructura
Incluso para las grandes tiendas, a medida que llegan más y más datos, las tareas administrativas asociadas con la expansión de los almacenes de datos se vuelven más onerosas. A su vez, según el analista Wayne Eckerson, el interés en los servicios de gestión de almacenamiento de datos en la nube está creciendo.
«Puede deshacerse de la infraestructura y el soporte de TI, no tiene que pasar meses ajustando las implementaciones y puede escalarlas hacia arriba y hacia abajo», dijo Eckerson, fundador y consultor principal de Eckerson Group en Hingham, Mass.
Además, «no es necesario comprar por capacidad máxima», agregó.
Estas y otras razones sugieren que, a pesar de los rumores de su desaparición, el almacén de datos está reapareciendo, a menudo en forma de servicio en la nube.