Los cambios en el panorama de los datos durante los últimos años tienen ramificaciones que no son evidentes de inmediato. Algunos principios básicos de la profesión de datos se están revisando a medida que proliferan los grandes sistemas de datos. Por lo menos, estos cambios requieren flexibilidad por parte de los profesionales de datos, según Lakshmi Randall, director de la consultora Unabashed Advice. En más de 19 años, se ha centrado en gran medida en la preparación de datos y cuestiones de calidad. La encontramos después de su aparición en un panel que enfrentó almacenes de datos con lagos de datos en el reciente evento Enterprise Data World 2016 en San Diego.
Supongo que enfrentar los almacenes de datos con los lagos de datos tiene algún propósito. ¿Pero no es solo un hecho que el panorama de los datos está cambiando? Con eso en mente, ¿cómo ve hoy la relación entre el almacén y el lago?
Lakshmi Randall: Lo que se está rompiendo es un enfoque estrictamente lineal de la gestión y el análisis de datos. Es decir, uno en el que los datos viajan paso a paso desde la adquisición hasta la información. Funciona cuando comprendes los datos, cuando están predominantemente estructurados y se originan en fuentes de datos familiares.
Pero en el caso de big data (notas de un médico o datos de formularios de reclamaciones de seguros), los datos son semiestructurados o no estructurados, lo que hace que el enfoque lineal ya no sea viable. Estos ejemplos requieren descubrir las fuentes de datos, archivar los datos y facilitar la comprensión de los datos antes de decidir el camino hacia los conocimientos.
Puede moverlo al almacén de datos o, después del proceso de descubrimiento, descubre que no es útil y lo tira. Creo que con el cambio en el panorama de los datos, hay que pensar en algo más que en el enfoque lineal. En su lugar, debe pensar también en enfoques de descubrimiento y exploración. En base a eso, usted decide las siguientes mejores acciones para procesar o almacenar los datos.
A medida que cambia el panorama de los datos, vemos nuevos tipos de datos. Deberíamos estar abiertos a diferentes arquitecturas, cuando sea apropiado. La gobernanza de datos sigue siendo clave, pero también debe tener cierto nivel de agilidad y flexibilidad.
Lakshmi Randall principal, consejo descarado
Parece que existe una creciente necesidad de que TI brinde soporte a un usuario algo diferente al que tenían en el pasado, algo así como un usuario de poder con esteroides, se podría decir.
Randall: Bueno, diferentes casos de uso impulsan las diferentes tácticas. Los datos se vuelven parte de un proceso más iterativo. Las personas que deben ser apoyadas cambian. No es solo una persona que normalmente realiza análisis del día a día. Puede ser lo que usted llama un usuario avanzado o un usuario de descubrimiento de datos o un científico de datos. Puede ser alguien que combine las habilidades del conocimiento del dominio junto con algún nivel de conocimiento técnico, una persona híbrida. Realmente, existe la necesidad de un continuo de personas en la empresa.
Veamos otro aspecto del panorama de datos: NoSQL. ¿Cuáles son algunas de las fuerzas que impulsan el interés en el uso de NoSQL?
Randall: Cuando modela datos que mantienen relaciones verdaderas, las que están más impulsadas por la afinidad, el modelado de datos es diferente de lo que es con una base de datos relacional tradicional. Ese es un gran ejemplo de la necesidad de una base de datos NoSQL.
Por ejemplo, como parte de una solución de gestión de la experiencia del cliente, existen diferentes puntos de contacto en el recorrido del cliente. Estos pueden estar a través de muchos canales diferentes. Y encontrar esas conexiones especiales, creo, solo es posible si tenemos NoSQL, dado que almacena los datos en algo cercano a su forma natural. Es decir, en lugar de tener que traducir los datos en filas y columnas. La gente está descubriendo que hay algunos casos de uso, como este, que son realmente buenos candidatos para las bases de datos NoSQL. Todo tiene que ver con la naturaleza de los datos. Si se trata de datos relacionales, las bases de datos relacionales y los almacenes de datos son mejores candidatos.
En su experiencia últimamente, ¿dónde está la profesión de datos en todo esto? Por ejemplo, con la gobernanza y el modelado, puede haber una inclinación natural a pedir más control por adelantado. ¿Ves cambios en la forma en que se organizan los equipos?
Randall: Se justifica que la empresa exija la capacidad de realizar análisis ad-hoc o tener acceso a los datos apropiados y relevantes para acelerar el tiempo de obtención de conocimientos. Al mismo tiempo, la empresa debe ser un patrocinador de TI en el establecimiento de iniciativas de gobierno y administración.
Hoy en día, la profesión de datos se extiende a la TI y al negocio. Y la realidad es que la empresa necesita un continuo de personas, es decir, personas con habilidades cuantitativas, habilidades cualitativas, expertos en el dominio, expertos en procesos, científicos de datos, administradores de datos, etc., para respaldar la multitud de objetivos comerciales.