Las herramientas del oficio para profesionales de datos se han sometido a importantes revisiones en los últimos años. Las cargas de trabajo en la nube y los lagos de datos, en particular, han desafiado los modelos tradicionales de arquitectura de la información.
En esta sesión de preguntas y respuestas, la primera de dos partes de una entrevista con el experto en gestión de datos William McKnight, el presidente de McKnight Consulting Group analiza algunas de las ramificaciones.
Uno de los primeros objetivos de los datos en la nube parecían ser los almacenes de datos. De Amazon Redshift rompió el terreno para eso. No es el almacén de datos ¿Cuál es el primer paso para abordar las cargas de trabajo en la nube para muchas tiendas?
McKnight: Estoy de acuerdo. Pero no es exclusivo del almacén de datos de ninguna manera. Está por todos lados. Podría decirse que Salesforce ha sido un sólido primer puerto a la nube, aunque en realidad no es su base de datos, es su base de datos.
Pero, sin embargo, es una señal segura de mudarse a la nube. Hay muchas bases de datos operativas. Pero, en muchos casos, el almacén de datos es un fuerte candidato para el siguiente paso, es decir, sin importar dónde se encuentren las organizaciones con su implementación general en la nube. Muchas empresas están bajo mandatos de la nube, por lo que hay muchas cosas que se mueven a la vez.
Has hablado en el pasado sobre arquitectura de información eficaz. ¿Cómo ve que se haga hoy cuando las personas tienen aplicaciones en la nube para alimentar, lagos de datos en sus instalaciones, etc.?
McKnight: La gran tendencia solo ha crecido, es decir, hay muchos almacenes de datos diferentes que son relevantes para una empresa.
Una gran clave para el éxito general de su programa de datos es hacer coincidir la carga de trabajo con la plataforma de datos correcta y, hoy en día, tiene muchas opciones. Es fácil equivocarse y puede ser un desafío hacerlo bien. Por lo tanto, es importante estar al tanto de las diferentes posibilidades y no seguir buscando el mismo martillo cada vez que tenga una nueva carga de trabajo.
William McKnightpresidente, McKnight Consulting Group
Las nuevas cargas de trabajo están llegando rápida y furiosamente a medida que las empresas se dan cuenta de que los datos son lo que las distingue y quieren capitalizarlas. ¿Qué proyecto no necesita muchos datos buenos y de calidad?
La nube está lista para recibir datos. Se puede poner cualquier cosa allí, puede tratarlo como un centro de datos si lo desea, pero también hay bases de datos que se han creado especialmente para la nube o que se han rediseñado para funcionar con la nube. Están ganando elasticidad, tienen separación de computación y almacenamiento, SQL enriquecido, devolución de cargo, servicio de no intervención, las cosas que esperaría de las bases de datos que le darán escala. La gente querrá ir allí tanto con sus análisis como con sus cargas de trabajo operativas.
Veamos otro aspecto de la arquitectura de información moderna. Preparación de datos frente al lago de datos parece estar experimentando algunos cambios, ¿es justo decirlo?
McKnight: El lago de datos ha tenido bajos niveles de curación, diría que históricamente, pero no hay mucha historia allí. Eso se debe simplemente a la naturaleza de alta velocidad de los datos y al hecho de que probablemente no los utilizará para informes o cosas por el estilo. Se trata más de diamantes en bruto que vas a ver.
Pero realmente les corresponde a las empresas que están poniendo datos allí para asegurarse de que los datos sean adecuados para su propósito. Ahora bien, eso puede no significar una calidad de datos del 100% como la que buscamos en los almacenes de datos que utilizamos para los informes de apuesta por su negocio. No obstante, un programa de calidad de datos sobre el lago de datos es importante. Las organizaciones deberían al menos conocer la calidad de los datos que ingresan allí. Además, si esos datos se están trasladando a otros lugares donde van a tener una gran vocación para la organización, razón de más para hacerlo bien a medida que avanzan.
Eso lo convierte en un programa continuo. Tienes que subir constantemente el listón de la calidad de los datos. Tienes que atenderlo. Pero tenga en cuenta que los científicos de datos posiblemente también trabajarán en esos datos. A veces, encontramos una división entre el científico de datos y el arquitecto del lago de datos. Si la mano derecha no sabe lo que está haciendo la mano izquierda, por supuesto, debe solucionarse.
Me he convertido en un firme creyente de los lagos de datos. Son un escenario para el almacén de datos y, probablemente más importante en el futuro, son un banco de datos para la ciencia de datos en la organización.
Los lagos de datos son un lugar donde las personas pueden diferenciarse y, cada vez más, ese es el lugar de donde la inteligencia artificial obtendrá sus datos. Ese es el lugar para que la organización ejercite sus algoritmos, para llegar a cosas que no se le ocurrirían de otra manera, y esas son posiblemente ventajas competitivas reales.