Un programa de gobierno de datos exitoso aplica políticas, estándares y procesos para permitir el uso efectivo y apropiado de datos de alta calidad en toda la organización. Si su organización tiene un entorno de lago de datos y desea obtener resultados analíticos de alta calidad, debe participar en la gobernanza adecuada del lago de datos como parte de su iniciativa de gobernanza general.
Pero los lagos de datos plantean varios desafíos en todas las disciplinas de la gestión de datos empresariales, incluida la gobernanza de datos. Para comenzar la discusión de los desafíos de la gobernanza, es necesario definir qué es un lago de datos: un tipo de plataforma de datos que contiene grandes cantidades de datos sin procesar, que generalmente se dejan en su formato nativo hasta que se necesitan para usos analíticos.
Mientras que un almacén de datos tradicional almacena datos en tablas relacionales, un lago de datos utiliza una arquitectura plana. A cada elemento de datos se le asigna un identificador único y se le asigna un conjunto de etiquetas de metadatos. Como resultado, un lago de datos está menos estructurado en comparación con un almacén de datos. Los datos se clasifican y organizan cuando se accede a ellos para su análisis, no cuando se cargan en el lago de datos.
La gobernanza eficaz de los datos permite a las organizaciones mejorar la calidad y la coherencia de los datos y maximizar el uso de los datos para la toma de decisiones empresariales, lo que puede conducir a una mejor planificación empresarial y un mejor rendimiento financiero. Las disciplinas de gestión de datos que acompañan a la gobernanza de datos incluyen la calidad de los datos, la gestión de metadatos y la seguridad de los datos, todo lo cual influye en la gobernanza del lago de datos.
Ahora, aquí hay cinco desafíos de gobernanza de datos para la implementación de un lago de datos.
1. Identificación y mantenimiento de las fuentes de datos correctas
En muchas implementaciones de lago de datos, los metadatos de origen no se capturan o no están disponibles en absoluto, lo que hace que la validez del contenido del lago de datos sea cuestionable. Por ejemplo, es posible que el sistema de registro o el propietario de la empresa de los conjuntos de datos no figuren en la lista, o que los datos obviamente redundantes puedan estar causando problemas a los analistas de datos. Como mínimo, los metadatos de origen de todos los datos en un lago de datos deben registrarse y ponerse a disposición de los usuarios para proporcionar información sobre su procedencia.
2. Problemas de gestión de metadatos
Los metadatos dan contexto al contenido de los conjuntos de datos y son un componente importante para hacer que los datos sean comprensibles y utilizables en las aplicaciones. Pero muchas implementaciones de lago de datos ignoran la necesidad de aplicar las definiciones de datos correctas a los datos recopilados. Además, dado que los datos sin procesar a menudo se cargan en un lago de datos, muchas organizaciones no incluyen los pasos necesarios para validar los datos o aplicarles estándares de datos organizacionales. Esta falta de una gestión adecuada de los metadatos hace que los datos de un lago de datos sean menos útiles para la analítica.
3. Falta de coordinación sobre la gobernanza y la calidad de los datos
No coordinar la gobernanza del lago de datos y el trabajo de calidad de los datos puede provocar que los datos de baja calidad entren en un lago de datos. Eso puede dar lugar a resultados inexactos cuando los datos se utilizan para análisis y para impulsar decisiones comerciales, lo que provoca una pérdida de confianza en el lago de datos y una desconfianza generalizada de los datos en toda la organización. Las implementaciones efectivas del lago de datos involucran a analistas e ingenieros de calidad de datos que trabajan en estrecha colaboración con el equipo de gobierno de datos y los administradores de datos comerciales para aplicar políticas de calidad de datos, perfilar datos y tomar las acciones necesarias para mejorar su calidad.
4. Falta de coordinación sobre la gobernanza y la seguridad de los datos
En este caso, los estándares y políticas de seguridad de datos que no se aplican correctamente como parte del proceso de gobierno pueden causar problemas con el acceso a datos personales protegidos por regulaciones de privacidad y otros tipos de datos confidenciales. Aunque los lagos de datos están destinados a ser una fuente de datos bastante abierta, existe la necesidad de medidas de control de acceso y seguridad, y los equipos de gobernanza de datos y seguridad de datos deben trabajar juntos durante el diseño del lago de datos y los procesos de carga y los esfuerzos continuos de gobernanza de datos.
5. Conflicto entre unidades de negocio que utilizan el mismo lago de datos
Los diferentes departamentos pueden tener diferentes reglas comerciales para datos similares, lo que puede resultar en la imposibilidad de conciliar las diferencias de datos para obtener análisis precisos. Tener un programa de gobierno de datos sólido con una visión empresarial de las políticas, estándares, procedimientos y definiciones de datos, incluido un glosario empresarial empresarial, puede reducir los problemas que surgen cuando varias unidades de negocio utilizan un lago de datos. Si una organización tiene varios lagos de datos, cada uno debe incluirse en el proceso de gobierno del lago de datos y tener administradores de datos comerciales asignados.
En conclusión, el valor de un lago de datos se puede mejorar significativamente al incluir procesos sólidos de gobernanza de datos, gestión de metadatos, calidad de datos y seguridad de datos en el diseño, carga y mantenimiento del entorno, con la participación activa de profesionales experimentados en todas esas áreas. . De lo contrario, su lago de datos podría convertirse en un pantano.