Estamos discutiendo la opción de llenar nuestras tablas de almacenamiento de datos con datos de menor calidad. Necesitamos hacer recomendaciones a los patrocinadores (del proyecto empresarial). Necesitamos equilibrar el riesgo de credibilidad de tener datos incorrectos con el conocimiento de lo mal que están las cosas al permitir que las personas accedan a la información. ¿Qué recomendaría: rellenar con datos incorrectos o no rellenar en absoluto?
Esto es un poco enigmático. Si entiendo la pregunta correctamente, tiene dos desafíos. La primera es que su equipo no está listo para poblar el almacén de datos porque la calidad de los datos no es aceptable para los objetivos comerciales definidos. La segunda es que no puede expresar con eficacia a los usuarios comerciales el grado en que los datos no cumplen con los umbrales de calidad de los datos. También ha posicionado el desafío en términos de «riesgo»: arriesgar la credibilidad (presumiblemente del almacén de datos).
Sin embargo, al observar estos aspectos, sospecho que hay algunos problemas más profundos involucrados. Por ejemplo, ¿según los criterios de quién está determinando la calidad de los datos? Si el equipo de almacenamiento de datos está haciendo esa evaluación con respecto a las necesidades de los patrocinadores del proyecto empresarial, eso implica que se han involucrado en la definición de las expectativas de datos comerciales, los requisitos, las dimensiones críticas de la calidad de los datos, las medidas y métricas para monitorear la calidad de los datos. los datos. En ese caso, no habría riesgo de credibilidad, ya que (1) los datos cargados en el almacén no son «propiedad» del equipo del almacén de datos, sino que simplemente se recopilan de otras fuentes en sentido ascendente y luego se determina que no cumplen con los objetivos definidos objetivamente. estándares, y (2), los patrocinadores comerciales serían los que contribuyeron con sus expectativas de calidad de datos, y esas reglas tampoco son «propiedad» del equipo de almacenamiento de datos. Y, en ese caso, no tiene que responder a la pregunta sobre si el almacén de datos debe estar poblado; eso debe depender de los patrocinadores del proyecto comercial, ya que los niveles de calidad ya se les informaría en función de su propio conjunto. de criterios.
Sin embargo, este no es claramente el hecho, lo que significa algunas cosas. En primer lugar, no está claro cuál es la definición en este contexto de aceptabilidad de la calidad de los datos, pero no se deriva ni es propiedad de los usuarios comerciales. En segundo lugar, parece que puede haber una oportunidad para mejorar el proceso de análisis de los requisitos de datos de manera que se capturen las dimensiones, reglas y métricas de calidad de los datos de manera que le permita caracterizar las fuentes de datos candidatas para determinar su idoneidad antes del tiempo de llenado del almacén de datos. . En tercer lugar, existe la oportunidad de comunicar mejor el valor de los datos de alta calidad y desviar el «riesgo» del equipo de almacenamiento de datos y devolverlo a los clientes comerciales: ¿están dispuestos a aceptar el riesgo de tomar malas decisiones o no tener informes precisos? a la mala calidad de los datos ascendentes?
Más recursos de gestión de la calidad de los datos
Más recursos de almacenamiento de datos