¿Cuánto cuesta en promedio limpiar el registro de un cliente? ¿Cuánto debería gastar una organización en la limpieza de datos de los clientes? ¿Sabe si se han realizado informes o análisis específicos en esta área de la calidad de los datos de los clientes?
El desafío con esta pregunta es que detrás de su simplicidad se encuentran muchas preguntas latentes cuyas respuestas son necesarias antes de que se pueda considerar cualquier tipo de análisis de costos de limpieza de datos de clientes. Por ejemplo, ¿qué elementos de datos constituyen el registro del cliente? ¿Cuántos registros hay? ¿Cuáles son los criterios para declarar un registro «limpio»? ¿Qué tipos de datos de clientes existen? ¿Individuos u organizaciones? ¿Qué edad tienen los registros? ¿Están en una sola tabla o dispersos en muchos activos de datos? ¿Qué enfoques se deben tomar para la limpieza? Es posible que los proveedores realicen estudios sobre el costo promedio, pero sospecho que debajo de esta pregunta se esconden otras más importantes.
Para comenzar a pensar en el costo de la limpieza, considere este ejemplo, con datos de clientes residenciales que consisten en nombre, apellido y número de teléfono. Se puede determinar si un solo registro es «correcto» usando este algoritmo: Llame al número de teléfono, pida hablar con la persona cuyo nombre comparte el registro con el número de teléfono. Si la persona se acerca al teléfono, pregunte si todos los valores son correctos y corrija los que no lo sean. Si no hay nadie con ese nombre, el registro es incorrecto. Sin embargo, en este punto, ¿qué se puede hacer para corregirlo? O el nombre no es correcto o el número no es correcto. El siguiente paso de la limpieza requiere información adicional y, si no hay ninguna disponible, el algoritmo finaliza.
¿Simplista? Si. ¿Preciso? Si. ¿Económico? Depende del número de registros, miembros del personal y teléfonos. Escalable? Realmente no. Hay alternativas, pero la confianza en diferentes enfoques comienza a afectar esas consideraciones clave. Las soluciones automatizadas pueden ser más escalables, más costosas, menos precisas, más complejas, requerir más experiencia, etc.
Entonces, puede ser mejor desafiar la pregunta y convertirla en un tipo diferente de bestia sugiriendo que estas preguntas se respondan primero y luego mirar las diferentes alternativas y sus costos correspondientes:
El nivel de esfuerzo que es razonable invertir en la limpieza de datos del cliente debe ser menor que el valor de los beneficios comerciales acumulados, y esto proporciona un límite superior a lo que podría presupuestarse para el proceso.