Cuando se trata de datos destinados a impulsar decisiones comerciales, no puede darse el lujo de tomarlos al pie de la letra.
Debe estar seguro de su calidad, y este proceso comienza con la elaboración de perfiles de datos, que se define como el método de examinar los datos disponibles en un la fuente de los datos y la recopilación de estadísticas e información sobre esos datos. Esto constituye la base para la evaluación de la calidad de los datos.
¿Qué es el perfilado de datos?
La creación de perfiles de datos es necesaria para el almacenamiento de datos, así como para los proyectos de inteligencia comercial. La parte de creación de perfiles de la creación de perfiles de datos implica la aplicación de algoritmos a los conjuntos de datos en cuestión para comprender mejor sus «características cualitativas», explica. Inteligencia de Negocio. El objetivo es «descubrir metadatos cuando no están disponibles y validar metadatos cuando están disponibles». Esto puede alertarlo sobre anomalías en los metadatos.
Como resultado, la creación de perfiles de datos no solo abarca el contenido, sino también el descubrimiento de estructuras para garantizar que los datos tengan un formato coherente. (Lea ¿Qué tan estructurados están sus datos? Examen de datos estructurados, no estructurados y semiestructurados).
Más importante aún, para el análisis predictivo, permite la identificación de relaciones entre conjuntos de datos que brindan información sobre las correlaciones clave. (Lea Análisis predictivo en el mundo real: ¿Cómo se ve?)
Las mejores técnicas de perfilado de datos
Un analista de datos puede perfilar los datos manualmente. Sin embargo, dada la gran cantidad de datos con los que casi todas las organizaciones tienen que lidiar, llevaría mucho tiempo y sería difícil de administrar sin la automatización habilitada por software.
Consultar fuentes de datos cita numerosos beneficios del enfoque automatizado. Una es la velocidad: la creación manual de perfiles de datos demora entre 3 y 5 horas para cada atributo, mientras que la creación automática de perfiles puede manejar un atributo en menos de 30 minutos.
Otro es la minuciosidad: “Con un enfoque manual, generalmente solo se prueba un subconjunto de atributos y filas; con una herramienta de creación de perfiles de datos, se puede realizar una evaluación exhaustiva de los datos”. El enfoque automatizado también se presta mejor a la información centralizada que se puede compartir más fácilmente entre los equipos.
Se presentan tres formas principales de abordar la elaboración de perfiles de datos Dzoni,:
-
El perfilado de columnas cuenta cuántas veces aparece cada valor en cada columna de una tabla. Este método ayuda a descubrir patrones en sus datos.
-
La generación de perfiles de varias columnas analiza las columnas para realizar análisis clave y de dependencia. El análisis de claves escanea colecciones de valores en una tabla para localizar una posible clave primaria. El análisis de dependencia determina las relaciones de dependencia dentro de un conjunto de datos. Juntos, estos análisis determinan las relaciones y dependencias dentro de una tabla.
-
Tablas de análisis de perfiles cruzados para identificar posibles claves foráneas. También trata de determinar las similitudes y diferencias en la sintaxis y los tipos de datos entre las tablas para determinar qué datos pueden ser redundantes y cuáles pueden asignarse juntos.
Independientemente del enfoque adoptado, hay un paso adicional en el proceso de creación de perfiles de datos denominado «validación de reglas». Las reglas proporcionarían una manera de garantizar que los datos en el sistema sean correctos.
Los buenos datos no son solo el producto de recopilar la mayor cantidad de datos posible. Es el resultado de la verificación de la exactitud, integridad, credibilidad, consistencia y puntualidad de los datos. Es como tener tu viaje mapeado por Waze o Google Maps.
Son más útiles cuando lo alertan sobre las condiciones en tiempo real y tienen información precisa sobre cualquier retraso que pueda afectar su viaje. La diferencia entre buenos y malos datos está en las decisiones que se basan en ellos.
Business Analytics para grandes ganancias o pérdidas
Una Informe técnico de Forbes Insight, Anthony Scriffignano, científico jefe de datos y vicepresidente sénior de Dun & Bradstreet, explicó por qué un error en los datos puede tener un impacto tan grande. Los datos son lo que permite a las empresas tomar «decisiones más automatizadas, decisiones más globales y decisiones con mayor impacto en su empresa».
Este tipo de transformación digital ofrece enormes beneficios para una rápida ampliación. Pero la desventaja es que a un ritmo tan rápido, un error «se propagará a través de un negocio tan rápido que es imposible rastrearlo y corregirlo».
Los registros de datos son tan propensos a errores críticos, en consecuencia Revisión de negocios de Harvard, que menos del 3% cumple con los estándares básicos de calidad. La precisión es importante porque tomar decisiones basadas en datos inexactos puede traducirse en graves pérdidas comerciales: hasta $ 3,1 billones cada año solo en los EE. UU., según los datos. IBM.
Aaron Wallace, director principal de productos para la gestión de la información del cliente en Pitney Bowes, también se cita en papel blanco. Señala que cuando los «datos de alta calidad» impulsan el proceso comercial, los resultados son «perspectivas relevantes» que pueden impulsar una mayor eficiencia, marketing centrado en el cliente y mayores flujos de ingresos.
Pero cuando los datos no están a la altura de ese estándar, las estrategias informadas por ellos llevarán a las empresas por el camino equivocado. Volver a encarrilarse requiere más tiempo y recursos que asegurarse de que sus datos sean confiables con anticipación.
Es una onza de prevención que vale una libra de cura.