Los modelos de relación entre entidades que se utilizan en los sistemas comerciales suelen estar organizados para respaldar la ejecución eficiente de las transacciones …
o eventos operativos. Debido a que el enfoque está en garantizar tiempos de respuesta rápidos, los modelos de datos asociados no se prestan fácilmente a la agregación, división y división de datos que impulsan la inteligencia empresarial (BI), las aplicaciones de informes y análisis.
Como resultado, el procesamiento de transacciones y los datos operativos deben transformarse en un marco más adecuado para usos analíticos. La necesidad de hacerlo a menudo conduce a la implementación de tablas de hechos y dimensiones en un almacén de datos. Veamos las tablas de dimensiones frente a las tablas de hechos, y cómo se relacionan y se diferencian entre sí.
El modelado dimensional es un método común de estructurar BI y datos analíticos en forma de esquema en estrella. Un modelo dimensional permite que los datos en un almacén de datos se representen de una manera diseñada para proporcionar un rendimiento rápido en consultas analíticas.
La estructura del esquema en estrella permite una exploración rápida de los criterios de selección entre los registros disponibles en diferentes dimensiones de datos; que no solo optimiza la generación de conjuntos de resultados, sino que también brinda la capacidad de crear agregaciones de manera eficiente, como recuentos, sumas, promedios y valores máximos y mínimos.
Las tablas de hechos se vuelven específicas sobre los datos
En el corazón de un esquema en estrella hay una tabla de hechos, que contiene entradas de datos que comprenden un conjunto de hechos relacionados con las operaciones comerciales de una empresa. Cada fila en una tabla de hechos representa una transacción o evento individual; las columnas documentan los diferentes elementos de datos que entran en juego en el procesamiento de los capturados en la tabla.
Por ejemplo, una tabla de hechos podría contener los datos asociados con el procesamiento de una transacción de venta en una tienda minorista:
ID de tiempo |
Identificación del cliente |
Cantidad |
Identificación del producto |
ID de promoción |
Precio unitario |
Total |
ID de ubicación |
ID de empleado |
Esta tabla documenta los datos de la entidad, como el producto comprado, el cliente que realiza la compra y la ubicación de la tienda. También incluye datos cuantificables, como el número de unidades compradas y el precio total pagado por ese producto. Juntos, los campos de una de las filas de la tabla de hechos registran información específica sobre un producto en particular que se vendió a un cliente en particular en un momento específico en una tienda en particular.
Esa es información útil, por supuesto. Pero, por sí solo, no les da mucho a los analistas comerciales y de datos del minorista para trabajar para analizar las ventas. Los valores cuantificables capturados en la tabla de hechos pueden agregarse para el análisis tal cual. Sin embargo, para analizar los registros de datos de la entidad, se necesitan tablas de dimensiones que contengan más información sobre clientes, productos, etc.
Las tablas de dimensiones contienen claves para la analítica
En una tabla de hechos, las entradas en los campos de datos de la entidad no son los datos reales; en cambio, son claves foráneas que apuntan a las claves primarias para entradas relacionadas en tablas de dimensiones, que capturan una variedad de información sobre cada entidad a la que se hace referencia en la tabla de hechos. Una tabla de dimensiones proporciona una forma uniforme de mantener una versión actualizada de los datos asociados con esas entidades.
Por ejemplo, una tabla de dimensiones de clientes creada por el minorista probablemente incluiría los siguientes datos, vinculados a los ID de cliente enumerados en la tabla de hechos:
Identificación del cliente |
Nombre del cliente |
calle |
Ciudad |
Estado |
CÓDIGO POSTAL |
Teléfono de casa |
ID de fidelidad |
Género |
La tabla de dimensiones también podría contener muchos más atributos de datos, incluidos datos demográficos adicionales, como la fecha de nacimiento; datos del perfil de compra, como la frecuencia de las compras y las marcas compradas; y colores favoritos y otras preferencias personales proporcionadas por los clientes. Una de las características de las tablas de dimensiones frente a las tablas de hechos es que las últimas tienden a ser relativamente estrechas, con un número limitado de columnas, mientras que las primeras suelen ser muy amplias.
Mantener conjuntos de datos separados sobre cada cliente, indexados por sus ID de cliente, facilita la ejecución de informes sobre, digamos, todas las compras realizadas por diferentes personas para ayudar a orientar mejor las campañas de marketing. Además, el minorista podría utilizar los datos combinados en las tablas de hechos y dimensiones para analizar cosas como qué clientes compraron productos particulares y cuántos de ellos aprovecharon las promociones que se ofrecen.
Ahora, juntemos los dos tipos de tablas para ilustrar cómo funcionan en conjunto.
Construyendo una relación productiva
Una visualización del esquema en estrella que podría resultar de nuestro ejemplo minorista se muestra arriba, con la tabla de hechos de ventas vinculada a tablas de seis dimensiones. Cada una de las tablas de dimensiones se puede utilizar de forma similar a la del cliente.
El modelo dimensional también admite sin problemas la agregación de datos, la consulta y la generación de informes en las diferentes dimensiones. Para obtener un informe sobre las ventas de artículos por ubicación de la tienda, un analista de datos del minorista puede ordenar los registros de ventas de la tabla de hechos por ubicación y luego por producto; en ese momento, los datos sobre los productos vendidos en cada tienda se pueden agrupar para su análisis.
Los datos de tiempo también se pueden incorporar para analizar las tendencias estacionales, o los datos de los clientes se pueden analizar para ver cómo los compradores difieren de una región a otra. Con los índices correctos implementados, analizar e informar sobre los conjuntos de datos agregados resultantes es simple usando consultas SQL.
El modelado dimensional se ha convertido en un enfoque estándar en el almacenamiento de datos porque su elegancia y simplicidad permiten la ejecución rápida de consultas analíticas. El uso de dimensiones independientes libera al modelo dimensional de cualquier sesgo predispuesto sobre las entidades referenciadas. Además, es eminentemente extensible: agregar nuevas entidades es tan simple como agregar registros a la tabla de dimensiones asociada, y las dimensiones en un esquema en estrella se pueden expandir creando nuevas tablas de dimensiones y colocando claves que se refieren a ellas en una tabla de hechos.
Al final, no se trata realmente de utilizar tablas de dimensiones frente a tablas de hechos. Los dos van de la mano para ayudar a las organizaciones a crear arquitecturas de datos que puedan admitir aplicaciones analíticas y de BI eficaces.