Uno de los objetivos de un analista de negocios es contar una historia completa con datos que brinden información sobre cómo ha ido el negocio o cómo mejorar. Esto se hace a través de paneles de inteligencia empresarial que extraen datos de un almacén de datos.
El desafío para los usuarios comerciales surge cuando intentan conectar información de diferentes tablas de hechos dentro de un almacén de datos. Por lo general, esto requiere una solicitud a un ingeniero de datos que crea una despensa de datos dentro del almacén de datos que consta de varios esquemas en estrella que pueden provocar la pérdida o la duplicación de datos.
Esta complejidad llevó a Francesco Puppini a examinar un diseño de esquema de almacenamiento de datos que brindaría un mejor apoyo al usuario final. Y se refirió a esto en el libro del que fue coautor con Bill Inmon, El esquema de estrella unificado: un enfoque ágil y resistente para el diseño de almacenamiento de datos y análisis, publicado por Technics Publications.
¿Qué son los esquemas de estrellas y copos de nieve?
Antes de discutir la revolución del esquema de estrella unificado, veamos el esquema de estrella en sí.
Un esquema en estrella es la forma de modelado dimensional más simple. El esquema consta de hechos y dimensión. Los hechos se centran en eventos, mientras que las dimensiones hacen referencia a información relacionada con hechos. Las dimensiones se relacionan con los hechos de una manera que se asemeja a una estrella.
Además, los esquemas de copos de nieve relacionan dimensiones con otras dimensiones y continúan ramificándose. Según Puppini, los esquemas de copos de nieve son la mejor opción cuando los datos no tienen trampas.
«Y los datos siempre tienen trampas», dijo.
Beneficios del esquema de estrella unificado
«Cuando escribes datos en una base de datos, se organiza de cierta manera», dijo Puppini. «Pero en el momento en que lo lees, es mejor organizarlo de otra manera».
El principal desafío con los esquemas de estrella y copo de nieve para los usuarios finales es la falta de independencia de los usuarios comerciales para encontrar información. Para realizar consultas complejas con datos con un diseño de esquema de almacenamiento de datos como estos, los usuarios finales necesitan un ingeniero de datos para unir tablas manualmente. Es similar a llamar a un plomero cada vez que necesita un vaso de agua, dijo Puppini. Además, la combinación de tablas de hechos con una combinación suele generar datos duplicados cuando se combinan tablas incompatibles.
El problema central de la duplicación de datos es la trampa del ventilador, dijo. La trampa del ventilador ocurre cuando dos o más uniones de uno a varios están vinculadas. Esto crea conflictos con los datos, lo que conduce a la duplicación de datos. Históricamente, esto se ha solucionado mediante una deduplicación manual o mediante estas uniones ad hoc.
La clave del esquema en estrella unificado es el puente que conecta las tablas de hechos. En el libro, Puppini compara el puente con una centralita telefónica. El puente es central en el esquema de estrella unificado con todas las tablas de hechos y dimensiones a su alrededor, y cada tabla se conecta al puente. Esto luego limita el número de transformaciones a los datos.
«El problema de los almacenes de datos hoy en día es que trabajan en exceso», dijo Puppini. «Se están transformando demasiado».
Al usar el puente y realizar una unión en lugar de una combinación, esto permite a los usuarios acceder a los datos sin transformarlos.
«Cuanto más transformas los datos, más lío haces», dijo. «Simplemente tomé el número mínimo de pasos necesarios para reunir la información».
Mira este extracto de El esquema de estrella unificado por Bill Inmon y Francesco Puppini, publicado por Technics Publications, para obtener más información sobre la implementación y los casos de uso del Unified Star Schema.