Krypton Solid

La última tecnología en raciones de 5 minutos

Similitudes y diferencias entre ROLAP, MOLAP y HOLAP

Esta sección de Diseño de almacén de datos: principios y metodologías modernos analiza las diferencias entre ROLP, MOLAP y HOLAP y las ventajas y desventajas de cada uno. Obtenga una definición de la calidad de los datos y aprenda sobre la calidad de los datos del almacén de datos, además de encontrar información sobre la evolución de las aplicaciones de almacenamiento de datos y la protección de las bases de datos y los almacenes de datos.

Tabla de contenido:

Introducción al almacenamiento de datos
Arquitecturas, conceptos y fases del almacén de datos
Las ventajas de las bases de datos multidimensionales y el modelado de cubos
Mejores prácticas para el acceso al almacenamiento de datos y los informes
Similitudes y diferencias entre ROLAP, MOLAP y HOLAP

1.8 ROLAP, MOLAP y HOLAP

Estos tres acrónimos ocultan tres enfoques principales para implementar almacenes de datos y están relacionados con el modelo lógico utilizado para representar los datos:

  • ROLAP representa OLAP relacional, una implementación basada en DBMS relacionales.
  • MOLAP representa OLAP multidimensional, una implementación basada en DBMS multidimensionales.
  • HOLAP representa OLAP híbrido, una implementación que utiliza técnicas tanto relacionales como multidimensionales.

La idea de adoptar la tecnología relacional para almacenar datos en un almacén de datos tiene una base sólida si considera la gran cantidad de literatura escrita sobre el modelo relacional, la experiencia corporativa ampliamente disponible con el uso y la administración de bases de datos relacionales, y el máximo rendimiento y flexibilidad. estándares de DBMS relacionales (RDBMS). El poder expresivo del modelo relacional, sin embargo, no incluye los conceptos de dimensión, medida y jerarquía, por lo que debe crear tipos específicos de esquemas para que pueda representar el modelo multidimensional en términos de elementos relacionales básicos como atributos, relaciones y restricciones de integridad. Esta tarea la realizan principalmente los conocidos esquema estrella. Consulte el Capítulo 8 para obtener más detalles sobre los esquemas en estrella y las variantes de esquema en estrella.

El principal problema con las implementaciones de ROLAP se debe al impacto en el rendimiento causado por las costosas operaciones de unión entre tablas grandes. Para reducir el número de uniones, uno de los conceptos clave de ROLAP es desnormalización—Una infracción consciente en la tercera forma normal orientada a la maximización del rendimiento. Para minimizar los costos de ejecución, la otra palabra clave es redundancia, que es el resultado de la materialización de algunas tablas derivadas (puntos de vista) que almacenan datos agregados utilizados para consultas OLAP típicas.

Desde un punto de vista arquitectónico, la adopción de ROLAP requiere middleware, también llamado motor multidimensional, entre servidores back-end relacionales y componentes front-end, como se muestra en la Figura 1-32. El middleware recibe consultas OLAP formuladas por los usuarios en una herramienta front-end y las convierte en instrucciones SQL para una aplicación back-end relacional con el apoyo de metadatos. La llamada navegador agregado es un componente particularmente importante en esta fase. En caso de vistas agregadas, este componente selecciona una vista de entre todas las alternativas para resolver una consulta específica al mínimo costo de acceso.

Figura 1-32: Arquitectura ROLAP
Ejemplo de arquitectura ROLAP

En los productos comerciales, los diferentes módulos de front-end, como OLAP, informes y tableros, generalmente están conectados estrictamente a un motor multidimensional. Los motores multidimensionales son los componentes principales y pueden conectarse a cualquier servidor relacional. Recientemente se han lanzado soluciones de código abierto. Sus motores multidimensionales (Mondrian, 2009) están desconectados de los módulos front-end (JPivot, 2009). Por esta razón, pueden ser más flexibles que las soluciones comerciales cuando hay que crear la arquitectura (Thomsen y Pedersen, 2005). Algunos RDBMS comerciales admiten de forma nativa características típicas de los motores multidimensionales para maximizar la optimización de consultas y aumentar la reutilización de metadatos. Por ejemplo, desde que se puso a disposición su versión 8i, el RDBMS de Oracle brinda a los usuarios la oportunidad de definir jerarquías y vistas materializadas. Además, ofrece un navegador que puede usar metadatos y reescribir consultas sin la necesidad de un motor multidimensional.

A diferencia de un sistema ROLAP, un sistema MOLAP se basa en un modelo lógico ad hoc que se puede utilizar para representar datos y operaciones multidimensionales directamente. La base de datos multidimensional subyacente almacena físicamente los datos como matrices y el acceso a ella es posicional (Gaede y Günther, 1998). Archivos de cuadrícula (Nievergelt et al., 1984; Whang y Krishnamurthy, 1991), R*-árboles (Beckmann et al., 1990) y UB-árboles (Markl et al., 2001) se encuentran entre las técnicas utilizadas para este propósito.

La mayor ventaja de los sistemas MOLAP en comparación con ROLAP es que las operaciones multidimensionales se pueden realizar de forma fácil y natural con MOLAP sin necesidad de operaciones complejas de unión. Por esta razón, el rendimiento del sistema MOLAP es excelente. Sin embargo, las implementaciones del sistema MOLAP tienen muy poco en común, porque aún no se ha establecido ningún estándar de modelo lógico multidimensional. Generalmente, simplemente comparten el uso de técnicas de optimización diseñadas específicamente para la gestión de la dispersión. La falta de un estándar común es un problema que se resuelve progresivamente. Esto significa que las herramientas MOLAP son cada vez más exitosas después de su implementación limitada durante muchos años. Este éxito también está demostrado por las inversiones en esta tecnología por parte de los principales proveedores, como Microsoft (Analysis Services) y Oracle (Hyperion).

El tipo de arquitectura intermedia, HOLAP, tiene como objetivo mezclar las ventajas de ambas soluciones básicas. Aprovecha el nivel de estandarización y la capacidad de administrar grandes cantidades de datos de las implementaciones de ROLAP y la velocidad de consulta típica de los sistemas MOLAP. HOLAP implica que la mayor cantidad de datos debe almacenarse en un RDBMS para evitar los problemas causados ​​por la escasez, y que un sistema multidimensional almacena solo la información a la que los usuarios necesitan acceder con mayor frecuencia. Si esa información no es suficiente para resolver consultas, el sistema accederá de forma transparente a la parte de los datos que gestiona el sistema relacional. En los últimos años, importantes actores del mercado como MicroStrategy han adoptado soluciones HOLAP para mejorar el rendimiento de su plataforma, uniéndose a otros proveedores que ya utilizan esta solución, como Business Objects.


1.9 Problemas adicionales

Los problemas que siguen pueden desempeñar un papel fundamental en la puesta a punto de un sistema de almacenamiento de datos. Estos puntos implican problemas de muy amplio alcance y se mencionan aquí para brindarle la imagen más completa posible.


1.9.1 Calidad
En general, podemos decir que el calidad de un proceso representa la forma en que un proceso cumple con los objetivos de los usuarios. En los sistemas de almacenamiento de datos, la calidad no solo es útil para el nivel de datos, sino sobre todo para todo el sistema integrado, debido a los objetivos y el uso de los almacenes de datos. Debe garantizarse un estricto estándar de calidad desde las primeras fases del proyecto de almacenamiento de datos.

Definir, medir y maximizar la calidad de un sistema de almacenamiento de datos puede ser un problema muy complejo. Por esta razón, mencionamos solo algunas propiedades que caracterizan calidad de los datos aquí:

  • Precisión : Los valores almacenados deben ser compatibles con los del mundo real.
  • Frescura: Los datos no deben ser antiguos.
  • Lo completo: No debe faltar la información.
  • Consistencia: La representación de los datos debe ser uniforme.
  • Disponibilidad: Los usuarios deben tener fácil acceso a los datos.
  • Trazabilidad: Los datos pueden rastrearse fácilmente hasta sus fuentes.
  • Claridad: Los datos se pueden entender fácilmente.

Técnicamente, la verificación de la calidad de los datos requiere conjuntos de métricas adecuados (Abelló et al., 2006). En las siguientes secciones, proporcionamos un ejemplo de las métricas para algunas de las propiedades de calidad mencionadas:

  • Exactitud e integridad: Se refiere al porcentaje de tuplas no cargadas por un proceso ETL y categorizadas según los tipos de problemas que surgen. Esta propiedad muestra el porcentaje de valores faltantes, no válidos y no estándar de cada atributo.
  • Frescura: Define el tiempo transcurrido entre la fecha en que se produce un evento y la fecha en que los usuarios pueden acceder a él.
  • Consistencia: Define el porcentaje de tuplas que cumplen con las reglas comerciales que se pueden establecer para las medidas de un cubo individual o de muchos cubos y el porcentaje de tuplas que cumplen con las restricciones estructurales impuestas por el modelo de datos (por ejemplo, unicidad de claves primarias, integridad referencial y cardinalidad cumplimiento de restricciones).

Tenga en cuenta que la organización corporativa juega un papel fundamental para alcanzar los objetivos de calidad de los datos. Este papel sólo se puede desempeñar eficazmente mediante la creación de un adecuado y preciso Certificación sistema que define un grupo limitado de usuarios a cargo de los datos. Por esta razón, los diseñadores deben concienciar a los altos directivos sobre este tema. Los diseñadores también deben motivar a la gerencia para crear un procedimiento de certificación preciso y diferenciado específicamente para cada área de la empresa. Una junta de gerentes corporativos que promueve la calidad de los datos puede desencadenar un círculo virtuoso que es más poderoso y menos costoso que cualquier solución de limpieza de datos. Por ejemplo, puede lograr resultados asombrosos si conecta el presupuesto de un departamento corporativo a un umbral de calidad de datos específico que debe alcanzarse.

Un tema adicional relacionado con la calidad de un proyecto de almacén de datos está relacionado con la documentación. Hoy en día, la mayor parte de la documentación aún no está estandarizada. A menudo se emite al final de todo el proyecto de almacenamiento de datos. Los diseñadores e implementadores consideran que la documentación es una pérdida de tiempo, y los clientes de proyectos de almacenamiento de datos la consideran un elemento de costo adicional. La ingeniería de software enseña que un sistema estándar para documentos debe emitirse, administrarse y validarse de acuerdo con los plazos del proyecto. Este sistema puede garantizar que las diferentes fases del proyecto del almacén de datos se lleven a cabo correctamente y que todos los puntos de análisis e implementación se examinen y comprendan correctamente. A medio y largo plazo, los documentos correctos aumentan las posibilidades de reutilizar los proyectos de data warehouse y garantizan el mantenimiento del know-how del proyecto.

Nota Jarke et al., 2000 han estudiado de cerca la calidad de los datos. Sus estudios proporcionan discusiones útiles sobre el impacto de los problemas de calidad de los datos desde el punto de vista metodológico. Kelly, 1997 describe los objetivos de calidad estrictamente relacionados con el punto de vista de las organizaciones empresariales. Serrano et al., 2004, 2007; Lechtenbörger, 2001; y Bouzeghoub y Kedad, 2000 se centran en los estándares de calidad, respectivamente, para los esquemas de almacenamiento de datos conceptual, lógico y físico.


1.9.2 Seguridad
La seguridad de la información es generalmente un requisito fundamental para un sistema, y ​​debe considerarse cuidadosamente en la ingeniería de software en cada etapa de desarrollo del proyecto, desde el análisis de los requisitos hasta la implementación y el mantenimiento. La seguridad es particularmente relevante para los proyectos de almacenamiento de datos, porque los almacenes de datos se utilizan para administrar información crucial para los procesos de toma de decisiones estratégicas. Además, las propiedades multidimensionales y la agregación causan problemas de seguridad adicionales similares a los que generalmente surgen en las bases de datos estadísticas, porque implícitamente ofrecen la oportunidad de inferir información a partir de los datos. Finalmente, la enorme cantidad de intercambio de información que tiene lugar en los almacenes de datos en la fase de preparación de datos provoca problemas específicos relacionados con la seguridad de la red.

Los sistemas de control de auditoría y gestión adecuados son importantes para los almacenes de datos. Los sistemas de control de gestión se pueden implementar en herramientas front-end o pueden explotar los servicios del sistema operativo. En lo que respecta a la auditoría, las técnicas proporcionadas por los servidores DBMS no son generalmente apropiadas para este ámbito. Por este motivo, debes aprovechar los sistemas implementados por los motores OLAP. Desde el punto de vista del acceso a datos basado en el perfil de los usuarios, los requisitos básicos están relacionados con la ocultación de cubos completos, porciones de cubos específicos y medidas de cubos específicos. A veces, también debe ocultar los datos del cubo más allá de un nivel de detalle determinado.

Nota En la literatura científica hay algunos trabajos que tratan específicamente de la seguridad en los sistemas de almacenamiento de datos (Kirkgöze et al., 1997; Priebe y Pernul, 2000; Rosenthal y Sciore, 2000; Katic et al., 1998). En particular, Priebe y Pernul proponen un estudio comparativo sobre las propiedades de seguridad de algunas plataformas comerciales. Ferrandez-Medina et al., 2004 y Soler et al., 2008 discuten un enfoque que podría ser más interesante para los diseñadores. Utilizan una extensión UML para modelar requisitos de seguridad específicos para almacenes de datos en las fases de diseño conceptual y análisis de requisitos, respectivamente.


Deja un comentario

También te puede interesar...

Evento misterioso en Google móvil el jueves

Parece que Google se está preparando para anunciar algunas funciones nuevas para Android el jueves, en un evento solo por invitación, según un invitación recibida por Gizmodo. En este momento solo se especula sobre lo

Cómo instalar Python | Krypton Solid

Empezaste a estudiar programación y, como primer lenguaje que probaste, elegiste usarlo Pitón. ¿Qué decir? Ciertamente parece una buena opción, pero si estás aquí y estás leyendo esta guía, obviamente no estás muy familiarizado con

Cómo configurar Google como motor de búsqueda

Por razones que quizás aún no puedas explicar, pero que probablemente se deban a la instalación de un programa demasiado «atrevido» o al uso ocasional de la computadora por parte de amigos y familiares, la

Webnoize suspende operaciones

Webnoize, una publicación web y planificadora de eventos que se ha enfocado en la industria del entretenimiento en línea, suspendió sus operaciones en un intento por reestructurar su negocio, según un anuncio en su sitio

Código abierto «dividido por la brecha digital»

Pocos programadores en países en desarrollo están involucrados en el desarrollo general de software de código abierto, lo que lleva a una brecha digital en proyectos de código abierto, dijo el jueves un investigador de

Novedades para diseñadores – septiembre de 2011

Novedades para diseñadores – septiembre de 2011 La edición de septiembre de novedades para diseñadores y desarrolladores web incluye nuevas aplicaciones web, marcos de JavaScript, un par de divertidos generadores de texto ficticio, aplicaciones útiles

Samsung adquiere la empresa de almacenamiento NVELO

Samsung Electronics acordó adquirir la empresa de software de almacenamiento NVELO. Empresa coreana ha anunciado adquisición de NVELO en Santa Clara, California, viernes. La compañía desarrolla soluciones de almacenamiento SSD de última generación y trabaja

Definición de certificado de paso modificado

¿Qué es un certificado de pase modificado? Un certificado de transferencia enmendado es un tipo de valor de renta fija que proporciona a los inversores ingresos de un grupo de activos o préstamos subyacentes. Por

Definición de eficiencia económica

¿Qué es la eficiencia económica? La eficiencia económica es cuando todos los bienes y factores de producción en una economía se distribuyen o asignan a sus usos más valiosos y se eliminan o minimizan los

Google ya ha descontinuado los Pixel 4 y 4 XL

Google descontinuó Pixel 4 y Pixel 4 XL, sus teléfonos insignia lanzados en octubre del año pasado. Ambos dispositivos están agotados en Google Store en los EE. UU., Aunque algunas variantes todavía están disponibles en

Los vándalos modifican el gusano Ramen Linux

Los vándalos en línea pueden haber modificado el gusano Ramen Linux descubierto la semana pasada para destruir automáticamente sitios con sus propias páginas web, dijo un experto el lunes. «Varios grupos (vándalos) se mudan repentinamente

Appirio firma el pacto de software FinancialForce PSA

Appirio, un proveedor de servicios de consultoría e implementación en la nube, se está asociando con FinancialForce en el campo de la automatización de servicios profesionales. La asociación global de ventas e implementación se centrará