Se le podría perdonar por pensar que los almacenes de datos operativos y los almacenes de datos son sinónimos. Después de todo,…
un almacén de datos es un lugar donde se almacenan datos operativos para análisis e informes. Caso cerrado: dos caras de la misma moneda, ¿verdad?
Bueno, no, no tan rápido. La cuestión del almacén de datos operativo frente al almacén de datos es más que eso. Ambos almacenan datos operativos, pero en diferentes formas y para diferentes propósitos. Y en muchos casos, las organizaciones incorporan ambos en sus arquitecturas analíticas.
El almacén de datos operativos (ODS) es un poco más difícil de precisar porque hay opiniones divergentes sobre qué es exactamente y para qué se utiliza. Pero, en el fondo, un ODS reúne datos de múltiples sistemas de procesamiento de transacciones a corto plazo, con actualizaciones frecuentes a medida que los sistemas de origen generan nuevos datos. Los almacenes de datos operativos a menudo sirven como áreas de almacenamiento intermedias para los datos que finalmente se dirigen a un almacén de datos o una plataforma de big data para el almacenamiento a largo plazo.
Usos y beneficios de un SAO
Un ODS generalmente contiene datos de transacciones detallados que aún no se han consolidado, agregado y transformado en conjuntos de datos consistentes para cargarlos en un almacén de datos. Desde el punto de vista de la integración de datos, entonces, un ODS solo puede involucrar el primer y tercer elemento del proceso de extracción, transformación y carga (ETL) que se usa típicamente para extraer datos de los sistemas operativos y armonizarlos para su análisis.
En ese sentido, un almacén de datos operativos se puede considerar como un embudo que toma datos sin procesar de varios sistemas de origen y ayuda a facilitar el proceso de alimentar los sistemas de análisis e inteligencia empresarial con versiones más refinadas de esos datos. El proceso ETL completo se maneja en sentido descendente, lo que agiliza las cargas de trabajo de transformación de datos y minimiza las canalizaciones de procesamiento necesarias entre el ODS y los sistemas de origen a los que está conectado.
Sin embargo, algunas personas también ven el almacén de datos operativos como una plataforma de BI y análisis por derecho propio. En ese escenario, un ODS se puede utilizar para realizar análisis de datos casi en tiempo real con el objetivo de descubrir conocimientos tácticos que las organizaciones pueden aplicar rápidamente a las operaciones comerciales en curso, por ejemplo, para aumentar los inventarios minoristas de productos populares basados en datos de ventas actualizados. En comparación, los almacenes de datos suelen admitir el análisis histórico de los datos acumulados durante un período de tiempo más largo.
Dependiendo de la aplicación específica, un ODS que se utiliza para el análisis de datos puede actualizarse varias veces al día, si no cada hora o incluso con mayor frecuencia. Las herramientas de integración de datos en tiempo real, como el software de captura de datos de cambios, se pueden aprovechar para ayudar a habilitar dichas actualizaciones. Además, se puede aplicar algún nivel de limpieza de datos y verificaciones de coherencia en el ODS para ayudar a garantizar que los resultados de los análisis sean precisos.
Diseño de almacenamiento de datos y ODS
Al sopesar las implementaciones de almacenamiento de datos operativos y de almacenamiento de datos, un ODS puede potencialmente construirse en una plataforma de datos más liviana, especialmente si se usa principalmente como una estación de paso temporal para los datos.
Por ejemplo, una arquitectura de almacén de datos operativos podría basarse en la base de datos de código abierto MySQL o en el servicio de almacenamiento simple de Amazon basado en la nube como alternativa a las plataformas de almacenamiento de datos tradicionales como Oracle, Microsoft SQL Server, IBM DB2 y Teradata. En entornos de big data, los clústeres de Hadoop pueden proporcionar un área de preparación de ODS para alimentar datos a un almacén de datos u otro clúster construido sobre el marco de procesamiento distribuido de código abierto.
Si bien los datos generalmente pasan a través de un ODS con relativa rapidez para dejar espacio para los nuevos datos que surgen detrás de él, las cosas son diferentes en un almacén de datos. El propósito es crear un archivo de datos que se pueda analizar para rastrear el desempeño comercial e identificar tendencias operativas con el fin de guiar la toma de decisiones estratégicas por parte de los ejecutivos corporativos y comerciales.
Un almacén de datos puede actualizarse con frecuencia: todas las noches, en algunos casos, semanalmente o mensualmente en otros. Pero es un entorno más estático que un ODS: los datos generalmente se agregan, pero no se eliminan, especialmente en el caso de un almacén de datos empresarial (EDW), que está diseñado para proporcionar una fuente única de datos consolidados y depurados de todos los datos de una empresa. operaciones. Como resultado, los EDW tienden a ser plataformas grandes y complejas, una combinación que puede hacer que su implementación sea un desafío.
ODS vs mercado de dardos
Otra faceta de la discusión entre el almacén de datos operativo y el almacén de datos es cómo se compara un ODS con un mercado de datos. Los mercados de datos son sucursales de almacenamiento de datos especialmente diseñadas, esencialmente, almacenes más pequeños que almacenan datos relacionados con unidades comerciales individuales o áreas temáticas específicas. Un data mart y un ODS pueden estar en la misma liga en cuanto a capacidad de almacenamiento, pero por lo demás, difieren de la misma manera que lo hacen los EDW y los almacenes de datos operativos. Al igual que sus hermanos mayores, los data marts son un repositorio de datos históricos que se han eliminado y agregado por completo para su análisis.
Otras dos cosas a tener en cuenta sobre los almacenes de datos operativos: primero, no son lo mismo que una base de datos operativa. Esta última es la base de datos integrada en un sistema de transacciones: es la ubicación de donde provienen los datos que fluyen hacia un ODS. Dicho de otra manera, los datos de transacciones se procesan inicialmente en bases de datos operativas y luego se mueven a un ODS para comenzar su viaje de análisis.
En segundo lugar, los almacenes de datos operativos a veces se equiparan con los sistemas de gestión de datos maestros (MDM). Los procesos MDM permiten a las empresas crear conjuntos comunes de datos maestros sobre clientes, productos y proveedores. Luego, los datos maestros se pueden retroalimentar a los sistemas de transacciones a través de un concentrador MDM, donde los datos se administran y almacenan. Al principio, algunas organizaciones incorporaron capacidades de MDM en plataformas ODS, pero ese enfoque parece haber disminuido en los últimos años, quizás en parte debido a que el mercado de MDM no está creciendo como esperaban los proponentes, en sí mismo como resultado de las complejidades inherentes de MDM.