La integración de datos es el proceso de combinar datos de múltiples sistemas de origen para crear conjuntos unificados de información para usos operativos y analíticos. La integración es uno de los elementos centrales del proceso general de gestión de datos; su objetivo principal es producir conjuntos de datos consolidados que sean limpios y consistentes y que satisfagan las necesidades de información de los diferentes usuarios finales de una organización.
Los datos integrados se introducen en los sistemas de procesamiento de transacciones para impulsar las aplicaciones comerciales y en los almacenes de datos y lagos de datos para respaldar la inteligencia comercial (BI), los informes empresariales y el análisis avanzado. Se han desarrollado varios métodos de integración de datos para diferentes tipos de usos, incluidos los trabajos de integración por lotes que se ejecutan a intervalos programados y la integración en tiempo real se realiza de forma continua.
Importancia de la integración de datos
La mayoría de las organizaciones tienen una colección de fuentes de datos, que a menudo incluyen fuentes externas. En muchos casos, las aplicaciones comerciales y los trabajadores operativos necesitan acceder a datos de diferentes fuentes para completar transacciones y otras tareas. Por ejemplo, un sistema de entrada de pedidos en línea requiere datos del cliente, el inventario de productos y las bases de datos de logística para procesar los pedidos; Los agentes del centro de llamadas deben poder ver la misma combinación de datos para resolver problemas para los clientes.
Los oficiales de préstamos deben verificar los registros de las cuentas, los historiales crediticios, los valores de las propiedades y otros datos antes de aprobar hipotecas. Los operadores financieros deben estar atentos a los flujos entrantes de datos de mercado de sistemas internos y fuentes externas. Los operadores de oleoductos y gerentes de planta dependen de los datos de varios sensores para monitorear el equipo. En estas y otras aplicaciones, la integración de datos reúne automáticamente los datos necesarios para que los usuarios no tengan que combinarlos manualmente.
Lo mismo ocurre con los sistemas de BI y análisis: la integración de datos brinda a los analistas de datos, ejecutivos corporativos y gerentes comerciales una imagen completa de los indicadores clave de desempeño (KPI), clientes, operaciones de fabricación y cadena de suministro, esfuerzos de cumplimiento normativo, riesgos financieros y otros aspectos del negocio. Procesos. Como resultado, tienen mejor información analítica disponible para usos como el seguimiento del desempeño comercial, la administración de operaciones y la planificación de campañas publicitarias y de marketing.
Cómo funciona la integración de datos
En un nivel básico, la integración de datos conecta los sistemas de origen y destino y enruta los datos del primero al segundo. En algunos casos, los datos reales se mueven a un sistema de destino, como en la integración en tiempo real de diferentes flujos de datos. En otros, las copias de los conjuntos de datos de los sistemas de origen se introducen en uno de destino, por ejemplo, cuando los datos transaccionales se consolidan en un almacén de datos o en un mercado de datos más pequeño para su análisis.
Desde un punto de vista técnico, los arquitectos y desarrolladores de integración de datos crean programas de software que automatizan y administran el proceso de integración de conjuntos de datos. Algunas formas de integración de datos son relativamente sencillas: la replicación de datos de un sistema a otro es un buen ejemplo. Sin embargo, a menudo es necesario armonizar diferentes esquemas de bases de datos en sistemas de fuentes independientes como parte de los proyectos de integración.
Un enfoque común para hacerlo es crear un esquema mediado que combine los esquemas de origen local en uno global y luego usar el mapeo de datos para salvar las diferencias entre ellos y hacer coincidir los elementos de datos con el esquema mediado. Eso se puede hacer en un sistema de destino, como un almacén de datos, o en una arquitectura virtual que crea una vista unificada de datos de diferentes sistemas sin cargarlos físicamente en un nuevo repositorio.
Tipos de integración de datos
El método de integración de datos más común es extraer, transformar y cargar (ETL), que se usa comúnmente en el almacenamiento de datos. En los trabajos ETL, los datos se extraen de los sistemas de origen y se ejecutan a través de un proceso de transformación de datos para consolidarlos y filtrarlos para usos analíticos; Luego, los conjuntos de datos resultantes se cargan en un almacén de datos. ETL es un proceso por lotes que normalmente implica grandes cantidades de datos y también se puede utilizar para alimentar conjuntos variados de big data en clústeres de Hadoop y otras plataformas de lago de datos.
Sin embargo, un método alternativo de extracción, carga y transformación (ELT) se utiliza a menudo en sistemas de big data. ELT invierte el segundo y tercer paso del proceso ETL, cargando datos sin procesar en un sistema de destino y luego filtrándolos y transformándolos según sea necesario para aplicaciones analíticas individuales. Esa es una opción popular para los científicos de datos, que a menudo hacen su propio trabajo de preparación de datos y desean tener acceso a conjuntos de datos completos para modelado predictivo, aplicaciones de aprendizaje automático y otras formas de análisis avanzado.
Las formas de integración de datos en tiempo real incluyen la captura de datos modificados (CDC), que aplica las actualizaciones realizadas a los datos en los sistemas de origen a los almacenes de datos y otros repositorios, y la integración de transmisión de datos, que integra flujos de datos en tiempo real y alimenta los conjuntos de datos combinados. en bases de datos para usos operacionales y analíticos. Otro método de integración de datos que se puede realizar en tiempo real o en modo por lotes es la replicación de datos, que copia los datos de una fuente de datos a otro sistema para sincronizarlos con fines operativos, de respaldo y de recuperación ante desastres (DR).
Los métodos de integración de datos también incluyen la virtualización de datos, que evolucionó a partir de un enfoque anterior conocido como federación de datos. Utiliza una capa de datos virtual para integrar datos en lugar de hacerlo físicamente. Eso brinda a los usuarios comerciales y analistas de datos una vista integrada de diferentes conjuntos de datos sin necesidad de que un equipo de TI cargue los datos en un almacén de datos, una base de datos operativa u otro sistema de destino. La virtualización de datos puede aumentar una arquitectura de análisis existente para aplicaciones específicas o usarse como parte de un entorno de almacenamiento de datos lógico o lago de datos que incluye una combinación de diferentes plataformas.
Herramientas y técnicas de integración de datos
Los desarrolladores pueden codificar manualmente los trabajos de integración de datos, generalmente en forma de scripts escritos en lenguaje de consulta estructurado (SQL), el lenguaje de programación estándar utilizado en bases de datos relacionales. Durante muchos años, ese fue el enfoque más común para la integración. Sin embargo, varios proveedores de TI ofrecen herramientas de integración de datos empaquetadas que automatizan, agilizan y documentan el proceso de desarrollo. Estos incluyen la subsidiaria Boomi de Dell, Hitachi Vantara, IBM, Informatica, Information Builders, Microsoft, Oracle, SAP, SAS Institute y Talend, así como otras empresas.
Las herramientas ETL estuvieron entre los primeros productos de software de integración de datos, lo que refleja el papel central del método ETL en los sistemas de almacenamiento de datos que surgieron a mediados de la década de 1990. Ahora, muchos proveedores ofrecen plataformas de integración de datos más amplias que también admiten ELT, CDC, replicación de datos, integración de big data y otras formas de integración; Además, la calidad de los datos asociados, el catálogo de datos y el software de gobernanza de datos a menudo se incluyen como parte de las plataformas.
Algunos de los proveedores de plataformas de integración también proporcionan herramientas de virtualización de datos. También están disponibles a través de especialistas en virtualización de datos y otros proveedores de gestión de datos, incluidos Actifio, Astera Software, AtScale, Data Virtuality, Denodo Technologies, la unidad Red Hat de IBM, Stone Bond Technologies y Tibco Software.
El crecimiento de la computación en la nube ha creado nuevas necesidades para que las organizaciones integren datos en diferentes aplicaciones en la nube y entre la nube y los sistemas locales. Eso llevó al desarrollo de la plataforma de integración como servicio (iPaaS), una categoría de producto que proporciona herramientas de integración basadas en la nube. La mayoría de los principales proveedores de plataformas de integración de datos ahora también ofrecen tecnologías iPaaS; otras empresas en el mercado de iPaaS incluyen Jitterbit, MuleSoft, SnapLogic, Tibco y Workato.
Beneficios y ejemplos de integración de datos
La integración de datos de clientes es uno de los casos de uso de integración de datos más importantes. Implica la consolidación de datos sobre los clientes de todas las fuentes disponibles, incluidos los datos de contacto, los registros de cuentas, las puntuaciones del valor de por vida del cliente (CLV) y la información recopilada a través de llamadas de servicio al cliente, visitas a sitios web, programas de marketing directo, encuestas, publicaciones en redes sociales y otras interacciones.
Si se realiza correctamente, el trabajo de integración de datos garantiza que los departamentos de una empresa puedan obtener una visión actual y completa de los clientes. Esa información puede ayudar a las empresas a orientar mejor sus esfuerzos de marketing e identificar oportunidades para realizar ventas cruzadas y aumentar las ventas de productos a los clientes, lo que con suerte dará como resultado un aumento de las ventas. Los datos de clientes bien integrados también pueden mejorar el servicio al cliente al brindarles a los trabajadores del centro de llamadas y a los técnicos de servicio de campo acceso inmediato a toda la información que necesitan.
Las iniciativas de integración de datos generalmente también incluyen la integración de datos sobre ingresos, gastos, ganancias, productividad y otras métricas de desempeño de diferentes unidades comerciales y operaciones regionales. Por lo general, esa información se pone a disposición de los ejecutivos corporativos y comerciales en informes o paneles de BI; puede ayudar a mejorar tanto la gestión de operaciones como la planificación estratégica. De manera similar, la integración de datos sobre los empleados de una organización puede ayudar en la gestión de recursos humanos y respaldar las aplicaciones de análisis de personas relacionadas para optimizar los procesos de recursos humanos.
Cada vez más, las organizaciones se están moviendo para integrar los datos recopilados por múltiples sensores instalados en equipos industriales, incluidas máquinas de fabricación, vehículos, ascensores, tuberías, redes eléctricas, plataformas petroleras y otros dispositivos conectados al Internet de las cosas (IoT). Los conjuntos integrados de datos de sensores se pueden usar para monitorear las operaciones y ejecutar modelos de mantenimiento predictivo que tienen como objetivo identificar posibles fallas en los equipos antes de que ocurran, lo que puede ayudar a reducir el tiempo de inactividad no planificado para reparaciones.
En la industria de la salud, los datos integrados de diferentes sistemas clínicos y registros de pacientes ayudan a los médicos a diagnosticar enfermedades y otras afecciones médicas. Para las aseguradoras médicas, la integración efectiva de datos tanto internamente como con los proveedores de atención médica y los empleadores puede aumentar la precisión del procesamiento de reclamos y garantizar que los nombres y direcciones de los miembros sean consistentes y correctos en sus sistemas.
Desafíos de integración de datos
Los desafíos comunes que enfrentan los equipos de administración de datos y TI en la integración de datos incluyen mantenerse al día con los crecientes volúmenes de datos; unificar silos de datos inconsistentes; ocuparse de la gama cada vez más amplia de bases de datos y otras plataformas de datos en las infraestructuras de TI; integración de datos locales y en la nube; y resolución de problemas de calidad de los datos. En organizaciones grandes con operaciones globales, el número y la naturaleza distribuida de los sistemas que deben integrarse aumentan la complejidad.
La cantidad de datos que generan y recopilan las organizaciones crea desafíos de integración particularmente grandes. Los volúmenes de datos continúan creciendo rápidamente, y es probable que la tasa de ese crecimiento solo aumente a medida que se expandan las aplicaciones de big data, aumente el uso de servicios de almacenamiento de objetos en la nube de bajo costo y el IoT se desarrolle aún más. La integración de datos es esencial para aprovechar todo el valor comercial potencial de todos esos datos, pero planificar y administrar con éxito el trabajo de integración requerido es un proceso complicado.
Para empezar, los administradores de datos y los desarrolladores de integración de datos necesitan documentación completa de los sistemas de origen y destino en la arquitectura de datos de una organización para poder realizar el mapeo requerido entre ellos. También deben tener un conocimiento sólido de las fuentes de datos internas y externas, las reglas comerciales que están integradas en los datos y la frecuencia con la que se actualizan y modifican los datos.
Como resultado, es imperativo que trabajen en estrecha colaboración con los usuarios comerciales. Los esfuerzos de integración de datos también deben estar alineados con los programas de gobernanza de datos, así como con las iniciativas relacionadas con la calidad de los datos y la gestión de datos maestros (MDM), para garantizar que los datos sean limpios y consistentes y que la documentación del linaje de los datos esté disponible para ayudar a los desarrolladores de integración a comprender mejor lo que hay dentro. conjuntos de datos.