Krypton Solid

La última tecnología en raciones de 5 minutos

La arquitectura de big data agrega opciones de integración y necesidades de herramientas

Las tecnologías de big data abren nuevas opciones para almacenar y administrar datos, potencialmente en conjunto con los sistemas de almacenamiento de datos, no como una alternativa a ellos. Eso, a su vez, crea nuevas oportunidades de integración de datos, que pueden requerir herramientas adicionales para respaldar eficazmente una arquitectura de big data.

Los sistemas de big data hacen que sea más factible almacenar datos «de una manera muy cruda y refinarlos según sea necesario» para usos particulares, dijo Shawn Rogers, quien dirige la investigación de inteligencia empresarial (BI) y almacenamiento de datos en Enterprise Management Associates Inc. en Boulder. Colo.

Rogers dijo que los sistemas Hadoop y las bases de datos NoSQL pueden servir como «una especie de muelle de carga» para datos sin procesar, con modelos de datos y esquemas que se aplican a conjuntos de datos «mucho más tarde en el juego de lo que solían ser». En tales escenarios, la integración de datos se transforma de los procesos convencionales de extracción, transformación y carga (ETL) en enfoques de extracción, carga y transformación (ELT) más maleables. Y una vez que los datos están listos para BI y usos analíticos, pueden colocarse en el sistema que mejor se adapte, ya sea un almacén de datos, un clúster Hadoop o una base de datos analítica de propósito especial. «No tiene que ser tan rígido ahora», dijo Rogers. «Podemos aplicar algo de libertad y sentido común a nuestras arquitecturas».

Otro factor que fomenta ELT sobre ETL en entornos de big data es el deseo de los científicos de datos que realizan análisis avanzados de tener acceso a información sin filtrar. «Los científicos de datos están acostumbrados a trabajar con ‘datos sucios’ y a lidiar con el ruido», dijo Michele Goetz, analista de Forrester Research Inc. en Cambridge, Massachusetts. En aplicaciones de detección de fraude, por ejemplo, «no se limpia el datos en absoluto «, dijo Goetz. El objetivo es encontrar anomalías en la información que apuntan a transacciones y actividades sospechosas.

Para ayudar a engrasar los patines de integración de datos en un entorno de sistemas federados, Goetz recomienda que las organizaciones creen una capa de «servicios contextuales» que consta de componentes como un repositorio de metadatos, políticas de gobernanza y calidad de datos, modelos de gestión de datos maestros y un glosario para toda la empresa. de términos comerciales. «A menos que tenga eso, no podrá juntar todas las piezas», dijo.

Demasiadas cosas en una arquitectura de big data

Otro peligro en el desarrollo de aplicaciones de integración de datos que involucran clústeres de Hadoop y otros sistemas de big data es sobrecargarlos con demasiado movimiento de datos. «Es fácil escribir un programa MapReduce, pero también es fácil escribir uno que no funcione muy bien», dijo David Loshin, presidente de la consultora Knowledge Integrity Inc. en Silver Spring, Maryland. su red con solo intercambiar datos de un lado a otro «.

La buena noticia es que los proveedores de tecnologías de big data y herramientas de integración de datos están tratando de competir entre sí en el desarrollo de capacidades de integración automatizadas para entornos de big data. Para algunos usuarios, las herramientas que están disponibles ahora son lo suficientemente buenas como para superar al menos los obstáculos básicos de integración. Por ejemplo, Amadeus IT Group SA, un operador de sistemas de reservas de viajes con sede en Madrid, España, está utilizando tecnologías Hadoop, MapReduce y NoSQL para reducir sus costos de TI y respaldar nuevos servicios para agencias de viajes y otros usuarios de su sistema, incluida una aplicación. llamado Extreme Search, que proporciona itinerarios de viaje propuestos a los consumidores en función de una variedad de parámetros personalizables.

Un informe de junio de 2013 sobre el uso y los problemas de big data en la industria de viajes, escrito por el profesor universitario y autor Thomas Davenport, coloca la creación de fuentes de datos integradas en primer lugar en una lista de desafíos que deben superarse. La integración puede ser una tarea particularmente complicada para las empresas de viajes debido a su uso continuo de sistemas mainframe en el corazón de sus arquitecturas de TI, según el informe, que fue patrocinado pero no controlado por Amadeus.

Hervé Couturier, jefe de investigación y desarrollo de Amadeus, dijo durante una entrevista conjunta con Davenport que el mainframe de la compañía no desaparecerá pronto. Pero el problema de la integración tiene solución, agregó. «El desafío es utilizar tecnología de 30 años y [how you] fusionar eso con nueva tecnología «, dijo Couturier.» Pero podemos hacer eso. La tecnología está aquí, y ahora la pregunta, en gran medida, es cómo se puede llegar a un caso de negocio utilizable «.

Múltiples ranuras en el cinturón de herramientas de integración de big data

No hay escasez de herramientas empaquetadas para elegir para su uso en la integración de big data, y no hay necesariamente una respuesta correcta. La tecnología ETL no está completamente fuera de lugar, todavía tiene aplicaciones viables en entornos de big data. El software de virtualización de datos que reúne información de los sistemas de origen sin moverla físicamente es otra opción que ofrecen varios proveedores de integración. La replicación de datos, la captura de datos modificados y las tecnologías de compresión pueden desempeñar un papel valioso en la integración de big data, dijo Loshin.

Los proveedores de bases de datos que ofrecen una combinación de tecnologías relacionales, de columnas y de dispositivos están integrando los productos desde el principio para permitir que los datos fluyan entre ellos, aunque Rogers dijo que eso crea el potencial de «bloqueo de pila» con un solo proveedor. Además, los proveedores de todo tipo han introducido software de conector que puede transportar datos entre los sistemas Hadoop y las bases de datos SQL. El analista de Gartner Inc. Merv Adrian también señaló Apache HCatalog, una tecnología de administración de almacenamiento y tablas que está siendo desarrollada por Apache Software Foundation; está diseñado para proporcionar un esquema compartido y capacidades de abstracción de tablas para liberar a los usuarios de Hadoop de tener que preocuparse por dónde y en qué formato se almacenan sus datos.

Pero en su conjunto, el conjunto actual de herramientas de integración aún tiene algo de maduración por hacer. «Se han hecho algunas cosas fáciles», dijo Rogers. «Durante los próximos 18 a 24 meses, creo que veremos herramientas más sofisticadas».

Tony Baer, ​​analista de Ovum Ltd., con sede en Londres, tiene una expectativa similar. Baer dijo que el estado de las herramientas de big data es similar al de BI y software de almacenamiento de datos alrededor de 1996. «En aquel entonces, la industria tenía que introducir cosas como la limpieza de datos porque, en su mayor parte, la gente simplemente se ocupaba de datos transaccionales. hasta entonces «, dijo, y agregó que se necesitan más herramientas funcionales» para ayudar a civilizar y administrar la integración de big data «.

Craig Stedman es editor ejecutivo de SearchDataManagement. Envíele un correo electrónico a [email protected] y síguenos en Twitter: @sDataManagement.

El escritor independiente Alan R. Earls contribuyó a esta historia.

Deja un comentario

También te puede interesar...

Trueque (o trueque) Definición

¿Qué es el trueque? El trueque es un acto de intercambio de bienes o servicios entre dos o más partes sin el uso de dinero o un medio monetario, como una tarjeta de crédito. En

Cómo convertir WMA a MP3 con iTunes

Aunque la mayoría de las canciones que se pueden descargar de Internet están en formato MP3, en ocasiones me encuentro con archivos WMA, un formato desarrollado por Microsoft y muy utilizado en los ordenadores. Este

Definición de activos de reserva

¿Qué son los activos de reserva? Los activos de reserva son activos financieros denominados en moneda extranjera y en poder de los bancos centrales que se utilizan principalmente para equilibrar los pagos. Recomendaciones clave Los

La startup Sailthru quiere que leas menos

Vanessa y Kelly no reciben el mismo boletín de Business Insider porque la tecnología predictiva ha determinado que tienen intereses diferentes. Gracias a la nueva tecnología respaldada por una gran empresa de capital de riesgo

Noticias a conocer: Microhoo; Adobe; MacBook Air; OLPC; RIAA

Titulares notables: Microsoft: Aumentaremos la oferta de Yahoo, pero aún no podemos decidirnos. TechmemeJason O’Grady: Pasta térmica excesiva que provoca altas temperaturas en MacBook AirRyan Stewart: Proyecto de pantalla abierta de Adobe Dan Farber: IBM

Las API útiles son las que puede rastrear

Para hacer un uso efectivo de las API, necesitará un programa que se extienda más allá de su creación para que pueda rastrearlas y administrarlas. Después de todo, las API útiles son la forma en

Fondos indexados disminuidos

Los fondos indexados brindan a los inversores un rendimiento que está directamente relacionado con los mercados individuales, al tiempo que cobran montos mínimos por el gasto. A pesar de los beneficios y la creciente popularidad,

TSA ha contratado a IBM $ 47,000 para iPad: Informe

La Administración de Seguridad del Transporte (TSA) ha revelado que el Departamento de Seguridad Nacional contrató a IBM por $ 47,400 para construir la aplicación de aleatorización de la TSA. Un portavoz de la TSA

Definición de nota de descuento

¿Qué es una nota de descuento? Una nota de descuento es una obligación de deuda a corto plazo emitida con un descuento en el párr. Las notas de descuento son similares a los bonos de

Wikileaks: una breve historia, antes de 2010

Esta serialización de una semana forma la mayor parte de mi tesis de pregrado: «Un análisis empírico de Wikileaks, antes y después del lanzamiento de cables diplomáticos en 2010.» Organización de medios o grupo terrorista;

Lo que quiero para navidad

Solo dos cosas simples: una estación de trabajo ultraSPARC T2; y, un anuncio conjunto de Adobe / Sun Postscript Open Supply y la reintroducción de NeWS. Eso sería algo bueno, de verdad, por eso. Ultrasparc

Cómo obtener Sky Q | Krypton Solid

Recientemente se registró para una suscripción a cielo y ahora no te lo puedes perder, al punto que te preguntas sobre la existencia de una solución que te permita mirar el contenido de tus paquetes

¿Qué es Red Hat Enterprise Linux (RHEL)?

Red Hat Enterprise Linux (RHEL) es una distribución del sistema operativo Linux desarrollada para el mercado empresarial. RHEL se conocía anteriormente como Red Hat Linux Advanced Server. RHEL se basa en un código fuente abierto

Estilo de imagen con lienzo

Estilo de imagen con lienzo Es difícil identificar reglas universalmente aceptadas en el diseño web, pero si hay una con la que toda la comunidad está de acuerdo, es que siempre debes separar tu contenido

Estadísticas de spam: la plaga continúa …

¿Has oído hablar recientemente de la viuda de Sani Abacha o te han ofrecido un préstamo a bajo interés, Viagra natural o acceso a la webcam Hot, Hot XXX? No eres el único… Marzo fue