Krypton Solid

La última tecnología en raciones de 5 minutos

¿Qué es el procesamiento de secuencias? Intruducción y resumen general

¿Qué es el procesamiento de secuencias?

El procesamiento de flujo es una técnica de gestión de datos que implica la ingesta de un flujo de datos continuo para analizar, filtrar, transformar o mejorar rápidamente los datos en tiempo real. Una vez procesados, los datos se pasan a una aplicación, almacén de datos u otro motor de procesamiento de flujo.

Los servicios y arquitecturas de procesamiento de secuencias están ganando popularidad porque permiten a las empresas combinar la alimentación de datos de varias fuentes. Las fuentes pueden incluir transacciones, feeds de acciones, análisis de sitios web, dispositivos conectados, bases de datos operativas, informes meteorológicos y otros servicios comerciales.

Las ideas centrales detrás del procesamiento de secuencias han existido durante décadas, pero se están volviendo más fáciles de implementar con varias herramientas de código abierto y servicios en la nube.

¿Cómo funciona el procesamiento de secuencias?

Las arquitecturas de procesamiento de transmisión ayudan a simplificar las tareas de administración de datos necesarias para consumir, procesar y publicar los datos de forma segura y confiable. El procesamiento de la transmisión comienza con la ingesta de datos de un servicio de publicación-suscripción, realiza una acción en él y luego publica los resultados en el servicio de publicación-suscripción u otro almacén de datos. Estas acciones pueden incluir procesos como analizar, filtrar, transformar, combinar o limpiar datos.

El procesamiento de secuencias comúnmente connota la noción de analítica en tiempo real, que es un término relativo. Tiempo real podría significar cinco minutos para una aplicación de análisis meteorológico, una millonésima de segundo para una aplicación de comercio algorítmico o una milmillonésima de segundo para un investigador de física.

Sin embargo, esta noción de tiempo real apunta a algo importante acerca de cómo el motor de procesamiento de flujo empaqueta grupos de datos para diferentes aplicaciones. El motor de procesamiento de flujo organiza los eventos de datos que llegan en lotes cortos y los presenta a otras aplicaciones como una alimentación continua. Esto simplifica la lógica para que los desarrolladores de aplicaciones combinen y recombinen datos de varias fuentes y de diferentes escalas de tiempo.

Cómo funciona el procesamiento de transmisiones
El procesamiento de flujo permite la gestión de un flujo de datos continuo para su uso en tiempo real.

¿Por qué es necesario el procesamiento de secuencias?

El procesamiento de transmisión es necesario para:

  • Desarrollar aplicaciones adaptables y receptivas
  • Ayude a las empresas a mejorar la analítica empresarial en tiempo real
  • Facilite decisiones más rápidas
  • Acelerar la toma de decisiones
  • Mejore la toma de decisiones con mayor contexto
  • Mejora la experiencia del usuario
  • Cree nuevas aplicaciones que utilicen una variedad más amplia de fuentes de datos.

¿Cómo se utiliza el procesamiento de secuencias?

Las herramientas modernas de procesamiento de transmisión son una evolución de varios marcos de publicación-suscripción que facilitan el procesamiento de datos en tránsito. El procesamiento de secuencias puede reducir los costos de transmisión y almacenamiento de datos al distribuir el procesamiento a través de la infraestructura informática de borde.

Las arquitecturas de transmisión de datos también pueden facilitar la integración de datos de múltiples aplicaciones comerciales o sistemas operativos. Por ejemplo, los proveedores de servicios de telecomunicaciones están utilizando herramientas de procesamiento de flujos para combinar datos de numerosos sistemas de soporte de operaciones. Los proveedores de atención médica los utilizan para integrar aplicaciones que abarcan múltiples dispositivos médicos, sensores y sistemas de registros médicos electrónicos. El procesamiento de secuencias también admite aplicaciones con mayor capacidad de respuesta en la detección de anomalías, detección de tendencias y análisis de la causa raíz.

Los casos de uso de procesamiento de flujo común incluyen:

  • Detección de fraudes
  • Detectar eventos anómalos
  • Ajuste de las funciones de la aplicación empresarial
  • Administrar datos de ubicación
  • Personalizar la experiencia del cliente
  • Negociación del mercado de valores
  • Analizar y responder a eventos de infraestructura de TI
  • Monitoreo de experiencia digital
  • Mapeo del viaje del cliente
  • Analítica predictiva

¿Cuáles son los marcos de procesamiento de flujos?

Spark, Flink y Kafka Streams son los marcos de procesamiento de flujo de código abierto más comunes. Además, todos los servicios en la nube primarios también tienen servicios nativos que simplifican el desarrollo del procesamiento de transmisiones en sus respectivas plataformas, como Amazon Kinesis, Azure Stream Analytics y Google Cloud Dataflow.

A menudo, estos van de la mano con otros marcos de publicación-suscripción que se utilizan para conectar aplicaciones y almacenes de datos. Por ejemplo, Apache Kafka es un popular marco de publicación y suscripción de código abierto que simplifica la integración de datos en múltiples aplicaciones. Apache Kafka Streams es una biblioteca de procesamiento de flujo para crear aplicaciones que ingieren datos de Kafka, los procesan y luego publican los resultados en Kafka como una nueva fuente de datos para que otras aplicaciones los consuman.

Otras herramientas de procesamiento de flujo con capacidades novedosas también están ganando popularidad. Samza es una herramienta de procesamiento de flujo distribuido que permite a los usuarios crear aplicaciones con estado. Apache Storm admite capacidades de computación en tiempo real como el aprendizaje automático en línea, el aprendizaje por refuerzo y la computación continua. Delta Lake admite el procesamiento de secuencias y el procesamiento por lotes mediante una arquitectura común.

¿Cuáles son las diferencias entre el procesamiento continuo y por lotes?

El procesamiento de secuencias y el procesamiento por lotes representan dos paradigmas diferentes de gestión de datos y desarrollo de aplicaciones. El procesamiento por lotes se originó en la época de las bases de datos heredadas en las que los profesionales de la gestión de datos programaban lotes de actualizaciones de una base de datos transaccional en un informe o proceso empresarial. El procesamiento por lotes es adecuado para tareas de procesamiento de datos programadas regularmente con límites bien definidos. Es un buen enfoque para extraer números de transacciones de la base de datos de ventas para generar un informe trimestral o contar las horas de los empleados para calcular los cheques mensuales.

El procesamiento de flujos permite a los desarrolladores pensar en la ingesta de datos como un flujo de datos continuo. Técnicamente hablando, los datos todavía llegan en lotes. Aún así, el motor de procesamiento de transmisión administra el proceso de filtrar las actualizaciones de datos y realizar un seguimiento de lo que ya se ha cargado en la fuente. Esto libera más tiempo para que los equipos de desarrollo e ingeniería de datos codifiquen la lógica de la aplicación y el análisis.

Historia del procesamiento de flujos

Los informáticos han explorado varios marcos para procesar y analizar datos a lo largo de varios días desde los albores de las computadoras. En los primeros días, esto se llamaba fusión de sensores. Luego, a principios de la década de 1990, el profesor de la Universidad de Stanford, David Luckham, acuñó el término procesamiento de eventos complejos (CEP). Esto ayudó a impulsar el desarrollo de arquitecturas orientadas a servicios (SOA) y buses de servicios empresariales (ESB).

Los principios fundamentales de CEP incluían abstracciones para caracterizar la sincronización sincrónica de eventos, administrar jerarquías de eventos y considerar los aspectos causales de los eventos. El auge de los servicios en la nube y el software de código abierto condujo a enfoques más rentables para administrar los flujos de datos de eventos, utilizando servicios de publicación y suscripción basados ​​en Kafka.

Esto dio lugar a marcos de procesamiento de flujos que simplificaron el costo y la complejidad de correlacionar flujos de datos en eventos complejos. Con el auge de la nube, la industria está comenzando a alejarse de los términos SOA, ESB y CEP hacia una infraestructura basada en microservicios, servicios de publicación y suscripción y procesamiento de transmisiones. Aunque los términos son diferentes, la idea central inherente a estas tecnologías más antiguas sigue viva.

Deja un comentario

También te puede interesar...

Cómo acelerar Internet Android | Krypton Solid

Navegando por internet desde tu smartphone Androide ¿Lo encuentras demasiado lento? ¿Te gustaría hacer algo para acelerar la carga de páginas web en Wi-Fi y/o al navegar con el plan de datos que has ingresado

NextDC acumula un año de crecimiento

El proveedor de servicios de centro de datos que cotiza en Australia, NextDC, dijo hoy que espera reportar un aumento del 201 por ciento en los pedidos, a 722, y un aumento del 21 por

Lista de verificación del programa de socios de HP

HP ofrece una variedad de productos de software y hardware, que incluyen computadoras de escritorio y portátiles, almacenamiento, servidores y tecnologías de redes inalámbricas. Esta lista de verificación proporciona una descripción general del programa HP

Shadow Chancellor lo consigue

OK, noticias de última hora. Mañana, a las 9 de la mañana, George Osborne, el canciller en la sombra de la oposición, pronunciará un discurso en la Royal Society for the Arts. Tengo una copia

Compre y venda servicios de diseño en Microlancer.Com

Compre y venda servicios de diseño en Microlancer.Com Microlancer es un sitio completamente nuevo del Red de Envato, diseñado para simplificar la subcontratación de pequeños trabajos de diseño. Todo, desde sitios web hasta logotipos, se

Ganancias de Red Hat Q1: justo en línea

Empresa de software de código abierto de EE. UU. sombrero rojo anunció los resultados para el primer trimestre fiscal de 2014 esta noche, reportando ganancias de $ 0.32 por ingresos por acción de $ 363

Cómics de la semana # 30

Cómics de la semana # 30 Cada semana presentamos un conjunto de cómics creado exclusivamente para WDD. El contenido gira en torno al diseño web, los blogs y las situaciones divertidas que encontramos en nuestra

Aceros Siemens CO2 | Krypton Solid

La industria del acero contribuye enormemente a las emisiones de gases de efecto invernadero. Uno de los ingredientes esenciales del acero es el coque. Hornea con piedra caliza y mineral de hierro y sale acero

Descarga gratuita: Embellecer Script

Descarga gratuita: Embellecer Script Si necesita una fuente nueva y sorprendente, fije sus ojos en Embellecer el guión. Esta maravillosa fuente de script, de Yasir Ekinci, es tan elegante como versátil. Úselo en cualquier cosa,

El futuro de EdTech es la automatización

Gran parte del mundo puede estar al tanto del auge de tecnologías como la inteligencia artificial (IA), la realidad virtual (VR) y la realidad aumentada (AR), pero el auge de edtech ha sido nada menos

Definición de Núcleo Plus

¿Qué es Núcleo Plus? Core plus es un estilo de gestión de inversiones que permite a los administradores aumentar una base de participación central, en una cartera con objetivos específicos, con herramientas que tienen un