¿Qué es Apache Flink?
Apache Flink es una plataforma de procesamiento de datos distribuidos para su uso en aplicaciones de big data, que implica principalmente el análisis de datos almacenados en clústeres de Hadoop. Al admitir una combinación de procesamiento en memoria y basado en disco, Flink maneja trabajos de procesamiento por lotes y de flujo, con transmisión de datos como implementación predeterminada y trabajos por lotes que se ejecutan como versiones de casos especiales de aplicaciones de transmisión.
Flink fue diseñado como una alternativa a MapReduce, el motor de procesamiento solo por lotes que se combinó con el Sistema de archivos distribuido de Hadoop (HDFS) en la encarnación inicial de Hadoop. El software Flink es de código abierto y se adhiere a las disposiciones de licencia de la Apache Software Foundation. Su desarrollo está impulsado principalmente por DataArtisans GmbH, un proveedor de inicio con sede en Berlín.
¿Cómo funciona Apache Flink?
Las aplicaciones de transmisión de Flink se programan a través de una API DataStream utilizando Java o Scala. Estos lenguajes, así como Python, también se pueden usar para programar contra una API DataSet complementaria para procesar datos estáticos. Flink se puede implementar en una sola máquina virtual Java (JVM) en modo independiente o en clústeres Hadoop basados en YARN, o en sistemas en la nube.
El tiempo de ejecución principal de Flink admite una arquitectura de transmisión en cadena; También ofrece un método integrado para admitir el procesamiento de datos iterativo para el aprendizaje automático y otras aplicaciones de análisis. Se proporcionan bibliotecas y API dedicadas para el desarrollo de programas de aprendizaje automático, así como para el manejo de cadenas, procesamiento de gráficos y otros usos. Otra API se centra en la integración de aplicaciones Hadoop.
¿Cómo ha evolucionado Apache Flink?
Flink surgió como una rama de Stratosphere, un proyecto iniciado en 2009 en tres universidades de Alemania: TU Berlín, la Universidad Humboldt de Berlín y el Instituto Hasso Plattner. Posteriormente, la tecnología Flink se convirtió en un proyecto de incubadora de Apache en abril de 2014 y en un proyecto de alto nivel a fines de ese año; Después de nueve lanzamientos anteriores, Apache Flink 1.0.0 se lanzó en marzo de 2016. Con eso, Flink se unió oficialmente a otros marcos de ecosistema de Hadoop como Spark, Storm y Samza en la competencia para proporcionar capacidades de transmisión de big data.
Esto se actualizó por última vez en Octubre de 2021
Continuar leyendo sobre Apache Flink