Google Cloud Dataflow es un servicio de procesamiento de datos basado en la nube para aplicaciones de transmisión de datos por lotes y en tiempo real. Permite a los desarrolladores configurar canales de procesamiento para integrar, preparar y analizar grandes conjuntos de datos, como los que se encuentran en la analítica web o las aplicaciones de análisis de big data.
El software Cloud Dataflow se expande en proyectos anteriores de procesamiento paralelo de Google, incluido MapReduce, que se originó en la empresa. Cloud Dataflow está diseñado para llevar a toda la canalización de análisis el estilo de ejecución paralela rápida que MapReduce llevó a un solo tipo de ordenamiento computacional para trabajos de procesamiento por lotes. Se basa en parte en MillWheel y FlumeJava, dos marcos de software desarrollados por Google destinados a la ingestión de datos a gran escala y el procesamiento de baja latencia.
Google Cloud Dataflow se superpone con marcos y servicios de software competitivos como Amazon Kinesis, Apache Storm, Apache Spark y Facebook Flux. Se mostró una vista previa de la tecnología en la conferencia de desarrolladores de Google I / O en junio de 2014; Al mismo tiempo, Cloud Dataflow se puso a disposición de forma limitada como parte de un programa beta controlado. La primera versión es compatible con un kit de desarrollo de software de Java (SDK), con soporte para otros idiomas a continuación.
Cloud Dataflow puede tomar datos en modo de publicación y suscripción de los feeds de middleware de Google Cloud Pub / Sub o, en modo por lotes, de cualquier base de datos o sistema de archivos. Maneja de forma agnóstica datos de diferentes tamaños y estructuras utilizando un formato llamado PCollections, que es la abreviatura de «colecciones paralelas». El servicio Google Cloud Dataflow también incluye una biblioteca de transformaciones paralelas, o PTransforms, que permiten la programación de alto nivel de tareas que se repiten con frecuencia mediante plantillas básicas; Además, admite la personalización de las transformaciones de datos por parte de los desarrolladores. El servicio optimiza las tareas de procesamiento, por ejemplo, al reducir varias tareas en pasadas de ejecución únicas. Y admite consultas SQL a través de Google BigQuery, un servicio de análisis basado en la nube.
Esto se actualizó por última vez en Septiembre de 2014
Continuar leyendo sobre Google Cloud Dataflow