Apache Pig es una tecnología de código abierto que ofrece un mecanismo de alto nivel para la programación paralela de trabajos de MapReduce que se ejecutarán en clústeres de Hadoop.
Pig permite a los desarrolladores crear rutinas de ejecución de consultas para analizar grandes conjuntos de datos distribuidos sin tener que hacer un trabajo de bajo nivel en MapReduce, de manera muy similar a la forma en que el software de almacenamiento de datos Apache Hive proporciona una interfaz similar a SQL para Hadoop que no requiere Programación MapReduce,
Las partes clave de Pig son un compilador y una secuencia de comandos. Lengua conocida como Pig Latin. Pig Latin es un dato–lenguaje de flujo orientado al procesamiento paralelo. Los gerentes del proyecto Pig de la Apache Software Foundation posicionan el lenguaje como un medio entre el SQL declarativo y el enfoque de procedimiento de Java utilizado en las aplicaciones MapReduce. Los defensores dicen, por ejemplo, que las uniones de datos son más fáciles de crear con Pig Latin que con Java. Sin embargo, mediante el uso de funciones definidas por el usuario (UDF), las aplicaciones de Pig Latin se pueden ampliar para incluir tareas de procesamiento personalizadas escritas en Java, así como lenguajes como JavaScript y Python.
Apache Pig surgió de su trabajo en Yahoo Research y se describió formalmente por primera vez en un artículo publicado en 2008. Pig está destinado a manejar todo tipo de datos, incluida la información estructurada y no estructurada y los datos relacionales y anidados. Esa visión omnívora de los datos probablemente influyó en la decisión de nombrar el medio ambiente para el animal de corral común. También se extiende a la versión de Pig de los marcos de aplicaciones; Si bien la tecnología está asociada principalmente con Hadoop, se dice que también puede usarse con otros marcos.
El marco Hadoop subyacente surgió a partir de aplicaciones web a gran escala cuyos arquitectos eligieron métodos distintos de SQL para recopilar y analizar cantidades masivas de datos de forma económica. Tiene mucha ayuda adicional para manejar aplicaciones de big data porque Apache Pig es solo parte de una larga lista de tecnologías del ecosistema Hadoop que también incluye Hive, HBase, ZooKeeper y otras utilidades destinadas a llenar en las lagunas de funcionalidad en el marco.
Esto se actualizó por última vez en Enero 2014
Continuar leyendo sobre Apache Pig