Krypton Solid

La última tecnología en raciones de 5 minutos

¿Qué es Apache Pig? – Definición de Krypton Solid

Apache Pig es una tecnología de código abierto que ofrece un mecanismo de alto nivel para la programación paralela de trabajos de MapReduce que se ejecutarán en clústeres de Hadoop.

Pig permite a los desarrolladores crear rutinas de ejecución de consultas para analizar grandes conjuntos de datos distribuidos sin tener que hacer un trabajo de bajo nivel en MapReduce, de manera muy similar a la forma en que el software de almacenamiento de datos Apache Hive proporciona una interfaz similar a SQL para Hadoop que no requiere Programación MapReduce,

Las partes clave de Pig son un compilador y una secuencia de comandos. Lengua conocida como Pig Latin. Pig Latin es un datolenguaje de flujo orientado al procesamiento paralelo. Los gerentes del proyecto Pig de la Apache Software Foundation posicionan el lenguaje como un medio entre el SQL declarativo y el enfoque de procedimiento de Java utilizado en las aplicaciones MapReduce. Los defensores dicen, por ejemplo, que las uniones de datos son más fáciles de crear con Pig Latin que con Java. Sin embargo, mediante el uso de funciones definidas por el usuario (UDF), las aplicaciones de Pig Latin se pueden ampliar para incluir tareas de procesamiento personalizadas escritas en Java, así como lenguajes como JavaScript y Python.

Apache Pig surgió de su trabajo en Yahoo Research y se describió formalmente por primera vez en un artículo publicado en 2008. Pig está destinado a manejar todo tipo de datos, incluida la información estructurada y no estructurada y los datos relacionales y anidados. Esa visión omnívora de los datos probablemente influyó en la decisión de nombrar el medio ambiente para el animal de corral común. También se extiende a la versión de Pig de los marcos de aplicaciones; Si bien la tecnología está asociada principalmente con Hadoop, se dice que también puede usarse con otros marcos.

El marco Hadoop subyacente surgió a partir de aplicaciones web a gran escala cuyos arquitectos eligieron métodos distintos de SQL para recopilar y analizar cantidades masivas de datos de forma económica. Tiene mucha ayuda adicional para manejar aplicaciones de big data porque Apache Pig es solo parte de una larga lista de tecnologías del ecosistema Hadoop que también incluye Hive, HBase, ZooKeeper y otras utilidades destinadas a llenar en las lagunas de funcionalidad en el marco.

Esto se actualizó por última vez en Enero 2014

Continuar leyendo sobre Apache Pig

Deja un comentario

También te puede interesar...

Noticias, ayuda e investigación de AWS Lambda

AWS Lambda Noticias AWS Lambda Empezar Ponte al día con nuestro contenido introductorio Evaluar Proveedores y productos de AWS Lambda Sopese los pros y los contras de las tecnologías, los productos y los proyectos que

Definición de certificado de acciones

¿Qué es un certificado de acciones? Un certificado de acciones es una pieza de papel físico que es propiedad de un accionista de una empresa. Los certificados de acciones incluyen información como el número de

No hay ropa sucia en esta empresa de software

¿Está buscando un mejor empleador? Considere Software Analytical Graphics Inc. El Compañía con sede en Exton, Pensilvania fue nombrado Mejor Pequeño Empleador de Estados Unidos por segundo año consecutivo por la Sociedad para la Gestión

Revisión de platino federal de la Marina

Revisión completa de Navy Federal Platinum Pro Bajo DAE si califica APR transferencia de saldo cero durante los primeros 12 meses Luz en los impuestos Versus No hay garantía de un AED bajo No disponible

openSUSE 11.3: Linux Lizard Lives

El sistema operativo Linux openSUSE 11.3 de Novell aporta estabilidad con KDE 4.4.4, un nuevo kernel 2.6.34 y compatibilidad con el nuevo sistema de archivos BTRFS. La última vez que vimos openSUSE fue en octubre

Microsoft completará el centro de datos Win2000 el viernes

Microsoft Corp. planea lanzar la última versión de Windows 2000, la oferta insignia de Windows 2000 Datacenter, el viernes, según funcionarios de la compañía. El autodenominado mainframe-killer de Microsoft se venderá exclusivamente a través de

5 componentes centrales de la arquitectura de microservicios

Una arquitectura de microservicios, como su nombre lo indica, es una coalición compleja de código, bases de datos, funciones de aplicación y lógica de programación distribuida entre servidores y plataformas. Ciertos componentes fundamentales de una

Estrangular

Un dominio absoluto es la venta o compra tanto de una opción de venta como de una opción de venta sobre la misma inversión subyacente, con la misma fecha de vencimiento, pero con precios de

Las mejores formas de cambiar moneda en Europa

Si viaja al extranjero, los comerciantes locales probablemente no quieran sus dólares estadounidenses. Si no cambiaste dinero antes de irte, después de desempacar e instalarte en el hotel, cambia el dinero americano a la moneda

Nokia y Vodafone se unen para servicios web

Nokia y Vodafone han anunciado un acuerdo que hará aparecer la plataforma de servicios móviles Net de la primera en los teléfonos de la segunda en Europa. Según el acuerdo, la plataforma Ovi de Nokia,

¿Qué es un diagrama de flujo de datos (DFD)?

¿Qué es un diagrama de flujo de datos? Un diagrama de flujo de datos (DFD) es una representación gráfica o visual que utiliza un conjunto estandarizado de símbolos y notaciones para describir las operaciones de

Fotografía infrarroja fantástica

Fotografía infrarroja fantástica Si bien estas impresionantes imágenes pueden parecer tomas fijas de una adaptación de JRR Tolkien, en realidad son obra del fotógrafo francés «aficionado» David Keochkerian. El estilo de fotografía infrarroja de David

¿Qué es la VM interrumpible de Google?

Una VM interrumpible (PVM) es una instancia de máquina virtual (VM) de Google Compute Engine (GCE) que se puede comprar con un gran descuento siempre que el cliente acepte que la instancia terminará después de