Krypton Solid

La última tecnología en raciones de 5 minutos

AtScale Benchmarks Tres motores SQL-on-Hadoop

Numeroso SQL en Hadoop Los motores están disponibles para acceder a los datos almacenados en HDFS utilizando el conocido lenguaje SQL. Todos parecen prometedores, todos admiten un rico dialecto SQL, pero ¿cuál es el más rápido? El rendimiento es importante, especialmente cuando los usuarios empresariales utilizan de forma interactiva herramientas de BI para acceder a big data a través de estos motores SQL-on-Hadoop.

Entonces, ¿cuál es el más rápido para una carga de trabajo interactiva, ad-hoc y similar a OLAP? Hasta ahora, no había mucha información disponible sobre este tema. Es decir, hasta A escala publicó resultados de pruebas comparativas en tres motores SQL-on-Hadoop: Apache Hive, Cloudera Impala y Spark SQL. Por supuesto, tenemos los puntos de referencia TPC-H y TPC-DS, pero estos dos no representan cargas de trabajo interactivas, ad-hoc, similares a OLAP.

AtScale, con sede en San Mateo, CA, es un proveedor de software que ofrece una interfaz rápida MDX y SQL en big data almacenados en Hadoop. Para acceder a los datos, AtScale aprovecha los motores SQL-on-Hadoop.

Desarrollaron un punto de referencia que representa una carga de trabajo interactiva, de consulta ad-hoc, similar a OLAP. El índice de referencia se define en base a la disponibilidad pública. Benchmark de esquema de estrella conjunto de datos. AtScale completó esto definiendo un conjunto de consultas OLAP típicas. Estas consultas se pueden clasificar en tres grupos: consultas de métricas rápidas (calcular un valor de métrica particular durante un período de tiempo), consultas de información sobre el producto (calcular métricas agregadas contra un conjunto de dimensiones basadas en productos y fechas) y consultas de información del cliente (calcular métricas agregadas contra un conjunto de dimensiones basadas en productos, clientes y fechas). Juntas, todas estas consultas representan los tipos de consultas que aparecen en entornos de BI de la vida real en los que los usuarios utilizan herramientas como Business Objects, Tableau, Excel y Qlikview.

Los resultados de rendimiento que se obtuvieron de este punto de referencia son intrigantes, aunque es posible que no sean los que esperan algunas personas. Un resultado claro es que ningún SQL-on-Hadoop es el más rápido para todas las consultas. Para algunas consultas, Apache Hive es el más rápido, y para otras es Spark SQL o Cloudera Impala.

La vida sería fácil si uno de los motores fuera siempre el más rápido. Porque eso significaría que cuando una organización desea seleccionar el más rápido, puede elegir solo ese. Este punto de referencia muestra claramente que este no es el caso. En sí mismo, esto es bastante interesante, porque algunos especialistas tienen un motor SQL-on-Hadoop favorito y realmente piensan que su favorito es siempre el más rápido. Esto no está confirmado por este punto de referencia.

Es importante comprender que estos tres motores pueden acceder a los mismos archivos HDFS y a las mismas descripciones de tablas documentadas en HCatalog. Esto significa que cualquier solución como AtScale y las que generan código SQL para motores SQL-on-Hadoop, como algunas herramientas ETL, deben admitir los tres motores SQL-on-Hadoop para acceder a datos en archivos HDFS. Deben ser lo suficientemente inteligentes como para saber cuál es el mejor para usar para una consulta SQL en particular. De hecho, todas las herramientas de virtualización de datos y las herramientas de BI en Hadoop que generan código SQL para los motores SQL-on-Hadoop deben conocer las fortalezas y debilidades de estos motores.

Me interesa ver cómo va a evolucionar esto en los próximos años. Pero tenemos que agradecer a AtScale por hacer este punto de referencia. Nos ha proporcionado más información sobre los aspectos de rendimiento de los motores SQL-on-Hadoop. Recomiendo encarecidamente leer los resultados de las pruebas comparativas. Una cosa que definitivamente aprendimos de este punto de referencia es que no podemos responder a la pregunta (todavía) de qué SQL-on-Hadoop es el más rápido.

Deja un comentario

También te puede interesar...

¿Qué es una operación de sala de calderas?

En el contexto de la inversión, el término «operación de sala de calderas» se refiere a un equipo que utiliza tácticas de venta de alta presión para vender acciones a clientes que llaman en frío

Samsung pierde triplicar las ganancias con un pelo de ancho

Pero los márgenes ajustados podrían arruinar ventas vertiginosas Samsung Electronics casi triplicó sus ganancias del segundo trimestre, impulsadas por las ventas de chips de memoria y pantallas planas. El beneficio neto del segundo mayor fabricante

Orange y Vodafone subcontratarán operaciones

Orange y Vodafone han anunciado que están subcontratando el mantenimiento y las operaciones de sus redes móviles, en lo que los analistas han descrito como un ejercicio de control de costes. Las empresas anunciaron transacciones

Definición de ahorro

¿Qué son los ahorros? Los ahorros se refieren al dinero que le queda a una persona después de deducir sus gastos de consumo de la renta disponible durante un período de tiempo. Por lo tanto,

Definición de costo irrelevante

¿Qué es un costo irrelevante? Los costos irrelevantes son costos, ya sean positivos o negativos, que no se verían afectados por una decisión de gestión. Por lo tanto, los costos irrelevantes, como los gastos generales

El regreso de Spectre Krypton Solid

Video: los parches Intel 4 Spectre ralentizarán su procesador El regreso de Spectre suena como la próxima película de James Bond, pero en realidad es el descubrimiento de dos nuevos ataques de CPU al estilo

Definición del índice KBW Bank

¿Qué es el índice del banco KBW? El índice bancario KBW es un índice de referencia para el sector bancario. El índice fue desarrollado por primera vez por el banco de inversión Keefe, Bruyette and

Informe: Healtheon / WebMD dispara 100

Healtheon / WebMD Corp. despedir a 100 empleados en una primera ronda de recortes de empleo, informó el viernes The Atlanta Journal-Constitution. La compañía dijo que se avecinan más despidos y que espera ser rentable

¿Qué es Certified Internet Webmaster (CIW)?

Certified Internet Webmaster (CIW) es un conjunto de cursos y exámenes que, cuando se completa con éxito, certifica a una persona como capaz en el desarrollo de sitios web y la administración de servidores, incluida

Definición de Renta Partida Garantizada (IPS).

¿Qué es una garantía de apoyo a los ingresos (IPS)? Un valor de ingresos (IPS) es un tipo de inversión que combina acciones ordinarias y bonos generadores de ingresos. Está diseñado para proporcionar pagos regulares

Programas de calendario Krypton Solid

Eres una persona que hace un trabajo complejo y tienes muchas responsabilidades; por eso tu semana siempre está llena de compromisos, encuentros, encuentros y reencuentros. También recibe más invitaciones a eventos y viajes casi todos

Spreads de opciones neutrales gamma-delta

¿Ha encontrado estrategias que utilizan la decadencia de una opción que son atractivas pero no asumen el riesgo asociado? Al mismo tiempo, las estrategias conservadoras como la escritura encubierta o la escritura encubierta sintética pueden