Krypton Solid

La última tecnología en raciones de 5 minutos

Los motores de datos NoSQL, Hadoop cambiaron de velocidad en 2015

Uno de los rasgos característicos del big data en estos días es la abundancia de nuevos motores y almacenes de datos. En 2015, una amplia variedad de nuevos componentes de procesamiento de datos estaban al frente y al centro, en los ámbitos de las bases de datos NoSQL y los clústeres de Hadoop. Mantenerse al día con los cambios, realizar un seguimiento de las actualizaciones críticas y no tan críticas y navegar con éxito por el laberinto de nuevos sistemas se ha convertido en uno de los desafíos más urgentes para los profesionales de la gestión de datos. Un vistazo a las páginas de SearchDataManagement en 2015 encuentra amplias noticias e historias de tendencias sobre el volumen, la variedad y la velocidad de los avances de la arquitectura de código abierto distribuido.

Las bases de datos NoSQL muestran nuevos lados

El software NoSQL ha abierto considerablemente las opciones de bases de datos en un campo que anteriormente, para todos los efectos, se había reducido a un puñado de proveedores de bases de datos relacionales. Pero las variaciones de NoSQL están evolucionando continuamente, un proceso que continuó a buen ritmo este año y que vale la pena observar nuevamente en 2016.

Si bien la ‘SQL-ización’ de las tecnologías NoSQL puede estar comenzando, la avalancha de adaptaciones SQL para Hadoop ha avanzado bastante.

Durante 2015, por ejemplo, MongoDB introdujo un nuevo motor de datos central para su base de datos NoSQL homónima y dijo que admitiría una variedad de complementos de este tipo, brindando un estilo flexible que debería ser familiar para los desarrolladores con experiencia en el mundo de las bases de datos MySQL. El nuevo motor predeterminado de MongoDB, llamado WiredTiger, está destinado, entre otras cosas, a abordar los problemas de bloqueo que a veces acechaban a la plataforma MongoDB original. Otro jugador clave de NoSQL, DataStax, que ofrece una versión comercial de la base de datos de Cassandra, está trabajando con la comunidad de código abierto de Cassandra para lanzar una actualización del motor en 2016.

Por supuesto, el rasgo más definitorio de las bases de datos NoSQL es su falta de SQL o, en algunos casos, su soporte solo parcial para el lenguaje de programación relacional estándar. Sin embargo, algunos clientes de NoSQL están descubriendo que los rasgos similares a SQL son útiles como parte de un flujo de trabajo de datos general. Y los proveedores están empezando a seguir ese flujo. Este año, Couchbase lanzó al mercado sus herramientas de lenguaje de consulta N1QL, pronunciado Nickel, con el propósito de crear un entorno similar a SQL para trabajar con el sistema de gestión de bases de datos NoSQL de la empresa.

Adaptaciones SQL para la flor de Hadoop

Si bien la «SQL-ización» de las tecnologías NoSQL puede estar comenzando, la avalancha de adaptaciones SQL para Hadoop ha avanzado bastante. Los motores de consulta SQL-on-Hadoop como Hive, Impala y Presto han estado alineados durante años, y varios vieron nuevos lanzamientos en 2015. Dichas herramientas podrían ayudar a garantizar que se pueda acceder y utilizar fácilmente la información en los lagos de datos de Hadoop, lo que hace más como refinerías de datos y menos como pantanos de datos. Pero SQL en Hadoop sigue siendo el dominio de los primeros usuarios, que trabajan para descubrir qué herramientas funcionan bien con sus diferentes trabajos interactivos. Y hay mucho en juego en el éxito de los usuarios, ya que Hadoop podría quedar relegado al margen de muchas empresas si no puede aprovechar las habilidades de las legiones de trabajadores versados ​​en SQL.

Los proveedores y colaboradores de código abierto también continúan agregando nuevas tecnologías al núcleo de Hadoop. En octubre, por ejemplo, el proveedor de distribución de Hadoop Cloudera agregó el almacén de datos en columnas Kudu a la mezcla. Está destinado a funcionar con Impala, el motor MPP SQL-on-Hadoop de la empresa, en aplicaciones de análisis en tiempo real que implican inserciones y actualizaciones rápidas de datos. Dependiendo de su punto de vista, Kudu es un complemento o una alternativa al sistema de archivos distribuido de Hadoop que ha servido durante mucho tiempo como el caballo de batalla del almacenamiento de datos de Hadoop.

El motor Spark se convierte en un bloque de datos grandes

Quizás el más grande de los nuevos chicos en el bloque de big data es Apache Spark. Ya en 2013 era evidente que el motor de procesamiento de datos, creado en un laboratorio de informática de UC Berkeley, tenía el potencial de reemplazar el motor MapReduce original de Hadoop en trabajos por lotes existentes y, al mismo tiempo, admitir nuevos usos analíticos casi en tiempo real. Si bien MapReduce continúa encontrando nuevos usuarios, especialmente entre aquellos que buscan sustitutos de las aplicaciones tradicionales de carga y transformación de almacenamiento de datos, se podría decir que MapReduce se ha reducido a los ojos de muchos usuarios de Hadoop que están mirando a Spark para un procesamiento más rápido.

2015 fue notable por la entrada formal de la startup Databricks en la competencia de big data con su oferta Spark basada en la nube, que estuvo disponible en general en junio. La compañía está dirigida por algunos de los creadores de Spark de Berkeley. En lugar de impulsar motores Spark locales, Databricks decidió, al menos por ahora, apostar por la nube como medio de entrega para Spark a través de su plataforma Databricks Cloud. IBM estuvo entre muchos otros proveedores que impulsaron los esfuerzos de Spark a toda marcha: estaba ocupado capacitando a los desarrolladores de Spark, incorporando la tecnología Spark como parte de numerosos productos y, como Databricks, ofreciendo una versión del motor basada en la nube.

Además, una cosecha emergente de empresas emergentes de integración de datos utilizó Spark y sus bibliotecas de aprendizaje automático para «enseñar» a los sistemas pasos de integración repetibles. Entre estas nuevas empresas de preparación de datos de autoservicio, había algunas que se habían dirigido primero a MapReduce, pero luego optaron por Spark.

Los proveedores y los usuarios finales deberán ser rápidos en el futuro, listos para adoptar motores de datos más nuevos, sin dejar de estar atentos a las alternativas en proceso. Todas estas tecnologías promueven un nuevo modelo de procesamiento de datos que brinda oportunidades potenciales, pero también desafíos, a los profesionales de datos que deben tomar las decisiones de arquitectura que llevan a las organizaciones al futuro.

Deja un comentario

También te puede interesar...

Cómo dos CIO definen lo digital

La transformación digital significa cosas diferentes para los diferentes departamentos, según una nueva investigación de Deloitte LLP. El marketing, las ventas, el servicio al cliente e incluso las finanzas a menudo ven lo digital como

[Concept] Chrome con LightStatusBar | El borde

Paso la mayor parte de mi tiempo móvil en la aplicación de Chrome, así que tengo que lidiar con lo más molesto de la aplicación: «Barra de notificaciones negra». ¡Esta cosa sale como un pulgar

Definición del sistema de evaluación CAMELS

¿Qué es el sistema de evaluación CAMELS? CAMELS es un sistema de calificación reconocido internacionalmente utilizado por los supervisores bancarios para evaluar las instituciones financieras con base en seis factores representados por sus siglas. Las

¿Deberían los niños volver al papiro?

A principios de esta semana leí «¿Deberían los niños volver al lápiz y el papel?«E inmediatamente respondió a la pregunta con un rotundo ‘¡No!’. La computadora personal realmente tiene dos propósitos básicos. Funciona para la

Cómo arreglar un mensaje en WhatsApp

Quieres tener siempre algunas charlas con tus contactos Whatsapp? ¿Quieres recopilar todos los mensajes recibidos en WhatsApp que consideras más importantes en un lugar de fácil acceso? Si respondió afirmativamente a al menos una de

¿Cuál es el papel de BISO y es necesario?

A principios de 2020, como oficial de seguridad de la información empresarial recientemente nombrado en el operador de cable canadiense Cogeco Communications en Montreal, Manuel Chowrimootoo estaba ansioso por conectarse con otros en el rol

Nokia conecta a las personas con SMS no deseados

Nokia ha prometido mejorar sus sistemas de marketing por SMS después de que se descubrió que infringía la Ley de correo no deseado, enviando «consejos» a los clientes. El fabricante de teléfonos finlandés fue investigado

Mover datos a la nube de AWS

La necesidad de averiguar dónde y cómo almacenar los datos ha sido un problema fundamental en torno al desarrollo de sistemas para el … últimos 30 años. Si bien los usuarios han trasladado el almacenamiento