Krypton Solid

La última tecnología en raciones de 5 minutos

Databricks herramienta de creación de lago de datos de fuentes abiertas Databricks Delta Lake

SAN FRANCISCO – Databricks abrió su Databricks Delta Lake, una herramienta para estructurar datos en lagos de datos, poco más de un año después de su presentación oficial.

El código para el producto de código abierto está disponible en GitHub, y está disponible gratuitamente para ejecutarse en las instalaciones, en computadoras portátiles o en la nube, siempre que esté sujeto a la licencia Apache v2.0. Los datos de Delta Lake se almacenan en Apache Parquet de código abierto, una herramienta de almacenamiento en columnas basada en Hadoop.

Databricks presentó la herramienta de lago de datos de código abierto en la Spark + AI Summit 2019 aquí el 24 de abril. Para los usuarios de Databricks y Spark, puede que no haya sido una sorpresa.

De código abierto

«Databricks es Delta de código abierto porque se alinea con el modelo de código abierto Spark», dijo Tony Baer, ​​analista principal de Ovum.

«También se alinea con su estrategia para monetizar el tiempo de ejecución integrado, quitando gran parte del esfuerzo para activar marcos como TensorFlow o MLflow de los hombros del científico de datos», continuó Baer, ​​refiriéndose a la biblioteca de aprendizaje automático ampliamente utilizada y la herramienta de aprendizaje automático Databricks. .

Databricks Delta Lake se integra con Spark, así como con MLflow, otra herramienta de código abierto basada en Spark desarrollada principalmente por Databricks. La integración, según Ali Ghodsi, director ejecutivo y cofundador de Databricks, permite a los usuarios realizar tareas de aprendizaje automático con mayor facilidad en los datos de sus lagos de datos.

Delta Lake se encuentra en la parte superior de los lagos de datos, explicó Ghodsi en una entrevista después de su discurso de apertura de la conferencia, para «asegurarse de tener datos de alta calidad».

La facilidad de uso fue uno de los principales factores que influyeron en la decisión de Databricks de hacer que la herramienta sea de código abierto, dijo Ghodsi.

«La gente tiene problemas de datos en muchos entornos diferentes y Databricks solo existe en la nube», dijo. El producto original de Delta, a fines de 2017, se ejecutó solo en la nube, señaló Ghodsi.

Ahora, con Delta Lake, los usuarios pueden ejecutar la herramienta en más entornos y pueden obtener más valor de Delta ahora que tienen acceso al código fuente, dijo.

«Queremos que esta revolución de los datos tenga éxito», dijo Ghodsi. «Es en el mejor interés de todos que estos proyectos sean exitosos», continuó. «Al abrirlo, puede tener un impacto mucho mayor».

Ali Ghodsi, cofundador y CEO de la conferencia magistral Spark + AI Summit de Databrick
El CEO y cofundador de Databricks, Ali Ghodsi, pronunció el discurso de apertura el día de la conferencia Spark + AI Summit en San Francisco.

Escalar datos

Databricks Delta Lake puede manejar datos y metadatos a escala, lo que permite a los usuarios trabajar con tablas a escala de petabytes. Databricks Delta Lake también presenta lo que el equipo de Databricks llama «viaje en el tiempo», un tipo de control de versiones de datos que permite a los usuarios tomar instantáneas de los datos mientras trabajan en ellos. Los usuarios pueden recuperar y volver a las instantáneas según sea necesario.

[Databricks open sourced Delta because it] ‘se alinea con su estrategia para monetizar el tiempo de ejecución integrado’.
Tony Baer Analista principal, Ovum

El sistema también permite la transacción ACID en los lagos de datos de los usuarios, proporcionando a los datos más seguridad y longevidad, dijo Databricks.

Para el proveedor de la plataforma de datos de aprendizaje automático Splice Machine, un socio de Databricks, Delta Lake se alinea con el «tema general de Splice Machine de poner en funcionamiento la inteligencia artificial y hacer que el aprendizaje automático sea más fácil de poner en producción», así como su interés en el cumplimiento de ACID, dijo Monte Zweben, co -fundador y CEO de Splice Machine, en una entrevista en la conferencia.

Sin embargo, dijo Zweben, Databricks Delta Lake «no ha llegado hasta el final».

«La forma en que Delta funciona es que está realizando un seguimiento de los archivos de Delta. Está realizando un seguimiento de todos estos archivos de Parquet que están teniendo lugar», dijo Zweben. Realiza un seguimiento de los cambios en los datos a lo largo del tiempo, pero «tiene un nivel de granularidad muy grande», a diferencia de los niveles pequeños que, según él, la tecnología de Splice Machine puede realizar.

«Delta está en el camino correcto para poder rastrear los cambios en los datos a lo largo del tiempo», dijo Zweben. Todavía no está del todo allí, dijo.

Más de Databricks

También en Spark + AI Summit 2019, Databricks presentó una nueva herramienta de big data de código abierto: Koalas, ahora disponible en GitHub. El software permite a los usuarios importar más directamente su código Pandas en entornos Spark, sin tener que cambiar mucho, si es que hay alguno, del código original.

Muchos científicos de datos están capacitados en Pandas, una biblioteca de Python que es efectiva para bases de datos pequeñas y medianas, pero que no es escalable a las de nivel empresarial. Koalas está destinado a facilitar la transición de los entornos Pandas a Spark, permitiendo a los usuarios codificar en ellos sin necesariamente aprender un nuevo idioma.

Databricks también mostró una vista previa del esperado Spark 3.0. Equipado con un conjunto de nuevas capacidades, incluido Kubernetes como modo nativo, Spark 3.0 probablemente se lanzará más adelante en 2019, según Databricks.

Deja un comentario

También te puede interesar...

Aplicación para encontrar aparcamiento | Krypton Solid

¿Encontrar aparcamiento en tu ciudad se ha convertido últimamente en un reto mayor de lo habitual? ¿A veces olvidas dónde estacionaste tu auto y pierdes interminables minutos buscándolo? Si respondió afirmativamente a al menos una

Cómo cambiar el administrador de luces Krypton Solid

¿Ha notado que sus facturas de electricidad son demasiado altas y está considerando cambiar su proveedor de energía? ¿Necesita hacer un cambio o va a cambiar el administrador de la fuente de alimentación por alguna

Descarga gratuita: Sign Panthers Script

Descarga gratuita: Sign Panthers Script Sign Panthers no es el nombre de una banda, sino una familia de fuentes inspirada en el estilo de pintura de carteles vintage. Si necesita algo audaz, fuerte y clásico,

Cómics de la semana # 201

Cómics de la semana # 201 Cada semana presentamos un conjunto de cómics creados exclusivamente para WDD. El contenido gira en torno al diseño web, los blogs y las situaciones divertidas que encontramos en nuestra

Win XP e IE beta: aspectos a tener en cuenta

Si mantiene su programa actual, se espera que Microsoft lance dos versiones beta la próxima semana: Windows XP Beta 2 y una vista previa pública de Internet Explorer 6. Varios sitios web apasionados por Windows

CyanogenMod renuncia a la «versión estable» de M

Con el reciente lanzamiento de CyanogenMod (Android 4.4) M6, el equipo detrás de la popular ROM personalizada se deshace de las compilaciones de «versión estable», que tardaron demasiado en arreglarse y dieron una mala impresión

Definición de apalancamiento operativo (DOL).

¿Cuál es el grado de apalancamiento operativo (DOL)? El apalancamiento operativo (DOL) es un múltiplo que mide cuánto cambiará el ingreso operativo de una empresa en respuesta a un cambio en las ventas. Las empresas

Catz de Oracle asume el cargo de director financiero

El presidente de Oracle, Safra Catz, asumirá el cargo de director financiero, anunció la compañía el lunes. La medida se produce después de la dimisión del actual director financiero de Oracle, Jeff Epstein. Epstein le

MS promueve la integración en Mac Office 2001

Acción legal contra Microsoft Corp. (msft) no parece haber frenado la unidad de negocios Macintosh de la compañía, que esta semana brindó a Krypton Solid News detalles adicionales sobre su próxima suite Office de aplicaciones

10 empresarios chinos influyentes

China se ha convertido rápidamente en una potencia mundial en términos de producción y crecimiento. Una antigua economía comunista, el gobierno chino ha debilitado su posición sobre la propiedad privada y su capacidad para iniciar