SAN FRANCISCO – Databricks abrió su Databricks Delta Lake, una herramienta para estructurar datos en lagos de datos, poco más de un año después de su presentación oficial.
El código para el producto de código abierto está disponible en GitHub, y está disponible gratuitamente para ejecutarse en las instalaciones, en computadoras portátiles o en la nube, siempre que esté sujeto a la licencia Apache v2.0. Los datos de Delta Lake se almacenan en Apache Parquet de código abierto, una herramienta de almacenamiento en columnas basada en Hadoop.
Databricks presentó la herramienta de lago de datos de código abierto en la Spark + AI Summit 2019 aquí el 24 de abril. Para los usuarios de Databricks y Spark, puede que no haya sido una sorpresa.
De código abierto
«Databricks es Delta de código abierto porque se alinea con el modelo de código abierto Spark», dijo Tony Baer, analista principal de Ovum.
«También se alinea con su estrategia para monetizar el tiempo de ejecución integrado, quitando gran parte del esfuerzo para activar marcos como TensorFlow o MLflow de los hombros del científico de datos», continuó Baer, refiriéndose a la biblioteca de aprendizaje automático ampliamente utilizada y la herramienta de aprendizaje automático Databricks. .
Databricks Delta Lake se integra con Spark, así como con MLflow, otra herramienta de código abierto basada en Spark desarrollada principalmente por Databricks. La integración, según Ali Ghodsi, director ejecutivo y cofundador de Databricks, permite a los usuarios realizar tareas de aprendizaje automático con mayor facilidad en los datos de sus lagos de datos.
Delta Lake se encuentra en la parte superior de los lagos de datos, explicó Ghodsi en una entrevista después de su discurso de apertura de la conferencia, para «asegurarse de tener datos de alta calidad».
La facilidad de uso fue uno de los principales factores que influyeron en la decisión de Databricks de hacer que la herramienta sea de código abierto, dijo Ghodsi.
«La gente tiene problemas de datos en muchos entornos diferentes y Databricks solo existe en la nube», dijo. El producto original de Delta, a fines de 2017, se ejecutó solo en la nube, señaló Ghodsi.
Ahora, con Delta Lake, los usuarios pueden ejecutar la herramienta en más entornos y pueden obtener más valor de Delta ahora que tienen acceso al código fuente, dijo.
«Queremos que esta revolución de los datos tenga éxito», dijo Ghodsi. «Es en el mejor interés de todos que estos proyectos sean exitosos», continuó. «Al abrirlo, puede tener un impacto mucho mayor».
Escalar datos
Databricks Delta Lake puede manejar datos y metadatos a escala, lo que permite a los usuarios trabajar con tablas a escala de petabytes. Databricks Delta Lake también presenta lo que el equipo de Databricks llama «viaje en el tiempo», un tipo de control de versiones de datos que permite a los usuarios tomar instantáneas de los datos mientras trabajan en ellos. Los usuarios pueden recuperar y volver a las instantáneas según sea necesario.
Tony Baer Analista principal, Ovum
El sistema también permite la transacción ACID en los lagos de datos de los usuarios, proporcionando a los datos más seguridad y longevidad, dijo Databricks.
Para el proveedor de la plataforma de datos de aprendizaje automático Splice Machine, un socio de Databricks, Delta Lake se alinea con el «tema general de Splice Machine de poner en funcionamiento la inteligencia artificial y hacer que el aprendizaje automático sea más fácil de poner en producción», así como su interés en el cumplimiento de ACID, dijo Monte Zweben, co -fundador y CEO de Splice Machine, en una entrevista en la conferencia.
Sin embargo, dijo Zweben, Databricks Delta Lake «no ha llegado hasta el final».
«La forma en que Delta funciona es que está realizando un seguimiento de los archivos de Delta. Está realizando un seguimiento de todos estos archivos de Parquet que están teniendo lugar», dijo Zweben. Realiza un seguimiento de los cambios en los datos a lo largo del tiempo, pero «tiene un nivel de granularidad muy grande», a diferencia de los niveles pequeños que, según él, la tecnología de Splice Machine puede realizar.
«Delta está en el camino correcto para poder rastrear los cambios en los datos a lo largo del tiempo», dijo Zweben. Todavía no está del todo allí, dijo.
Más de Databricks
También en Spark + AI Summit 2019, Databricks presentó una nueva herramienta de big data de código abierto: Koalas, ahora disponible en GitHub. El software permite a los usuarios importar más directamente su código Pandas en entornos Spark, sin tener que cambiar mucho, si es que hay alguno, del código original.
Muchos científicos de datos están capacitados en Pandas, una biblioteca de Python que es efectiva para bases de datos pequeñas y medianas, pero que no es escalable a las de nivel empresarial. Koalas está destinado a facilitar la transición de los entornos Pandas a Spark, permitiendo a los usuarios codificar en ellos sin necesariamente aprender un nuevo idioma.
Databricks también mostró una vista previa del esperado Spark 3.0. Equipado con un conjunto de nuevas capacidades, incluido Kubernetes como modo nativo, Spark 3.0 probablemente se lanzará más adelante en 2019, según Databricks.