Apache Spark, un motor de procesamiento de big data de código abierto, se esfuerza por convertirse en el nuevo favorito del big data. Pero, ¿la tecnología está preparada para la empresa? La respuesta a esa pregunta es que está llegando.
Databricks, fundado por los inventores de Apache Spark para proporcionar una oferta comercial de la tecnología, dejó en claro en Spark Summit East en la ciudad de Nueva York que la preparación empresarial será un enfoque importante para la empresa durante los próximos seis a 12 meses. De hecho, la empresa ya ha iniciado el camino de la preparación empresarial. El otoño pasado, Databricks comenzó a ofrecer una oferta de nube limitada de Spark en Amazon S3.
«Nuestra visión con Databricks Cloud era resolver estos problemas, proporcionar un entorno integrado, seguridad, etc.», dijo Patrick Wendell, cofundador de Databricks. Pero, agregó, hay más por hacer.
Durante una mesa redonda en la cumbre, Martin Van Ryswyk, vicepresidente ejecutivo de ingeniería de DataStax, aconsejó a Wendell que pensara en la seguridad. «Cuando la gente quiere [an] empresa [version], quieren el tipo de características de carne y papas de una plataforma ”, dijo Van Ryswyk. «La funcionalidad innovadora realmente genial tiene que estar ahí, pero la quieren con un par de conceptos básicos: necesitas seguridad».
En más de un sentido. No solo la tecnología en sí misma debe ser segura, sino que el producto debe cumplir con el fin de evitar poner en peligro los trabajos de sus clientes empresariales. «Ellos están apostando su compañía por ti, y no puedes defraudarlos», dijo Van Ryswyk, «Tiene que estar arriba, tiene que estar disponible, tiene que ser económico».
Van Ryswyk sabe de lo que está hablando. Ha estado ayudando a que DataStax, un proveedor comercial del sistema de base de datos distribuida de código abierto Apache Cassandra, esté listo para la empresa. “Durante los últimos cinco años, hemos llevado a Cassandra de un proyecto de código abierto salvaje y lanoso a algo que se está utilizando en algunas de las empresas más grandes del mundo”, dijo Van Ryswyk. Los clientes de DataStax incluyen Netflix, Thomson Reuters, eBay e ING.
¿Un consejo práctico? Van Ryswyk dijo que prueban DataStax Enterprise en 1,000 nodos todos los días. “Bajo carga, tomando cargas dentro y fuera de un grupo, inyectando fallas”, dijo. «Ese es el tipo de cosas que las empresas van a hacer rápidamente». Puede respaldar la afirmación con su propia experiencia con la tecnología. Hace tres años, cuando se unió a DataStax, los clientes usaban clústeres de 30 a 40 nodos en promedio. Hoy en día, no es extraño que los clientes utilicen clústeres de 1000 nodos. “Eso sucede rápidamente a medida que te conviertes en una tecnología elegida. Tienes que estar preparado para ello ”, dijo.