Hace varios años, Uber descubrió que el descubrimiento de datos «era el mayor problema que enfrentaban nuestros usuarios» en las aplicaciones de análisis, según Atul Gupte, gerente de producto de las plataformas de análisis y ciencia de datos de la empresa de viajes compartidos. Una encuesta interna mostró que los científicos de datos y otros usuarios desperdician un promedio de tres horas por semana tratando de encontrar datos relevantes, dijo Gupte: «Eso es vergonzoso».
Las dificultades llevaron a Uber a crear Databook, un sistema de metadatos que funciona como un catálogo de datos. Enumera los conjuntos de datos disponibles y una variedad de información sobre ellos para ayudar a los usuarios a localizar y comprender los datos, dijo Gupte durante una sesión en la Conferencia Strata Data 2019 en Nueva York, donde la gestión de metadatos y las mejores prácticas del catálogo de datos fueron temas de gran discusión.
El equipo de plataformas de datos de la división Crop Science de Bayer AG dio un paso similar después de que los analistas de datos se quejaron de que buscar datos era demasiado complicado. Construyó un sistema llamado Haystack que incluye un catálogo de datos y un glosario empresarial con definiciones de datos. Más de 940.000 objetos de datos ahora se enumeran en el catálogo, dijo Naghman Waheed, líder de plataformas de datos de la unidad, en otra sesión de Strata.
Pero la catalogación de datos puede ser complicada en sí misma. La analista de Forrester Research, Michele Goetz, escribió en una publicación de blog de abril de 2019 que las organizaciones pueden necesitar dos o tres catálogos de datos para almacenar diferentes metadatos para diferentes usuarios. Y en un informe de septiembre de 2019, los analistas de Gartner Guido De Simoni y Ehtisham Zaidi recomendaron el uso de algoritmos de aprendizaje automático para automatizar el proceso de catalogación.
Este manual analiza más de cerca las mejores prácticas, desafíos y tendencias del catálogo de datos. En primer lugar, detallamos el asesoramiento sobre la creación y gestión de catálogos de datos. A continuación, el consultor Andy Hayler explica cómo el aprendizaje automático puede ayudar a los catálogos de datos. Terminamos explorando el concepto de un mercado de datos empresarial basado en software de catálogo de datos.