Los empleados que confían en las herramientas de análisis y BI de autoservicio para tomar decisiones comerciales basadas en datos necesitan acceso a una gran cantidad de datos, pero normalmente no se les permite simplemente extraer datos sin procesar de un lago de datos u otro repositorio; los datos que utilizan deben estar gobernados y seleccionados para garantizar que sean precisos y apropiados para los usos previstos. Ahí es donde entra el software de catálogo de datos.
Un catálogo de datos es un tipo de sistema de gestión de metadatos diseñado para ser lo suficientemente fácil de usar para el usuario empresarial medio. Los catálogos de datos permiten a las organizaciones crear portales en los que los usuarios finales, incluidos los científicos y analistas de datos, pueden encontrar datos que han sido seleccionados para ellos por administradores de datos u otros profesionales de datos.
Los catálogos pueden contener datos de sistemas de big data y almacenes de datos tradicionales, bases de datos y sistemas de BI. Lo clasifican en términos que los usuarios comerciales pueden comprender y proporcionar contexto en torno a los datos para que puedan usarse correctamente en aplicaciones de análisis. También incluyen información sobre políticas de gobierno de datos y mecanismos automatizados de aplicación de políticas para ayudar a los administradores de datos y gerentes de gobierno a asegurarse de que no se acceda a los datos de un catálogo de forma incorrecta o se utilice de forma incorrecta.
Las herramientas de catalogación tienen una gran demanda a medida que las empresas luchan cada vez más por inventariar todos los datos que crean y recopilan, así como para cumplir con las nuevas reglas de privacidad y protección de datos que han hecho que la gobernanza efectiva del uso de datos sea aún más importante. En particular, eso incluye los mandatos de GDPR de la Unión Europea y la Ley de Privacidad del Consumidor de California.
La firma de analistas Gartner recomienda el uso de software de catálogo de datos para mantener y curar inventarios de activos de datos disponibles y para mapear las cadenas de suministro de información tanto para los usuarios de análisis como para los propios administradores de datos. Estas herramientas son ahora un componente esencial de las estrategias de gestión de datos corporativos, según Gartner.
Cómo funciona el software de catálogo de datos
Sharon Graves, evangelista de datos empresariales y herramientas de BI del gigante de alojamiento web GoDaddy, implementó el software de catálogo de datos de Alation Inc. en 2015 para reducir el tiempo que los usuarios de análisis dedican a buscar los datos correctos en los sistemas de la empresa y asegurarse de que los datos a los que acceden tienen ha sido examinado por administradores de datos.
«Hay un problema en el que tenemos usuarios que no saben nada sobre qué fuente de datos usar o dónde encontrar los datos. Necesitábamos señalar a los usuarios una herramienta», dijo. «Queríamos que nuestros analistas pasaran su tiempo haciendo análisis, y queríamos ayudar a los usuarios finales a realizar gráficos y tablas cruzadas simples».
El catálogo de datos extrae metadatos de varios sistemas (Hadoop, Amazon Redshift, Apache Hive, Tableau Server, Teradata y otras fuentes) y lo reúne todo en un portal donde los usuarios pueden buscar datos relevantes. El catálogo clasifica los datos en función de una serie de factores, incluido si un administrador de datos los ha respaldado para su uso en ciertas aplicaciones y por su popularidad entre los usuarios, una función que los expertos en datos pueden manipular para que aparezcan primero los datos correctos. Dijo Graves. Los equipos de datos también pueden crear conjuntos de datos unificados o empaquetados que se encargan de las uniones de datos para los usuarios en el catálogo, agregó.
Características y proveedores del catálogo de datos
Las capacidades tradicionales de gestión de metadatos son el núcleo del software de catálogo de datos. Además del inventario de datos indexados, estas características incluyen glosarios comerciales, que contienen definiciones de términos comerciales que se pueden asignar a activos de datos específicos, y documentación de linaje de datos que ayuda a los usuarios finales a comprender los datos y respalda el análisis de la causa raíz y el análisis de impacto: dos funciones clave para los administradores de datos como parte del gobierno de datos y las iniciativas de calidad de datos.
Las herramientas modernas de catálogo de datos combinan esas capacidades básicas con características avanzadas, como extracción de temas autogenerada, generación de taxonomía, descubrimiento semántico, gráficos de conocimiento y catalogación automatizada y mapeo de patrones impulsado por aprendizaje automático, según Gartner. En un informe de septiembre de 2019, los analistas de Gartner Guido De Simoni y Ehtisham Zaidi dijeron que los llamados catálogos de datos aumentados se han convertido en «una empresa imprescindible» para los equipos de análisis y gestión de datos que se enfrentan a conjuntos de datos cada vez más distribuidos y diversos.
Otras características comunes del catálogo de datos incluyen la integración incorporada con plataformas de datos ampliamente utilizadas, funciones de búsqueda para consultar el contenido de un catálogo y herramientas de colaboración que permiten a los usuarios anotar entradas del catálogo y conversar entre sí. En general, los catálogos de datos permiten a las empresas obtener el máximo valor de los datos que se encuentran en los almacenes de datos, lagos de datos y otros repositorios al facilitar su búsqueda y aplicación en aplicaciones de análisis empresarial y ciencia de datos.
Además de Alation, otros proveedores que ofrecen software de catálogo de datos como productos independientes o como parte de sus plataformas de gestión de metadatos y gobierno de datos incluyen Ataccama, Alteryx, AWS, Boomi, Cambridge Semantics, Collibra, Data.world, Erwin, Google. , IBM, Infogix, Informatica, Microsoft, Oracle, Reltio, SAP, Talend y Waterline Data.