Este artículo apareció originalmente en BeyeNETWORK.
El proceso de consolidación de datos de nombres requiere una resolución de identidad: la capacidad de evaluar el grado de similitud entre dos registros y determinar si cumplen o superan el umbral de presunción de coincidencia. Generalmente, antes del paso de resolución de identidad, sin embargo, el analista de datos puede mejorar la coincidencia estandarizando los valores de datos utilizados como criterios de coincidencia dentro de todos los registros en un formato común. Este proceso de estandarización alinea los valores de los datos de una manera que simplifica los algoritmos de coincidencia.
Un ejemplo sencillo que utiliza datos de personas implica un algoritmo de coincidencia que busca coincidencias exactas en el campo de apellido. La búsqueda de duplicados dentro del conjunto de registros requeriría comparar todos los registros con todos los demás registros. Una estandarización que podría aplicarse a este conjunto de datos sería ordenar los registros por apellido, imponiendo así un orden tal que solo los registros que están ordenados en el mismo «vecindario» en el orden lexicográfico deban compararse (es decir, sin nombre que comienza con una «A» coincidiría con un nombre que comienza con una «S»). La clasificación es una estandarización típica aplicada a un conjunto de datos para simplificar el proceso de consolidación de datos.
Sin embargo, existen muchos tipos diferentes de estandarizaciones que se pueden aplicar a los datos, especialmente a los datos individuales. Un problema que aparece una y otra vez es el concepto de la necesidad de dar sentido a los datos de nombres semiestructurados, y podemos centrarnos específicamente en los formatos de nombres utilizados en los Estados Unidos como un buen ejemplo. Las estructuras de nombres típicas contienen diferentes componentes, el mínimo generalmente contiene un nombre y un apellido. Podemos abstraer ese concepto en dos nombres tokens que aparecen dentro de un nombre individual, que a menudo aparecen en las bases de datos utilizando alguna variante de estos apodos de atributo típicos: «nombre» y «apellido».
La práctica en constante evolución de nombrar a los niños conduce a la introducción de nombres de pila adicionales, a menudo ordenados en el contexto de uso o importancia. Esto significa que un nombre puede contener más de un nombre o un nombre. La suposición de que todos tienen un nombre de pila y un segundo nombre de pila conduce a que a menudo se haga referencia a ese segundo nombre como un «segundo nombre», que es otro nombre de atributo frecuente que aparece en muchas bases de datos. Sin embargo, el segundo nombre, en virtud de que no es un apellido, es de hecho solo un nombre adicional, pero probablemente no sea el nombre preferido por el que la persona quiere ser llamada.
Conmigo hasta ahora? Bueno, bien. Hagámoslo más fácil para nosotros y hagamos referencia a estos componentes de nombre usando nombres de token. Llamaremos a un nombre primero y un apellido a ultimo. Podemos llamar a un segundo nombre medio, pero como es solo otro nombre, vamos a referirnos a él (también) como un primero. Entonces ahora tenemos algunos patrones para los nombres:
- primero último
- primero primero último
Algunas personas tienen más de un segundo nombre, lo que significa que, de hecho, es posible que necesitemos formatos adicionales, como:
¿Qué hay de esas personas que solo usan iniciales? Necesitaremos un nuevo token: inicial; y eso nos proporciona algunos patrones más que son derivados de nuestro primer conjunto de patrones:
- inicial último
- primera inicial ultima
- inicial primero último
- inicial inicial ultimo
- primer inicial inicial ultimo
- primero primero inicial último
- primero inicial primero último
- inicial primero primero último
- inicial inicial primero ultimo
- inicial primero inicial último
- inicial inicial inicial ultimo
En realidad, a veces las personas tienen más de un apellido, ya sea con guiones o no, por lo que podríamos agregar a esa lista de patrones un montón de versiones con múltiples apellidos. De hecho, podríamos seguir un rato con estas ideas, pero introduzcamos algo más de complejidad. A veces, una persona le da a su hijo el mismo nombre que tiene; distinguir a esas personas se hace mediante el uso de una adición al nombre, como «Jr.» o «Sr.» Cuando hay muchas generaciones de personas vivas con el mismo nombre, comienzan a usar números para distinguir: «II», «III», «IV», etc. También podemos darles un nombre a estas fichas: generacional. Así que ahora podemos tomar cada uno de nuestros patrones de nombres y luego insertar un generacional en algún lugar dentro del patrón: ¡date cuenta de que el generacional no siempre aparece al final!
Les evitaré tener que leer las innumerables variantes de patrones que incluyen un token generacional, porque voy a presentar algunos tokens nuevos:
- título – esto incluye el título general utilizado como parte de la etiqueta («Sr.», «Sra.», Etc.), así como títulos honoríficos (ejemplos: «Doctor», «Profesor», «Señor») y títulos obtenidos (» General ”,“ El Honorable ”,“ El Reverendísimo ”, etc.)
- prefijo – esto incluye los componentes del nombre que podrían no agregar significado al proceso de comparación («Da», «Di», «Von», etc.).
- sufijo – cadenas de nombres adicionales que no forman parte de un nombre pero que pueden estar asociadas con el logro («PHD», «ESQ», «RN», etc.)
Ahora hay una lista de siete tipos de token de nombre (último, primero, inicial, generacional, título, sufijo, prefijo); y aunque puede haber una expectativa de un orden de estos tokens dentro de una cadena de nombre, resulta que existe una amplia variación en las formas en que estos componentes aparecen dentro de una cadena. A veces, un registro tendrá atributos separados para cada uno, pero otras situaciones tendrán la cadena de nombre completa dentro de un solo elemento de datos. Por lo tanto, un estandarizador de nombres debe ser capaz de reconocer los diferentes tipos de cadenas de valores que pueden clasificarse como uno de estos tipos de categorías de tokens de nombre y luego reordenar los componentes del nombre en un formato normalizado que luego sea adecuado para las siguientes fases de coincidencia.
De hecho, eso no es todo. A veces, una cadena de nombre contiene más de una persona; si alguna vez ha mirado la información de la cuenta bancaria, verá varios nombres asociados con una sola cuenta, como «Sr. y la Sra. John Smith «. El estandarizador de nombres ahora también debe reconocer las conjunciones dentro de las cadenas de nombres y luego diferenciar los dos componentes: “Sr. John Smith ”y“ Sra. John Smith.» Ahora necesitamos patrones que incluyan conjunciones, así como la capacidad de estandarizar más de un nombre de un solo registro.
En realidad, lo que parece relativamente simple termina siendo bastante complejo, y aún no hemos llegado a la parte de resolución de identidad. La estandarización de nombres implica la capacidad de reconocer los muchos componentes de nombres diferentes en muchos formatos y patrones diferentes y luego la capacidad de extraer las cadenas correspondientes y reorganizarlas en un formato adecuado para las siguientes fases de parcheo. De hecho, uno de nuestros proyectos actuales emplea más de 850 patrones diferentes, y eso es únicamente para nombres individuales; los nombres corporativos u organizacionales ni siquiera se mencionan en este conjunto de patrones. Y recuerde, comenzamos mirando solo los formatos de nombres comunes en los Estados Unidos: varias culturas en todo el mundo tienen diferentes protocolos y expectativas para los nombres. En algunos países, el apellido es lo primero, seguido del nombre de pila; en otros, hay un solo nombre, compuesto por un nombre de pila y un apellido. Es este tipo de complejidad asociada con la simple tarea de nombrar lo que proporciona el primero (de muchos) desafíos asociados con la integración de registros de datos individuales.
David Loshin
David es el presidente de Knowledge Integrity, Inc., una empresa de consultoría y desarrollo que se centra en soluciones personalizadas de gestión de la información que incluyen consultoría en soluciones de calidad de la información, formación en calidad de la información y soluciones de reglas comerciales. Loshin es el autor de La guía del profesional para la mejora de la calidad de los datos, Gestión de datos maestros, Gestión del conocimiento empresarial:El enfoque de la calidad de los datos y Inteligencia de negocios: La guía del administrador inteligente. Habla con frecuencia sobre cómo maximizar el valor de la información. Puede contactar a David en [email protected] o al (301) 754-6350.