Krypton Solid

La última tecnología en raciones de 5 minutos

La simplicidad y complejidad de la estandarización de nombres de personas

Este artículo apareció originalmente en BeyeNETWORK.

El proceso de consolidación de datos de nombres requiere una resolución de identidad: la capacidad de evaluar el grado de similitud entre dos registros y determinar si cumplen o superan el umbral de presunción de coincidencia. Generalmente, antes del paso de resolución de identidad, sin embargo, el analista de datos puede mejorar la coincidencia estandarizando los valores de datos utilizados como criterios de coincidencia dentro de todos los registros en un formato común. Este proceso de estandarización alinea los valores de los datos de una manera que simplifica los algoritmos de coincidencia.

Un ejemplo sencillo que utiliza datos de personas implica un algoritmo de coincidencia que busca coincidencias exactas en el campo de apellido. La búsqueda de duplicados dentro del conjunto de registros requeriría comparar todos los registros con todos los demás registros. Una estandarización que podría aplicarse a este conjunto de datos sería ordenar los registros por apellido, imponiendo así un orden tal que solo los registros que están ordenados en el mismo «vecindario» en el orden lexicográfico deban compararse (es decir, sin nombre que comienza con una «A» coincidiría con un nombre que comienza con una «S»). La clasificación es una estandarización típica aplicada a un conjunto de datos para simplificar el proceso de consolidación de datos.

Sin embargo, existen muchos tipos diferentes de estandarizaciones que se pueden aplicar a los datos, especialmente a los datos individuales. Un problema que aparece una y otra vez es el concepto de la necesidad de dar sentido a los datos de nombres semiestructurados, y podemos centrarnos específicamente en los formatos de nombres utilizados en los Estados Unidos como un buen ejemplo. Las estructuras de nombres típicas contienen diferentes componentes, el mínimo generalmente contiene un nombre y un apellido. Podemos abstraer ese concepto en dos nombres tokens que aparecen dentro de un nombre individual, que a menudo aparecen en las bases de datos utilizando alguna variante de estos apodos de atributo típicos: «nombre» y «apellido».

La práctica en constante evolución de nombrar a los niños conduce a la introducción de nombres de pila adicionales, a menudo ordenados en el contexto de uso o importancia. Esto significa que un nombre puede contener más de un nombre o un nombre. La suposición de que todos tienen un nombre de pila y un segundo nombre de pila conduce a que a menudo se haga referencia a ese segundo nombre como un «segundo nombre», que es otro nombre de atributo frecuente que aparece en muchas bases de datos. Sin embargo, el segundo nombre, en virtud de que no es un apellido, es de hecho solo un nombre adicional, pero probablemente no sea el nombre preferido por el que la persona quiere ser llamada.

Conmigo hasta ahora? Bueno, bien. Hagámoslo más fácil para nosotros y hagamos referencia a estos componentes de nombre usando nombres de token. Llamaremos a un nombre primero y un apellido a ultimo. Podemos llamar a un segundo nombre medio, pero como es solo otro nombre, vamos a referirnos a él (también) como un primero. Entonces ahora tenemos algunos patrones para los nombres:

  • primero último
  • primero primero último

Algunas personas tienen más de un segundo nombre, lo que significa que, de hecho, es posible que necesitemos formatos adicionales, como:

¿Qué hay de esas personas que solo usan iniciales? Necesitaremos un nuevo token: inicial; y eso nos proporciona algunos patrones más que son derivados de nuestro primer conjunto de patrones:

  • inicial último
  • primera inicial ultima
  • inicial primero último
  • inicial inicial ultimo
  • primer inicial inicial ultimo
  • primero primero inicial último
  • primero inicial primero último
  • inicial primero primero último
  • inicial inicial primero ultimo
  • inicial primero inicial último
  • inicial inicial inicial ultimo

En realidad, a veces las personas tienen más de un apellido, ya sea con guiones o no, por lo que podríamos agregar a esa lista de patrones un montón de versiones con múltiples apellidos. De hecho, podríamos seguir un rato con estas ideas, pero introduzcamos algo más de complejidad. A veces, una persona le da a su hijo el mismo nombre que tiene; distinguir a esas personas se hace mediante el uso de una adición al nombre, como «Jr.» o «Sr.» Cuando hay muchas generaciones de personas vivas con el mismo nombre, comienzan a usar números para distinguir: «II», «III», «IV», etc. También podemos darles un nombre a estas fichas: generacional. Así que ahora podemos tomar cada uno de nuestros patrones de nombres y luego insertar un generacional en algún lugar dentro del patrón: ¡date cuenta de que el generacional no siempre aparece al final!

Les evitaré tener que leer las innumerables variantes de patrones que incluyen un token generacional, porque voy a presentar algunos tokens nuevos:

  • título – esto incluye el título general utilizado como parte de la etiqueta («Sr.», «Sra.», Etc.), así como títulos honoríficos (ejemplos: «Doctor», «Profesor», «Señor») y títulos obtenidos (» General ”,“ El Honorable ”,“ El Reverendísimo ”, etc.)
  • prefijo – esto incluye los componentes del nombre que podrían no agregar significado al proceso de comparación («Da», «Di», «Von», etc.).
  • sufijo – cadenas de nombres adicionales que no forman parte de un nombre pero que pueden estar asociadas con el logro («PHD», «ESQ», «RN», etc.)

Ahora hay una lista de siete tipos de token de nombre (último, primero, inicial, generacional, título, sufijo, prefijo); y aunque puede haber una expectativa de un orden de estos tokens dentro de una cadena de nombre, resulta que existe una amplia variación en las formas en que estos componentes aparecen dentro de una cadena. A veces, un registro tendrá atributos separados para cada uno, pero otras situaciones tendrán la cadena de nombre completa dentro de un solo elemento de datos. Por lo tanto, un estandarizador de nombres debe ser capaz de reconocer los diferentes tipos de cadenas de valores que pueden clasificarse como uno de estos tipos de categorías de tokens de nombre y luego reordenar los componentes del nombre en un formato normalizado que luego sea adecuado para las siguientes fases de coincidencia.

De hecho, eso no es todo. A veces, una cadena de nombre contiene más de una persona; si alguna vez ha mirado la información de la cuenta bancaria, verá varios nombres asociados con una sola cuenta, como «Sr. y la Sra. John Smith «. El estandarizador de nombres ahora también debe reconocer las conjunciones dentro de las cadenas de nombres y luego diferenciar los dos componentes: “Sr. John Smith ”y“ Sra. John Smith.» Ahora necesitamos patrones que incluyan conjunciones, así como la capacidad de estandarizar más de un nombre de un solo registro.

En realidad, lo que parece relativamente simple termina siendo bastante complejo, y aún no hemos llegado a la parte de resolución de identidad. La estandarización de nombres implica la capacidad de reconocer los muchos componentes de nombres diferentes en muchos formatos y patrones diferentes y luego la capacidad de extraer las cadenas correspondientes y reorganizarlas en un formato adecuado para las siguientes fases de parcheo. De hecho, uno de nuestros proyectos actuales emplea más de 850 patrones diferentes, y eso es únicamente para nombres individuales; los nombres corporativos u organizacionales ni siquiera se mencionan en este conjunto de patrones. Y recuerde, comenzamos mirando solo los formatos de nombres comunes en los Estados Unidos: varias culturas en todo el mundo tienen diferentes protocolos y expectativas para los nombres. En algunos países, el apellido es lo primero, seguido del nombre de pila; en otros, hay un solo nombre, compuesto por un nombre de pila y un apellido. Es este tipo de complejidad asociada con la simple tarea de nombrar lo que proporciona el primero (de muchos) desafíos asociados con la integración de registros de datos individuales.

David Loshin

David es el presidente de Knowledge Integrity, Inc., una empresa de consultoría y desarrollo que se centra en soluciones personalizadas de gestión de la información que incluyen consultoría en soluciones de calidad de la información, formación en calidad de la información y soluciones de reglas comerciales. Loshin es el autor de La guía del profesional para la mejora de la calidad de los datos, Gestión de datos maestros, Gestión del conocimiento empresarial:El enfoque de la calidad de los datos y Inteligencia de negocios: La guía del administrador inteligente. Habla con frecuencia sobre cómo maximizar el valor de la información. Puede contactar a David en [email protected] o al (301) 754-6350.

Deja un comentario

También te puede interesar...

Cómo habilitar la carga inalámbrica

Pensando en comprar una nueva oficina y entre las muchas vistas hasta ahora, has visto algunas con base de carga inalámbrica integrado. Esta solución te intriga mucho, ya que te gustaría recargar tu smartphone simplemente

Singing Spring for Business en Dreamforce

Pensé en mi punto de vista sobre todo este meme de la «primavera de los negocios» que el director ejecutivo de Salesforce.com, Marc Benioff, estaba promocionando en Dreamforce. [disclosure: Salesforce.com is a client and funded

Acuerdo NBN-Telstra «en casa»

El director ejecutivo de NBN Co., Bill Morrow, sigue siendo optimista de que la empresa concluirá las negociaciones con Telstra sobre el acceso a sus líneas de fibra de cobre al nodo antes de finales

Cómo identificar estafas de criptomonedas e ICO

Cada mes se lanzan docenas de nuevas criptomonedas, y junto con estos nuevos tokens y monedas viene una serie de ofertas iniciales de monedas (ICO). El apetito de un gran grupo de inversores por estas

El árbol Merkle

¿Qué es un árbol de Merkle? Un árbol de Merkle es una estructura de datos que se utiliza en aplicaciones informáticas. En bitcoin y otras criptomonedas, los árboles de Merkle se utilizan para cifrar los

¿La nueva era de los ferrocarriles? | Krypton Solid

¿Se educarán los estadounidenses? Europa y Japón tienen desde hace mucho tiempo sistemas ferroviarios de alta velocidad que conectan áreas metropolitanas importantes. ¿Puede Estados Unidos redescubrir los rieles o estamos demasiado enamorados de las sondas

Descarga gratuita: Fuente Resphekt

Descarga gratuita: Fuente Resphekt Todos los tipos de letra imbuyen su contenido de personalidad, y eso nunca es más cierto que para los tipos de letra script. La importancia de un amplio suministro de fuentes

Las 4 mejores aplicaciones para operadores de divisas

A los comerciantes de divisas activos les gusta tener acceso a sus noticias de mercado, cotizaciones, gráficos y cuentas comerciales a la mano en cualquier momento. Esto ha hecho que el software para teléfonos inteligentes

Qué buscar en una casa

Aquellos que compran una casa por primera vez tienen mucho que ver con sus habilidades para comprar una casa. Después de todo, es probablemente una de las compras más caras que harán en su vida.

Xiaomi Mi 6 intentará adivinar tu sexo y edad

El nuevo teléfono insignia de Xiaomi, Mi 6, se lanzó en abril con las mejores especificaciones, como el procesador Snapdragon 835, 6 GB de RAM, una pantalla de 5,15 pulgadas y un sistema de cámara

Programa de solución de problemas (TARP)

¿Qué fue el Programa de Reducción de Activos Problemáticos (TARP)? El programa Troubled Asset Relief (TARP) fue una iniciativa creada y dirigida por el Tesoro de los EE. UU. para estabilizar el sistema financiero del

La PC está muerta, entonces la PC está viva

Imagen: iStock «Creo que si miras una computadora, ¿por qué comprarías otra computadora? ¿Por qué no compra uno? ”, Preguntó Tim Cook, CEO de Apple, en Londres antes de lanzar el nuevo gran modelo de