La desambiguación (también denominada desambiguación del sentido de la palabra o desambiguación del texto) es el acto de interpretar el uso previsto por el autor de una palabra que tiene múltiples significados o grafías.
Dado que la desambiguación puede incluso ser una tarea difícil para los humanos, es comprensible que las computadoras también tengan algunos problemas. Para programas como las aplicaciones de transcripción médica, que transcriben el lenguaje hablado al lenguaje escrito, o las tecnologías de asistencia que traducen el texto mecanografiado en habla artificial, las palabras que tienen diferentes significados y ortografías pueden ser un desafío. Hay dos métodos populares para abordar la desambiguación: el método superficial y el método profundo.
El método superficial, que utiliza palabras cercanas para determinar cuál es el significado deseado, es el método más utilizado. Aunque es bastante preciso, no siempre se puede confiar en este método, especialmente si hay varias palabras en el mismo documento que tienen diferentes significados. Aún así, este método es el más fácil de implementar.
El método profundo profundiza en los significados de las palabras, extrayendo léxicos de diccionarios y tesauros para determinar todas las posibilidades del significado de una palabra. Aunque este es un método más preciso para eliminar la desambiguación, es muy difícil, principalmente porque es difícil crear una base de datos lo suficientemente completa para realizar la tarea con un alto grado de precisión. Cuando se utiliza una base de datos más pequeña y menos completa, es probable que los resultados sean menos precisos.
Los algoritmos también son útiles para la desambiguación de texto. Se pueden diseñar sofisticados algoritmos de inteligencia artificial para buscar oraciones circundantes, o incluso documentos completos, para encontrar palabras que puedan indicar cuál es el significado previsto de una palabra en particular. Dado que la mayoría de las palabras suelen tener un significado en un documento determinado, este suele ser un método razonablemente preciso.
Si bien no es una tarea fácil, la desambiguación es esencial para todo el procesamiento del lenguaje. Cualquier software que utilice reconocimiento de voz o conversión de texto a voz, por ejemplo, debe emplear algún tipo de estrategia de eliminación de ambigüedades para obtener resultados precisos. La desambiguación también es crucial en el análisis de datos no estructurados, como los generados en correos electrónicos, documentos, mensajes instantáneos y clientes de Twitter.
Ver también: extracción de textos