Los investigadores de Google AI publicaron recientemente resultados tangibles del Proyecto Euphonia del gigante tecnológico para crear mejores herramientas impulsadas por la inteligencia artificial para comprender el habla deficiente.
En una publicación de blog del 13 de agosto, los investigadores notaron éxitos particulares que habían logrado en el trabajo con pacientes con ELA.
El aparente avance en el entrenamiento de la IA conversacional se produjo cuando los proveedores de tecnología hicieron grandes avances en el desarrollo de un procesamiento del lenguaje natural cada vez mejor (NLP), generación de lenguaje natural (NLG) y tecnologías y productos conversacionales a medida que la demanda de dichos productos se ha disparado.
Las empresas despliegan cada vez más chatbots y agentes conversacionales para aumentar las interacciones con los clientes, mejorar los esfuerzos de marketing y simplificar la consulta de datos, y los consumidores han comenzado a confiar en los asistentes de inteligencia artificial en sus teléfonos inteligentes y chatbots al otro lado de una línea de ayuda.
En los últimos meses, los principales proveedores de tecnología han publicado artículos de investigación y han afirmado haber realizado avances en las tecnologías NLP y NLG, así como en los métodos de entrenamiento de IA conversacional. Los esfuerzos de Google, IBM y otros demuestran la demanda de estas tecnologías y la naturaleza competitiva y acelerada de desarrollarlas.
Técnicas de entrenamiento de IA conversacional de IBM
IBM en octubre de 2018 publicó resultados, actualizados posteriormente en julio de 2019, de un nuevo conjunto de datos que un equipo de investigación de IBM creó para mejorar la capacidad de un agente conversacional para ofrecer sugerencias útiles dentro de un chat grupal que puede tener múltiples conversaciones a la vez.
Ahora, explicó Luis Lastras, miembro principal del personal de investigación y gerente senior de desarrollo de IBM Watson, los modelos de IA tienen problemas para procesar y responder con precisión a múltiples conversaciones.
«Por lo general, a los humanos les va bien a la hora de determinar cuándo la respuesta les importa o no, pero una máquina no tiene esa capacidad hoy», dijo Lastras, quien dirigió el equipo que redactó el artículo.
Luis LastrasMiembro principal del personal de investigación, IBM Watson
Para crear un agente conversacional que pudiera funcionar bien en una situación de chat grupal, el equipo tuvo que crear un conjunto de datos masivo, alrededor de treinta veces más grande que los conjuntos de datos típicos, para enseñar el modelo. El conjunto de datos, según el documento, contenía «77.563 mensajes anotados manualmente con gráficos de estructura de respuesta que desenredan las conversaciones y definen la estructura de la conversación interna».
Anotar manualmente esos datos consumía mucho tiempo, y Lastras dijo que no podía comentar si IBM comercializaría las técnicas de entrenamiento de IA conversacional.
Sin embargo, señaló que las empresas normalmente ya tienen suficientes datos necesarios para entrenar un modelo. El método de capacitación, continuó, podría volverse importante a medida que más empresas confíen en entornos de chat múltiple como Slack o Teams.
En un documento separado publicado en julio de 2019, el equipo de Lastras destacó un método de capacitación para sistemas de diálogo de extremo a extremo en centros de llamadas que usaría una combinación de agentes humanos y agentes de inteligencia artificial conversacionales para manejar mejor las preguntas de los clientes.
Un modelo construido tradicionalmente puede fallar o responder incorrectamente si un humano emite una respuesta en la que no ha sido capacitado, dijo Jatin Ganhotra, ingeniero de investigación de IBM Watson y autor del artículo.
El método de entrenamiento de IA conversacional propuesto por IBM haría que un agente humano interviniera cuando un modelo no puede entender una respuesta. El cliente obtendría entonces la respuesta correcta y el modelo aprendería de la respuesta del agente humano para el futuro.
Sin embargo, la premisa requiere que un agente humano siempre dé una respuesta correcta, lo que, según Ganhotra, no debería ser un problema para las empresas a gran escala.
Las empresas suelen mantener centros de llamadas que funcionan sin problemas y cuentan con empleados experimentados, dijo. Si un agente humano no puede responder con éxito a una pregunta de un cliente, generalmente se pasa a un supervisor y el modelo puede aprender del supervisor.
El método de entrenamiento de IA conversacional pone al cliente en primer lugar, dijo Ganhotra, asegurando que, ante todo, reciba la ayuda que necesita.
Google AI y ALS
Mientras tanto, para que los modelos de reconocimiento automático de voz de Google comprendan el habla alterada, los modelos se entrenan primero en miles de horas de habla no regionalizada y sin alteraciones, como se indica en la publicación del blog y en un artículo de investigación adjunto. Después del entrenamiento, los modelos se ajustan en un conjunto de datos personalizado mucho más pequeño utilizando redes neuronales especializadas.
En este caso, el conjunto de datos más pequeño, proporcionado a través de una asociación con el Instituto de Desarrollo de Terapia ALS, contenía 36 horas de habla de 67 oradores con ALS leyendo oraciones bastante simples. Los resultados, aunque tempranos, resultaron prometedores, dijo Google.
«Entrenamos modelos personalizados que logran una mejora relativa de WER (tasa de error de palabras) del 62% y 35% en estos dos grupos, lo que reduce el WER absoluto para los hablantes de ALS, en un conjunto de prueba de frases del banco de mensajes, al 10% para disartria leve y 20% para disartria más grave «, señala el documento. La disartria es un trastorno del habla causado por debilidad muscular, que pueden sufrir los pacientes con ELA.