Krypton Solid

La última tecnología en raciones de 5 minutos

La tecnología de voz con IA tiene ventajas y limitaciones

Si bien el reconocimiento de voz y la tecnología de voz impulsados ​​por inteligencia artificial han cambiado la forma en que los consumidores interactúan con sus dispositivos y la forma en que las empresas capturan y procesan los datos de audio, las tecnologías aún tienen algunas limitaciones.

En particular, algunos reconocimiento de voz Las plataformas luchan por transcribir con precisión a hablantes con acentos fuertes o hablantes que conversan en un idioma que no sea el inglés. Si bien hay muchos productos en el mercado que funcionan bien en otros idiomas además del inglés, es raro que una sola plataforma funcione bien con varios idiomas.

Además, las plataformas generalmente tienen dificultades para comprender la intención del hablante, lo que limita la cantidad de automatización que un usuario puede realizar en un documento.

En esta sesión de preguntas y respuestas, Wilfried Schaffner, director de tecnología de Speech Processing Solutions (SPS), analizó algunas de estas limitaciones.

Si bien SPS no construye sus propios motores de reconocimiento de voz, sino que se basa en software de reconocimiento de voz de terceros, fabrica hardware, incluidos micrófonos con tecnología de inteligencia artificial y grabadoras de mano para capturar voz y software de flujo de trabajo de documentos.

La pandemia de COVID-19 ha provocado una pico en el uso de reconocimiento de voz y tecnología de voz a medida que las organizaciones aceleran los procesos de transformación digital, señaló Schaffner.

Particularmente, Schaffner dijo que ha visto a más personas en el cuidado de la salud recurrir a las tecnologías del habla, ya que sus agendas ya ocupadas se han vuelto más ocupadas.

Entonces, quizás ahora, más que nunca, es importante que las organizaciones comprendan los beneficios y las limitaciones de las tecnologías de voz.

¿Cuáles cree que son las limitaciones actuales de la inteligencia artificial y la tecnología de voz para las empresas?

Wilfried Schaffner, director de tecnología de Speech Processing SolutionsWilfried Schaffner

Wilfried Schaffner: En primer lugar, diría que mire el área del consumidor. El reconocimiento de voz es enorme con productos como Google Home y Alexa. Pero piensa en cuando hablas con Alexa. Regularmente tienes una situación en la que Alexa simplemente no te entiende. En entornos profesionales, el 90% de precisión no es suficiente. Para realmente tener un impacto comercial, necesita más del 90% de confiabilidad. Vemos la necesidad de una fiabilidad del 98% en nuestros estudios.

Si construye un servicio como negocio en el que le gustaría optimizar y reducir el tiempo, no quiere trabajar [on the transcription after it has been transcribed]. Lo que veo como una limitación es la calidad. Por un lado, la calidad está determinada por el motor de reconocimiento de voz real. Por otro lado, necesita obtener los micrófonos y el hardware adecuados, ya que marcan una gran diferencia. Una vez que la confiabilidad mejore, las deliberaciones desaparecerán cada vez más.

Estoy bastante seguro de que esto es lo que está sucediendo ahora mismo. Creo que estamos proporcionando mejores micrófonos; estamos proporcionando mejores algoritmos y mejores funcionalidades de cancelación de ruido, y eso debería ayudar a mejorar realmente la tasa de reconocimiento de un motor de reconocimiento de voz.

Parece que muchos proveedores de reconocimiento de voz luchan por reconocer con precisión otros idiomas además del inglés, o alguien que habla con un acento fuerte. ¿Ve esto como un problema al que se enfrentan las empresas?

Schaffner: Seguro. Sabes, hay dos tipos de IA. Una versión de AI es un modelo entrenado; funciona de la forma en que está entrenado. Luego hay soluciones de inteligencia artificial más avanzadas que realmente se entrenan aprendiendo el texto. Cuando corrige el texto, tiene un ciclo de aprendizaje allí. Entonces, hay soluciones realmente buenas que ya pueden aprender acentos.

En entornos profesionales, el 90% de precisión no es suficiente.

Wilfried SchaffnerCTO, Soluciones de procesamiento de voz

Entonces, creo que es solo cuestión de tiempo [until this isn’t a problem anymore]. Pero actualmente está bastante fragmentado, diría yo, debido a los diferentes idiomas que existen. En lugar de un motor que puede reconocer todos los idiomas, vemos muchos motores apareciendo en los mercados. [targeting specific languages]. Vemos muchos motores apareciendo en el Medio Oriente.

¿Qué están haciendo las empresas con todo su audio grabado? Algunas empresas parecen tener dificultades para almacenar sus conversaciones grabadas. ¿Cuáles son tus pensamientos?

Schaffner: Seguro. Es por eso que necesitamos unir a las empresas con software de última generación.

En áreas médicas, legales o de seguros, en las que trabajamos mucho, esto es bastante común, ya que tienen muchas grabaciones. Es por eso que tenemos soluciones de flujo de trabajo donde usted coloca todas las grabaciones y las procesa y almacena en el lugar correcto. . Pero luego tienes que decidir qué hacer con la grabación. Guardaste la grabación, pero ¿puedes comprender la intención de la grabación? Aquí es donde la IA tiene que volverse mucho más fuerte, porque la intención es útil, no solo la grabación. Pero eso es todo un proceso. Para este problema que acaba de mencionar, existen suficientes soluciones estándar para procesar realmente toda la pila de grabaciones.

Mencionaste intención. La IA aún necesita avanzar un largo camino para capturar adecuadamente la intención.

Schaffner: Tienes razón, es mucho trabajo. Pero también creo que nosotros, como muchas cosas en la vida, no deberíamos apuntar a la luna de inmediato. Creo que es paso a paso.

Podrías transcribir una letra de audio en una letra de texto, pero ¿qué haces con ella? Aún necesita guardarlo para un cliente determinado. Tienes que hacer clic en tu CRM [customer relationship management] sistema y busque el cliente adecuado, y eso requiere cuatro, cinco o seis clics. Agrega 30 segundos, 80 segundos, lo que sea, hasta que lo tengas guardado. Entonces, intentamos resolver pequeñas intenciones al comienzo del proceso. La solución puede escuchar la carta, determinar quién es el cliente, encontrar al cliente en el sistema CRM y adjuntar la grabación al cliente correcto. Este es el punto de partida de donde estamos. Pero tiene razón, en este momento, tener un sistema que pueda automatizar completamente todas sus intenciones es un poco inverosímil. Ahora mismo, se trata de empezar por el principio.

¿Qué industrias utilizan más actualmente la inteligencia artificial y la tecnología de voz?

Schaffner: Como mencioné antes, existen los mercados médico y legal, y son los dos principales usuarios. Si nos fijamos en Nuance, que es líder del mercado en software de reconocimiento de voz, esos son los dos mercados a los que sirven, prácticamente. El más grande después de eso es el seguro y luego la aplicación de la ley.

Recientemente construimos un nuevo micrófono basado en IA que es capaz de separar dos altavoces. Piense en una situación médico-paciente, donde el médico está hablando con el paciente, luego se da la vuelta y dicta en un micrófono el texto que quiere transcribir. Pero, ¿por qué no grabar la conversación entre el paciente y el médico? ¿Por qué no hacer que la IA procese la conversación y cree un texto?

El gran problema es que la conversación no se graba. Mira, es bastante difícil, incluso para un humano, separar dos hablantes cuando dos personas hablan al mismo tiempo. Creamos un producto con una variedad especial de micrófonos e inteligencia artificial que es capaz de separar dos altavoces, incluso cuando hablan al mismo tiempo. La separación se realiza con una calidad que permite que el software de reconocimiento de voz procese ambos flujos. Actualmente, solo podemos separar dos altavoces, pero estamos trabajando en más.

Lo que esto significa es que [technology like this] puede abrir un nuevo segmento enorme de usuarios, porque, de repente, puede documentar las conversaciones. Esto es necesario en los seguros, para capturar a un agente de seguros que vende algo, o en la industria financiera, para capturar a un asesor financiero que brinde consejos para que pueda documentar los consejos que le dan, porque tal vez sea un consejo incorrecto. Hay un segmento enorme que se abre con el poder de la IA, con poder computacional adicional, donde podemos grabar conversaciones. Creo que este es un mercado adicional enorme.

Nota del editor: Esta entrevista ha sido editada para mayor claridad y concisión.

Deja un comentario

También te puede interesar...

S’pore: la segunda persona encargada de tocar Wi-Fi

SINGAPUR – Una segunda persona del estado insular ha sido procesada por acceso ilegal a redes Wi-Fi personales no seguras. Según los medios locales, Lin Zhenghuang, de 21 años, está acusado de utilizar la conexión

Una introducción al examen CCIM

¿Qué es el título de Miembro Certificado de Inversión Comercial (CCIM)? La designación de Miembro Certificado de Inversión Comercial (CCIM) reconoce a los expertos en la industria de bienes raíces comerciales y de inversión. Los

Novedades de Netflix: 23 de diciembre de 2018

A medida que nos acercamos más y más a la Navidad, estamos aquí para ayudarte a elegir las novedades de Netflix para hoy. Aquí hay una mirada detallada a los nuevos lanzamientos de Netflix para

Optus lanza el plan de consumo para pymes de Blackberry

Optus lanzó hoy un paquete para el mercado de consumidores y pequeñas empresas que combina una oferta de correo electrónico inalámbrico Blackberry con mensajería de voz y de texto móvil. La nueva oferta incluye Blackberry

Cómics de la semana # 262

Cómics de la semana # 262 Cada semana presentamos un conjunto de cómics creados exclusivamente para WDD. El contenido gira en torno al diseño web, los blogs y las situaciones divertidas que encontramos en nuestra

Definición de cobertura

¿Qué es un seto? La cobertura es una inversión que se realiza con la intención de reducir el riesgo de movimientos adversos en el precio de los activos. Normalmente, una cobertura consiste en tomar una

Descubriendo el valor de IoT con lagos de datos

La gran cantidad de dispositivos conectados a Internet ha provocado una explosión de crecimiento de datos. La tecnología de IoT ha permitido la comunicación entre humanos, dispositivos y sistemas como un elemento fundamental para la

Cómo protegerse del phishing de Poste Italiane

En las últimas dos semanas, ha estado recibiendo correos electrónicos «extraños» de correo italiano, la empresa que se ocupa del servicio postal en Italia. Estos mensajes le informan que su cuenta de Banco Posta y/o

Ansiedad de código abierto: miedo a bifurcar

Entre algunos desarrolladores de código abierto, la bifurcación equivale al final de las raíces comunes del árbol de desarrollo de código. Para otros, es solo una parte inevitable del proceso de crecimiento. Entonces, cuando el

Instagram se deshace de los mapas de fotos

Los mapas de fotos de Instagram, que mostraban las fotos que tomaste dependiendo de dónde las tomaste, desaparecen. Empresa confirmado en Mashable hoy dia que comenzó a eliminar mapas del trabajo. «El mapa de fotos

Microsoft: los cuatro elefantes en la habitación

Los resultados fiscales del tercer trimestre de Microsoft se notarán en cuatro frentes: posibles despidos, el impacto en la débil demanda de PC, el efecto de las netbooks y cómo Windows 7 puede afectar el

¿Qué empresas salieron victoriosas?

el entusiasmo de los inversores por la industria legal de la marihuana continúa creciendo. En los últimos meses, y especialmente después de la decisión de Canadá de legalizar el uso de la marihuana recreativa para

Los beneficios de implementar RPA en finanzas

Muchas actividades en el departamento de finanzas de una organización son manuales y requieren mucho tiempo, incluida la ejecución de procesos, la extracción de datos, la creación de informes y la resolución de problemas que