Krypton Solid

La última tecnología en raciones de 5 minutos

Todos los beneficios de la tecnología de asistente de voz aún no se han realizado

Los dispositivos habilitados para voz de todo tipo se encuentran cada vez más en nuestra vida diaria. Lo que pudo haber comenzado como parlantes inteligentes colocados en nuestros escritorios o encimeras de la cocina se ha convertido rápidamente en una colección diversa de dispositivos y tecnologías integradas que brindan valiosas capacidades de asistente de voz en una amplia gama de interfaces.

Ahora puede encontrar dispositivos de una variedad de proveedores que encuentran su camino hacia una variedad cada vez mayor de ubicaciones. Puede hablar con su televisor, interactuar con su horno tostador, hablar con su automóvil y, quizás pronto, incluso tener una conversación con su cama. El uso de sistemas conversacionales inteligentes impulsados ​​por inteligencia artificial y aprendizaje automático está comenzando a ser omnipresente.

Sin embargo, dado que estos sistemas de conversación se utilizan en entornos cada vez más diferentes y diversos, los usuarios buscan llevar los beneficios de la tecnología del asistente de voz a ámbitos nuevos y más desafiantes. En lugar de ser simples dispositivos orientados a la música y las consultas, que podrían haber sido su función original, a estos sistemas se les pide que controlen varias interfaces, proporcionen respuestas más complicadas y ofrezcan más valor para sus usuarios.

Lo que podría haber sido aceptable en términos de inteligencia hace apenas uno o dos años se está convirtiendo en un obstáculo cada vez mayor. Ya no es aceptable que estos dispositivos respondan de manera poco inteligente a las consultas, empujen a los usuarios a una búsqueda en la web o respondan que no pueden ayudar al usuario. A estos sistemas se les pide que sean más inteligentes y, como tales, están comenzando a empujar los límites de lo que pueden hacer los sistemas de inteligencia artificial de back-end.

Evaluación comparativa de la inteligencia del asistente de voz

En 2018, la firma de asesoría e investigación de inteligencia artificial Cognilytica comenzó a medir la inteligencia de los dispositivos de asistente de voz para determinar su conocimiento y sus capacidades de razonamiento. La semana pasada, Cognilytica lanzó su actualización más reciente del punto de referencia, mostrando una capacidad e inteligencia cada vez mayores de los dispositivos en una variedad de medidas.

El punto de referencia mide la inteligencia del sistema conversacional haciendo 120 preguntas agrupadas en 12 categorías de varios niveles de desafío cognitivo. Por ejemplo, una pregunta es: «¿Debo poner un suéter de lana en la secadora?» Y otro pregunta una formulación complicada, como, «Paul intentó llamar a George por teléfono, pero no tuvo éxito. ¿Quién no tuvo éxito?»

El objetivo del punto de referencia no es probar las habilidades de reconocimiento de voz de los distintos dispositivos. Con la sintonización y el entrenamiento adecuados, estos dispositivos son capaces de manejar casi cualquier voz en muchos idiomas. Más bien, el punto de referencia tiene como objetivo determinar qué tan inteligente es el sistema de inteligencia artificial de back-end que es responsable de comprender la pregunta que se hace, formular una respuesta y luego generar esa respuesta al usuario. La inteligencia del back-end juega un papel crucial en si los dispositivos pueden ofrecer los beneficios de la tecnología de asistente de voz.

Si bien las capacidades de reconocimiento de voz de los asistentes de voz a menudo son bastante simples y usan tecnología que ha evolucionado en las últimas décadas, la respuesta cognitiva conversacional a preguntas más difícil usa tecnología de aprendizaje automático en rápida evolución que se encuentra en la infraestructura de la nube operada por proveedores de asistentes de voz. En esencia, el punto de referencia no evalúa los dispositivos en sí, sino la capacidad inteligente de la infraestructura de la nube de IA que admite esos dispositivos.

Sorprendentes diferencias en las capacidades del asistente de voz

En la versión 2018 del punto de referencia, los asistentes de voz en su conjunto obtuvieron una calificación reprobatoria, y el dispositivo Alexa de Amazon obtuvo la mayor cantidad de respuestas adecuadas: solo el 25% del total solicitado. Google ocupó el segundo lugar, con un 23% de respuestas adecuadas. Cortana de Microsoft y Siri de Apple quedaron muy atrás, con solo el 12% y el 11% de las respuestas categorizadas como adecuadas, respectivamente.

En la versión de 2019 del informe, los asistentes de voz han mostrado mejoras dramáticas. Alexa de Amazon sigue estando a la cabeza con la mayor cantidad de respuestas adecuadas, con un 34,7% del total de preguntas formuladas. Los dispositivos de Google y Microsoft están muy cerca, con un 34,0% y un 31,9%, respectivamente. Siri de Apple todavía se queda atrás, con un 24,3% de respuestas adecuadas.

Si bien estos sistemas conversacionales han mostrado una mejora sustancial desde la primera iteración del punto de referencia, en su conjunto, los dispositivos aún están lejos de brindar los beneficios prometidos de la tecnología de asistente de voz. Ningún sistema puede reunir respuestas adecuadas a al menos la mitad de las preguntas formuladas. Esto plantea una gran pregunta: ¿Son adecuados para las tareas en las que las personas utilizan estos dispositivos?

El punto de referencia de Cognilytica muestra que todavía no dan en el blanco con respecto a muchas preguntas rutinarias y esperadas que los usuarios pueden hacer hoy, y quizás incluso más en el tipo de preguntas que los usuarios podrían hacer mañana, dados los lugares en los que estos sistemas de conversación se están poniendo en uso.

Crecimiento del gráfico de conocimiento

Además de las capacidades de comprensión de voz a texto y lenguaje natural, hacer que estos sistemas conversacionales sean capaces de responder a consultas complejas requiere la creación de depósitos profundos de información a partir de los cuales estos sistemas puedan extraer, así como gráficos de conocimiento que conecten conceptos en un mismo formato. manera que las máquinas pueden entender. Si bien hay una cantidad casi ilimitada de información disponible en la web de una amplia variedad de fuentes de las que pueden extraerse los sistemas conversacionales, no se puede decir lo mismo de los gráficos de conocimiento.

Las máquinas usan gráficos de conocimiento para poder razonar sobre las conexiones entre diferentes palabras y conceptos y para construir respuestas significativas que sean relevantes a lo que se les pregunta. Debido a que los gráficos de conocimiento son tan importantes para la calidad de las respuestas, cada uno de los proveedores de sistemas conversacionales está trabajando en la construcción de sus propios gráficos de conocimiento basados ​​en la nube para potenciar sus sistemas.

Según Amazon, hay más de 10,000 trabajadores solo en su división Alexa, muchos de los cuales sin duda están ayudando a crear, administrar y potenciar esos gráficos de conocimiento. Google, Microsoft y Apple tienen una dotación de personal similar y están construyendo furiosamente sus gráficos de conocimiento para manejar los requisitos cada vez más complejos de sus bases de usuarios en rápido crecimiento.

De hecho, Amazon, Apple y Microsoft se han enfrentado a un escrutinio sobre el uso de humanos en el circuito para ayudar a alimentar sus dispositivos. Si bien muchos acusan a estas empresas de no revelar el hecho de que los humanos están escuchando partes de las conversaciones del asistente de voz, la realidad es que los humanos son necesarios para ayudar a construir, mantener y corregir el gráfico de conocimiento a lo largo del tiempo y hacerlos más útiles.

De hecho, mientras realizaban el último punto de referencia, los analistas de Cognilytica notaron que las respuestas de Amazon Alexa a una de las preguntas cambiaron después de que se les preguntó varias veces, con respuestas iniciales de Categoría 0 que luego cambiaron a respuestas perfectas de Categoría 3. Esto podría ser el resultado de la función de actualizaciones de respuesta recientemente anunciada por Amazon., que enviaría respuestas fallidas a sus equipos internos para que las resuelvan y actualicen con el fin de obtener una respuesta futura más significativa.

Si bien es posible que estos asistentes de voz actualmente no obtengan una calificación aprobatoria ni siquiera en una clase de jardín de infantes, está claro que los dispositivos continúan volviéndose más inteligentes con el tiempo y los proveedores están decididos a convertirlos en una parte inteligente de nuestra vida diaria. Con la mejora continua, estos dispositivos pronto pueden ofrecer los beneficios prometidos de la tecnología de asistente de voz.

Deja un comentario

También te puede interesar...

Definición de economía aplicada

¿Qué es la economía aplicada? La economía aplicada aplica las conclusiones extraídas de las teorías económicas y los estudios empíricos a situaciones del mundo real, para informar las decisiones económicas y predecir los posibles resultados.

¿Deberías volver a la escuela de negocios?

Muchos jóvenes profesionales que trabajan se preguntan si vale la pena o no volver a la escuela de negocios y obtener una Maestría en Administración de Empresas (MBA). Si bien una economía fuerte obliga a

¿El seguro dental cubre las coronas?

¿Las coronas están cubiertas por el seguro dental? La respuesta corta es sí, pero no en todos los casos. El determinante más importante es el motivo del procedimiento. Si se hace por razones de salud,

Definición de renta empresarial

¿Qué son los ingresos empresariales? La renta empresarial es un tipo de renta del trabajo y se clasifica como renta ordinaria a efectos fiscales. Incluye cualquier ingreso generado como resultado de las operaciones de una

Usuarios en crecimiento: vaya a AOL

Un aumento de $ 2 al mes en las tarifas mensuales de acceso a Internet puede no parecer mucho, pero los suscriptores de America Online Inc. reaccionaron el lunes a los planes de la empresa

Riesgo de caída

¿Qué es el riesgo de caída? El riesgo a la baja es el riesgo para un prestamista hipotecario de que un prestatario individual retire un préstamo en el período entre la oferta oficial de un

Costo anual equivalente – definición de EAC

¿Cuál es el costo anual equivalente (EAC)? El costo anual equivalente (EAC) es el costo anual de mantener, operar y mantener un activo durante su vida útil. Las empresas a menudo usan el EAC para

El exitoso experimento de una agencia con Holacracy

A principios de este año, el director ejecutivo de Zappos, Tony Hsieh, envió un correo electrónico interno indicando que los empleados también podrían adoptar la santidad o podría dejar la empresa con un paquete de

Definición de ingreso bruto ajustado (AGI).

¿Qué es el ingreso bruto ajustado (AGI)? El ingreso bruto ajustado (AGI) es la cifra que utiliza el Servicio de Impuestos Internos (IRS) para determinar su deuda de impuestos sobre la renta para el año.

¿Los fondos mutuos pagan dividendos o intereses?

Dependiendo del tipo de inversión incluida en la cartera, los fondos mutuos pueden pagar dividendos, intereses o ambos. tipos de fondos mutuos Hay cuatro categorías principales de fondos mutuos y cada categoría se adapta a

Manual de la industria: la industria del software

El software se diferencia del hardware como un conjunto de reglas que permiten que los servicios se realicen en el dispositivo físico. La industria del software es realmente solo una pequeña parte de la actividad

De George: invertir al estilo Soros

«Los mercados están constantemente en un estado de incertidumbre y flujo, y el dinero se hace bajando lo obvio y apostando de forma inesperada.”-George Soros. Para George Soros, las palabras enumeradas anteriormente no son hipérboles.

¿De dónde importa el acero estadounidense?

En marzo de 2018, la administración Trump promulgó nuevos aranceles sobre el comercio de metales en beneficio de la industria metalúrgica estadounidense. un 1 de marzo sesión de escucha el presidente detalló los planes tarifarios