Krypton Solid

La última tecnología en raciones de 5 minutos

La preparación de datos para aplicaciones de aprendizaje profundo significa una planificación cuidadosa

Con toda la charla sobre el aprendizaje automático predictivo y las aplicaciones de aprendizaje profundo, uno puede perder de vista los datos …

ingeniería, algunos podrían llamarlo arte de datos, que se necesita para preparar los datos para trabajar.

Muchas preguntas se plantean en la planificación de aplicaciones de aprendizaje profundo que aprovechan los bancos profundos de redes neuronales. Éstos son solo algunos: ¿Debe distribuirse el procesamiento? ¿Hay «datos etiquetados», o buenos datos conocidos, disponibles para ayudar a supervisar el aprendizaje? ¿Cuánto ruido oscurece la señal que llega de dispositivos de Internet de las cosas como teléfonos móviles?

En el caso de los sensores de teléfonos móviles, la preparación de datos para aplicaciones de aprendizaje profundo puede presentar problemas únicos, como lo describe un científico de datos que trabaja para descubrir patrones seguros o inseguros de conductores a través de los datos del teléfono móvil que llevan consigo durante el viaje.

En tales casos, la preparación de datos puede implicar un preprocesamiento considerable, según Dan Shiebler, un científico de datos de la startup TrueMotion que discutió los problemas de los datos desordenados de los sensores en la Cumbre de Aprendizaje Profundo de 2017 en Boston la semana pasada.

TrueMotion, con sede en Boston, ofrece aplicaciones descargables gratuitas para las personas que desean medir sus habilidades de conducción, al mismo tiempo que trabaja con compañías de seguros que ofrecen programas de incentivos de conducción segura para los clientes que permiten que sus hábitos de conducción sean monitoreados de forma remota.

Los seguros y otras industrias están entrando en «la era dorada de los datos de sensores», dijo Shiebler. Los datos del sensor a menudo incluyen datos de giroscopios, acelerómetros, magnetómetros y chips GPS dentro del teléfono celular que lleva un conductor típico.

Pero los datos necesitan un procesamiento previo. Los sistemas de TrueMotion primero pueden pasar por combinaciones de estos datos de sensores utilizando algoritmos de aprendizaje automático más tradicionales y más supervisados, antes de encontrar la combinación correcta de datos para el aprendizaje neuronal profundo posterior.

«Los datos que obtenemos son muy ruidosos. Hay muchas señales allí que no nos interesan», dijo Shiebler en una entrevista de seguimiento. «Averiguamos qué algoritmos necesitamos para aprender mejor las cosas. Con suficientes datos, los algoritmos, a su vez, descubrirán las transformaciones correctas para los datos».

Con experiencia, él y sus colegas han aprendido a filtrar datos de diferentes sensores para, por ejemplo, determinar la orientación de un teléfono celular; saber si un teléfono está en posición horizontal o vertical ayuda a aclarar el significado del acelerómetro y otros datos, dijo.

Presione aquí para la relación señal-ruido

El proceso de preparación de datos para análisis automatizado está experimentando algunos cambios, a medida que el aprendizaje profundo gana terreno, según el asistente de la Cumbre de aprendizaje profundo Sean Cantrell, consultor senior y científico de datos de Excella Consulting Inc. en Arlington, Virginia. Existe la tentación de irse más de la clasificación de datos al motor de aprendizaje profundo, sugirió.

«Uno de los atractivos de las redes neuronales para mucha gente parece ser que ayudan a mitigar la necesidad de diseñar funciones de manera adecuada o intentar mejorar la relación señal-ruido [ratios]», Dijo Cantrell.

Dijo que todavía hay mucho mérito en «preparar adecuadamente algunos conjuntos de datos antes de realizar un aprendizaje profundo en ellos». Como ejemplo, Cantrell señaló el trabajo de TrueMotion para determinar la orientación relativa del teléfono de un usuario con respecto a su automóvil.

La naturaleza de los problemas varía, enfatizó Cantrell, y algunos requieren más preparación de datos que otros. Es posible que el aprendizaje profundo que se basa solo en datos sin etiquetar recopilados para el aprendizaje no supervisado no siempre sea el mejor.

«Muchos problemas realmente requieren aprendizaje supervisado», dijo. Este aprendizaje supervisado produce lo que se llama «conjuntos de datos etiquetados» donde los datos se etiquetan o etiquetan como buenos o malos.

«Incluso con una gran cantidad de datos a nuestro alrededor, etiquetar los conjuntos de manera adecuada puede ser un desafío en ocasiones», dijo.

El arte y la ciencia del aprendizaje profundo

Una pregunta clave que debe hacerse al preparar datos para el aprendizaje profundo es si los datos pueden caber en la memoria disponible, según Sam Zimmerman, director de tecnología y cofundador de Freebird, un servicio de reserva móvil en Cambridge, Massachusetts, que ofrece herramientas para el seguimiento y responder a retrasos o cancelaciones de vuelos y otros problemas de viaje.

Zimmerman habló en la Cumbre de aprendizaje profundo sobre el uso del aprendizaje profundo por parte de Freebird para estimar el riesgo que implica garantizar que los viajeros puedan volver a reservar rápidamente, en particular los vuelos retrasados ​​o cancelados sin pagar más. En una entrevista, dijo que la forma en que los ingenieros de datos responden a la pregunta de la memoria disponible los lleva a diseñar el sistema para que se ejecute en una sola computadora o de manera distribuida.

El muestreo de datos, que algunos profesionales consideran contrario al espíritu del aprendizaje profundo, puede ser útil para frenar los requisitos de memoria. Pero algunos problemas se pueden manejar bien mediante muestreo, dijo Zimmerman, y el uso de demasiados datos a veces puede colocar al ingeniero en un entorno de programación difícil.

Preparar datos para el aprendizaje profundo hoy, dijo Zimmerman, es una combinación de arte y ciencia. «Ciertamente es una experiencia más fronteriza que la que se encuentra con las bases de datos SQL», reflexionó.

Deja un comentario

También te puede interesar...

Por qué los gobiernos emiten bonos extranjeros

Cuando un gobierno necesita dinero para financiar sus operaciones, puede obtener efectivo emitiendo deuda en su propia moneda. Y si un gobierno tiene dificultades para pagar sus bonos al vencimiento, simplemente puede imprimir más dinero.

Novell pierde a otro ejecutivo | Krypton Solid

Apenas seis meses después de unirse a Novell, la directora de marketing Patti Dock dejó la empresa. Dock es el último de un número creciente de funcionarios de Novell, incluido el director de marketing John

Definición del Reglamento CC

¿Qué es el Reglamento CC? La regulación CC es una de las regulaciones bancarias establecidas por la Reserva Federal. El Reglamento CC implementa la Ley de Disponibilidad de Fondos Acelerados de 1987. Esta Ley establece

Qué hacer cuando el cliente es un tonto

Se da cuenta de que a veces no lo es. Ha sido una semana difícil, así que cuando el teléfono vino de mi amigo integrador Jack, estaba solo medio despierto. – ¡Tengo el contrato, Steven!

Desnuda en Las Vegas | Krypton Solid

Cuando lo envían a Las Vegas para cubrir una de las conferencias de tecnología más importantes del mundo, se enfrenta a una de esas decisiones difíciles. Por un lado, tienes a Las Vegas señalándote desde

Novedades de Netflix: 18 de marzo de 2019

Todo sobre Nina ahora en Netflix Es una nueva semana y un comienzo muy tranquilo para los nuevos estrenos de Netflix. Solo tenemos una nueva película agregada hoy, pero también tenemos algunas nuevas incorporaciones de

La definición del mercado sin fricciones

¿Qué es un mercado sin fricciones? Un mercado sin fricciones es un entorno comercial teórico en el que todos los costos y restricciones asociados con las transacciones son inexistentes. Cómo funciona un mercado sin fricciones

Verizon prueba DSL de 7 Mbps | Krypton Solid

Verizon Communications está probando un nuevo servicio que duplica la velocidad de descarga de su servicio de suscriptor digital. La muestra, que solo está abierta a clientes residenciales seleccionados, ofrece velocidades de descarga de 7.1

Las acciones de Oracle caen con fuerza

(NOTA DE LOS EDITORES: este artículo se escribió en 2018 y se volvió a publicar accidentalmente hoy. La información aquí ya no es precisa. Pedimos disculpas por el error). Acciones de Oracle Corp. (ORCL) cayó

Seguimiento de requisitos de software

¿Es importante la trazabilidad de los requisitos? Si es así, ¿cuál es una buena manera de comenzar con la trazabilidad? El rastreo de requisitos es el proceso de registrar enlaces lógicos entre requisitos individuales y

Cancelar costos de Infostrada | Krypton Solid

¿Firmaste un contrato con Infostrada tanto para ADSL o fibra óptica como para telefonía fija pero ahora has cambiado de opinión y quieres enviar la baja? Es algo muy sencillo de hacer, ¡no te preocupes!

Mejores prácticas de requisitos de PCI DSS 3.1

El requisito 3.1 del Estándar de seguridad de datos de la industria de tarjetas de pago (PCI DSS) requiere que los comerciantes mantengan el almacenamiento de datos de titulares de tarjetas al mínimo. Desarrolle una