Con toda la charla sobre el aprendizaje automático predictivo y las aplicaciones de aprendizaje profundo, uno puede perder de vista los datos …
ingeniería, algunos podrían llamarlo arte de datos, que se necesita para preparar los datos para trabajar.
Muchas preguntas se plantean en la planificación de aplicaciones de aprendizaje profundo que aprovechan los bancos profundos de redes neuronales. Éstos son solo algunos: ¿Debe distribuirse el procesamiento? ¿Hay «datos etiquetados», o buenos datos conocidos, disponibles para ayudar a supervisar el aprendizaje? ¿Cuánto ruido oscurece la señal que llega de dispositivos de Internet de las cosas como teléfonos móviles?
En el caso de los sensores de teléfonos móviles, la preparación de datos para aplicaciones de aprendizaje profundo puede presentar problemas únicos, como lo describe un científico de datos que trabaja para descubrir patrones seguros o inseguros de conductores a través de los datos del teléfono móvil que llevan consigo durante el viaje.
En tales casos, la preparación de datos puede implicar un preprocesamiento considerable, según Dan Shiebler, un científico de datos de la startup TrueMotion que discutió los problemas de los datos desordenados de los sensores en la Cumbre de Aprendizaje Profundo de 2017 en Boston la semana pasada.
TrueMotion, con sede en Boston, ofrece aplicaciones descargables gratuitas para las personas que desean medir sus habilidades de conducción, al mismo tiempo que trabaja con compañías de seguros que ofrecen programas de incentivos de conducción segura para los clientes que permiten que sus hábitos de conducción sean monitoreados de forma remota.
Los seguros y otras industrias están entrando en «la era dorada de los datos de sensores», dijo Shiebler. Los datos del sensor a menudo incluyen datos de giroscopios, acelerómetros, magnetómetros y chips GPS dentro del teléfono celular que lleva un conductor típico.
Pero los datos necesitan un procesamiento previo. Los sistemas de TrueMotion primero pueden pasar por combinaciones de estos datos de sensores utilizando algoritmos de aprendizaje automático más tradicionales y más supervisados, antes de encontrar la combinación correcta de datos para el aprendizaje neuronal profundo posterior.
«Los datos que obtenemos son muy ruidosos. Hay muchas señales allí que no nos interesan», dijo Shiebler en una entrevista de seguimiento. «Averiguamos qué algoritmos necesitamos para aprender mejor las cosas. Con suficientes datos, los algoritmos, a su vez, descubrirán las transformaciones correctas para los datos».
Con experiencia, él y sus colegas han aprendido a filtrar datos de diferentes sensores para, por ejemplo, determinar la orientación de un teléfono celular; saber si un teléfono está en posición horizontal o vertical ayuda a aclarar el significado del acelerómetro y otros datos, dijo.
Presione aquí para la relación señal-ruido
El proceso de preparación de datos para análisis automatizado está experimentando algunos cambios, a medida que el aprendizaje profundo gana terreno, según el asistente de la Cumbre de aprendizaje profundo Sean Cantrell, consultor senior y científico de datos de Excella Consulting Inc. en Arlington, Virginia. Existe la tentación de irse más de la clasificación de datos al motor de aprendizaje profundo, sugirió.
«Uno de los atractivos de las redes neuronales para mucha gente parece ser que ayudan a mitigar la necesidad de diseñar funciones de manera adecuada o intentar mejorar la relación señal-ruido [ratios]», Dijo Cantrell.
Dijo que todavía hay mucho mérito en «preparar adecuadamente algunos conjuntos de datos antes de realizar un aprendizaje profundo en ellos». Como ejemplo, Cantrell señaló el trabajo de TrueMotion para determinar la orientación relativa del teléfono de un usuario con respecto a su automóvil.
La naturaleza de los problemas varía, enfatizó Cantrell, y algunos requieren más preparación de datos que otros. Es posible que el aprendizaje profundo que se basa solo en datos sin etiquetar recopilados para el aprendizaje no supervisado no siempre sea el mejor.
«Muchos problemas realmente requieren aprendizaje supervisado», dijo. Este aprendizaje supervisado produce lo que se llama «conjuntos de datos etiquetados» donde los datos se etiquetan o etiquetan como buenos o malos.
«Incluso con una gran cantidad de datos a nuestro alrededor, etiquetar los conjuntos de manera adecuada puede ser un desafío en ocasiones», dijo.
El arte y la ciencia del aprendizaje profundo
Una pregunta clave que debe hacerse al preparar datos para el aprendizaje profundo es si los datos pueden caber en la memoria disponible, según Sam Zimmerman, director de tecnología y cofundador de Freebird, un servicio de reserva móvil en Cambridge, Massachusetts, que ofrece herramientas para el seguimiento y responder a retrasos o cancelaciones de vuelos y otros problemas de viaje.
Zimmerman habló en la Cumbre de aprendizaje profundo sobre el uso del aprendizaje profundo por parte de Freebird para estimar el riesgo que implica garantizar que los viajeros puedan volver a reservar rápidamente, en particular los vuelos retrasados o cancelados sin pagar más. En una entrevista, dijo que la forma en que los ingenieros de datos responden a la pregunta de la memoria disponible los lleva a diseñar el sistema para que se ejecute en una sola computadora o de manera distribuida.
El muestreo de datos, que algunos profesionales consideran contrario al espíritu del aprendizaje profundo, puede ser útil para frenar los requisitos de memoria. Pero algunos problemas se pueden manejar bien mediante muestreo, dijo Zimmerman, y el uso de demasiados datos a veces puede colocar al ingeniero en un entorno de programación difícil.
Preparar datos para el aprendizaje profundo hoy, dijo Zimmerman, es una combinación de arte y ciencia. «Ciertamente es una experiencia más fronteriza que la que se encuentra con las bases de datos SQL», reflexionó.