Krypton Solid

La última tecnología en raciones de 5 minutos

Los datos sintéticos podrían aliviar la carga de los datos de entrenamiento para los modelos de IA

– si van a funcionar correctamente. De hecho, uno de los obstáculos para capitalizar la tecnología de aprendizaje automático es recopilar suficientes datos para satisfacer los modelos.

Pero las nuevas técnicas podrían aliviar esa carga, según David Schatsky, director gerente de Deloitte LLP, y Rameeta Chauhan, analista senior de la firma.

En una investigación publicada en noviembre, Schatsky y Chauhan citaron la reducción de la necesidad de datos de entrenamiento como una de las cinco áreas de progreso en el aprendizaje automático que reducirán la barrera de entrada para la empresa. Un método para obtener suficientes datos es utilizar datos sintéticos o datos fabricados artificialmente que se ven y actúan lo suficiente como datos del mundo real para entrenar modelos de IA de manera efectiva.

Los datos sintéticos pueden ser valiosos en situaciones en las que los datos están restringidos, son sensibles o están sujetos a cumplimiento normativo, dijo Schatsky, quien se especializa en tecnología emergente. Y puede hacer avanzar proyectos que se ven obstaculizados por un proceso demasiado arduo de adquirir los datos de capacitación necesarios.

Casos de uso de datos sintéticos

David SchatskyDavid Schatsky

De hecho, uno de los primeros ejemplos de datos sintéticos que encontró Schatsky fue la visión por computadora, tecnología que permite a las máquinas reconocer rostros o identificar objetos en fotografías digitales. En la actualidad, los investigadores están creando sofisticadas funciones de visión por computadora en las que la tecnología puede seguir la mirada o detectar una emoción en el rostro de alguien. Pero recopilar la cantidad de datos necesarios y etiquetarlos es laborioso.

«Entonces, lo que hicieron los investigadores fue tomar un modelo digital en 3D de un rostro humano y luego manipularlo», dijo Schatsky. Pueden generar tantas permutaciones de expresiones faciales o posiciones de los ojos como quieran, y pueden hacerlo «de forma rápida y económica, en comparación con la recopilación de una cantidad comparable de imágenes», dijo.

Otro caso de uso de datos sintéticos es entrenar robots para realizar tareas complejas y ágiles como recoger o manipular objetos de diferentes formas y tamaños, lo cual es un gran desafío para los roboticistas. «Un enfoque es generar un conjunto de datos de entrenamiento inicial haciendo que un ser humano demuestre lo que quiere que se haga, en realidad virtual», dijo Schatsky.

El modelo humano mueve una mano, toma un objeto y lo deja. Todo el conjunto de acciones se captura digitalmente, lo que significa que las imágenes se pueden manipular fácilmente. «El modelo digital de ese comportamiento se puede reproducir de innumerables formas, con diferentes orígenes o en diferentes ángulos, etc., sin que un humano lo haga mil veces», dijo.

Los datos sintéticos también se pueden generar matemáticamente. Schatsky dijo que los científicos de datos pueden tomar un pequeño conjunto de datos del mundo real y realizar un análisis estadístico para desarrollar una especie de perfil de los datos. Si el conjunto de datos tuviera mil variables, su perfil podría incluir cosas como la coincidencia de las variables o la distribución de la frecuencia de las variables. A partir del perfil, los científicos de datos generan estadísticamente un conjunto de datos sintéticos que tienen un perfil similar.

Un trabajo en progreso

Los datos sintéticos no son una solución relevante en todos los escenarios, según Schatsky. «Por ejemplo, si usted es una empresa de servicios financieros que tiene muchos datos históricos sobre transacciones y buenos registros sobre cuáles resultaron ser fraudulentas, entonces tiene todos los datos; comprende cuáles eran transacciones fraudulentas, por lo que el etiquetado es ya está hecho para ti «, dijo. «Entonces, el valor de reducir los datos de entrenamiento no es tan alto en esa situación».

Los CIO tampoco deberían aceptar la idea sin escepticismo. Deloitte, de hecho, adoptó un enfoque experimental de los datos sintéticos cuando estaba trabajando para un cliente. La consultora construyó un modelo para una aplicación «de la manera convencional», dijo Schatsky. «Y luego usamos esta técnica de generar datos sintéticos solo para ver si podríamos haber hecho el mismo trabajo con menos datos de entrenamiento».

Resultó que podían. Usando el 20% de los datos de entrenamiento para generar los datos sintéticos, Deloitte obtuvo los mismos resultados producidos por el modo convencional.

Aún así, dijo, si bien los datos sintéticos funcionaron bien en este caso, es posible que no funcionen en otros escenarios y sería un error pensar en ellos como una panacea. «No sé si puedo darles una línea clara que describa exactamente dónde esto se queda corto», dijo. «Lo menciono en nuestra investigación solo para decir que es un área importante de desarrollo que definitivamente debe considerarse en ciertas circunstancias. Pero la efectividad debe verificarse experimentalmente».

Deja un comentario

También te puede interesar...

Los faraones han utilizado nanocosméticos desde entonces.

Investigadores franceses han descubierto que los egipcios, griegos y romanos utilizaron la nanotecnología para teñirse el cabello hace varios miles de años. En el «Nanotecnología en cosmética – hace 2000 años …«Nanowerk Spotlight informa que

Cómo escribir colorido en WhatsApp

Dado que los estados coloreados se introdujeron en Whatsapp, hay quienes ya no pueden prescindir de él. La escritura a color se ha convertido en una auténtica tendencia que, partiendo de Facebook e Instagram, se

¿Volverán a salir los compradores de TI?

COMENTARIO – Seamos honestos: el software empresarial es aburrido y aburrido. Ante la opción de deshuesar los puntos más finos de la gestión de personal y las aplicaciones de procesamiento de salarios o arrancarme el

Cómo instalar pinceles GIMP Krypton Solid

Como tengo que decirte muchas veces, CAÑUTILLO es probablemente la mejor alternativa gratuita a Photoshop. Esto significa que casi todo lo que puede hacer con Photoshop se puede hacer con este programa, incluido el uso

Nokia adopta Windows Phone 7 como ‘plataforma principal’

Nokia y Microsoft han anunciado una asociación importante en la que el fabricante de teléfonos adoptará Windows Phone 7 como la principal plataforma de teléfonos inteligentes, al tiempo que contribuirá significativamente a su desarrollo futuro.

Que es y que no es Illumos

Cuando ayer escribí con desdén sobre Illumos, recibí un merecido rechazo. Por tanto, puede resultar útil analizar qué es y qué no es Illumos. Illumos es una bifurcación de Open Solaris, pero es una bifurcación