Krypton Solid

La última tecnología en raciones de 5 minutos

El ejemplo de Autoencoders usa datos de aumento para el aprendizaje automático

Los desarrolladores recurren con frecuencia a los codificadores automáticos para organizar los datos para que los algoritmos de aprendizaje automático mejoren la eficiencia y la precisión de los algoritmos con menos esfuerzo por parte de los científicos de datos.

Los científicos de datos pueden agregar codificadores automáticos como herramientas adicionales a las aplicaciones que requieren eliminación de ruido, reducción de dimensionalidad no lineal, predicción secuencia a secuencia y extracción de características. Los codificadores automáticos tienen una ventaja especial sobre las técnicas clásicas de aprendizaje automático, como el análisis de componentes principales para la reducción de dimensionalidad, ya que pueden representar datos como representaciones no lineales y funcionan particularmente bien en la extracción de características.

Autoencoders 101

Hasta hace poco, el estudio de los codificadores automáticos había sido principalmente una actividad académica, dijo Nathan White, consultor principal de AIM Consulting. Sin embargo, ahora hay muchas aplicaciones en las que los profesionales del aprendizaje automático deberían considerar los codificadores automáticos como su herramienta de elección. Pero antes de sumergirnos en los casos de uso principales, aquí hay un breve vistazo a la tecnología de codificación automática.

Un codificador automático consta de un par de redes de aprendizaje profundo, un codificador y un decodificador. El codificador aprende una forma eficiente de codificar la entrada en una representación densa más pequeña, llamada capa de cuello de botella. Después del entrenamiento, el decodificador vuelve a convertir esta representación en la entrada original.

«El principio esencial de un codificador automático es destilar la entrada en la menor cantidad de datos necesarios para luego reconstruir esa entrada original con la menor diferencia posible entre la entrada y la salida», dijo Pat Ryan, vicepresidente ejecutivo de arquitectura empresarial en consultoría de tecnología digital SPR.

El valor del codificador automático es que elimina el ruido de la señal de entrada, dejando solo una representación de alto valor de la entrada. Con esto, los algoritmos de aprendizaje automático pueden funcionar mejor porque los algoritmos pueden aprender los patrones en los datos de un conjunto más pequeño de una entrada de alto valor, dijo Ryan.

Los codificadores automáticos, redes neuronales no supervisadas, están demostrando ser útiles en los dominios de aprendizaje automático con una dimensionalidad de datos extremadamente alta y propiedades no lineales, como aplicaciones de video, imágenes o voz.

Ventajas de los codificadores automáticos

Una característica importante de los codificadores automáticos es que pueden trabajar sin supervisión, lo que elimina la necesidad de etiquetar los datos de entrenamiento, ya sea a mano o artificialmente.

[Autoencoders] son únicos en el sentido de que aprovechan los beneficios del aprendizaje supervisado sin la necesidad de realizar anotaciones manuales, ya que las entradas y salidas de la red son las mismas.
Sriram NarasimhanVicepresidente de inteligencia artificial y análisis de Cognizant

«[Autoencoders] son únicos porque aprovechan los beneficios del aprendizaje supervisado sin la necesidad de anotaciones manuales, ya que las entradas y salidas de la red son las mismas «, dijo Sriram Narasimhan, vicepresidente de inteligencia artificial y análisis de la firma de servicios de TI Cognizant.

Una segunda gran ventaja es que pueden encontrar automáticamente formas de transformar archivos multimedia sin procesar, como imágenes y audio, en una forma más adecuada para los algoritmos de aprendizaje automático. MingKuan Liu, director senior de ciencia de datos de Appen, un proveedor de herramientas de anotación de datos de entrenamiento de inteligencia artificial, dijo que la capacidad de los codificadores automáticos para obtener información de los medios hace que la herramienta sea particularmente útil para aplicaciones de visión por computadora como extracción de características, generación de datos sintéticos, aprendizaje de desenredo y aprendizaje de prominencia.

Los científicos de datos deben considerar los codificadores automáticos como una herramienta complementaria a otras técnicas supervisadas en lugar de un reemplazo completo. Los algoritmos de aprendizaje automático supervisados ​​entrenados con una gran cantidad de conjuntos de datos etiquetados de alta calidad siguen siendo las mejores opciones en casi todos los casos de uso de IA de la industria, dijo Liu.

Los 7 casos de uso principales para codificadores automáticos

Cuando se utilizan como una herramienta adecuada para aumentar los proyectos de aprendizaje automático, los codificadores automáticos tienen un enorme poder de ingeniería y limpieza de datos.

  1. Extractor de funciones

Russ Felker, director de tecnología de GlobalTranz, un proveedor de servicios de logística y gestión de carga, dijo que el uso de codificadores automáticos como extractor de funciones elimina la necesidad de pasar horas de laboriosa ingeniería de funciones después de la limpieza de datos. Esto puede permitir que la clasificación de datos se complete más fácilmente.

«Al agrupar elementos similares, permite que el sistema haga recomendaciones rápidas sobre cuál debería ser la salida», dijo Felker.

  1. Reducción de dimensionalidad

Los codificadores automáticos para la reducción de dimensionalidad se utilizan para comprimir la entrada en la representación más pequeña posible para reproducir la entrada con la menor pérdida.

«En este caso, el objetivo no es necesariamente reproducir la entrada, sino utilizar la representación más pequeña del codificador en otros modelos de aprendizaje automático», dijo Ryan. Esto es particularmente importante cuando las entradas tienen una relación no lineal entre sí. Sin embargo, los científicos de datos deben considerar otras técnicas como el análisis de componentes principales cuando los datos de entrada tienen una correlación lineal.

«PCA es computacionalmente un método más económico para reducir la dimensionalidad en el caso de sistemas de datos lineales», dijo Narasimhan.

  1. Compresión de imagen

Los investigadores también están comenzando a explorar formas en que los codificadores automáticos se pueden utilizar para mejorar las relaciones de compresión de video e imágenes en comparación con las técnicas estadísticas tradicionales. Narasimhan dijo que los investigadores están desarrollando autocodificadores especiales que pueden comprimir imágenes tomadas a muy alta resolución en un cuarto o menos del tamaño requerido con las técnicas de compresión tradicionales. En estos casos, la atención se centra en hacer que las imágenes parezcan similares al ojo humano para un tipo específico de contenido. Las imágenes de personas, edificios o entornos naturales pueden beneficiarse de diferentes codificadores automáticos que pueden cambiar el tamaño y comprimir imágenes grandes de esa categorización.

  1. Codificación de datos

Los codificadores automáticos brillan particularmente al encontrar mejores formas de representar datos de medios sin procesar para buscar a través de estos datos o escribir algoritmos de aprendizaje automático que usan estos datos. En estos casos, la salida de la capa de cuello de botella entre el codificador y el descodificador se utiliza para representar los datos sin procesar para el siguiente algoritmo.

Por ejemplo, los codificadores automáticos se utilizan en el procesamiento de audio para convertir datos sin procesar en un espacio vectorial secundario de manera similar a como word2vec prepara datos de texto a partir de algoritmos de procesamiento de lenguaje natural. Esto puede facilitar la localización de fragmentos de voz en un archivo hablado grande sin la necesidad de una conversación de voz a texto.

  1. Detección de anomalías

Los codificadores automáticos utilizados para la detección de anomalías utilizan la pérdida medida entre la entrada y la salida reconstruida. Si, después de ejecutar una muestra a través del codificador automático, el error entre la entrada y la salida se considera demasiado alto, esa muestra representa una que el codificador automático no puede reconstruir, lo cual es anómalo para el conjunto de datos entrenado.

Ryan dijo que este tipo de técnicas se utilizan en la industria bancaria para ayudar a automatizar la generación de algoritmos de recomendación de préstamos. Por ejemplo, si un banco tiene una gran cantidad de datos sobre personas y préstamos y puede caracterizar ciertos préstamos que cumplieron con los requisitos como buenos, entonces estos datos se pueden usar para caracterizar cómo son los préstamos buenos. Los datos de estos buenos préstamos se utilizan para crear el codificador automático. Si se pasa un registro de datos a través del codificador automático y la pérdida medida entre la entrada original y la salida reconstruida es demasiado alta, esta solicitud de préstamo se puede marcar para una revisión adicional.

«No significa que el préstamo sea malo, solo que está fuera de los buenos préstamos que el banco ha visto en el pasado», dijo Ryan.

  1. Denoising

En algunos casos, es posible que a un envío le falten algunos datos dentro de la serie de transacciones utilizadas para describir su estado. Los codificadores automáticos de reducción de ruido pueden ayudar a determinar lo que falta en función de los datos de entrenamiento y generar una imagen completa del envío, dijo Felker. Esto puede mejorar el rendimiento de otros algoritmos que utilizan estos datos para aplicaciones como el análisis predictivo.

En otros casos, como la representación de audio o video, la eliminación de ruido puede reducir el impacto del ruido como manchas en las imágenes o silbidos en el sonido que surgen de problemas para capturarlos.

  1. Detección de fraudes

Puede ser un desafío entrenar modelos de aprendizaje automático para aprender acerca de la actividad fraudulenta, dado lo pequeños que son los recuentos de transacciones fraudulentas en relación con el número total de transacciones en una empresa. La versatilidad de los codificadores automáticos permite a los usuarios crear proyecciones de datos para representar transacciones fraudulentas en comparación con los métodos tradicionales, dijo Tom Shea, fundador y CEO de OneStream Software, una compañía de software de gestión del desempeño corporativo.

Una vez entrenados, los codificadores automáticos pueden generar puntos de datos adicionales y crear transacciones fraudulentas similares, proporcionando un conjunto de datos más amplio para que los modelos de aprendizaje automático aprendan. Los científicos de datos también pueden utilizar algoritmos de detección de anomalías de configuración específicos para el fraude. Los científicos de datos entrenarían el algoritmo utilizando datos de transacciones legítimas. Se generará una alerta cuando haya una diferencia significativa entre los datos sin procesar y los datos reconstruidos.

Esto es especialmente útil en situaciones en las que no tenemos suficientes muestras históricas de transacciones fraudulentas o cuando surgen patrones completamente nuevos de transacciones fraudulentas, dijo Narasimhan.

Deja un comentario

También te puede interesar...

Las ciudades deben ser inteligentes con la IoT

Las implementaciones tradicionales de IoT han consistido en instrumentación en red, pero simplemente agregar instrumentación no hace una ciudad inteligente. Las ciudades siempre pueden instalar algo como una cámara de seguridad y conectarla a un

10 de los gestores de fondos de cobertura más famosos

Los administradores de fondos de cobertura a menudo se ven afectados por el control de los medios sobre sus enormes salarios, el rechazo de los inversores a los impuestos ridículamente altos (generalmente «dos y veinte»),

Acuerdo de representante especial calificado (QSR)

¿Qué es un Acuerdo de Representante Especial Calificado? El Acuerdo de representante calificado especial (QSR, por sus siglas en inglés) es un acuerdo entre agentes de bolsa para liquidar transacciones sin interactuar con el sistema

Definición de propiedad mueble catalogada

¿Qué es propiedad personal catalogada? La propiedad personal programada es una póliza de seguro adicional que extiende la cobertura más allá de la protección estándar que se ofrece en una póliza de seguro para propietarios

Consejos para ahorrar tiempo y dinero

Investopedia y nuestros socios externos utilizan cookies y procesan datos personales, como identificadores únicos, en función de su consentimiento para almacenar y/o acceder a información en un dispositivo, para mostrar anuncios personalizados y para medir

El fracaso es el nuevo éxito

Incluso cuando no lo estoy buscando, veo evidencia del pensamiento ágil en todas partes. En televisión, un anuncio de American Express, que defiende el éxito, muestra al fundador de GoPro, Nick Woodman, hablando sobre el

Los placeres de la gestión de identidades

Creo que es obvio que la gestión automatizada de identidades se está volviendo cada vez más importante y podría fácilmente estar a la vanguardia de la agenda del CIO de casi cualquier organización grande durante

Cómo hacer un guión en un teclado de computadora

Aunque no eres precisamente un novato en el mundo de la informática, todavía no estás muy familiarizado con el uso del teclado o, mejor dicho, con la escritura de ciertos símbolos presentes en él, especialmente

Informe: Win98 perjudica las ventas de PC

Bueno, Microsoft debería estar feliz. La gente estaba tan ansiosa por tener en sus manos el nuevo software Windows 98 de la compañía, lanzado el jueves, que parece que dejaron de comprar PC y software

5 lecciones de servicio al cliente que aprendí de GoDaddy

En estos días, estoy bastante seguro de que todos tienen miedo de marcar números 1-800. Probablemente estará esperando un período de tiempo frustrante o pasará por una cantidad aparentemente interminable de opciones requeridas por una

Índice de bienestar: escribe tu vida (según el clima)

¿Cómo está tu bienestar hoy? Esta es probablemente una pregunta que no ha considerado hacerse hoy. De hecho, definir el bienestar no es fácil. Afortunadamente, Gallup se arriesgó, brindó información interesante y llegó a la

Jim Ross de State Street supera los mayores mitos de los ETF

Investopedia y nuestros socios externos utilizan cookies y procesan datos personales, como identificadores únicos, en función de su consentimiento para almacenar y/o acceder a información en un dispositivo, para mostrar anuncios personalizados y para medir

Web 2.0 amenaza la seguridad: Symantec

La firma de seguridad Symantec ha destacado las tecnologías Web 2.0 y las aplicaciones de mensajería instantánea (IM) como amenazas importantes para la seguridad corporativa. En su informe sobre amenazas de Internet para el primer

¡Bienvenido a Google en tu hogar digital!

Google te quiere en la nube hoy. ¡Mañana, haga espacio para Google en su hogar digital! LG, «Life’s Good», así que promociona LG Electronics y sin duda será aún mejor cuando las cosas se conviertan

objetivo corto

¿Qué es el cortocircuito desnudo? La venta corta no es una práctica ilegal en ausencia de acciones cuya existencia no se ha determinado. Los comerciantes generalmente tienen que pedir prestada una acción o determinar que

Error de OpenOffice llega a múltiples sistemas operativos

Los expertos en seguridad han descubierto vulnerabilidades en OpenOffice.org que podrían permitir a los atacantes ejecutar código de forma remota en computadoras basadas en Linux, Windows o Apple Mac. OpenOffice versión 2.0.4 y anteriores son

Cómo utilizar el índice de fuerza

¿Qué es el índice de fuerza? El Dr. Alexander Elder es uno de los contribuyentes a una nueva generación de indicadores técnicos. Su índice de fuerza es un oscilador que mide la fuerza o el