Krypton Solid

La última tecnología en raciones de 5 minutos

¿Qué son las redes neuronales recurrentes y cómo funcionan?

¿Qué son las redes neuronales recurrentes?

Una red neuronal recurrente es un tipo de red neuronal artificial comúnmente utilizada en el reconocimiento de voz y el procesamiento del lenguaje natural. Las redes neuronales recurrentes reconocen las características secuenciales de los datos y usan patrones para predecir el próximo escenario probable.

Los RNN se utilizan en el aprendizaje profundo y en el desarrollo de modelos que simulan la actividad neuronal en el cerebro humano. Son especialmente poderosos en casos de uso donde el contexto es fundamental para predecir un resultado y también se diferencian de otros tipos de redes neuronales artificiales porque utilizan bucles de retroalimentación para procesar una secuencia de datos que informa el resultado final. Estos ciclos de retroalimentación permiten que la información persista. Este efecto a menudo se describe como memoria.

Los casos de uso de RNN tienden a estar conectados a modelos de lenguaje en los que conocer la siguiente letra de una palabra o la siguiente palabra en una oración se basa en los datos que la preceden. Un experimento convincente involucra a un RNN entrenado con las obras de Shakespeare para producir una prosa similar a Shakespeare con éxito. Escribir por RNNs es una forma de creatividad computacional. Esta simulación de la creatividad humana es posible gracias a la comprensión de la gramática y la semántica que la IA ha aprendido de su conjunto de entrenamiento.

Una ilustración de cómo funciona el aprendizaje profundo
El proceso de aprendizaje profundo ilustrado.

Cómo aprenden las redes neuronales recurrentes

Las redes neuronales artificiales se crean con componentes de procesamiento de datos interconectados que están diseñados de manera flexible para funcionar como el cerebro humano. Están compuestos por capas de neuronas artificiales (nodos de red) que tienen la capacidad de procesar la entrada y reenviar la salida a otros nodos de la red. Los nodos están conectados por bordes o pesos que influyen en la fuerza de una señal y la salida final de la red.

En algunos casos, las redes neuronales artificiales procesan la información en una sola dirección desde la entrada hasta la salida. Estas redes neuronales de «alimentación hacia adelante» incluyen redes neuronales convolucionales que sustentan los sistemas de reconocimiento de imágenes. Los RNN, por otro lado, se pueden colocar en capas para procesar información en dos direcciones.

Al igual que las redes neuronales de retroalimentación, los RNN pueden procesar datos desde la entrada inicial hasta la salida final. A diferencia de las redes neuronales de retroalimentación, las RNN utilizan bucles de retroalimentación, como la propagación hacia atrás a lo largo del tiempo, a lo largo del proceso computacional para devolver la información a la red. Esto conecta las entradas y es lo que permite a los RNN procesar datos secuenciales y temporales.

Una red neuronal de retropropagación truncada a través del tiempo es un RNN en el que el número de pasos de tiempo en la secuencia de entrada está limitado por un truncamiento de la secuencia de entrada. Esto es útil para redes neuronales recurrentes que se utilizan como modelos secuencia a secuencia, donde el número de pasos en la secuencia de entrada (o el número de pasos de tiempo en la secuencia de entrada) es mayor que el número de pasos en la secuencia de salida. .

Redes neuronales bidireccionales recurrentes

Las redes neuronales bidireccionales recurrentes (BRNN) son otro tipo de RNN que aprenden simultáneamente las direcciones hacia adelante y hacia atrás del flujo de información. Esto es diferente de los RNN estándar, que solo aprenden información en una dirección. El proceso de aprendizaje simultáneo de ambas direcciones se conoce como flujo de información bidireccional.

En una red neuronal artificial típica, las proyecciones hacia adelante se utilizan para predecir el futuro y las proyecciones hacia atrás se utilizan para evaluar el pasado. Sin embargo, no se utilizan juntos como en un BRNN.

Un diagrama que ilustra una red neuronal recurrente de una unidad
Un diagrama, cortesía de Wikimedia Commons, que muestra un RNN de una unidad. La parte inferior es el estado de entrada; medio, el estado oculto; arriba, el estado de salida. U, V, W son los pesos de la red. Versión comprimida del diagrama a la izquierda, versión desplegada a la derecha.

Desafíos de RNN y cómo resolverlos

Los problemas más comunes con RNNS son problemas de explosión y desaparición de gradientes. Los gradientes se refieren a los errores cometidos a medida que se entrena la red neuronal. Si los gradientes comienzan a explotar, la red neuronal se volverá inestable y no podrá aprender de los datos de entrenamiento.

Unidades de memoria a corto plazo

Un inconveniente de los RNN estándar es el problema del gradiente de desaparición, en el que el rendimiento de la red neuronal se ve afectado porque no se puede entrenar adecuadamente. Esto sucede con las redes neuronales de capas profundas, que se utilizan para procesar datos complejos.

Los RNN estándar que utilizan un método de aprendizaje basado en gradientes se degradan a medida que crecen y se vuelven más complejos. Ajustar los parámetros de manera efectiva en las primeras capas se vuelve demasiado lento y costoso desde el punto de vista computacional.

Una solución al problema son las llamadas redes de memoria a corto plazo (LSTM), que los científicos informáticos Sepp Hochreiter y Jurgen Schmidhuber inventaron en 1997. Los RNN construidos con unidades LSTM clasifican los datos en celdas de memoria a corto y largo plazo. Al hacerlo, los RNN pueden determinar qué datos son importantes y deben recordarse y volver a conectarse a la red. También permite a los RNN averiguar qué datos se pueden olvidar.

Unidades recurrentes cerradas

Las unidades recurrentes cerradas (GRU) son una forma de unidad de red neuronal recurrente que se puede usar para modelar datos secuenciales. Si bien las redes LSTM también se pueden utilizar para modelar datos secuenciales, son más débiles que las redes de alimentación directa estándar. Al usar un LSTM y un GRU juntos, las redes pueden aprovechar las fortalezas de ambas unidades: la capacidad de aprender asociaciones a largo plazo para el LSTM y la capacidad de aprender de patrones a corto plazo para el GRU.

Perceptrones multicapa y redes neuronales convolucionales

Los otros dos tipos de clases de redes neuronales artificiales incluyen perceptrones multicapa (MLP) y redes neuronales convolucionales.

Los MLP constan de varias neuronas dispuestas en capas y, a menudo, se utilizan para clasificación y regresión. Un perceptrón es un algoritmo que puede aprender a realizar una tarea de clasificación binaria. Un solo perceptrón no puede modificar su propia estructura, por lo que a menudo se apilan en capas, donde una capa aprende a reconocer características más pequeñas y específicas del conjunto de datos.

Las neuronas de diferentes capas están conectadas entre sí. Por ejemplo, la salida de la primera neurona está conectada a la entrada de la segunda neurona, que actúa como filtro. Los MLP se utilizan para supervisar el aprendizaje y para aplicaciones como el reconocimiento óptico de caracteres, el reconocimiento de voz y la traducción automática.

Las redes neuronales convolucionales, también conocidas como CNN, son una familia de redes neuronales utilizadas en la visión por computadora. El término «convolucional» se refiere a la convolución – el proceso de combinar el resultado de una función con el proceso de calcularlo / calcularlo – de la imagen de entrada con los filtros en la red. La idea es extraer propiedades o características de la imagen. Estas propiedades se pueden utilizar para aplicaciones como el reconocimiento o la detección de objetos.

Red neuronal recurrente frente a red neuronal convolucional.
Las principales diferencias entre una red neuronal recurrente y una red neuronal convolucional.

Las CNN se crean a través de un proceso de entrenamiento, que es la diferencia clave entre las CNN y otros tipos de redes neuronales. Una CNN está formada por múltiples capas de neuronas y cada capa de neuronas es responsable de una tarea específica. La primera capa de neuronas podría ser responsable de identificar las características generales de una imagen, como su contenido (por ejemplo, un perro). La siguiente capa de neuronas podría identificar características más específicas (por ejemplo, la raza del perro).

Deja un comentario

También te puede interesar...

Definición de inversiones con fórmulas mágicas

¿Qué es la fórmula mágica de inversión? Invertir en fórmulas mágicas se refiere a una estrategia de inversión disciplinada y basada en reglas que enseña a las personas un método relativamente simple y fácil de

Los minoristas utilizan Mac OS 9

Los productos de Apple continúan volando, justo antes de su fecha de lanzamiento oficial. Tras la noticia del jueves de que los distribuidores han comenzado a enviar Power Macs G4 de 400 MHz, los minoristas

Un error de QuickTime de un año vuelve a Firefox

Este mes, hace un año, el investigador de seguridad Petko D. Petkov (izquierda) publicó detalles sobre las vulnerabilidades en el reproductor multimedia QuickTime de Apple para mostrar cómo película y Archivos MP3 puede ser una

Descarga gratuita: Atlantis Inline Grunge Font

Descarga gratuita: Atlantis Inline Grunge Font Si desea impresionar a su caja de herramientas de tipografía, ¡agarre esta fuente serif personalizada de estilo vintage única hoy! Atlantis Inline fue creado por Deeezy.com y es gratis

Telstra revela el centro de seguridad de Canberra

En resumen, Telstra anunció hoy un nuevo centro de operaciones de seguridad acreditado por ASIO en Canberra para brindar servicios de seguridad administrados. La instalación de 1.300 metros cuadrados brindará servicio las 24 horas del

Disparidad de oferta y demanda

La negociación fuera de horario se define como el intercambio de valores fuera del horario de negociación regular especificado por la bolsa de valores (generalmente entre las 9:30 y las 16:00 EST). El comercio fuera

Revisión de Mastercard asegurada de Citi

Revisión completa de Citi Secured Mastercard Pro Informe a las tres principales agencias de crédito Versus No apto para personas con mal crédito. DAE alto Sin recompensas Las ventajas explicadas Informe a las tres principales