Krypton Solid

La última tecnología en raciones de 5 minutos

Una nueva forma de entrenar modelos fundamentales en IA

El aprendizaje rápido, también llamado «aprendizaje basado en indicaciones», es una estrategia emergente para permitir que los modelos de IA entrenados previamente, también conocidos como «modelos básicos», se reutilicen para usos adicionales sin capacitación adicional.

Los modelos básicos se entrenan inicialmente con cantidades masivas de datos no estructurados y luego se ajustan con datos etiquetados para tareas específicas. Sin embargo, este enfoque requiere la introducción de nuevos parámetros en el modelo. Por ejemplo, ajustar un modelo BERT de lenguaje grande para realizar una clasificación binaria requeriría un conjunto adicional de 1024 x 2 parámetros etiquetados.

Por el contrario, el aprendizaje basado en indicaciones permite a los ingenieros lograr los mismos objetivos sin necesidad de nuevos parámetros. En cambio, las señales de texto en lenguaje natural llamadas «indicaciones» se inyectan en las entradas del modelo de IA durante la fase previa al entrenamiento. Su propósito es proporcionar contexto de manera proactiva para una variedad de posibles tareas posteriores. (Lea también: Modelos fundamentales: la próxima frontera de la IA.)

¿Qué es un aviso?

Un aviso es un texto contextual en lenguaje natural relevante para una tarea en particular. Por ejemplo, si los ingenieros quieren habilitar un modelo de lenguaje grande para recomendar una película, podrían agregar el mensaje «es» al fragmento de oración «vale la pena verlo» y crear el mensaje «Es [blank].»

Si los ingenieros agregan suficientes indicaciones contextuales, el modelo podría reutilizarse sin parámetros adicionales para predecir con éxito si el espacio en blanco debe contener la palabra «recomendado» o las palabras «no recomendado».

Solicitudes discretas vs. Solicitudes blandas

El ejemplo anterior de entrenamiento de un modelo de lenguaje grande (LLM) para clasificar una película como «vale la pena verla» con el mensaje «Era» es un «mensaje discreto». Las solicitudes discretas se pueden diseñar de forma manual, utilizando ingeniería rápida, o automáticamente, utilizando métodos como Aviso automático. Al ajustar indicaciones discretas, las indicaciones se mantienen fijas y se ajusta el modelo preentrenado.

CONTENIDO RELACIONADO  Planet Coaster se precipita hacia el lanzamiento de Steam

Por el contrario, las «indicaciones suaves» son esencialmente vectores aleatorios inyectados en la secuencia de entrada. Cuando ajusta las indicaciones suaves, el modelo preentrenado se mantiene fijo y las indicaciones se ajustan con precisión.

Los retos del aprendizaje basado en indicaciones

El aprendizaje basado en indicaciones cierra la brecha entre el entrenamiento previo de un modelo y su uso para varias tareas posteriores. Pero a pesar de las ventajas que ofrece el aprendizaje rápido, presenta algunos desafíos.

En el aprendizaje basado en indicaciones, puede ser difícil:

1. Diseña indicaciones efectivas.

Los investigadores han propuesto métodos tanto manuales como automáticos para crear mensajes, ambos métodos requieren:

  • La persona que entrena el modelo de IA mediante la comprensión de su funcionamiento interno.
  • Un enfoque de prueba y error.

El aprendizaje basado en indicaciones solo se ha explorado para áreas de aplicación limitadas, como la clasificación de textos, la respuesta a preguntas y el razonamiento de sentido común. Otras áreas como el análisis de textos, la extracción de información y el razonamiento analítico requerirían Más desafiantes métodos de diseño rápido. (Lea también: IA centrada en datos vs. IA centrada en el modelo: la clave para mejorar los algoritmos.)

2. Encuentre la combinación correcta de plantillas de indicaciones y respuestas.

El aprendizaje basado en indicaciones depende tanto de las plantillas de indicaciones (p. ej., «Es») como de las respuestas dadas (p. ej., «vale la pena verlo»). Con este fin, buscar una combinación óptima de plantilla y respuesta sigue siendo un desafío y requiere mucho ensayo y error.

Sin embargo, a pesar de estos desafíos, el aprendizaje rápido está emergiendo rápidamente como la próxima evolución de los modelos básicos de capacitación. Pero para explicar por qué, necesitamos alejarnos un poco.

CONTENIDO RELACIONADO  Intel presenta nuevos procesadores Krypton Solid

Historia del aprendizaje rápido

Los primeros modelos de aprendizaje automático se entrenaron con aprendizaje supervisado. El aprendizaje supervisado utiliza conjuntos de datos etiquetados y muestras de resultados correctos para enseñar a un algoritmo de aprendizaje cómo clasificar datos o predecir un resultado. Sin embargo, puede ser difícil encontrar suficientes datos etiquetados para usar este método de manera consistente.

Como resultado, ingeniería de características se ha convertido en un componente crucial de la tubería de aprendizaje automático. La ingeniería de características extrae las características más importantes de los datos sin procesar y las utiliza para guiar el modelo durante el entrenamiento. Tradicionalmente, los investigadores e ingenieros han utilizado su conocimiento del dominio para decidir qué características son las más importantes. Sin embargo, en los últimos años, el advenimiento del aprendizaje profundo ha reemplazado la ingeniería de características «práctica» tradicional con el aprendizaje automático de características. (Lea también: ¿Por qué es tan importante la selección de funciones en el aprendizaje automático?)

Pero eso nos llevó de vuelta al punto de partida: los grandes conjuntos de datos etiquetados para entrenar modelos de aprendizaje automático todavía son demasiado raros.

El aprendizaje autosupervisado (SSL) es una posible solución a este dilema. En este tipo de aprendizaje no supervisado, el modelo de aprendizaje toma señales autodefinidas como supervisión y utiliza la representación aprendida para tareas posteriores. La llegada de SSL ha permitido a los investigadores entrenar modelos de IA a escala, en particular para el procesamiento del lenguaje natural (NLP). También dio origen a modelos básicos: algoritmos de aprendizaje profundo preentrenados que se pueden escalar para realizar diversas tareas.

CONTENIDO RELACIONADO  ANZ estimula Bangalore a medida que aumentan los costos de TI

resumen

El campo de la investigación de IA está experimentando un cambio de paradigma en el que, en lugar de entrenar modelos específicos de tareas, se entrenan previamente grandes modelos de lenguaje subyacentes en conjuntos de datos a escala.

Al reducir la brecha entre las tareas pre-entrenadas y las posteriores, el aprendizaje basado en indicaciones hizo que fuera más conveniente implementar modelos pre-entrenados para las tareas posteriores. Esto es especialmente útil en tareas en las que es difícil ajustar modelos previamente entrenados debido a una cantidad limitada de grandes conjuntos de datos etiquetados. (Lea también: Las 6 formas principales en que la IA está mejorando la productividad empresarial.)

Deja un comentario

También te puede interesar...

Como tener vida infinita en minecraft

eres fan de Minecraft y pase parte de su tiempo libre aventurándose cara a cara en varias aventuras en el ahora famoso mundo de los cubos de Mojang. Desafortunadamente, se enfrenta a un desafío muy

Mod de la semana: Crazy Civilian AI, para Just Cause 2

Bienvenido al programa de noticias matutino número uno de Panau, «Good Morning Panau!» ¡Soy su anfitrión, Skip Tripson! Los televidentes regulares sabrán que nuestra historia principal todos los días durante los últimos años es el

Uso de LoopPay CardCase en el mundo real

LoopPay está de regreso con otro intento de reemplazar su billetera. A principios de este año, revisamos los primeros productos de la compañía: un llavero y ChargeCase, y en gran medida no nos impresionó. El

El ciberespionaje golpea el negocio | Krypton Solid

El ciberespionaje golpea el negocio Alan Paller, director de investigación del Instituto Sans, advierte sobre la expansión del ciberespionaje en el sector privado. CONTENIDO RELACIONADO  War Mongrels es un brutal juego de tácticas en tiempo

8 consejos para impulsar su ciberseguridad personal

8 consejos para impulsar su ciberseguridad personal No es coincidencia que Halloween y Mes Nacional de Concientización sobre Ciberseguridad ¡caer juntos! Esfuerzos de phishing y fraude pico durante las vacaciones, comenzando en octubre y continuando

Preguntarle a Alexa «¿Quién diablos?» es un paseo salvaje

Los asistentes digitales como Alexa deben responder todas sus preguntas candentes, proporcionando respuestas precisas a preguntas importantes como «¿Está lloviendo?» y «¿Dónde está Francia?» Pero a veces los métodos que utilizan estos programas para extraer

¿En qué mercados debería operar?

¿En qué mercados debería operar? A medida que crece la tecnología y continúa la innovación comercial, el mundo está viendo una expansión de los tipos de herramientas comerciales que se pueden utilizar. Incluso los mercados

Reseña de Blade and Soul | jugador de pc

necesito saber ¿Qué es? Un MMO sobre artes marciales chinas inspirado en juegos de lucha Editor: NCSoft Desarrollador: Equipo Bloodlust (NCSoft) Revisado en: Core i5-3570K, 16 GB de RAM, GeForce GTX 670 Espera pagar: Libre

Salesforce está entrando en la fase de eBay

Marc Benioff, director ejecutivo de Salesforce.com no permitió que el anuncio de Oracle de la adquisición de Siebel obstaculizara lo que llamó la idea más grande e interesante en la que había trabajado. Confió en