Krypton Solid

La última tecnología en raciones de 5 minutos

¿Qué es BERT (modelo de lenguaje) y cómo funciona?

BERT es un marco de aprendizaje automático de código abierto para el procesamiento del lenguaje natural (NLP). BERT está diseñado para ayudar a las computadoras a comprender el significado del lenguaje ambiguo en el texto mediante el uso de texto circundante para establecer el contexto. El marco BERT se entrenó previamente con texto de Wikipedia y se puede ajustar con conjuntos de datos de preguntas y respuestas.

BERT, que significa Representaciones de codificador bidireccional de Transformers, se basa en Transformers, un modelo de aprendizaje profundo en el que cada elemento de salida está conectado a cada elemento de entrada, y las ponderaciones entre ellos se calculan dinámicamente en función de su conexión. (En PNL, este proceso se llama atención.)

Históricamente, los modelos de lenguaje solo podían leer la entrada de texto secuencialmente, ya sea de izquierda a derecha o de derecha a izquierda, pero no podían hacer ambas cosas al mismo tiempo. BERT es diferente porque está diseñado para leer en ambas direcciones a la vez. Esta capacidad, habilitada por la introducción de Transformers, se conoce como bidireccionalidad.

Con esta capacidad bidireccional, BERT está previamente entrenado en dos tareas de PNL diferentes, pero relacionadas: el modelado de lenguaje enmascarado y la predicción de la siguiente oración.

El objetivo del entrenamiento del Modelo de lenguaje enmascarado (MLM) es ocultar una palabra en una oración y luego hacer que el programa prediga qué palabra se ha ocultado (enmascarado) en función del contexto de la palabra oculta. El objetivo del entrenamiento de Predicción de la siguiente oración es que el programa prediga si dos oraciones dadas tienen una conexión lógica secuencial o si su relación es simplemente aleatoria.

Fondo

Los transformadores fueron introducidos por primera vez por Google en 2017. En el momento de su introducción, los modelos de lenguaje usaban principalmente redes neuronales recurrentes (RNN) y redes neuronales convolucionales (CNN) para manejar tareas de PNL.

Aunque estos modelos son competentes, el Transformer se considera una mejora significativa porque no requiere que las secuencias de datos se procesen en un orden fijo, mientras que las RNN y las CNN sí lo hacen. Debido a que los Transformers pueden procesar datos en cualquier orden, permiten el entrenamiento con cantidades de datos más grandes de las que nunca antes de su existencia eran posibles. Esto, a su vez, facilitó la creación de modelos previamente entrenados como BERT, que se entrenó en cantidades masivas de datos de lenguaje antes de su lanzamiento.

En 2018, Google introdujo un BERT de código abierto. En sus etapas de investigación, el marco logró resultados innovadores en 11 tareas de comprensión del lenguaje natural, incluido el análisis de sentimientos, el etiquetado de roles semánticos, la clasificación de oraciones y la desambiguación de palabras polisémicas o palabras con múltiples significados.

La realización de estas tareas distinguió a BERT de modelos de lenguaje anteriores como word2vec y GloVe, que son limitados a la hora de interpretar el contexto y las palabras polisémicas. BERT aborda eficazmente la ambigüedad, que es el mayor desafío para la comprensión del lenguaje natural según los científicos de investigación en el campo. Es capaz de analizar el lenguaje con un «sentido común» relativamente parecido al de los humanos.

En octubre de 2019, Google anunció que comenzaría a aplicar BERT a sus algoritmos de búsqueda de producción basados ​​en Estados Unidos.

Se espera que BERT afecte al 10% de las consultas de búsqueda de Google. Se recomienda a las organizaciones que no intenten optimizar el contenido para BERT, ya que BERT tiene como objetivo proporcionar una experiencia de búsqueda natural. Se aconseja a los usuarios que mantengan las consultas y el contenido enfocados en el tema natural y la experiencia del usuario natural.

En diciembre de 2019, BERT se aplicó a más de 70 idiomas diferentes.

Cómo funciona BERT

El objetivo de cualquier técnica de PNL es comprender el lenguaje humano tal como se habla de forma natural. En el caso de BERT, esto generalmente significa predecir una palabra en un espacio en blanco. Para hacer esto, los modelos normalmente necesitan entrenarse usando un gran repositorio de datos de entrenamiento especializados y etiquetados. Esto requiere un laborioso etiquetado manual de datos por parte de equipos de lingüistas.

BERT, sin embargo, fue entrenado previamente usando solo un corpus de texto plano sin etiquetar (es decir, la totalidad de la Wikipedia en inglés y el Brown Corpus). Continúa aprendiendo sin supervisión del texto sin etiquetar y mejorando incluso cuando se usa en aplicaciones prácticas (es decir, búsqueda de Google). Su entrenamiento previo sirve como una capa base de «conocimiento» para construir. A partir de ahí, BERT puede adaptarse al cuerpo cada vez mayor de contenido y consultas que se pueden buscar y ajustarse a las especificaciones del usuario. Este proceso se conoce como aprendizaje por transferencia.

Como se mencionó anteriormente, BERT es posible gracias a la investigación de Google sobre Transformers. El transformador es la parte del modelo que le da a BERT su mayor capacidad para comprender el contexto y la ambigüedad en el lenguaje. El transformador hace esto procesando cualquier palabra dada en relación con todas las demás palabras en una oración, en lugar de procesarlas una a la vez. Al observar todas las palabras circundantes, Transformer permite que el modelo BERT comprenda el contexto completo de la palabra y, por lo tanto, comprenda mejor la intención del buscador.

Esto contrasta con el método tradicional de procesamiento del lenguaje, conocido como incrustación de palabras, en el que modelos anteriores como GloVe y word2vec mapeaban cada palabra en un vector, que representa solo una dimensión, una astilla, del significado de esa palabra.

Estos modelos de incrustación de palabras requieren grandes conjuntos de datos de datos etiquetados. Si bien son expertos en muchas tareas generales de PNL, fallan en la naturaleza predictiva y de contexto pesado de la respuesta a preguntas, porque todas las palabras están, en cierto sentido, fijadas a un vector o significado. BERT utiliza un método de modelado de lenguaje enmascarado para evitar que la palabra en foco «se vea a sí misma», es decir, que tenga un significado fijo independiente de su contexto. A continuación, BERT se ve obligado a identificar la palabra enmascarada basándose únicamente en el contexto. En BERT, las palabras se definen por su entorno, no por una identidad prefijada. En palabras del lingüista inglés John Rupert Firth, «conocerá una palabra por la compañía que mantiene».

Gráfico BERT
Gráfico BERT

BERT es también el primero La técnica de PNL se basa únicamente en el mecanismo de auto-atención, que es posible gracias a los transformadores bidireccionales en el centro del diseño de BERT. Esto es importante porque a menudo, una palabra puede cambiar de significado a medida que se desarrolla una oración. Cada palabra agregada aumenta el significado general de la palabra en la que se enfoca el algoritmo NLP. Cuantas más palabras estén presentes en total en cada oración o frase, más ambigua se vuelve la palabra en foco. BERT explica el significado aumentado leyendo bidireccionalmente, teniendo en cuenta el efecto de todas las demás palabras en una oración en la palabra de enfoque y eliminando el impulso de izquierda a derecha que predispone las palabras hacia un cierto significado a medida que avanza una oración.

Por ejemplo, en la imagen de arriba, BERT determina a qué palabra anterior en la oración se refiere la palabra «se refiere» y luego usa su mecanismo de atención para sopesar las opciones. La palabra con la puntuación calculada más alta se considera la asociación correcta (es decir, «es» se refiere a «animal», no a «él»). Si esta frase fuera una consulta de búsqueda, los resultados reflejarían esta comprensión más sutil y precisa que alcanzó el BERT.

¿Para qué se utiliza BERT?

BERT se utiliza actualmente en Google para optimizar la interpretación de las consultas de búsqueda de los usuarios. BERT sobresale en varias funciones que lo hacen posible, que incluyen:

  • Tareas de generación de lenguaje basadas en secuencia a secuencia, tales como:
    • Respuesta a preguntas
    • Resumen de resúmenes
    • Predicción de oraciones
    • Generación de respuestas conversacionales
  • Tareas de comprensión del lenguaje natural como:
    • Resolución de polisemia y correferencia (palabras que suenan o se ven iguales pero tienen diferentes significados)
    • Desambiguación del sentido de las palabras
    • Inferencia de lenguaje natural
    • Clasificación de sentimiento

Se espera que BERT tenga un gran impacto en la búsqueda por voz, así como en la búsqueda basada en texto, que hasta la fecha ha sido propensa a errores con las técnicas de PNL de Google. También se espera que BERT mejore drásticamente el SEO internacional, porque su habilidad para comprender el contexto lo ayuda a interpretar patrones que comparten diferentes idiomas sin tener que comprender el idioma por completo. En términos más generales, BERT tiene el potencial de mejorar drásticamente los sistemas de inteligencia artificial en todos los ámbitos.

BERT es de código abierto, lo que significa que cualquiera puede usarlo. Google afirma que los usuarios pueden entrenar un sistema de preguntas y respuestas de última generación en solo 30 minutos en una unidad de procesamiento de tensor de nube (TPU) y en unas pocas horas usando una unidad de procesamiento gráfico (GPU). Muchas otras organizaciones, grupos de investigación y facciones separadas de Google están afinando la arquitectura del modelo BERT con entrenamiento supervisado para optimizarlo para su eficiencia (modificando la tasa de aprendizaje, por ejemplo) o especializarlo para ciertas tareas al entrenarlo previamente con ciertos representaciones contextuales. Algunos ejemplos incluyen:

  • patentBERT: un modelo BERT ajustado para realizar la clasificación de patentes.
  • docBERT: un modelo BERT perfeccionado para la clasificación de documentos.
  • bioBERT: un modelo de representación de lenguaje biomédico previamente entrenado para la minería de textos biomédicos.
  • VideoBERT: un modelo visual-lingüístico conjunto para procesar el aprendizaje no supervisado de una gran cantidad de datos sin etiquetar en Youtube.
  • SciBERT: un modelo BERT previamente entrenado para texto científico
  • G-BERT: un modelo BERT previamente entrenado usando códigos médicos con representaciones jerárquicas usando redes neuronales gráficas (GNN) y luego ajustado para hacer recomendaciones médicas.
  • TinyBERT de Huawei: un BERT «estudiante» más pequeño que aprende del BERT «maestro» original, que realiza la destilación del transformador para mejorar la eficiencia. TinyBERT produjo resultados prometedores en comparación con la base BERT, siendo 7.5 veces más pequeño y 9.4 veces más rápido en la inferencia.
  • DistilBERT de HuggingFace: una versión supuestamente más pequeña, más rápida y más barata de BERT que se entrena desde BERT, y luego se eliminan ciertos aspectos arquitectónicos en aras de la eficiencia.

Deja un comentario

También te puede interesar...

Cómo editar una foto Krypton Solid

Eres un amante de la fotografía y quieres aprender todo sobre la edición de fotografías. Aunque no te falte creatividad, lo que realmente necesitas es un consejo: quieres empezar a practicar con una buena herramienta

¿Apple llevará las redes sociales a iTunes?

Steve Jobs dará mañana el último discurso de apertura en Macworld y, como es habitual en estos asuntos, los rumores y predicciones basados ​​en expertos llegan muy rápidamente. Como fan de Apple, sé que no

Administracion del sistema

Por: Craig S. Wright Para llevar del proveedor de servicios: El cumplimiento de normativas y normas puede plantear varios desafíos tanto desde una perspectiva comercial como técnica. Esta sección del extracto del capítulo del libro

Oracle busca $ 1,160 millones de Google

Como las conversaciones entre Oracle, Google y sus respectivos directores ejecutivos, Larry Ellison y Larry Page, no llegaron a ninguna parte, otro factor clave en Oracle finalmente podría estar en su lugar. En julio, tanto

Cómo formatear S3 | Krypton Solid

¿El Samsung Galaxy S3 se vuelve cada vez más lento? ¿Las aplicaciones fallan todo el tiempo? Dime, ¿alguna vez has intentado escanear tu sistema con un buen antivirus de Android? Si la respuesta es sí,

Publicar aplicación Libro | Krypton Solid

Recientemente fuiste a una oficina de correos y decidiste abrir un libro para poder depositar tus ahorros. Sin embargo, debido a que usted es una persona que a menudo usa un teléfono inteligente o una

Introducción al Comercio de Guerrilla

El «comercio de guerrilla», como sugiere el colorido término, se refiere a la técnica utilizada por comerciantes hábiles que entran y salen de la jungla financiera en peleas cortas que tienen como objetivo generar ganancias

El CEO de Opera renuncia al desafío del Atlántico

El director ejecutivo de Opera Software ha dicho que nadará desde Noruega hasta Estados Unidos si se descargan un millón de copias del último navegador de la compañía en cuatro días. Los resultados se publicarán

¿Es hora de invertir en Cuba?

En 1958, Cuba era una gran potencia inversora. A sus trabajadores se les pagaba el octavo salario más alto del mundo, y la renta per cápita del país supera a la de Austria y Japón.

Cómo enviar un correo electrónico | Krypton Solid

Después de mucho tiempo de dudar de las nuevas tecnologías y decididamente más tradicionalistas, finalmente te has decidido a abordar el colorido y fascinante mundo de las tecnologías de la información. No importa si compraste

Definición de financiación basada en los ingresos

¿Qué es el financiamiento basado en los ingresos? El financiamiento basado en ingresos, también conocido como financiamiento basado en regalías, es un método de obtener capital para una empresa de inversionistas que reciben un porcentaje

Lo que significa ZTX para vendedores y usuarios

Vídeo: Cómo se están comportando los principales proveedores de la nube en 2018 Permítanme comenzar diciendo que soy un gran admirador de Zero Trust. El valor intrínseco del marco de seguridad y los procesos comerciales

JAJAH para mi: por favor no nos malinterpreten

Compañero bloguero alec tiene razón. No «principal» JAJAH Mobile. Como yo publicaronTengo problemas para imaginar una necesidad urgente de este servicio. Obviamente, los directores de JAJAH estarían en desacuerdo. Sienten que su servicio es importante.