Krypton Solid

La última tecnología en raciones de 5 minutos

La preparación de datos para el aprendizaje automático aún requiere humanos

Los datos son el núcleo de los proyectos de inteligencia artificial y aprendizaje automático. Incluso más que el código de la aplicación, los datos son cruciales para entrenar, probar, validar y respaldar los algoritmos de aprendizaje automático en el corazón de los sistemas de IA. Parte de la razón por la que la IA ha vuelto a ganar popularidad se debe a la combinación de computación en la nube casi ilimitada, la disponibilidad de big data para entrenar modelos de aprendizaje automático y la evolución de los algoritmos de aprendizaje profundo. Las dos últimas de esas tres razones dependen de los datos. De hecho, cuantos más datos pueda alimentar a los algoritmos de IA, mejor funcionarán y más significativos serán los resultados del aprendizaje automático.

Sin embargo, no es suficiente tener muchos datos. Sin datos de buena calidad, los sistemas de IA fallan. La raíz de muchas fallas en los proyectos de aprendizaje automático tiene poco que ver con los algoritmos o el código de aprendizaje automático, o incluso con la elección de un proveedor de tecnología en particular. Los problemas casi siempre se relacionan con la calidad de los datos. Para que los modelos de aprendizaje automático estén debidamente capacitados y proporcionen los resultados precisos esperados, los datos utilizados deben ser limpios, precisos, completos y bien etiquetados. La preparación de datos para el aprendizaje automático es un paso crucial.

Debido a esto, la mayor parte del tiempo que las empresas dedican a proyectos de IA se destina a la recopilación, limpieza, preparación y etiquetado de datos. Las empresas están descubriendo que necesitan invertir más en estos pasos de preparación de datos que en las partes de ciencia de datos, entrenamiento de modelos y operacionalización. Esto ha llevado a un crecimiento sustancial en la demanda de herramientas y servicios para ayudar con la preparación y el etiquetado de datos.

Los muchos pasos de la preparación de datos para la IA

Un informe reciente de la firma de asesoría e investigación de IA Cognilytica encuentra que más del 80% del tiempo que las empresas dedican a proyectos de IA se destina a la preparación, limpieza y etiquetado de datos. Específicamente, el informe encuentra que los muchos pasos involucrados en la recopilación, agregación, filtrado, limpieza, deduplicación, mejora, selección y etiquetado de datos de datos superan con creces los pasos en los lados de la ciencia de datos, la construcción de modelos y la implementación.

Porcentaje de tiempo asignado a tareas de aprendizaje automático
Donde los científicos e ingenieros de datos pasan la mayor parte de su tiempo de aprendizaje automático

Ha surgido en el mercado una nueva clase de herramientas de preparación de datos, diseñadas para administrar grandes conjuntos de datos y optimizadas para abordar los problemas de los proyectos de aprendizaje automático. Según el informe, el mercado de herramientas de preparación de datos centradas en la inteligencia artificial está valorado actualmente en más de 500 millones de dólares y se espera que se duplique con creces a 1.200 millones de dólares para fines de 2023.

Tamaño del mercado de preparación de datos
Se prevé que el mercado de herramientas de preparación de datos crezca rápidamente

La mayoría de los datos empresariales no están listos para ser utilizados por aplicaciones de aprendizaje automático y requieren un esfuerzo significativo en su preparación. Las herramientas que ofrecen preparación de datos para el aprendizaje automático deben poder realizar una larga lista de tareas, incluida la estandarización de formatos en diferentes fuentes de datos, eliminar o reemplazar datos inválidos y duplicados, confirmar que los datos son precisos y actualizados, ayudar a mejorar y aumentar los datos a medida que necesario, reducir el ruido de los datos, anonimizar los datos, normalizar los datos, permitir el muestreo de datos adecuado, especialmente cuando se trabaja con grandes volúmenes de datos, y permitir la ingeniería y extracción de características.

El informe de Cognilytica encuentra que las herramientas de preparación de datos relevantes para la inteligencia artificial brindan formas iterativas e interactivas para permitir que las personas vean rápidamente el impacto de las actividades de preparación de datos en big data. Algunas de las características clave de estas herramientas le permiten detectar rápidamente anomalías en los datos, identificar y eliminar duplicados, resolver conflictos de datos, normalizar formatos de datos, establecer canales para extraer y cotejar datos de múltiples fuentes, mejorar los datos con características adicionales necesarias para los modelos. y anonimizar los datos según sea necesario para determinadas aplicaciones.

En el pasado, las empresas confiaban en una categoría de herramientas conocidas como extraer, transformar, cargar (ETL) para mover datos dentro y fuera de los grandes almacenes de datos para facilitar informes, análisis, inteligencia empresarial y otras operaciones. Sin embargo, en el nuevo entorno basado en la nube y orientado a big data, mover datos dentro y fuera de los almacenes con ETL está cayendo en desgracia. En su lugar, las empresas buscan trabajar con datos en cualquier ubicación en la que se encuentren actualmente. Algunos se refieren a esto como «beber del lago de datos». En lugar de ETL, las empresas están buscando herramientas que puedan extraer información a pedido de la fuente de datos y transformarla una vez extraída y cargada. Esto se parece más a ELT que a ETL, y muchas de las herramientas de preparación de datos en el mercado, incluidas las ofertas de Melissa Data, Trifacta y Paxata, funcionan desde la perspectiva de asumir que los datos se encuentran en diferentes formatos en toda la organización.

Etiquetado de datos y el secreto de la IA

Para que el aprendizaje automático supervisado funcione, los algoritmos deben entrenarse con datos que se hayan etiquetado con cualquier información que necesite el modelo. Por ejemplo, los modelos de reconocimiento de imágenes deben entrenarse con datos precisos y bien etiquetados que representen lo que reconocerá el sistema. Si está tratando de identificar gatos, entonces necesita muchas imágenes de gatos para un modelo de reconocimiento de gatos.

Podría ser una sorpresa, especialmente para aquellos que no se ocupan de los modelos de aprendizaje automático a diario, lo intensivo que es gran parte de este trabajo de etiquetado de datos. Los proyectos de aprendizaje automático supervisados ​​forman la mayor parte de los proyectos de IA. Los proyectos de IA relacionados con el reconocimiento de objetos e imágenes, vehículos autónomos, análisis de audio y anotaciones de texto e imágenes son las cargas de trabajo más comunes para los esfuerzos de etiquetado de datos. De hecho, el etiquetado de datos impulsado por humanos es un componente necesario para cualquier modelo de aprendizaje automático que deba entrenarse con datos que aún no se hayan etiquetado. Uno de los pequeños secretos de la IA es que todavía se necesitan humanos para etiquetar datos manualmente y realizar el control de calidad de la IA.

Muchas empresas recurren al uso de mano de obra interna o la contratación de mano de obra general para este trabajo de etiquetado. Según el informe de Cognilytica, las empresas gastaron más de $ 750 millones en 2018 en esfuerzos de etiquetado interno y se proyecta que esta cifra aumentará a más de $ 2 mil millones para fines de 2023.

En los últimos años, ha surgido una nueva clase de proveedor para proporcionar etiquetado de terceros. Proveedores como Figure Eight, iMerit y CloudFactory proporcionan grupos de trabajo de etiquetado de datos dedicados que pueden descargar gran parte de este trabajo a trabajadores remotos que operan a mejores escalas y costos de operación. El informe cita que el mercado de servicios de etiquetado de datos de terceros fue de $ 150 millones en 2018, creciendo a más de $ 1 mil millones para 2023.

Sin embargo, a pesar del uso de servicios de etiquetado de datos de terceros, las empresas que utilizan esas ofertas de terceros deben gastar el doble en respaldar esos esfuerzos que el costo del trabajo de datos real. Parte de la razón por la que es tan costoso manejar esta parte del proyecto de aprendizaje automático es que simplemente no hay forma de sacar al ser humano del circuito por completo. Aquí es donde la IA se enfrenta al problema del huevo y la gallina. Para entrenar algoritmos de aprendizaje automático, necesita muchos datos limpios, precisos y bien etiquetados, pero para obtener esos datos, necesita humanos para hacer el trabajo duro para limpiar y etiquetar manualmente esos datos. Obviamente, si las máquinas pudieran hacerlo, no necesitarías a los humanos. Pero para que las máquinas puedan hacerlo, se necesitan humanos.

Cómo la IA puede desempeñar un papel más importante en la preparación de datos

Afortunadamente, a medida que los modelos de IA se vuelven más inteligentes y están mejor entrenados, pueden ayudar en algunas de estas actividades relacionadas con la preparación de datos para el aprendizaje automático. De hecho, el informe destaca el hecho de que la mayoría de las herramientas en el mercado están agregando inteligencia artificial a sus sistemas para ayudar con las actividades de preparación de datos, manejar tareas repetitivas de forma autónoma y brindar asistencia para guiar a los humanos en las actividades de preparación. Cada vez más, los proveedores de preparación de datos y etiquetado de datos están aplicando el aprendizaje automático a sus propios esfuerzos de etiquetado para proporcionar algún control de calidad autónomo y, hasta cierto punto, etiquetado autónomo.

Algunas de estas empresas utilizan IA para ayudar a detectar anomalías, patrones, coincidencias y otros aspectos de la limpieza de datos. Otras empresas utilizan la inferencia para identificar tipos de datos y elementos que no coinciden con la estructura de una columna de datos. Esto ayuda a detectar posibles problemas de formato o calidad de los datos y proporciona recomendaciones sobre cómo limpiar los datos. El informe afirma que todas las herramientas de preparación de datos líderes en el mercado tendrán IA en su núcleo para 2021.

De manera similar, el informe de Cognilytica considera que los esfuerzos de etiquetado de datos aumentan cada vez más gracias a las capacidades de inteligencia artificial y aprendizaje automático. El uso de modelos previamente entrenados, el aprendizaje por transferencia y las herramientas de etiquetado mejoradas por IA reducirán la cantidad de trabajo humano necesario para construir nuevos modelos. Eso, a su vez, acelerará los esfuerzos de IA y aumentará aún más la eficiencia en el lado más intensivo en humanos de la IA.

Dado que los datos están en el corazón de la inteligencia artificial y el aprendizaje automático, la necesidad de que las empresas tengan datos buenos, limpios y bien etiquetados solo aumentará. En algún momento en el futuro cercano, habrá redes neuronales previamente entrenadas disponibles para que las utilicen las organizaciones. Hasta entonces, las empresas deben invertir en software que realice la preparación de datos para el aprendizaje automático.

Deja un comentario

También te puede interesar...

Cómo justificar un texto Krypton Solid

Estás prácticamente sin informática, empezaste a usar tu PC activamente hace solo unos días, pero en la oficina ya te han pedido que escribas un documento en tu computadora. Lo sé, ahora estás en un

Definición de tiras de interés solamente (IO)

¿Qué son las bandas de solo interés? A veces, las empresas de inversión o los intermediarios asumen una deuda o un grupo de bonos (hipotecas, bonos del Tesoro u otros bonos) y, después de separar

Definición de residencia principal

¿Qué es una residencia principal? La residencia principal es el lugar principal donde vive una persona. También se le llama residencia principal o residencia principal. No importa si es una casa, un apartamento, un remolque

Cómo excluir el contestador Vodafone

En los últimos días has leído mi guía sobre cómo cambiarte a Vodafone y, más que nunca, has decidido qué hacer, has sustituido tu antiguo operador por el «gestor rojo» activando una de las ofertas

Metro Exodus abandona Denuvo | jugador de pc

Metro Exodus ya no es uno de los muchos juegos cargados con Denuvo, ya que eliminó el DRM en una revisión reciente. No hay mucho más en el parche, pero son buenas noticias para cualquiera

Definición de informe de front-end

¿Cómo se determina el informe inicial? La relación inicial, también conocida como relación hipoteca-ingresos, es una relación que indica qué parte de los ingresos de una persona se destina a los pagos de la hipoteca.

Serie Sprint 4G: Bienvenido a Overdrive

Anteriormente publiqué un revisión completa de Sprint Overdrive y luego incluso compré el mío. Sin embargo, terminé devolviéndolo porque me desperté usando mis teléfonos inteligentes más de Sobremarcha así que elegí una solución para teléfonos

Sin SOPA para Australia: AG

El Departamento del Fiscal General ha respondido a las preocupaciones del Partido Verde de que una Ley Stop Online Piracy Act (SOPA), como la de Estados Unidos, podría llegar a Australia a tiempo. La SOPA,

Microsoft (MSFT) listo para lanzar Windows 11

Microsoft Corporation (MSFT) lanzará la última versión del sistema operativo Windows 11 más vendido el 5 de octubre, dijo la compañía en una publicación de blog. Apodado como la «primera versión de una nueva era

Definición del plan de reinversión automática

¿Qué es un plan de reinversión automática? Un plan de reinversión automática (ARP) es un plan que reinvierte automáticamente las ganancias de capital o los dividendos en una cartera. Esto generalmente se encuentra en los

La mejor alternativa a Raspberry Pi 2021: Top SBC

Para muchos proyectos, dedicar una computadora completa a un proyecto es una exageración. Las computadoras de placa única son útiles aquí. El SBC más conocido es sin duda Frambuesa pi . Es conocido mundialmente por

¿Qué es un procedimiento almacenado?

Un procedimiento almacenado es un conjunto de declaraciones de lenguaje de consulta estructurado (SQL) con un nombre asignado, que se almacenan en un sistema de administración de bases de datos relacionales (RDBMS) como un grupo,