Krypton Solid

La última tecnología en raciones de 5 minutos

Convierta datos no estructurados en datos estructurados con el aprendizaje automático

Miles de millones de personas compran en línea. Usan las redes sociales. Transmiten películas y envían textos e imágenes al otro …

lado del mundo. Cada segundo, se crea y recopila una gran cantidad de datos. Pero, aún así, las empresas tienen un problema de datos; específicamente, un problema de datos no estructurados a datos estructurados.

Por un amplio margen, la mayoría de los datos que recopilan las organizaciones no están estructurados: datos que no se ajustan fácilmente a un modelo de datos existente, como los datos estructurados o incluso los datos semiestructurados. Para muchas organizaciones, los datos no estructurados son, más o menos, inútiles.

Imagina que necesitas un nuevo guardarropa. Pides algunas camisas y pantalones en línea, pero cuando llegan las cajas, solo ves un par de pantalones y una camisa. El resto de cajas se rellenan con trozos de lana, algodón, algo de hilo y un par de botones disociados.

Técnicamente, son todos los materiales que habrían hecho tu ropa, pero en ese momento, no es utilizable. Para realmente hacer algo con él, se necesitaría mucho tiempo y probablemente una buena cantidad de dinero para las herramientas y la capacitación. Ese es el problema con los datos no estructurados; no hay una buena manera de usarlo ni de obtener información útil.

Peinando a través del aprendizaje automático, datos no estructurados

Los datos no estructurados no tienen valor sin el aprendizaje automático.

Nav KesherFacebook

Para que las organizaciones aprovechen estos datos «se requiere una inversión significativa de tiempo y dinero», dijo Nav Kesher, jefe de ciencias de datos de Facebook Marketplace Experience.

Alrededor del 80% de todos los datos digitales no están estructurados, dijo Kesher durante un discurso de apertura en la Cumbre de IA en San Francisco. Pero si bien las empresas, en el pasado, ignoraron u olvidaron estos datos, eso está comenzando a cambiar lentamente.

La potencia informática se ha vuelto barata, dijo Kesher, lo que permite a las organizaciones impulsar de manera más fácil y rentable los algoritmos necesarios para convertir datos no estructurados en datos estructurados. Esos algoritmos también se han vuelto más avanzados, con más enfoque y fondos destinados a la inteligencia artificial y las herramientas y tecnologías de aprendizaje automático.

«Los datos no estructurados no tienen valor sin el aprendizaje automático», dijo Kesher.

Nav Kesher, Facebook, Cumbre de IA
Nav Kesher de Facebook se presenta en la Cumbre de IA 2018 en San Francisco

Los modelos de aprendizaje automático, después de un poco de entrenamiento, se pueden usar para moverse, etiquetar y categorizar de forma automática y rápida los datos no estructurados. No es un proceso perfecto y, sin duda, sigue siendo caro y requiere mucho tiempo, pero cambiar datos no estructurados a datos estructurados es más fácil ahora que nunca.

Para las empresas que buscan finalmente hacer uso de sus datos no utilizados con la ayuda de herramientas de aprendizaje automático, ahora podría ser el momento de invertir. Comenzar, al menos a nivel empresarial, puede ser tan engañosamente simple como establecer un objetivo comercial.

Paso a paso

Las organizaciones que comienzan a abordar su problema de datos no estructurados deben comenzar por establecer un objetivo comercial, algo que se pueda decir en 10 palabras o menos y que pueda conectar los objetivos comerciales con los objetivos de análisis, según Kesher. El objetivo debe responder preguntas como «¿Necesito una clasificación o un clúster?» En última instancia, la respuesta marcará el curso de los procesos, dijo Kesher.

Con el objetivo en mente, se deben evaluar las fuentes de datos. Muévase rápido y sea inteligente, dijo Kesher, y seleccione datos que sean específicos y relevantes para el objetivo. Priorice sin piedad lo que eventualmente pasará de datos no estructurados a datos estructurados.

Los administradores también deben evaluar los métodos analíticos, las herramientas de análisis de registros y las plataformas de almacenamiento de datos, según Kesher. Tenga en cuenta sus objetivos al comparar diferentes sistemas y proveedores.

El siguiente paso, la limpieza de datos, el proceso de identificación y corrección de errores en los datos, como errores tipográficos o problemas de formato, puede suponer mucho trabajo. Busque errores generales y cree y aplique un modelo de aprendizaje automático para corregir automáticamente esos errores. Toda la experiencia puede ser frustrante, dijo Kesher, pero «se siente bien cuando tu modelo funciona».

Los datos no estructurados de sensores, dispositivos móviles y la web se pueden convertir en datos estructurados.
Los datos no estructurados se recopilan de varias fuentes y pueden ser valiosos si se transforman en datos estructurados.

Modelar y visualizar

Ahora que está en camino de cambiar datos no estructurados a datos estructurados, el siguiente paso es el modelado de datos. Las relaciones en los datos se identifican y marcan durante lo que puede ser un proceso largo, pero es importante, ya que esas relaciones contienen las claves para utilizar con precisión los datos más adelante.

El modelado de datos está «muy basado en casos. Deben averiguar por sí mismos la precisión que necesitan», dijo Kesher.

El último paso para convertir datos no estructurados en datos estructurados es la visualización de datos, un paso que puede no parecer importante, pero es esencial, según Kesher.

«Creo que si no puede presentar su análisis con buenas visualizaciones y buenas historias, será muy, muy difícil para usted convencer a sus ejecutivos de que tomen medidas en el análisis», dijo.

Hay numerosos gráficos y tablas para usar para visualizar los datos, por lo que una evaluación aquí es importante, dijo Kesher. En última instancia, dijo, «la ciencia de datos no se trata solo de construir modelos». Se trata de tomar información en bruto y hacer que signifique algo para alguien. Se trata de «ser sencillo y hacer que los demás comprendan». En sus raíces, «es arte», dijo.

Deja un comentario

También te puede interesar...

Definición anual ARM Cap

¿Qué es un techo ARM anual? Un techo ARM anual es una cláusula en un contrato de hipoteca de tasa ajustable (ARM) que limita el posible aumento en la tasa de interés del préstamo cada

El reinicio borra el error de Defender 0x80070643

Mientras realizaba mi comprobación habitual de los sistemas de prueba esta mañana, encontré un error. En mi Surface Pro 3, apareció en Configuración → Actualización y seguridad → Actualización de Windows. Al descargar una actualización

Ingresos de Dot Hill, aumento de ingresos

Agregue Dot Hill Systems a la lista de proveedores de almacenamiento más pequeños que están aumentando sus ingresos de manera significativa mientras sus grandes rivales tropiezan. Dot Hill es diferente a los otros proveedores que

Definición de adultos para el ingreso familiar

¿Qué es una cláusula adicional de ingresos familiares? La compra de un ingreso familiar es un complemento a una póliza de seguro de vida que proporciona al beneficiario una suma de dinero equivalente al ingreso

dividendo constructivo

¿Qué es un dividendo constructivo? Un dividendo predeterminado es un pago o asignación a un participante o accionista de una empresa que no está destinado ni clasificado como una distribución al participante, pero que posteriormente

¿Cuál es la relación entre el IPP y el IPC?

Primero, echemos un vistazo a lo que significan estos dos acrónimos: el IPP es el índice de precios al productor y el IPC es el índice de precios al consumidor. Ambos índices calculan el cambio

Eliminar la definición del título

¿Qué es un título claro? Un título claro es un título sin ninguna garantía o tarifa de los acreedores u otras partes que harían preguntas sobre la propiedad legal. Por ejemplo, un propietario con un

Las mejores aplicaciones de pago para 2022

Sabio Wise ganó nuestro primer lugar por usar el tipo de cambio estándar en lugar de las tasas bancarias. Cualquiera que transfiera dinero internacionalmente puede usar Wise. Los bancos tradicionales cobran un rango promedio de