Krypton Solid

La última tecnología en raciones de 5 minutos

Kirk Borne sobre ciencia de datos y análisis de big data, alfabetización de datos

Un largo viaje en el camino de la ciencia de big data tomó una nueva dirección este año cuando Kirk Borne se unió a la empresa de consultoría de gestión y tecnología Booz Allen Hamilton como director. científico de datos. El primer trabajo de Borne fue en el campo de la astrofísica, donde lidiar con terabytes y terabytes de datos estelares lo colocó en el camino hacia la intersección actual de la ciencia de datos y el análisis de big data. En el medio, ayudó a crear uno de los primeros programas académicos de ciencia de datos, en la Universidad George Mason, donde también se desempeñó como profesor de astrofísica y ciencia computacional. Ahora, además de ayudar a Booz Allen Hamilton a avanzar en sus técnicas de ciencia de datos y abogar por una mayor alfabetización de datos, Borne se encuentra entre los más destacados big data Twitterati. SearchDataManagement se reunió con él recientemente para una sesión de preguntas y respuestas sobre big data, ciencia de datos y otros temas.

¿Cómo llegaste al big data? Por tu experiencia, parece que has llegado a él por las estrellas.

Kirk Borne: Sí, supongo que se podría decir que comencé en las estrellas. Mi educación fue en física y astronomía. Luego estaba haciendo astrofísica, y siempre incluía el análisis de datos y la recopilación de datos. Pero mi ‘trabajo diario’ en realidad era apoyar los contratos de la NASA, incluido el Telescopio Espacial Hubble de la NASA. También trabajé en el Centro Nacional de Datos de Ciencias Espaciales. Todo incluía sistemas de datos y grandes conjuntos de datos; siempre estaba rodeado de datos. A finales de los años 90, algunos de los conjuntos de datos se salían de las listas en términos de tamaño. Me di cuenta de que algo estaba cambiando drásticamente y comencé a buscar en la minería de datos y los productos de datos para ayudar a los científicos a explorar los datos. Se convirtió en una combinación de lo que llamamos gestión de datos y análisis de datos.

Kirk BorneKirk Borne

¿Cuál es tu misión en Booz Allen?

Borne: Mi título es científico de datos principal. Tenemos varios científicos de datos en jefe y varios cientos de científicos de datos. Los científicos de datos en jefe pueden centrarse en verticales específicas, como inteligencia nacional, análisis de deportes o análisis de salud, mientras que mi enfoque es construir a través de [industries]. Como una abeja, voy a donde estén floreciendo las flores. Me involucro en las conversaciones ya sea de deportes, ciberseguridad, fraude o lo que sea.

Parece que un sello distintivo de la próxima era pueden ser las redes de aprendizaje profundo. Es algo nuevo para muchas organizaciones, pero las redes neuronales realmente retroceden.

Borne: Con el nuevo trabajo en aprendizaje profundo, ve un concepto de red neuronal, pero es una red multicapa muy profunda, en lugar de las que trató en los primeros días, que eran básicamente solo una capa oculta más capas de entrada y salida. Las redes de aprendizaje profundo tienen muchas capas combinadas como lo que llaman redes convolucionales. Todos los diferentes parámetros se combinan de diferentes maneras en cada capa para producir resultados mucho más inteligentes de lo que imaginamos antes. Es más parecido al cerebro humano. Su cerebro reconoce cosas generales y luego trabaja hacia las específicas. Los humanos construyen interpretaciones en capas. Una red profunda en realidad está haciendo ese tipo de cosas.

¿Podemos agregar Apache Spark a la conversación? Gran parte del interés parece estar en torno a las bibliotecas de aprendizaje automático de Spark. Pero existe cierta confusión en torno a su conexión con Hadoop.

Para mí, la alfabetización en datos está al mismo nivel que otras alfabetizaciones que promovemos en nuestro sistema educativo, como lectura, escritura y aritmética.

Kirk Bornecientífico de datos principal, Booz Allen Hamilton

Borne: Bueno, la gente a veces confunde Hadoop y Spark, y piensa que una cosa reemplazará a la otra. Son dos cosas diferentes. Hadoop es realmente la infraestructura de datos distribuidos. Cuando tiene datos muy grandes, es muy difícil acceder a todos esos datos. Ese fue un problema que tuvimos [in astrophysics] – que los datos eran secuenciales y no paralelos. Lo que hace un sistema de datos distribuidos es brindarle acceso paralelo a grandes conjuntos de datos. Realmente, para usar una metáfora de la ciencia de la biblioteca, Hadoop sirve como una especie de catálogo de tarjetas que permite que exista una ‘gota’ de datos en un grupo de máquinas de productos básicos al que puede agregar.

Spark es un motor analítico que procesa todos esos datos. Antes, se trataba de MapReduce en Hadoop. Pero si piensa en hacer una red de aprendizaje profundo con muchos cálculos, MapReduce hace muchos [writes and calls] al disco. Ese es un procesamiento extremadamente costoso y que requiere mucho tiempo para algo como el aprendizaje profundo. Lo que hace Spark es leer todas esas cosas en la memoria y hacer todo el procesamiento [there] – y luego, cuando haya terminado, volver a escribir los resultados en la infraestructura de datos distribuidos. Es un procesamiento rápido en memoria, que se ejecuta sobre lo que proporciona Hadoop. Los dos pueden vivir juntos en armonía, diría yo.

Ciencia de datos y habilidades de análisis de big data conseguir mucha atención. Pero sé que enfatiza la alfabetización de datos como una necesidad para personas integrales en estos tiempos de rápida evolución. ¿Por qué?

Borne: Para mí, la alfabetización en datos está al mismo nivel que otras alfabetizaciones que promovemos en nuestro sistema educativo, como la lectura, la escritura y la aritmética. La alfabetización también incluye una comprensión de la historia y las culturas; la alfabetización te convierte en una persona integral porque puedes mantener una conversación, puedes comprender el mundo en el que vives y puedes ser un trabajador productivo en ese mundo.

Dado que ahora todo es digital y todo está produciendo datos: nuestras redes sociales, nuestros automóviles, nuestros refrigeradores, las empresas del mundo que harán las mayores salpicaduras y los mayores ingresos son las que harán el mejor uso de esos flujos de datos. y señales digitales. Y buscan personas que sepan cómo hacerlo. Necesitamos no solo capacitar a las personas en habilidades; en lo que respecta a las habilidades de aprendizaje automático, muy pocos realmente las aprenderán. Pero todas las personas necesitan aprender qué son los datos. Y no son solo todos los aspectos positivos. Hay otras cuestiones relacionadas con la privacidad y la ética de los datos: comprender tanto los aspectos positivos como los negativos, incluido lo que podría salir mal. Tenemos que trabajar para conocer las limitaciones de los datos.

Deja un comentario

También te puede interesar...

Definición de condena

¿Qué es una condena? El término condena se refiere a la adquisición legal de propiedad por parte de un gobierno local u otra entidad privada. Un municipio a menudo condena una propiedad, como una casa

Definición de captura regulatoria

¿Cuál es la trampa reglamentaria? La captura de la regulación es una teoría económica que dice que las agencias reguladoras pueden quedar dominadas por las industrias o los intereses que tienen la tarea de regular.

Abierto es igual de abierto, sol.

Jonathan Schwartz vuelve a estar triste y, de una manera moderna, escribe su lío en el blog para que el mundo vea. Es triste que IBM no dijera que llevaría grandes aplicaciones de armas en

Money network: migración a SWIFT

reporte especial Cuando se levante de la cama para trabajar otro día, consuélese con el hecho de que conceptos abstractos como el dinero tienen que hacer lo mismo. Las instituciones financieras de todo el mundo

Descarga gratuita: Melvis Outline y Melvis Rough

Descarga gratuita: Melvis Outline y Melvis Rough Si desea impresionar a su caja de herramientas de tipografía, agarre este obsequio hoy de Craft Supply Co. Melvis Vintage Font Family se puede utilizar para crear casi

Cómo formatear el disco duro de tu Mac

Desde hace varios días, el disco duro conectado a tu Mac, que sueles utilizar para realizar copias de seguridad de tus datos y/o archivar varios archivos, parece haber comenzado a tener algunos problemas. Una vez

Microsoft gana una demanda colectiva | Krypton Solid

Microsoft obtuvo una victoria judicial el lunes cuando una corte federal de apelaciones desestimó una demanda antimonopolio privada contra el fabricante de software. El Tribunal de Apelaciones del Cuarto Circuito, en Richmond, Virginia, reprimido 2-1

El nuevo mundo de paquetes de software de Oracle

Una entrevista reciente Con el Financial Times, el timonel de Oracle, Larry Ellison, dijo que quiere vender una pila completa de software (con un sistema operativo y aplicaciones), al igual que Microsoft. Es el nuevo

Definición de acciones garantizadas

¿Qué son las acciones garantizadas? Las acciones en custodia son acciones mantenidas en una cuenta en custodia, garantizadas por un tercero, a la espera de la realización de un acto social o un período de