Krypton Solid

La última tecnología en raciones de 5 minutos

Los datos no estructurados son un nombre inapropiado

Hoy en día, el término datos no estructurados aparece en todas partes. Debe su popularidad en gran parte al éxito de big data, a tecnologías exitosas como NoSQL y Hadoop, y a formatos como JSON y XML. Desafortunadamente, existen diferentes definiciones para datos no estructurados. Todas estas definiciones diferentes confunden a muchas personas y desdibujan y oscurecen muchas discusiones sobre datos no estructurados. La razón por la que existen tantas definiciones es que el término datos no estructurados es un nombre inapropiado, y tal vez deberíamos prohibirlo en nuestras discusiones.

Para algunos, los datos no estructurados son datos textuales, para otros son datos que no se ajustan a estructuras rígidas de datos relacionales, y hay quienes dicen que los datos no estructurados se refieren a tablas o archivos en los que cada registro puede tener una estructura diferente. Por ejemplo, en Webopedia, los datos no estructurados se definen de la siguiente manera: «Los datos no estructurados generalmente se refieren a información que no reside en una base de datos tradicional de filas y columnas». Por ejemplo, los datos almacenados en documentos XML y JSON, archivos CSV y archivos de Excel no están estructurados. Las definiciones también pueden ser muy vagas. Tomemos, por ejemplo, la definición utilizada en Dummies.com: «Los datos no estructurados son datos que no siguen un formato específico para big data».

Una razón por la que existen tantas definiciones diferentes es que el adjetivo «no estructurado» en combinación con la palabra datos no tiene sentido, porque si tomamos el significado de la palabra no estructurado literalmente, entonces los datos no estructurados no existen. El significado literal de la palabra desestructurado según el diccionario en línea Merriam-Webster es el siguiente: el adjetivo desestructurado significa que carece de estructura u organización; no organizados formalmente en un patrón establecido o convencional; y no tener un sistema o jerarquía. Muchos otros diccionarios utilizan definiciones comparables. The Free Dictionary agrega que en psicología la palabra no estructurado se usa para referirse a algo que no tiene un significado intrínseco u objetivo. Y Microsoft Word propone las palabras sin forma y sin forma como sinónimos de desestructurado. Por ejemplo, un enfoque de desarrollo puede no estar estructurado y el arte puede no estar estructurado; ver por ejemplo esta pintura.

Entonces, los datos literalmente no estructurados son datos sin una forma o forma, no organizados formalmente y sin un sistema. ¿Por qué querríamos almacenar ese tipo de datos, porque si tiene todas esas características, almacenar datos no estructurados es inútil? Solo llenaría los discos y no podríamos procesarlo de ninguna manera. Ninguna organización almacenaría ese tipo de datos. En conclusión, si tomamos el término datos no estructurados literalmente, nadie almacenaría datos no estructurados y, por lo tanto, no existirían.

De hecho, la mayoría de los datos que actualmente se califican como datos no estructurados están bastante estructurados. Por ejemplo, todos los documentos XML y JSON están muy estructurados. Lo mismo se aplica al texto. Un lingüista nunca estaría de acuerdo con llamar al texto datos no estructurados, porque el texto tiene estructura. Si no, no podríamos entender lo que está escrito y dicho. Además, no existiría ningún software de transcripción de audio a texto, pero existe.

Llamar a audio y video sin estructura tampoco tiene sentido. Por ejemplo, si abre un archivo MP3, verá que contiene una indicación de la versión de MP3 utilizada. Contiene etiquetas, como Artista, Compositor, Título y Número de pista. De acuerdo, esas etiquetas no siempre se almacenan en el mismo lugar del archivo, a veces se colocan al principio, a veces al final y, a veces, en algún lugar en el medio, pero todos pueden leerlas y comprenderlas. Los archivos MP3 y todos los demás archivos de audio y video están muy estructurados. De lo contrario, ninguna herramienta podría reconocerlos y tocarlos.

Entonces, el término datos no estructurados es un nombre inapropiado. Confucio dijo una vez: «El principio de la sabiduría es llamar a las cosas por su nombre propio». Entonces, sigamos su consejo, llamemos a las cosas por sus nombres propios. Llámelo datos con una estructura de datos fija o variable, datos con estructuras de datos repetitivas y jerárquicas, llámelo datos textuales o datos de audio. Pero deje de llamarlo datos no estructurados. Prohibamos este término de ahora en adelante, es un nombre inapropiado.

PD: Y si dejamos de usar la palabra datos no estructurados, también podemos dejar de usar el término datos estructurados, porque luego se convierte en un pleonasmo. Es como los términos lluvia húmeda y fuego ardiente. Y ahora que estamos en este tema, ¿qué significan los datos semiestructurados? ¿Son datos que están estructurados al 50%? Si es así, entonces datos semiestructurados es igual a datos semi-no estructurados. Tampoco es útil.

Deja un comentario

También te puede interesar...

¿Qué es AHCI (Interfaz avanzada de controlador de host)?

Advanced Host Controller Interface, o AHCI, es un estándar técnico para una interfaz que permite que el software se comunique con dispositivos Serial ATA (SATA). Estos componentes periféricos se interconectan (PCI)-Los dispositivos de clase mueven

La definición de economía evolutiva

¿Qué es la economía evolutiva? La economía evolutiva es una teoría que propone que los procesos económicos evolucionan y que el comportamiento económico está determinado tanto por los individuos como por la sociedad en su

NBN lanza el primer satélite Krypton Solid

Lanzamiento de la Red Nacional de Banda Ancha (NBN) de Australia lanzó el primero de dos nuevos satélites de banda Ka de $ 620 millones como parte de su solución satelital a largo plazo para

Cómo actualizar la aplicación iOS 13

usosiPhone Durante mucho tiempo, incluso si no te consideras un experto en tecnología, te has familiarizado con tu dispositivo y sabes cómo usar todas sus funciones principales. Lástima, sin embargo, que cada vez que actualizas

Definición de fondo de prima anticipada

¿Qué es un fondo de prima anticipada? Existe un fondo de prima anticipada cuando las compañías de seguros que reciben primas anticipadas tienen que contabilizar la porción no devengada de esas primas como un elemento

¿Quién está a cargo del equipo directivo de Tesla?

Tesla Motors (TSLA), liderada por el reconocido empresario Elon Musk, es considerada la empresa predominante que impulsa el desarrollo de vehículos eléctricos, aunque se mantiene a distancia para alcanzar el volumen de ventas en el

Cómo cambiar el idioma en Instagram

Eventualmente, decidiste inscribirte en un curso para aprender un nuevo idioma, y ​​para tratar de acelerar un poco tu progreso, aceptaste el consejo de usar ese idioma en todas tus actividades diarias, incluido el uso

AQUA TEK S: Funda RoboCop para iPhone

[Updated with Q&A from Snow Lizard Products’ Steve Calle] Soy adicto a Kickstarter. Comencemos con eso. cuando es steve calle AQUA TEK S Batería híbrida / cargador solar / estuche resistente para iPhone 4 / 4S apareció

Definición de intervención esterilizada

¿Qué es la cirugía esterilizada? La intervención esterilizada es la compra o venta de moneda extranjera por parte de un banco central para influir en el tipo de cambio de la moneda nacional sin cambiar

Colocación privada y precio de las acciones

¿Qué es la colocación privada? La colocación privada es un método común para obtener capital comercial mediante la oferta de acciones. Las colocaciones privadas pueden ser realizadas por empresas privadas que deseen adquirir unos pocos

Red Hat: código abierto

SINGAPUR – La adopción de la tecnología de código abierto por parte de China colocará al país a la vanguardia de las TI, según Michael Tiemann, vicepresidente de negocios de código abierto de Red Hat.

Nueve iPhones vendidos por segundo

manzana Apple acaba de establecer un trimestre récord, con una ganancia neta de $ 18 mil millones en ingresos de $ 74,6 mil millones. Y gran parte es una sola línea de productos: iPhone. Apple

Gasto de adopción calificado (QAE)

¿Qué son los Gastos de Adopción Calificados (QAE)? Los costos de adopción calificados son los costos necesarios pagados para la adopción de un niño menor de 18 años o cualquier persona con una discapacidad que

Corte de Apelaciones: Reproducirlo, Napster

Un tribunal federal de apelaciones emitió un breve aplazamiento para Napster el miércoles, diciendo que la compañía podría reiniciar temporalmente su servicio de intercambio de canciones en línea. El Tribunal de Apelaciones del Noveno Circuito

¿Qué es AG (Aktiengesellschaft)?

¿Qué es Aktiengesellschaft (AG)? AG es una abreviatura de Aktiengesellschaft, que es un término alemán para una sociedad anónima. Este tipo de acciones de la empresa se ofrecen al público en general y se negocian