Inicio » Tendencias » Big Data » Tipos de datos: datos estructurados, semiestructurados y no estructurados

Tipos de datos: datos estructurados, semiestructurados y no estructurados

A la hora de analizar grandes cantidades de información, debes conocer la diferencia entre datos estructurados, datos semiestructurados y datos no estructurados. Estos conceptos son de uso habitual en el ámbito del Big Data y hacen referencia a la estructura con la que se organizan los datos. Es decir, se centran en la manera en que los datos se agrupan, almacenan y se relacionan entre sí, de forma que puedas localizarlos fácilmente, acceder a ellos, analizarlos o modificarlos.

Si conoces cómo se estructuran, podrás decidir de una manera mucho más segura y rápida con qué herramienta debes trabajar esas grandes cantidades de datos. Una estructura de datos puede definirse como una serie de valores, relaciones, funciones y operaciones que es posible hacer con ellos.

Qué son los datos estructurados

Básicamente, son aquellos que se encuentran ordenados. Por ejemplo, en:

  • Una tabla Excel.
  • Hojas de cálculo.
  • Bases de datos de cualquier otro tipo.
  • Aplicaciones para realizar cuestionarios tipo test.
  • Formularios web.
  • Fichas estandarizadas de clientes.
  • Encuestas a usuarios de un servicio.

Los encontrarás organizados mediante una serie de filas y columnas bien definidas. Son los que se usan de manera habitual en la mayor parte de las bases de datos relacionales (RDBMS). El lenguaje de programación mediante el cual se gestionan es el Structured Query Language o SQL, desarrollado por IBM al comienzo de la década de 1970.

Dada su estructura ordenada, son los más fáciles de gestionar, tanto digital como manualmente. También, dada su alto grado de organización, permiten una mayor predictibilidad que otros tipos. Así, algunos sistemas informáticos usan aplicaciones para recopilar los datos a través de varios puntos de entrada, como una GUI o un portal web. Los datos se van añadiendo a los campos en la interfaz de usuario y, posteriormente, se insertan en la base de datos en distintas filas y columnas.

Además, la relación entre las diferentes filas y columnas está claramente determinada en la tabla. Entre las aplicaciones que usan bases de datos relacionales con datos estructurados están las de reserva de vuelos, transacciones de ventas, controles de inventario y cajeros automáticos.

Un ejemplo sencillo para concretarte esta tipología de datos podría ser una tabla Excel con las columnas correspondientes a los nombres, apellidos, número de teléfono y dirección de un grupo de personas y las filas con los datos aparejados a cada uno de estos apartados.

Qué son los datos semiestructurados

Son aquellos con un nivel medio de estructuración y rigidez organizativa. Se encuentran a medio camino entre los estructurados y los no estructurados. Un ejemplo válido sería un servidor local que almacenara todos los datos de correo electrónico y archivos adjuntos dentro de la base de datos.

Tienen un cierto nivel de estructura, jerarquía y organización, aunque carecen de un esquema fijo. En lugar de estructuras esquemáticas, como en el caso de los estructurados, se podría decir que lo son en forma de árbol, con etiquetas para facilitarte el manejo.

Entre sus principales características está, también, que tienen algunas propiedades organizativas que facilitan su análisis. De hecho, si los procesas puedes conseguir su almacenamiento en la base de datos relacional y también en filas y columnas. Sin embargo, no todos los que se colocan en un grupo tienen siempre las mismas propiedades. A veces difieren en tipo y tamaño.

Además, contienen metadatos (etiquetas y elementos) que se utilizan para agruparlos y describir cómo se almacenan. No obstante, al no contener tantos metadatos como en el caso de los estructurados, su gestión y automatización resulta mucho más dificultosa. Todo esto hace complicado a los sistemas informáticos el trabajo con ellos.

Entre las principales fuentes para recabarlos están los mencionados correos electrónicos y:

  • Archivos comprimidos.
  • XML y otros lenguajes de marcado.
  • Ejecutables binarios.
  • Paquetes TCP / IP.

Qué son los datos no estructurados

Suponen alrededor del 80 % de los datos existentes en cualquier organización y su manejo te resulta mucho más dificultoso que en los dos casos anteriores. Estos datos no se pueden usar en una base de datos tradicional, ya que sería imposible ajustarlos a las filas y columnas estandarizadas.

No obstante, existen aplicaciones que pueden procesar más de 1000 tipos de formatos de datos no estructurados. Hay ejemplos de tipos de datos no estructurados de uso muy común, como los siguientes:

  • Documentos de oficina en archivos de texto.
  • Archivos de imágenes.
  • Archivos PDF.
  • Archivos de registro y de datos de aplicaciones como .ini o .dll.
  • Datos de redes sociales como Facebook y Twitter o de plataformas como YouTube.
  • Datos de ubicaciones y mensajería instantánea.
  • Grabaciones telefónicas, archivos de audio como MP3.

Como ves, todos estos tipos de datos tienen una estructura interna, pero no están estructurados a través de modelos o esquemas de datos fijos y predefinidos. Pueden ser textuales o no y generados por humanos o máquinas. También se pueden almacenar dentro de una base de datos no relacional o NoSQL.

Encontrar la información valiosa contenida en ellos es una tarea complicada. Te exige análisis avanzados y un alto nivel de experiencia técnica.

Sin embargo, las empresas que saben aprovecharlos cuentan con una ventaja competitiva. Los estructurados te brindan una visión general de tus clientes, pero los no estructurados pueden proporcionar una comprensión mucho más profunda de su forma de comportarse y su intención de compra. De hecho, la capacidad de extraer valor de ellos es uno de los principales motores del rápido crecimiento del Big Data.

Gracias a técnicas de data mining que implican métodos de machine learning, inteligencia artificial y estadística, las empresas pueden conocer mejor, a través de la información no estructurada, los hábitos y los ritmos de compra, los patrones de comportamiento o las afinidades con determinados productos.

Aprovechar la información disponible

Sea cual sea el sector en el que esté implantado tu negocio o la empresa para la que trabajas, siempre hay un gran valor escondido tras los datos, estén o no estructurados. Las herramientas actuales para extraer la información pueden facilitar su acceso y su consulta, contribuir a su análisis y proporcionarte una visión comercial mucho más completa y fidedigna de la que dispones ahora.

Una magnífica opción si quieres estudiar temas relacionados con datos estructurados y cualquier otro tipo de informaciones, es matricularte en el Máster en Big Data y Business Analytics de IMF Business School.

Artículos que te pueden interesar

Formación Relacionada

Las dos pestañas siguientes cambian el contenido a continuación.
IMF Business School
Equipo de profesionales formado esencialmente por profesores y colaboradores con amplia experiencia en las distintas áreas de negocio del mundo empresarial y del mundo académico. IMF Business School ofrece una exclusiva oferta de postgrados en tecnología en colaboración con empresa como Deloitte, Indra o EY (masters en Big Data, Ciberseguridad, Sistemas, Deep Learning, IoT) y un máster que permite acceder a la certificación PMP/PMI. Para ello IMF cuenta con acuerdos con universidades como Nebrija, la Universidad de Alcalá y la Universidad Católica de Ávila así como con un selecto grupo de universidades de Latinoamérica.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

¡Noticias, eventos y formación!

Suscríbete ahora y recibe los mejores contenidos sobre Negocios, Prevención, Marketing, Energías Renovables, Tecnología, Logística y Recursos Humanos.

Acepto recibir comunicaciones comerciales por parte del grupo IMF
He leído y acepto las condiciones


Tipos de datos: datos estructurados, semiestructurados y no estructurados

A la hora de analizar grandes cantidades de información, debes conocer la diferencia entre los tipos datos.