Hablemos de datos con datos

2021-06-04

El futuro ya llegó… está a la vista de todos. El crecimiento tecnológico es exponencial, como también los datos generados. Sin embargo, se estima que menos del 20% de estos datos son analizados. En este artículo hablaremos sobre ellos, es por esto que nos parece oportuno definir qué es un dato.

El 90% de los datos en el mundo se creó en los últimos dos años y se predice un crecimiento de un 40% anual.1

Podemos decir que un dato es la representación de una variable (cualitativa o cuantitativa) que indica un valor asignado. Explicado de forma sencilla, este es solamente un valor hasta que se lo contextualiza y analiza para transformarlo en información. Y la información es poder, poder para tomar una decisión, poder para entender mejor el presente, y por qué no el futuro. Junto con este poder adquirido viene una gran responsabilidad, algo que trataremos en una próxima entrada y que se conoce como Ética de los datos.

Cada día, creamos aproximadamente 2,5 quintillones de bytes de datos.2

Un quintillón contiene 30 ceros y como vimos, cada vez hay más y más datos. Ajeno a lo que uno podría llegar a pensar, no todos ellos se encuentran almacenados en tablas u hojas de cálculo (cómo excel, por ejemplo). Están en todas partes, escondidos en correo electrónicos, en imágenes, audios y vídeos. Lo interesante es que para examinar y medir un conjunto de datos, no siempre es necesario organizarlos o tabularlos para ejercer análisis sobre ellos a fin de obtener resultados que puedan ser de interés para los objetivos de algún proyecto.

A continuación, hablaremos de los distintos tipos de datos, ya que, es importante conocerlos y entenderlos para que estos puedan ser usados a la hora de construir soluciones.

Una clasificación muy utilizada, sugiere dividir a los tipos de datos en estructurados, semi estructurados y no estructurados. Los primeros, suelen ser archivos de texto que se almacenan en formato tabla, hojas de cálculo o bases de datos relacionales. Cada uno de estos contiene títulos para cada categoría, lo que permite identificarlas. En dichas tablas, cada fila corresponde a un registro, digamos por ejemplo, un cliente. Y las columnas, representan atributos de dichos clientes, cómo por ejemplo, su ingreso mensual, su edad, fecha de nacimiento, entre otros.

Se estima que para 2025, el 80% de los datos serán no estructurados dejando solo un 20% de datos estructurados.3

En cuanto a los semi estructurados, estos no tienen un marco estructural estricto, pero sí algunas propiedades distinguibles. Los datos semiestructurados incluyen textos organizados por temas o tópicos que contienen texto o información sin una estructura propia.
Los correos electrónicos, por ejemplo, están semi estructurados por remitente, destinatario, asunto, fecha, etc. Estos en particular pueden brindar una gran cantidad de oportunidades de minería de datos para que las empresas analicen los comentarios de los clientes, se aseguren de que la atención al cliente funcione correctamente y ayuden a construir materiales de marketing.
Otro ejemplo son las plataformas de redes sociales, como Facebook, que organiza la información por usuario, amigos, grupos, mercado, etc., pero los comentarios y el texto que contienen estas categorías no están estructurados.

En el año 2020, se enviaron 306,4 mil millones de correos electrónicos por día.4

Por último, los datos no estructurados son datos que no presentan ninguna estructura bien definida, cómo los vídeos, imágenes, audios, etc. A mediados de 2020, Instagram introdujo subtítulos generados automáticamente a partir del procesamiento de los vídeos disponibles en Instagram TV (IGTV). Utilizando Inteligencia Artificial, esto facilita el uso de la aplicación y ha sido diseñado con la intención de ayudar a los usuarios con discapacidad auditiva.

En 2016 se estimó un promedio de 95 millones de fotos compartidas por día en Instagram. 5

A modo de conclusión, cada vez habrá más datos y solo una pequeña porción de la totalidad son analizados.El área de oportunidad es gigante. Es esta una de las razones de que nos apasione una disciplina como la ciencia de datos. Haciendo lo que nos gusta, nos abocamos a lograr que los datos hablen por sí mismos, brindando así información valiosa a los tomadores de decisiones, ustedes.

Publicado por

Wais

Deja una respuesta

Tu dirección de correo electrónico no será publicada.