Introducción a datos Volver


Conoceremos conceptos básicos sobre datos:


¿Qué es un dato?

Los datos están alrededor de nosotros. ¿Pero qué son exactamente? Los datos indican un valor asignado a las cosas.

¿Qué podemos decir sobre la imagen? Son pelotas de golf, ¿verdad? Entonces, uno de los puntos claves es que son usadas para jugar golf. El golf es un deporte.

Estos datos nos ayudan a poner en contexto a las pelotas. Pero la imagen nos dice mucho más cosas: son blancas, están usadas, tienen el mismo tamaño, son muchas, y probablemente tienen un valor económico, emocional, etc.

Las cosas más cotidianas e insignificantes tienen muchos datos inherentes a ellas. Nosotros también. Tenemos un nombre, apellidos, fecha de nacimiento, peso, altura, edad, nacionalidad. Todos éstos son datos.

Cualitativos, cuántitativos.

Datos, información y conocimiento

Existen algunas diferencias entre estos conceptos que es interesante destacar:

  • DATO = hecho
  • INFORMACIÓN = DATO + interpretación
  • CONOCIMIENTO = INFORMACIÓN + (aprendizaje,aplicación,comprensión)

Sobre el ejemplo de la pelotita de golf, un dato es que su diámetro es 43mm:

  • DATO: 43mm
  • INFORMACIÓN: existen regulaciones que indican que el diámetro mínimo debe ser 42.67mm, por lo que 43mm es válido.
  • CONOCIMIENTO: Aplicamos validaciones a todas las pelotitas y podemos identificar aquellas que no cumplen la regla.

Preguntas y exploración

La motivación para descargar y visualizar un dataset debe partir siempre de:

  • Necesidad
  • Preguntas
  • Exploración

Cualquiera sea la motivación hay que estar atentos a:

  • Patrones inesperados
  • Datos no esperado
  • Errores
  • Falsos positivos

Humanos vs Computadoras

La organización inicial de los datos puede ser:

  • No estructurados
  • Estructurados

No estructurados: "Tenemos 5 pelotas de golf blancas, usadas, con un diámetro de 43mm, y que cuestan 50 centavos cada una" puede ser entendida por un humano, pero, para una computadora, es difícil de entender. De igual manera, los PDFs y las imágenes escaneadas pueden contener información útil para el ojo humano, pero no son legibles para la computadora.

Estructurados: Si deseas que tu computadora procese y analice tus datos, éstos deben de ser presentados de la manera correcta. Esto quiere decir que deben de estar estructurados en una forma legible para las computadoras. Ejemplos?


Más información

Volver