Los datos están alrededor de nosotros. ¿Pero qué son exactamente? Los datos indican un valor asignado a las cosas.
¿Qué podemos decir sobre la imagen? Son pelotas de golf, ¿verdad? Entonces, uno de los puntos claves es que son usadas para jugar golf. El golf es un deporte.
Estos datos nos ayudan a poner en contexto a las pelotas. Pero la imagen nos dice mucho más cosas: son blancas, están usadas, tienen el mismo tamaño, son muchas, y probablemente tienen un valor económico, emocional, etc.
Las cosas más cotidianas e insignificantes tienen muchos datos inherentes a ellas. Nosotros también. Tenemos un nombre, apellidos, fecha de nacimiento, peso, altura, edad, nacionalidad. Todos éstos son datos.
Cualitativos, cuántitativos.
Existen algunas diferencias entre estos conceptos que es interesante destacar:
Sobre el ejemplo de la pelotita de golf, un dato es que su diámetro es 43mm:
La motivación para descargar y visualizar un dataset debe partir siempre de:
Cualquiera sea la motivación hay que estar atentos a:
La organización inicial de los datos puede ser:
No estructurados: "Tenemos 5 pelotas de golf blancas, usadas, con un diámetro de 43mm, y que cuestan 50 centavos cada una" puede ser entendida por un humano, pero, para una computadora, es difícil de entender. De igual manera, los PDFs y las imágenes escaneadas pueden contener información útil para el ojo humano, pero no son legibles para la computadora.
Estructurados: Si deseas que tu computadora procese y analice tus datos, éstos deben de ser presentados de la manera correcta. Esto quiere decir que deben de estar estructurados en una forma legible para las computadoras. Ejemplos?