Propuesta Metodologia Ciencia De Datos
En general, cuando recibimos un conjunto de datos es muy importante saber y tener claras a lo largo del proyecto varias cosas. Estas en general son parte importante de los datos.
La primera es un manifiesto de entrega, nombre y número de archivos y fecha de recepción de cada archivo
archivo | fecha de recepción
------------|-‐-------------------
file1.csv | 2018-12-10
file2.csv | 2018-12-10
...
TOTAL | 12
es necesario saber el número de columnas y su tipo (texto,numérico, caracter, fecha, etc…) y los nombres de las columnas por archivo.
archivo | campo | tipo |
---|---|---|
file1 | id | int |
file1 | name | text |
… |
Posteriormente, un análisis descriptivo de los contenidos de las columnas (máximos y mínimos, promedios, número de nulos por columna, mediana y moda) si los datos son números flotantes, tambien es importante conocer su distribución en cuartiles y deciles y si hay outliers.
file1, variable_i
indicator | value
-----‐‐--------|-------
max | v1
mean | v2
mode | v3
median | v4
min | v5
nulls | v6
not nulls | v7
total | v8
Con esto podemos saber de que manera vamos a tener que transformar los datos para realizar nuestro proyecto, y además, nos dan idea de la limpieza de los datos. Esto de la limpieza de datos es muy importante y lo trataremos mas a detalle en una serie posterior de posts.