Propuesta Metodologia Ciencia De Datos

En general, cuando recibimos un conjunto de datos es muy importante saber y tener claras a lo largo del proyecto varias cosas. Estas en general son parte importante de los datos.

La primera es un manifiesto de entrega, nombre y número de archivos y fecha de recepción de cada archivo

archivo | fecha de recepción
------------|-‐-------------------
file1.csv | 2018-12-10
file2.csv | 2018-12-10
...
TOTAL  | 12

es necesario saber el número de columnas y su tipo (texto,numérico, caracter, fecha, etc…) y los nombres de las columnas por archivo.

archivo campo tipo
file1 id int
file1 name text

Posteriormente, un análisis descriptivo de los contenidos de las columnas (máximos y mínimos, promedios, número de nulos por columna, mediana y moda) si los datos son números flotantes, tambien es importante conocer su distribución en cuartiles y deciles y si hay outliers.

file1, variable_i

indicator | value
-----‐‐--------|-------
max | v1
mean | v2
mode | v3
median | v4
min | v5
nulls | v6
not nulls | v7
total | v8

Con esto podemos saber de que manera vamos a tener que transformar los datos para realizar nuestro proyecto, y además, nos dan idea de la limpieza de los datos. Esto de la limpieza de datos es muy importante y lo trataremos mas a detalle en una serie posterior de posts.