Estadistica Descriptiva en Pandas
Este artículo es parte de nuestra serie de ciencia de datos con Python y Pandas, una vez que hemos aprendido como manipular series y dataframes lo que sigue es que podamos analizar nuestros datos y lo primero que necesitamos saber es la estadística descriptiva, o los conteos que nos dirán como se comporta de la manera mas básica nuestra muestra.
La primera función que veremos es la función describe()
Esta función genera un
dataframe con la media, la desviación estándar y los valores entre cuartiles de
las columnas. Esta función excluye las columnas de texto y de fechas y sólo
funciona con valores numéricos.
Para incluir columnas de texto se debe utilizar
df.describe(include=['object'])
este comando permite generar estadísticas para
las columnas de texto y genera conteos, nos da el número de datos únicos, el
dato mas frecuente y su frecuencia.
Otra de las cosas que debemos saber, es como contar los valores de las columnas: Lo primero es conocer el largo de nuestra serie o dataframe y la forma de nuestro dataframe.
El comando size
nos da el número total de registros del dataframe, esto es el total de celdas.
size = data.size
El comando shape nos da la forma del dataframe, en un formato (renglones, columnas) como una tupla, el número de renglones es el total de renglones ya sea que estén llenos o contengan valores nulos.
shape = data.shape
El comando ndim
nos dice el número de dimensiones que tiene nuestro dataframe,
salvo que tengamos índices multinivel, este valor debe ser 2 para un dataframe y
uno para una serie.
df_ndim = data.ndim
series_ndim = data["Salary"].ndim
Para obtener el número de registros no nulos de una serie o columna, utilizamos el comando count
.
df.count()
Para calcular el número de registros nulos podemos utilizar
df[col].value_counts(dropna=False)
o el comando:
df[col].isnull.sum()
Conclusión
La estadística descriptiva de un conjunto de datos es el primer paso para comenzar a trabajar un problema estadístico, en general es muy importante conocer la distribución de los datos, especialmente para saber como proceder en la limpieza, distribución y tratamiento de los mismos.