Creacion De Series en Pandas
Pandas es un módulo de python para hacer análisis estadístico, este es un proyecto de software de código libre y abierto, con una licencia tipo BSD.
Pandas provee estructuras de datos rápidas, flexibles y expresivas para el manejo de datos en tablas para análisis estadístico. Pandas está bien equipado para manejar datos tabulares con columnas de diferentes tipos de datos, series de tiempo ordenadas y desordenadas (con frecuencias de muestreo variables), matrices arbitrarias de datos con diferentes tipos de conjuntos de datos observacioneales.
Ahora, hablaremos un poco de los tipos de datos principales de pandas, estos son
- Las Series
- los Dataframes
Conceptualmente las series contienen datos atómicos, ya sean un entero, un valor flotante o un tweet o texto, mientras que los dataframes contienen un conjunto de series organizadas como columnas.
Ahora vamos a hacer algunos ejemplos de como crear series:
Creación de series
el primer ejemplo es crear una serie vacía para esto sólo tenemos que invocar el tipo de dato
import pandas as pd
my_series = pd.Series()
Otra manera muy frecuente es crear una serie a partir de una lista.
import pandas as pd
my_list = [10.0, 11.0 12.0]
my_series = pd.Series(my_list)
En el caso de generar la serie a partir de una lista, podemos definir tambien una variable auxiliar utilizada por pandas que es el índice de la serie, estos índices permiten el acceso a los elementos de la lista por referencia, escoger rangos dentro de las series, y aplicar operaciones relacionales como joins, o concatenaciones de manera mas sencilla.
Si queremos definir explícitamente los índices de nuestra serie, podemos hacerlo de la siguiente manera:
import pandas as pd
my_series = ([10, 20, 30, 40], index=[1, 2, 3, 4])
Ahora, la gran ventaja de pandas es que nos permite generar los índices utilizando diferentes tipos de datos, uno de los datos mas valiosos para los científicos y financieros, es indexar utilizando fechas para el análisis de series de tiempo. Por ejemplo se puede construir un objeto DatetimeIndex como:
idx = pd.DatetimeIndex(['2018-03-01', '2018-03-02', '2018-03-03', '2018-03-04'])
data = pd.Series([19.88, 19.68, 19.23, 19.45], index=idx)