Instalacion de Paqueterías para Ciencia De Datos en Linux
Tipos de aplicaciones:
- Sistemas de administración de bases de datos
- Visualizadores de bses de datos
- Módulos python de ciencia de datos
- Módulos python de visualización
- Módulos python de desarrollo web
- Servidor web
- Librería y compilador para aplicaciones de escritorio
Sistemas de administración de bases de datos
PostgresQL
Nuestra elección de manejador de base de datos por excelencia, es uno de los mejores que existen, muy utilizado y es la base de redshift el sistema de data warehousing de Amazon. Instrucciones de instalación:
sudo apt install postgresql postgresql-contrib postgresql-10-postgis-2.4
Para configurarlo editamos pg_hba.conf
y postgres.conf
# Database administrative login by Unix domain socket
local all postgres peer
# TYPE DATABASE USER ADDRESS METHOD
# "local" is for Unix domain socket connections only
local all all peer
# IPv4 local connections:
host all all 0.0.0.0/0 md5
# IPv6 local connections:
host all all ::1/128 md5
# Allow replication connections from localhost, by a user with the
# replication privilege.
local replication all peer
host replication all 127.0.0.1/32 md5
host replication all ::1/128 md5
Posteriormente nos conectamos como el usuario postgres y creamos una base de datos mydb
y un usuario
$ sudo su postgres
$ psql -U postgres postgres
postgres# CREATE USER otto WITH PASSWORD 'mypassword' CREATEDB;
postgres# ALTER USER otto WITH SUPERUSER;
Nos conectamos como el nuevo usuario y creamos una base de datos y tablas
$ psql -U otto -d postgres
postgres# CREATE DATABASE mydb;
postgres# \c mydb
...
MySQL
Otra base de datos muy utilizada es MySQL o su contraparte open source MariaDB en los repositorios de Debian ambas se instalan igual
sudo apt install mysql-server
sudo mysql_secure_installation
El segundo comando nos deja configurar la conexión y la contraseña de usuario root
ya conectados como root
podemos crear usuarios y contraseñas de la manera tradicional.
ElasticSearch
Estos son los comandos para descargar e instalar la base de datos de documentos Elasticsearch la cual está basada en el proyecto Lucene
wget -qO - https://artifacts.elastic.co/GPG-KEY-elasticsearch | sudo apt-key add -
sudo apt-get install apt-transport-https
echo "deb https://artifacts.elastic.co/packages/7.x/apt stable main" | sudo tee -a /etc/apt/sources.list.d/elastic-7.x.list
sudo apt-get update && sudo apt-get install elasticsearch
sudo /bin/systemctl daemon-reload
sudo /bin/systemctl enable elasticsearch.service
Para la configuración debemos ir al archivo de configuraciones /etc/elasticsearch/elasticsearch.yml
y cambiar los siguientes valores
network.host: 0.0.0.0
cluster.name: myCluster1
node.name: "myNode1"
DBeaver
DBeaver es una gran IDE para el desarrollo de programas y administración de bases de datos, tiene 2 versiones Entreprise y Community, para usar la de Community (gratis) y en una versión anterior a la 6.2 (porque en versiones posteriores quitaron la capacidad de utilizar los generadores de datos falsos y los dejaron sólo para la versión Enterprise) ir a https://github.com/dbeaver/dbeaver/releases/tag/6.1.0
Y en ubuntu abrirlo con el Instalador de software o con dpkg
.
Módulos python de ciencia de datos
Todos los módulos de python necesarios para hacer ciencia de datos se pueden encontrar en la distribución Anaconda
Ciencia de datos
- Pandas
- pyreadstat
- NLTK
- SpaCy
- Theano
- scikit-learn
Módulos python de visualización
- Matplotliib
- seaborn
- Bokeh
Descargamos el script de instalación de www.anaconda.com/distribution y lo corremos en terminal
$ bash Anaconda3-2019.03-Linux-x86_64.sh
Módulos python para desarrollo web
Flask
Para instalar flask necesitamos instalarlo desde pip en nuestros ambientes virtuales como
pip install Flask