Instalacion de Paqueterías para Ciencia De Datos en Linux

Tipos de aplicaciones:

Sistemas de administración de bases de datos

PostgresQL

Nuestra elección de manejador de base de datos por excelencia, es uno de los mejores que existen, muy utilizado y es la base de redshift el sistema de data warehousing de Amazon. Instrucciones de instalación:

sudo apt install postgresql postgresql-contrib postgresql-10-postgis-2.4

Para configurarlo editamos pg_hba.conf y postgres.conf

# Database administrative login by Unix domain socket
local   all             postgres                                peer

# TYPE  DATABASE        USER            ADDRESS                 METHOD

# "local" is for Unix domain socket connections only
local   all             all                                     peer
# IPv4 local connections:
host    all             all             0.0.0.0/0               md5
# IPv6 local connections:
host    all             all             ::1/128                 md5
# Allow replication connections from localhost, by a user with the
# replication privilege.
local   replication     all                                     peer
host    replication     all             127.0.0.1/32            md5
host    replication     all             ::1/128                 md5

Posteriormente nos conectamos como el usuario postgres y creamos una base de datos mydb y un usuario

$ sudo su postgres 
$ psql -U postgres postgres
postgres# CREATE USER otto WITH PASSWORD 'mypassword' CREATEDB;
postgres# ALTER USER otto WITH SUPERUSER;

Nos conectamos como el nuevo usuario y creamos una base de datos y tablas

$ psql -U otto -d postgres
postgres# CREATE DATABASE mydb;
postgres# \c mydb
...

MySQL

Otra base de datos muy utilizada es MySQL o su contraparte open source MariaDB en los repositorios de Debian ambas se instalan igual

sudo apt install mysql-server
sudo mysql_secure_installation

El segundo comando nos deja configurar la conexión y la contraseña de usuario root ya conectados como root podemos crear usuarios y contraseñas de la manera tradicional.

ElasticSearch

Estos son los comandos para descargar e instalar la base de datos de documentos Elasticsearch la cual está basada en el proyecto Lucene

wget -qO - https://artifacts.elastic.co/GPG-KEY-elasticsearch | sudo apt-key add -
sudo apt-get install apt-transport-https
echo "deb https://artifacts.elastic.co/packages/7.x/apt stable main" | sudo tee -a /etc/apt/sources.list.d/elastic-7.x.list
sudo apt-get update && sudo apt-get install elasticsearch
sudo /bin/systemctl daemon-reload
sudo /bin/systemctl enable elasticsearch.service

Para la configuración debemos ir al archivo de configuraciones /etc/elasticsearch/elasticsearch.yml y cambiar los siguientes valores

network.host: 0.0.0.0
cluster.name: myCluster1
node.name: "myNode1"

DBeaver

DBeaver es una gran IDE para el desarrollo de programas y administración de bases de datos, tiene 2 versiones Entreprise y Community, para usar la de Community (gratis) y en una versión anterior a la 6.2 (porque en versiones posteriores quitaron la capacidad de utilizar los generadores de datos falsos y los dejaron sólo para la versión Enterprise) ir a https://github.com/dbeaver/dbeaver/releases/tag/6.1.0

Y en ubuntu abrirlo con el Instalador de software o con dpkg.

Módulos python de ciencia de datos

Todos los módulos de python necesarios para hacer ciencia de datos se pueden encontrar en la distribución Anaconda

Ciencia de datos

Módulos python de visualización

Descargamos el script de instalación de www.anaconda.com/distribution y lo corremos en terminal

$ bash Anaconda3-2019.03-Linux-x86_64.sh

Módulos python para desarrollo web

Flask

Para instalar flask necesitamos instalarlo desde pip en nuestros ambientes virtuales como

pip install Flask