How to install hadoop standalone

Per necessita è stato necessario installare sul nostro calcolatore hadoop.
The Apache Hadoop project develops open-source software for reliable, scalable, distributed computing
http://hadoop.apache.org/.


Vediamo i passi per installare l’ambiente su una distribuzione debian/ubuntu.
Il primo passo sarà quello di aggiungere i repository necessari all’installazione, editiamo quindi con il nostro editor preferito il file /etc/apt/sources.list.d/cloudera.list (se non esiste creiamolo) e aggiungiamo le seguenti righe.

deb http://archive.cloudera.com/debian DISTRO-testing contrib
deb-src http://archive.cloudera.com/debian DISTRO-testing contrib

sostituendo a DISTRO o hardy o intrepid o jaunty

aggiungiamo repository key.

curl -s http://archive.cloudera.com/debian/archive.key | \
sudo apt-key add -

a questo punto basterà lanciare il comando

sudo apt-get update

per aggiornare il database dei pacchetti,

aggiungiamo quindi l’utente hadoop con il seguente comando:

sudo useradd --home /home/hadoop \
        --groups adm,dialout,plugdev,lpadmin,admin,sambashare \
        --shell /bin/bash \
        --create-home hadoop

e settiamo la password dell’utente appena creato con il comando:

sudo passwd hadoop

il resto va effettuato utilizzando l’utente hadoop, cambiamo quindi utente e continuiamo con il resto della guida.

Installiamo da prima ssh con il comando:

sudo apt-get install ssh

e rsync con il comando.

sudo apt-get install rsync

Per installare hadoop lanciamo il comando:

sudo apt-get install hadoop-0.20

Il software sarà quindi installato nella directory /usr/lib/hadoop-0.20, è necessario da subito settare la variabile JAVA_HOME all’interno del file /usr/lib/hadoop-0.20/conf/hadoop-env.sh.
Se avete installata la versione 6 della jdk della sun vi basterà cercare la riga:

# export JAVA_HOME=/usr/lib/j2sdk1.5-sun

e sostituirla con la seguente:

export JAVA_HOME=/usr/lib/jvm/java-6-sun

l’installazione a questo punto è terminata e potrete verificarne la correttezza con il seguente test, spostatevi da prima nella directory di hadoop:

cd /usr/lib/hadoop-0.20

e da utente hadoop lanciate i seguenti comandi:

mkdir input
cp conf/*.xml input
bin/hadoop jar hadoop-*-examples.jar grep input output 'dfs[a-z.]+'
cat output/*

L’esempio di cui sopra copia il contenuto della directory conf all’interno della directory input e su questi file cerca e visualizza il contenuto dell’espressione regolare passata.
L’output viene quindi salvato all’interno della directory output.

La guida è stata tratta e tradotta da:
http://hadoop.apache.org/common/docs/current/quickstart.html

Post a Comment

Your email is never published nor shared. Required fields are marked *