Hvernig á að setja upp og stilla Apache Hadoop á einum hnút í CentOS 7


Apache Hadoop er opinn uppruni rammi smíðaður fyrir dreifða geymslu stórra gagna og vinnslu gagna yfir tölvuklasa. Verkefnið byggir á eftirfarandi þáttum:

  1. Hadoop Common – það inniheldur Java bókasöfn og tól sem aðrar Hadoop einingar þurfa.
  2. HDFS – Hadoop Distributed File System – Java byggt skalanlegt skráarkerfi sem er dreift yfir marga hnúta.
  3. MapReduce – YARN ramma fyrir samhliða stórgagnavinnslu.
  4. Hadoop YARN: Rammi fyrir stjórnun klasaauðlinda.

Þessi grein mun leiðbeina þér um hvernig þú getur sett upp Apache Hadoop á einum hnútaþyrpingu í CentOS 7 (virkar líka fyrir RHEL 7 og Fedora 23+ útgáfur). Þessi tegund af uppsetningu er einnig vísað til sem Hadoop gervi-dreifð ham.

Skref 1: Settu upp Java á CentOS 7

1. Áður en þú heldur áfram með Java uppsetningu skaltu fyrst skrá þig inn með rótnotanda eða notanda með rótarréttindi setja upp vélarnafnið þitt með eftirfarandi skipun.

# hostnamectl set-hostname master

Bættu líka við nýrri skrá í hýsingarskrá með FQDN eigin vél til að benda á IP tölu kerfisins þíns.

# vi /etc/hosts

Bættu við línunni fyrir neðan:

192.168.1.41 master.hadoop.lan

Skiptu um ofangreind hýsingarnafn og FQDN skrár fyrir þínar eigin stillingar.

2. Næst skaltu fara á Oracle Java niðurhalssíðuna og grípa nýjustu útgáfuna af Java SE Development Kit 8 á vélinni þinni með hjálp curl skipunarinnar:

# curl -LO -H "Cookie: oraclelicense=accept-securebackup-cookie" “http://download.oracle.com/otn-pub/java/jdk/8u92-b14/jdk-8u92-linux-x64.rpm”

3. Eftir að Java tvöfaldur niðurhali lýkur skaltu setja upp pakkann með því að gefa út skipunina hér að neðan:

# rpm -Uvh jdk-8u92-linux-x64.rpm

Skref 2: Settu upp Hadoop Framework í CentOS 7

4. Næst skaltu búa til nýjan notendareikning á kerfinu þínu án rótarkrafta sem við munum nota hann fyrir Hadoop uppsetningarleið og vinnuumhverfi. Nýja heimaskrá reikningsins mun vera í /opt/hadoop skránni.

# useradd -d /opt/hadoop hadoop
# passwd hadoop

5. Í næsta skrefi skaltu fara á Apache Hadoop síðuna til að fá hlekkinn fyrir nýjustu stöðugu útgáfuna og hlaða niður skjalasafninu á kerfið þitt.

# curl -O http://apache.javapipe.com/hadoop/common/hadoop-2.7.2/hadoop-2.7.2.tar.gz 

6. Dragðu út skjalasafnið og afritaðu innihald möppunnar á heimaslóð hadoop reiknings. Gakktu úr skugga um að þú breytir heimildum fyrir afrituðu skrárnar í samræmi við það.

#  tar xfz hadoop-2.7.2.tar.gz
# cp -rf hadoop-2.7.2/* /opt/hadoop/
# chown -R hadoop:hadoop /opt/hadoop/

7. Næst skaltu skrá þig inn með hadoop notanda og stilla Hadoop og Java umhverfisbreytur á kerfinu þínu með því að breyta .bash_profile skránni.

# su - hadoop
$ vi .bash_profile

Bættu við eftirfarandi línum aftast í skránni:

## JAVA env variables
export JAVA_HOME=/usr/java/default
export PATH=$PATH:$JAVA_HOME/bin
export CLASSPATH=.:$JAVA_HOME/jre/lib:$JAVA_HOME/lib:$JAVA_HOME/lib/tools.jar

## HADOOP env variables
export HADOOP_HOME=/opt/hadoop
export HADOOP_COMMON_HOME=$HADOOP_HOME
export HADOOP_HDFS_HOME=$HADOOP_HOME
export HADOOP_MAPRED_HOME=$HADOOP_HOME
export HADOOP_YARN_HOME=$HADOOP_HOME
export HADOOP_OPTS="-Djava.library.path=$HADOOP_HOME/lib/native"
export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native
export PATH=$PATH:$HADOOP_HOME/sbin:$HADOOP_HOME/bin

8. Nú skaltu frumstilla umhverfisbreyturnar og athuga stöðu þeirra með því að gefa út eftirfarandi skipanir:

$ source .bash_profile
$ echo $HADOOP_HOME
$ echo $JAVA_HOME

9. Að lokum, stilltu ssh-lykil byggða auðkenningu fyrir hadoop reikning með því að keyra eftirfarandi skipanir (skipta um hýsilnafnið eða FQDN gegn ssh-copy-id skipuninni í samræmi við það).

Skildu einnig lykilorðið eftir auða til að skrá þig sjálfkrafa inn í gegnum ssh.

$ ssh-keygen -t rsa
$ ssh-copy-id master.hadoop.lan