Hvernig á að setja upp Hadoop Single Node Cluster (Pseudonode) á CentOS 7

Hadoop er opinn rammi sem er mikið notaður til að takast á við Bigdata. Verið er að byggja upp flest Bigdata/Data Analytics verkefnin ofan á Hadoop Eco-System. Það samanstendur af tveggja laga, eitt er til að geyma gögn og annað er til að vinna úr gögnum.

Geymsla verður séð um af eigin skráarkerfi sem kallast HDFS (Hadoop Distributed Filesystem) og vinnsla verður séð um af YARN (Yet Another Resource Negotiator). Mapreduce er sjálfgefin vinnsluvél Hadoop Eco-Systems.

Þessi grein lýsir ferlinu við að setja upp Pseudonode uppsetningu Hadoop, þar sem allir púkarnir (JVMs) munu keyra Single Node Cluster á CentOS 7.

Þetta er aðallega fyrir byrjendur til að læra Hadoop. Í rauntíma verður Hadoop sett upp sem fjölhnútaþyrping þar sem gögnunum verður dreift á netþjóna sem blokkir og verkið framkvæmt samhliða.

Lágmarksuppsetning á CentOS 7 miðlara.
Java v1.8 útgáfa.
Hadoop 2.x stöðug útgáfa.

Á þessari síðu

Hvernig á að setja upp Java á CentOS 7
Settu upp lykilorðslausa innskráningu á CentOS 7
Hvernig á að setja upp Hadoop Single Node í CentOS 7
Hvernig á að stilla Hadoop í CentOS 7
Að forsníða HDFS skráarkerfið í gegnum NameNode

1. Hadoop er vistkerfi sem er byggt upp af Java. Við þurfum Java uppsett í kerfinu okkar skyldubundið til að setja upp Hadoop.

# yum install java-1.8.0-openjdk

2. Næst skaltu staðfesta uppsetta útgáfu af Java á kerfinu.

# java -version

Við þurfum að hafa ssh stillt í vélinni okkar, Hadoop mun stjórna hnútum með notkun SSH. Master hnútur notar SSH tengingu til að tengja þrælhnúta sína og framkvæma aðgerð eins og ræsingu og stöðvun.

Við þurfum að setja upp lykilorðslaus ssh þannig að húsbóndinn geti átt samskipti við þræla með því að nota ssh án lykilorðs. Annars þarf að slá inn lykilorðið fyrir hverja tengingu.

Í þessum eina hnút munu Master þjónusta (Namenode, Secondary Namenode & Resource Manager) og Slave þjónusta (Datanode & Nodemanager) keyra sem aðskildar JVMs. Jafnvel þó að það sé einn hnútur, þurfum við að hafa lykilorðslausan ssh til að láta Master senda Slave án auðkenningar.

3. Settu upp SSH innskráningu án lykilorðs með því að nota eftirfarandi skipanir á þjóninum.

# ssh-keygen
# ssh-copy-id -i localhost

4. Eftir að þú stillir SSH innskráningu án lykilorðs skaltu reyna að skrá þig inn aftur, þú verður tengdur án lykilorðs.

# ssh localhost

5. Farðu á Apache Hadoop vefsíðuna og halaðu niður stöðugri útgáfu Hadoop með því að nota eftirfarandi wget skipun.

# wget https://archive.apache.org/dist/hadoop/core/hadoop-2.10.1/hadoop-2.10.1.tar.gz
# tar xvpzf hadoop-2.10.1.tar.gz

6. Næst skaltu bæta Hadoop umhverfisbreytunum við í ~/.bashrc skránni eins og sýnt er.

HADOOP_PREFIX=/root/hadoop-2.10.1
PATH=$PATH:$HADOOP_PREFIX/bin
export PATH JAVA_HOME HADOOP_PREFIX

7. Eftir að umhverfisbreytum hefur verið bætt við ~/.bashrc skrána skaltu fá skrána og staðfesta Hadoop með því að keyra eftirfarandi skipanir.

# source ~/.bashrc
# cd $HADOOP_PREFIX
# bin/hadoop version

Við þurfum að stilla Hadoop stillingarskrár hér að neðan til að passa inn í vélina þína. Í Hadoop hefur hver þjónusta sitt eigið gáttarnúmer og sína eigin skrá til að geyma gögnin.

Hadoop stillingarskrár – core-site.xml, hdfs-site.xml, mapred-site.xml & yarn-site.xml

8. Fyrst þurfum við að uppfæra JAVA_HOME og Hadoop slóð í hadoop-env.sh skránni eins og sýnt er.

# cd $HADOOP_PREFIX/etc/hadoop
# vi hadoop-env.sh

Sláðu inn eftirfarandi línu í upphafi skráarinnar.

export JAVA_HOME=/usr/lib/jvm/java-1.8.0/jre
export HADOOP_PREFIX=/root/hadoop-2.10.1

9. Næst skaltu breyta core-site.xml skránni.

# cd $HADOOP_PREFIX/etc/hadoop
# vi core-site.xml

Límdu eftirfarandi á milli <configuration> merkja eins og sýnt er.

<configuration>
            <property>
                   <name>fs.defaultFS</name>
                   <value>hdfs://localhost:9000</value>
           </property>
</configuration>

10. Búðu til neðangreindar möppur undir tecmint heimaskrá notenda, sem verður notuð fyrir NN og DN geymslu.

# mkdir -p /home/tecmint/hdata/
# mkdir -p /home/tecmint/hdata/data
# mkdir -p /home/tecmint/hdata/name

10. Næst skaltu breyta hdfs-site.xml skránni.

# cd $HADOOP_PREFIX/etc/hadoop
# vi hdfs-site.xml

Límdu eftirfarandi á milli <configuration> merkja eins og sýnt er.

<configuration>
<property>
        <name>dfs.replication</name>
        <value>1</value>
 </property>
  <property>
        <name>dfs.namenode.name.dir</name>
        <value>/home/tecmint/hdata/name</value>
  </property>
  <property>
          <name>dfs .datanode.data.dir</name>
          <value>home/tecmint/hdata/data</value>
  </property>
</configuration>

11. Aftur, breyttu mapred-site.xml skránni.

# cd $HADOOP_PREFIX/etc/hadoop
# cp mapred-site.xml.template mapred-site.xml
# vi mapred-site.xml

Límdu eftirfarandi á milli <configuration> merkja eins og sýnt er.

<configuration>
                <property>
                        <name>mapreduce.framework.name</name>
                        <value>yarn</value>
                </property>
</configuration>

12. Að lokum skaltu breyta yarn-site.xml skránni.

# cd $HADOOP_PREFIX/etc/hadoop
# vi yarn-site.xml

Límdu eftirfarandi á milli <configuration> merkja eins og sýnt er.

<configuration>
                <property>
                       <name>yarn.nodemanager.aux-services</name>
                       <value>mapreduce_shuffle</value>
                </property>
</configuration>

13. Áður en þú byrjar á klasanum þurfum við að forsníða Hadoop NN í staðbundnu kerfinu okkar þar sem það hefur verið sett upp. Venjulega verður það gert á upphafsstigi áður en þyrpingin hefst í fyrsta skipti.

Að forsníða NN mun valda tapi á gögnum í NN metastore, svo við verðum að vera varkárari, við ættum ekki að forsníða NN á meðan þyrpingin er í gangi nema þess sé krafist viljandi.

# cd $HADOOP_PREFIX
# bin/hadoop namenode -format

14. Ræstu NameNode púkinn og DataNode púkann: (gátt 50070).

# cd $HADOOP_PREFIX
# sbin/start-dfs.sh

15. Ræstu ResourceManager púkinn og NodeManager púkann: (gátt 8088).

# sbin/start-yarn.sh

16. Að stöðva alla þjónustu.

# sbin/stop-dfs.sh
# sbin/stop-dfs.sh

Samantekt
Í þessari grein höfum við farið í gegnum skref fyrir skref ferlið til að setja upp Hadoop Pseudonode (Single Node) þyrping. Ef þú hefur grunnþekkingu á Linux og fylgir þessum skrefum, verður þyrpingin UPPLÝÐI eftir 40 mínútur.

Þetta getur verið mjög gagnlegt fyrir byrjendur að byrja að læra og æfa Hadoop eða þessa vanillu útgáfu af Hadoop er hægt að nota í þróunarskyni. Ef við viljum hafa rauntímaþyrping, þá þurfum við annað hvort að minnsta kosti 3 líkamlega netþjóna í höndunum eða verðum að útvega Cloud fyrir marga netþjóna.