最新文章專題視頻專題問答1問答10問答100問答1000問答2000關鍵字專題1關鍵字專題50關鍵字專題500關鍵字專題1500TAG最新視頻文章推薦1 推薦3 推薦5 推薦7 推薦9 推薦11 推薦13 推薦15 推薦17 推薦19 推薦21 推薦23 推薦25 推薦27 推薦29 推薦31 推薦33 推薦35 推薦37視頻文章20視頻文章30視頻文章40視頻文章50視頻文章60 視頻文章70視頻文章80視頻文章90視頻文章100視頻文章120視頻文章140 視頻2關鍵字專題關鍵字專題tag2tag3文章專題文章專題2文章索引1文章索引2文章索引3文章索引4文章索引5123456789101112131415文章專題3
問答文章1 問答文章501 問答文章1001 問答文章1501 問答文章2001 問答文章2501 問答文章3001 問答文章3501 問答文章4001 問答文章4501 問答文章5001 問答文章5501 問答文章6001 問答文章6501 問答文章7001 問答文章7501 問答文章8001 問答文章8501 問答文章9001 問答文章9501
當前位置: 首頁 - 科技 - 知識百科 - 正文

Hadoop2.2.0穩(wěn)定版整合ZooKeeper(1)

來源:懂視網 責編:小采 時間:2020-11-09 15:54:22
文檔

Hadoop2.2.0穩(wěn)定版整合ZooKeeper(1)

Hadoop2.2.0穩(wěn)定版整合ZooKeeper(1):Hadoop2.2.0HAzookeeper3.4.5 體系結構 錯誤處理 心血之作,在熟悉 hadoop2 架構的過程耽誤了太長時間,在搭建環(huán)境過程遇到一些問題,這些問題一直卡在那兒,不得以解決,耽誤了時間。最后,千尋萬尋,把問題解決,多謝在過程提供幫助的大俠。這篇文章中,我
推薦度:
導讀Hadoop2.2.0穩(wěn)定版整合ZooKeeper(1):Hadoop2.2.0HAzookeeper3.4.5 體系結構 錯誤處理 心血之作,在熟悉 hadoop2 架構的過程耽誤了太長時間,在搭建環(huán)境過程遇到一些問題,這些問題一直卡在那兒,不得以解決,耽誤了時間。最后,千尋萬尋,把問題解決,多謝在過程提供幫助的大俠。這篇文章中,我

Hadoop2.2.0HAzookeeper3.4.5 體系結構 錯誤處理 心血之作,在熟悉 hadoop2 架構的過程耽誤了太長時間,在搭建環(huán)境過程遇到一些問題,這些問題一直卡在那兒,不得以解決,耽誤了時間。最后,千尋萬尋,把問題解決,多謝在過程提供幫助的大俠。這篇文章中,我

Hadoop2.2.0+HA+zookeeper3.4.5+體系結構+錯誤處理

心血之作,在熟悉hadoop2架構的過程耽誤了太長時間,在搭建環(huán)境過程遇到一些問題,這些問題一直卡在那兒,不得以解決,耽誤了時間。最后,千尋萬尋,把問題解決,多謝在過程提供幫助的大俠。這篇文章中,我也會把自己遇到的問題給列出來,幫助后來者進一步的學習。

http://blog.csdn.net/yczws1/article/details/23566383

前言

本文主要通過對hadoop2.2.0集群配置的過程加以梳理,所有的步驟都是通過自己實際測試。文檔的結構也是根據自己的實際情況而定,同時也會加入自己在實際過程遇到的問題。搭建環(huán)境過程不重要,重要點在于搭建過程中遇到的問題,解決問題的過程。

可能自己遇到的問題在一些由經驗的老者手上都不是問題,但是這些問題著實讓自己耽誤了很長時間,最后問題解決也是費了太大心血。也通過這篇文檔,表現出來,算是總結,為后者提供意見。

Hadoop2.2.0體系結構

要想理解本節(jié)內容,首先需要了解hadoop1的體系結構。這里不過多的介紹基于hadoop1的體系架構,早在之前,曾搭建hadoop1.2.1偽分布式集群,詳細請看hadoop學習(一)hadoop-1.2.1偽分布式配置及遇到的問題。這里主要介紹hadoop2的體系架構。

hadoop1的核心組成是兩部分,即HDFS和MapReduce。在hadoop2中變?yōu)镠DFS和Yarn。

新的HDFS中的NameNode不再是只有一個了,可以有多個(目前只支持2個)。每一個都有相同的職能。

這兩個NameNode的地位如何:一個是active狀態(tài)的,一個是standby狀態(tài)的。當 集群運行時,只有active狀態(tài)的NameNode是正常工作的,standby狀態(tài)的NameNode是處于待命狀態(tài)的,時刻同步active狀態(tài) NameNode的數據。一旦active狀態(tài)的NameNode不能工作,通過手工或者自動切換,standby狀態(tài)的NameNode就可以轉變?yōu)?active狀態(tài)的,就可以繼續(xù)工作了。這就是高可靠。

當NameNode發(fā)生故障時,他們的數據如何保持一致:在這里,2個NameNode的數據其實是實時共享的。新HDFS采用了一種共享機制,JournalNode集群或者NFS進行共享。NFS是操作系統(tǒng)層面的,JournalNode是hadoop層面的,我們這里使用JournalNode集群進行數據共享。

如何實現NameNode的自動切換:這就需要使用ZooKeeper集群進行選擇了。HDFS集群中的兩個NameNode都在ZooKeeper中注冊,當active狀態(tài)的NameNode出故障時,ZooKeeper能檢測到這種情況,它就會自動把standby狀態(tài)的NameNode切換為active狀態(tài)。

HDFS Federation(HDFS聯盟):聯盟的出現是有原因的。我們知道 NameNode是核心節(jié)點,維護著整個HDFS中的元數據信息,那么其容量是有限的,受制于服務器的內存空間。當NameNode服務器的內存裝不下數據后,那么HDFS集群就裝不下數據了,壽命也就到頭了。因此其擴展性是受限的。HDFS聯盟指的是有多個HDFS集群同時工作,那么其容量理論上就不受限了,夸張點說就是無限擴展。你可以理解成,一個總集群中,可以虛擬出兩個或兩個以上的單獨的小集群,各個小集群之間數據是實時共享的。因為hadoop集群中已經不在單獨存在namenode和datanode的概念。當一個其中一個小集群出故障,可以啟動另一個小集群中的namenode節(jié)點,繼續(xù)工作。因為數據是實時共享,即使namenode或datanode一起死掉,也不會影響整個集群的正常工作。

集群節(jié)點任務安排:

這點很重要,我們事先一定要先理解,節(jié)點之間任務是如何安排的。如果事先不理解為什么是這樣,后面還會遇到更多的問題。這就需要,理解journalnode、zookeeper、datanode、namenode之間關系。自己也是在這上面耽誤了很長時間,希望讀者這點多注意下。

6臺主機。


Journalnode和zookeeper保持奇數點,這點大家要有個概念,最少不少于3個節(jié)點。這里暫不講解。

兩個namenode上面已經說明,其實在hadoop2中幾點之間namenode和datanode之間的劃分已經不是那么明確了。這只是采用后4臺機器作為namenode。這里也存在一個問題:如果把datanode和namenode放在一起,對數據的讀取IO的效率肯定會有一定的影響,不同機器之間還是要通過網線和http請求完成數據之間的共享。實際中,兩者是可以在一起。但是我不知道在一起和不在一起之間的主要區(qū)別在哪兒,上面的解釋只是個人意見,如果讀者有更好的意見可以留言,大家一起討論。

在集群搭建之間,各主機設置靜態(tài)IP、更改主機名稱、主機之間ssh互聯等相關設置這里不在多講。如有需要,請參考:hadoop學習(五)Hadoop2.2.0完全分布式安裝詳解(1)配置文檔。

下面就進入正式的集群的安裝過程:

下面所有的過程都是在hadoop1機器上完成的,之后把文件復制到其他節(jié)點中。

Zookeeper安裝過程:

1、下載解壓zookeeper

下載地址:http://mirror.bit.edu.cn/apache/zookeeper/zookeeper-3.4.5/

解壓到指定目錄:這里目錄:/home/tom/yarn/hadoop-2.2.0/app/

在hadoop目錄中創(chuàng)建app目錄。把文件解壓到hadoop的app目錄中,是為了以后整個項目可以整體移植。包括后面,我們會安裝HBase、Hive等軟件,都是解壓到app的目錄中。

2、修改配置文件

2.1進入zookeeper中conf目錄:

拷貝命名zoo_sample.cfg 為zoo.cfg。我們一般不修改配置文件默認的示例文件,修改賦值其子文件。

編輯zoo.cfg

[plain] view plaincopy

  1. tickTime=2000
  2. initLimit=10
  3. syncLimit=5
  4. dataDir=/home/tom/yarn/hadoop-2.2.0/app/zookeeper-3.4.5/zkdata
  5. dataLogDir=/home/tom/yarn/hadoop-2.2.0/app/zookeeper-3.4.5/zkdatalog
  6. clientPort=2181
  7. server.1=hadoop1:2888:3888
  8. server.2=hadoop2:2888:3888
  9. server.3=hadoop3:2888:3888
  10. server.4=hadoop4:2888:3888
  11. server.5=hadoop5:2888:3888

2.2創(chuàng)建zkdata和zkdatalog兩個文件夾

在zookeeper的目錄中,創(chuàng)建上述兩個文件夾。進入zkdata文件夾,創(chuàng)建文件myid,填入1。這里寫入的1,是在zoo.cfg文本中的server.1中的1。當我們把所有文件都配置完畢,我們把hadoop1中yarn目錄復制到其它機器中,我們在修改每臺機器中對應的myid文本,hadoop2中的myid寫入2。其余節(jié)點,安照上面配置,依此寫入相應的數字。Zkdatalog文件夾,是為了指定zookeeper產生日志指定相應的路徑。

3、添加環(huán)境變量

本機環(huán)境變量添是在/etc/profile目錄中添加的。

[plain] view plaincopy

  1. export ZOOKEEPER_HOME=/home/tom/yarn/hadoop-2.2.0/app/zookeeper-3.4.5
  2. PATH=$ZOOKEEPER_HOME/bin:$PATH

添加ZOOKEEPER_HOME/bin目錄可以在原有的PATH后面加入

:$ZOOKEEPER_HOME/bin

關于環(huán)境變量修改/etc目錄下的profile文件,也可以在根目錄下的.bashrc目錄下添加環(huán)境變量。這兩者有什么區(qū)別:.bashrc是對當前目錄用戶的環(huán)境變量,profile文件是對所有用戶都開放的目錄。當系統(tǒng)加載文件中,先從profile找相應的路勁,如果沒有會在.bashrc文件中找對應的環(huán)境變量路徑。這兩者大家稍至了解。

然后 source /etc/profile

上面3個步驟就安裝zookeeper完畢。然后就是測試zookeeper,這個放到后面等hadoop1上整體配置完畢,scp到其它主機上后,再一起測試。

Hadoop配置

1、下載解壓hadoop2.2.0

路徑:http://apache.dataguru.cn/hadoop/common/hadoop-2.2.0/

解壓到:/home/tom/yarn/下。其實這一步應該在解壓zookeeper之前。不再多講。

2、修改配置文件

這里要修改配置文件一共包括6個,分別是在hadoop-env.sh、core-site.xml、hdfs-site.xml、mapred-site.xml、 yarn-site.xml和slaves。

修改文件的目錄地址:/home/tom/yarn/hadoop-2.2.0/etc/hadoop/

2.1文件hadoop-env.sh

添加jdk環(huán)境變量:

export JAVA_HOME=/usr/lib/jvm/jdk1.7.0_45

2.2文件coer-site.xml

[plain] view plaincopy

  1. fs.defaultFS
  2. hdfs://cluster1
  3. 【這里的值指的是默認的HDFS路徑。這里只有一個HDFS集群,在這里指定!該值來自于hdfs-site.xml中的配置】
  4. hadoop.tmp.dir
  5. /home/tom/yarn/yarn_data/tmp
  6. 【這里的路徑默認是NameNode、DataNode、JournalNode等存放數據的公共目錄。用戶也可以自己單獨指定這三類節(jié)點的目錄。這里的yarn_data/tmp目錄與文件都是自己創(chuàng)建的】
  7. ha.zookeeper.quorum
  8. hadoop1:2181,hadoop2:2181,hadoop3:2181,hadoop4:2181,hadoop5:2181
  9. 【這里是ZooKeeper集群的地址和端口。注意,數量一定是奇數,且不少于三個節(jié)點】

2.3文件hdfs-site.xml

[plain] view plaincopy

  1. 重點核心文件:
  2. dfs.replication
  3. 2
  4. 【指定DataNode存儲block的副本數量。默認值是3個,我們現在有4個DataNode,該值不大于4即可?!?
  5. dfs.permissions
  6. false
  7. dfs.permissions.enabled
  8. false
  9. dfs.nameservices
  10. cluster1
  11. 【給hdfs集群起名字】
  12. dfs.ha.namenodes.cluster1
  13. hadoop1,hadoop2
  14. 【指定NameService是cluster1時的namenode有哪些,這里的值也是邏輯名稱,名字隨便起,相互不重復即可】
  15. dfs.namenode.rpc-address.cluster1.hadoop1
  16. hadoop1:9000
  17. 【指定hadoop101的RPC地址】
  18. dfs.namenode.http-address.cluster1.hadoop1
  19. hadoop1:50070
  20. 【指定hadoop101的http地址】
  21. dfs.namenode.rpc-address.cluster1.hadoop2
  22. hadoop2:9000
  23. dfs.namenode.http-address.cluster1.hadoop2
  24. hadoop2:50070
  25. dfs.namenode.servicerpc-address.cluster1.hadoop1
  26. hadoop1:53310
  27. dfs.namenode.servicerpc-address.cluster1.hadoop2
  28. hadoop2:53310
  29. dfs.ha.automatic-failover.enabled.cluster1
  30. true
  31. 【指定cluster1是否啟動自動故障恢復,即當NameNode出故障時,是否自動切換到另一臺NameNode】
  32. dfs.namenode.shared.edits.dir qjournal://hadoop1:8485;hadoop2:8485;hadoop3:8485;hadoop4:8485;hadoop5:8485/cluster1
  33. 【指定cluster1的兩個NameNode共享edits文件目錄時,使用的JournalNode集群信息】
  34. dfs.client.failover.proxy.provider.cluster1 org.apache.hadoop.hdfs.server.namenode.ha.ConfiguredFailoverProxyProvider
  35. 【指定cluster1出故障時,哪個實現類負責執(zhí)行故障切換】
  36. dfs.journalnode.edits.dir
  37. /home/tom/yarn/yarn_data/tmp/journal
  38. 【指定JournalNode集群在對NameNode的目錄進行共享時,自己存儲數據的磁盤路徑。tmp路徑是自己創(chuàng)建,journal是啟動journalnode自動生成】
  39. dfs.ha.fencing.methods
  40. sshfence
  41. 【一旦需要NameNode切換,使用ssh方式進行操作】
  42. dfs.ha.fencing.ssh.private-key-files
  43. /home/tom/.ssh/id_rsa
  44. 【如果使用ssh進行故障切換,使用ssh通信時用的密鑰存儲的位置】
  45. dfs.ha.fencing.ssh.connect-timeout
  46. 10000
  47. dfs.namenode.handler.count
  48. 100

2.4文件mapred-site.xml

[plain] view plaincopy

  1. mapreduce.framework.name
  2. yarn
  3. 【指定運行mapreduce的環(huán)境是yarn,與hadoop1不同的地方】

2.5文件yarn-site.xml

[plain] view plaincopy

  1. yarn.resourcemanager.hostname
  2. hadoop1
  3. 【自定義ResourceManager的地址,還是單點】
  4. yarn.nodemanager.aux-services
  5. mapreduce.shuffle

2.6文件slaves

添加:這里指定哪臺機器是datanode,這里指定4臺機器。你甚至可以把集群所有機器都當做datanode

[plain] view plaincopy

  1. hadoop3
  2. hadoop4
  3. hadoop5
  4. hadoop6

3、添加環(huán)境變量

環(huán)境變量的添加方法大都相同。這里給出我所有環(huán)境變量配置,大家可以根據自己的需要參考一下。

這里我們只要添加HADOOP_HOME環(huán)境變量。

[plain] view plaincopy

  1. JAVA_HOME=/usr/lib/jvm/jdk1.7.0_51
  2. export PATH=$PATH:$JAVA_HOME/bin
  3. export HBASE_HOME=/home/tom/hadoop-2.2.0/app/hbase-0.94.6-cdh4.4.0
  4. export HIVE_HOME=/home/tom/hadoop-2.2.0/app/hive-0.12.0/
  5. export HADOOP_HOME=/home/tom/hadoop-2.2.0
  6. export PATH=$PATH:$HBASE_HOME/bin:$HIVE_HOME/bin:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
  7. export CLASSPATH=.:$JAVA_HOME/lib/tools.jar:$JAVA_HOME/lib/dt.jar
  8. export ZOOKEEPER_HOME=/home/tom/yarn/hadoop-2.2.0/app/zookeeper-3.4.5
  9. export PATH=$PATH:$ZOOKEEPER_HOME/bin

4、復制到其它節(jié)點

在hadoop的的根目錄下(即:/home/tom目錄下):因為我們所有的環(huán)境都裝載在hadoop1的tom目錄下。

執(zhí)行:

[plain] view plaincopy

  1. scp -r yarn hadoop2:/home/tom
  2. scp -r yarn hadoop3:/home/tom
  3. scp -r yarn hadoop4:/home/tom
  4. scp -r yarn hadoop5:/home/tom
  5. scp -r yarn hadoop6:/home/tom

注意點:

1、因為我們是把整個yarn目錄復制到其他節(jié)點中,zookeeper也包含在內。事先我們定義zookeeper是在1-5臺機器上部署。這里我們雖然把zookeeper拷貝到6機器中,但是我們再zookeeper配置文件中沒有配置6機器的節(jié)點,在啟動zookeeper的時候,6機器也不需要啟動。

2、現在要做的是進入zookeeper目錄下的zkdata目錄,修改myid文件:各個myid內容對應zoo.cfg文件中server對應的編號。

按照上面的3個大步驟,以及在注釋中自己要創(chuàng)建的文件夾,指定相應的路徑之后,整體的hadoop環(huán)境算是搭建完畢。下面就是等測試。

看似簡單的不能再簡單的搭建過程,這是你弄明白之后的事情。在從hadoop1到2之間的過度,主要的變化是namenode和mapreduce到y(tǒng)arn架構之間的變化。就在這簡單的配置過程中,加上可參考網上眾多配置教程,也耽誤了太長時間。不是文件難配置,而是在出現問題,不知道怎么解決,就一直卡在那兒。咨詢過一些大牛,但是他們也是搪塞,沒有給出真正問題的原因。其中有一個問題,在QQ群中,咨詢過一個人,從他那邊才得到啟發(fā),把其中的一個問題給解決掉。這也是我們遇到的問題,沒有一個平臺,導致在一些別人看似不是問題的問題上耽誤太長時間。

聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。TEL:177 7030 7066 E-MAIL:11247931@qq.com

文檔

Hadoop2.2.0穩(wěn)定版整合ZooKeeper(1)

Hadoop2.2.0穩(wěn)定版整合ZooKeeper(1):Hadoop2.2.0HAzookeeper3.4.5 體系結構 錯誤處理 心血之作,在熟悉 hadoop2 架構的過程耽誤了太長時間,在搭建環(huán)境過程遇到一些問題,這些問題一直卡在那兒,不得以解決,耽誤了時間。最后,千尋萬尋,把問題解決,多謝在過程提供幫助的大俠。這篇文章中,我
推薦度:
標簽: ha (二) (一)
  • 熱門焦點

最新推薦

猜你喜歡

熱門推薦

專題
Top