最新文章專題視頻專題問答1問答10問答100問答1000問答2000關(guān)鍵字專題1關(guān)鍵字專題50關(guān)鍵字專題500關(guān)鍵字專題1500TAG最新視頻文章視頻文章20視頻文章30視頻文章40視頻文章50視頻文章60 視頻文章70視頻文章80視頻文章90視頻文章100視頻文章120視頻文章140 視頻2關(guān)鍵字專題關(guān)鍵字專題tag2tag3文章專題文章專題2文章索引1文章索引2文章索引3文章索引4文章索引5123456789101112131415文章專題3
當(dāng)前位置: 首頁(yè) - 科技 - 知識(shí)百科 - 正文

Hadoop版本說(shuō)明以及Hadoop2中的幾個(gè)重要概念

來(lái)源:懂視網(wǎng) 責(zé)編:小采 時(shí)間:2020-11-09 15:56:51
文檔

Hadoop版本說(shuō)明以及Hadoop2中的幾個(gè)重要概念

Hadoop版本說(shuō)明以及Hadoop2中的幾個(gè)重要概念:當(dāng)我們現(xiàn)在(2014年7月)訪問Apache的Hadoop官方網(wǎng)站,可以看到目前官網(wǎng)提供了三個(gè)推薦版本。像我一樣的初學(xué)者必然感到困惑: 1.2.X - current stable version, 1.2 release 2.4.X - current stable 2.x version 0.23.X -
推薦度:
導(dǎo)讀Hadoop版本說(shuō)明以及Hadoop2中的幾個(gè)重要概念:當(dāng)我們現(xiàn)在(2014年7月)訪問Apache的Hadoop官方網(wǎng)站,可以看到目前官網(wǎng)提供了三個(gè)推薦版本。像我一樣的初學(xué)者必然感到困惑: 1.2.X - current stable version, 1.2 release 2.4.X - current stable 2.x version 0.23.X -

當(dāng)我們現(xiàn)在(2014年7月)訪問Apache的Hadoop官方網(wǎng)站,可以看到目前官網(wǎng)提供了三個(gè)推薦版本。像我一樣的初學(xué)者必然感到困惑: 1.2.X - current stable version, 1.2 release 2.4.X - current stable 2.x version 0.23.X - similar to 2.X.X but missing NN H

當(dāng)我們現(xiàn)在(2014年7月)訪問Apache的Hadoop官方網(wǎng)站,可以看到目前官網(wǎng)提供了三個(gè)推薦版本。像我一樣的初學(xué)者必然感到困惑:
1.2.X - current stable version, 1.2 release
2.4.X - current stable 2.x version
0.23.X - similar to 2.X.X but missing NN HA.


1、為什么會(huì)提供這么奇怪的版本,我做了一些了解
Hadoop一代:原來(lái)Hadoop最初的開發(fā)時(shí)候出現(xiàn)了0.20,0.21,0.22,0.23這樣的版本,后來(lái)0.20.x版本最后演化成了現(xiàn)在的1.0.x版本,也就是Hadoop第一代的穩(wěn)定版本。也就是說(shuō)第一代Hadoop包含三個(gè)大版本,分別是0.20.x,0.21.x和0.22.x,其中,0.20.x最后演化成1.0.x,變成了穩(wěn)定版,也就是現(xiàn)在官網(wǎng)推薦的一代穩(wěn)定產(chǎn)品1.2.x。 0.21.x和0.22.x是下一代Hadoop中的MapReduce實(shí)現(xiàn),只不過資源管理系統(tǒng)還是用的JobTracker,沒有使用YARN。

Hadoop二代:而最初的0.23版本,完全不同于第一代Hadoop,是一套全新的架構(gòu),包含HDFS Federation和YARN兩個(gè)系統(tǒng),后來(lái)也由0.23演化出了2.0.x系列的二代版本。 至于0.23和2.0.x系列的不同,那就是相比于0.23.x,2.x增加了NameNode HA和Wire-compatibility兩個(gè)重大特性。

那么,我們就可以非常清楚的明白,Hadoop官網(wǎng)給出的三個(gè)下載鏈接:
1.2.x代表第一代的Hadoop框架; 2.4.x代表第二代的Hadoop框架;0.23.x也是第二代框架,只是缺少了NN HA特性。


什么是NN HA? 答:Namenode High Available,即Namenode高可用性。這里有一篇關(guān)于HA解決方案的介紹:
http://wenku.baidu.com/link?url=aPnXLQjY3rXyxSwgn_9u4-7fuvmuW6WNmLDLr3YFQ7_RZjFR7YODjPK-pSbgyHBX2AZ9bzB5EYeiR09LO_ecSa6KmDNJn4R-3ImzUVGWjL_
http://www.infoq.com/cn/articles/hadoop-2-0-namenode-ha-federation-practice-zh
http://blog.csdn.net/wf1982/article/details/7793166


2、我們應(yīng)該下載哪個(gè)版本?

由于我本次實(shí)驗(yàn)室所工作的事情初次接觸該框架,而且需要用到較多的特性,故果斷選擇第二代框架。而且,作為使用者,我們必然要選擇Stable版本,我們看到官網(wǎng)提供的2.4.x確實(shí)是Stable版本,而且當(dāng)我進(jìn)入下載,找到華科大的鏡像服務(wù)器時(shí),其Stable目錄下,正是2.4.1,因此本次項(xiàng)目我們使用2.4.1的版本。

想看最全的Hadoop版本,就去這里:http://svn.apache.org/repos/asf/hadoop/common/branches/


實(shí)際上,當(dāng)前Hadoop只有兩個(gè)版本:Hadoop 1.0(我覺得應(yīng)該叫他一代)和Hadoop 2.0(我覺得應(yīng)該叫他二代,中文免得混亂),其中,Hadoop 1.0由一個(gè)分布式文件系統(tǒng)HDFS和一個(gè)離線計(jì)算框架MapReduce組成,而Hadoop 2.0則包含一個(gè)支持NameNode橫向擴(kuò)展的HDFS,一個(gè)資源管理系統(tǒng)YARN和一個(gè)運(yùn)行在YARN上的離線計(jì)算框架MapReduce。相比于Hadoop 1.0,Hadoop 2.0功能更加強(qiáng)大,且具有更好的擴(kuò)展性、性能,并支持多種計(jì)算框架。

當(dāng)我們決定是否采用某個(gè)軟件用于開源環(huán)境時(shí),通常需要考慮以下幾個(gè)因素:
(1)是否為開源軟件,即是否免費(fèi)。
(2) 是否有穩(wěn)定版,這個(gè)一般軟件官方網(wǎng)站會(huì)給出說(shuō)明。
(3) 是否經(jīng)實(shí)踐驗(yàn)證,這個(gè)可通過檢查是否有一些大點(diǎn)的公司已經(jīng)在生產(chǎn)環(huán)境中使用知道。
(4) 是否有強(qiáng)大的社區(qū)支持,當(dāng)出現(xiàn)一個(gè)問題時(shí),能夠通過社區(qū)、論壇等網(wǎng)絡(luò)資源快速獲取解決方法。


3、CHD基于開源Hadoop的另一個(gè)分發(fā)版本------
我們?cè)陉P(guān)注Hadoop時(shí)可能會(huì)經(jīng)??吹紺DH3或CDH4之類的Hadoop版本,那么他們就是由一家叫做Cloudera的公司發(fā)行的,就像Linux操作系統(tǒng)領(lǐng)域有Redhat一樣,Hadoop是Apache的開源項(xiàng)目,然后有一家公司Cloudera就利用Hadoop改造成另一個(gè)發(fā)行版。CDH是在Apache的基礎(chǔ)上進(jìn)行優(yōu)化的版本。這家云計(jì)算公司發(fā)展非常強(qiáng)勁,大有成為下一個(gè)Redhat之勢(shì)。
可以在官網(wǎng)了解到相關(guān)知識(shí):http://www.cloudera.com/content/support/en/downloads.html


4、Hadoop2代中的相關(guān)概念
(1) Hadoop 1.0
第一代Hadoop,由分布式存儲(chǔ)系統(tǒng)HDFS和分布式計(jì)算框架MapReduce組成,其中,HDFS由一個(gè)NameNode和多個(gè)DataNode組成,MapReduce由一個(gè)JobTracker和多個(gè)TaskTracker組成,對(duì)應(yīng)Hadoop版本為Hadoop 1.x和0.21.X,0.22.x。
(2) Hadoop 2.0
第二代Hadoop,為克服Hadoop 1.0中HDFS和MapReduce存在的各種問題而提出的。針對(duì)Hadoop 1.0中的單NameNode制約HDFS的擴(kuò)展性問題,提出了HDFS Federation,它讓多個(gè)NameNode分管不同的目錄進(jìn)而實(shí)現(xiàn)訪問隔離和橫向擴(kuò)展;針對(duì)Hadoop 1.0中的MapReduce在擴(kuò)展性和多框架支持方面的不足,提出了全新的資源管理框架YARN(Yet Another Resource Negotiator),它將JobTracker中的資源管理和作業(yè)控制功能分開,分別由組件ResourceManager和ApplicationMaster實(shí)現(xiàn),其中,ResourceManager負(fù)責(zé)所有應(yīng)用程序的資源分配,而ApplicationMaster僅負(fù)責(zé)管理一個(gè)應(yīng)用程序。對(duì)應(yīng)Hadoop版本為Hadoop 0.23.x和2.x。
(3) MapReduce 1.0或者M(jìn)Rv1(MapReduce version 1)
第一代MapReduce計(jì)算框架,它由兩部分組成:編程模型(programming model)和運(yùn)行時(shí)環(huán)境(runtime environment)。它的基本編程模型是將問題抽象成Map和Reduce兩個(gè)階段,其中Map階段將輸入數(shù)據(jù)解析成key/value,迭代調(diào)用map()函數(shù)處理后,再以key/value的形式輸出到本地目錄,而Reduce階段則將key相同的value進(jìn)行規(guī)約處理,并將最終結(jié)果寫到HDFS上。它的運(yùn)行時(shí)環(huán)境由兩類服務(wù)組成:JobTracker和TaskTracker,其中,JobTracker負(fù)責(zé)資源管理和所有作業(yè)的控制,而TaskTracker負(fù)責(zé)接收來(lái)自JobTracker的命令并執(zhí)行它。
(4)MapReduce 2.0或者M(jìn)Rv2(MapReduce version 2)或者NextGen MapReduc
MapReduce 2.0或者M(jìn)Rv2具有與MRv1相同的編程模型,唯一不同的是運(yùn)行時(shí)環(huán)境。MRv2是在MRv1基礎(chǔ)上經(jīng)加工之后,運(yùn)行于資源管理框架YARN之上的MRv1,它不再由JobTracker和TaskTracker組成,而是變?yōu)橐粋€(gè)作業(yè)控制進(jìn)程ApplicationMaster,且ApplicationMaster僅負(fù)責(zé)一個(gè)作業(yè)的管理,至于資源的管理,則由YARN完成。
簡(jiǎn)而言之,MRv1是一個(gè)獨(dú)立的離線計(jì)算框架,而MRv2則是運(yùn)行于YARN之上的MRv1。
(5) YARN
Hadoop 2.0中的資源管理框架,它是一個(gè)框架管理器,為各種框架進(jìn)行資源分配和提供運(yùn)行時(shí)環(huán)境。而MRv2則是運(yùn)行在YARN之上的第一個(gè)計(jì)算框架,其他計(jì)算框架,比如Spark、Storm等,都正在往YARN上移植。YARN類似于幾年前的資源管理系統(tǒng)mesos和更早的Torque。Yarn的官方介紹http://hadoop.apache.org/docs/r2.2.0/hadoop-yarn/hadoop-yarn-site/YARN.html
(6) HDFS Federation
Hadoop 2.0中對(duì)HDFS進(jìn)行了改進(jìn),使NameNode可以橫向擴(kuò)展成多個(gè),其中,每個(gè)NameNode分管一部分目錄,這不僅增強(qiáng)了HDFS的擴(kuò)展性,也使HDFS具備了隔離性。


5、分布式計(jì)算相關(guān)的其他概念
Spark:Spark是一個(gè)高效的分布式計(jì)算系統(tǒng),發(fā)源于美國(guó)加州大學(xué)伯克利分校AMPLab的集群計(jì)算平臺(tái)。 Spark被稱為“Hadoop的瑞士軍刀”,擁有非凡的速度和易用性。Spark立足于內(nèi)存計(jì)算,相比Hadoop MapReduce,Spark在性能上要高100倍,而且Spark提供了比Hadoop更上層的API,同樣的算法在Spark中實(shí)現(xiàn)往往只有Hadoop的1/10或者1/100的長(zhǎng)度。 Apache Spark? is a fast and general engine for large-scale data processing.
Storm:分布式實(shí)時(shí)計(jì)算系統(tǒng)。按照storm作者的說(shuō)法,storm對(duì)于實(shí)時(shí)計(jì)算的意義類似于hadoop對(duì)于批處理的意義。我們都知道,根據(jù)google mapreduce來(lái)實(shí)現(xiàn)的hadoop為我們提供了map, reduce原語(yǔ),使我們的批處理程序變得非常地簡(jiǎn)單和優(yōu)美。同樣,storm也為實(shí)時(shí)計(jì)算提供了一些簡(jiǎn)單優(yōu)美的原語(yǔ)。 有一篇介紹Strom的博客:http://www.searchtb.com/2012/09/introduction-to-storm.html


------------本文引用出處-----------
http://dongxicheng.org/mapreduce-nextgen/how-to-select-hadoop-versions/
http://dongxicheng.org/mapreduce-nextgen/hadoop-2-0-terms-explained/
http://dongxicheng.org/mapreduce-nextgen/hadoop-2-2-0/

聲明:本網(wǎng)頁(yè)內(nèi)容旨在傳播知識(shí),若有侵權(quán)等問題請(qǐng)及時(shí)與本網(wǎng)聯(lián)系,我們將在第一時(shí)間刪除處理。TEL:177 7030 7066 E-MAIL:11247931@qq.com

文檔

Hadoop版本說(shuō)明以及Hadoop2中的幾個(gè)重要概念

Hadoop版本說(shuō)明以及Hadoop2中的幾個(gè)重要概念:當(dāng)我們現(xiàn)在(2014年7月)訪問Apache的Hadoop官方網(wǎng)站,可以看到目前官網(wǎng)提供了三個(gè)推薦版本。像我一樣的初學(xué)者必然感到困惑: 1.2.X - current stable version, 1.2 release 2.4.X - current stable 2.x version 0.23.X -
推薦度:
標(biāo)簽: 幾個(gè) 中的 版本
  • 熱門焦點(diǎn)

最新推薦

猜你喜歡

熱門推薦

專題
Top