大數(shù)據(jù)分布式處理系統(tǒng)平臺Hadoop的主要特征
Hadoop是Apache軟件基金會下一個開源分布式處理系統(tǒng)平臺,主要為用用戶提供系統(tǒng)底層細節(jié)透明的分布式基礎架構。該平臺以HDFS和MapReduce為核心。HDFS是一個分布式文件系統(tǒng),他具有高容錯性、高伸縮性、高效性等優(yōu)點讓用戶可以將Hadoop部署在低廉的硬件上,形成分布式系統(tǒng)。MapReduce是一個運算程序的編程框架能將用戶編寫的業(yè)務邏輯代碼和自帶默認組件整合成一個完整的分布式運算程序,并發(fā)運行在一個hadoop集群上。分布式結構設計,下圖Hadoop 系統(tǒng)分布式存儲與并行計算結構示意圖,Hadoop系統(tǒng)結構主要有兩方面分別是系統(tǒng)的分布式存儲和并行計算結構。

集群的主控節(jié)點負責整個集群的管理、控制,保證其正常運行并完成節(jié)點中數(shù)據(jù)存儲和計算任務。在大數(shù)據(jù)環(huán)境下,為了服務和實現(xiàn)本地化計算,任何一個從節(jié)點都有數(shù)據(jù)存儲節(jié)點、數(shù)據(jù)計算節(jié)點的功能。以此提高系統(tǒng)的處理性能。為了能及時檢測和發(fā)現(xiàn)集群中某個從節(jié)點發(fā)生故障失效,主控節(jié)點采用心跳機制設置周期巡檢每一個從節(jié)點,如果節(jié)點不能及時反饋信息,系統(tǒng)將會判定這個節(jié)點失效。
從軟件系統(tǒng)角度看,分布式存儲、并行計算是Hadoop系統(tǒng)的兩個部分,分布式存儲中Hadoop 系統(tǒng)提供一個大規(guī)??蓴U展的分布式數(shù)據(jù)存儲功能,是在本地文件系統(tǒng)的每個從節(jié)點基礎上,實現(xiàn)一個邏輯上整體化的分布式文件系統(tǒng)HDFS,負責控制和管理整個分布式文件系統(tǒng)的主控節(jié)點稱為NameNode,而每個具體負責數(shù)據(jù)存儲的從節(jié)點稱為 DataNode。
MapReduce并行計算框架,是Hadoop為了對存儲在HDFS中大規(guī)模數(shù)據(jù)進行一定的規(guī)則下的處理。該框架能有效管理和調(diào)度整個集群中的節(jié)點來完成并行化程序的執(zhí)行和數(shù)據(jù)處理,并能讓每個從節(jié)點盡可能對本地節(jié)點上的數(shù)據(jù)進行本地化計算,其中,負責管理和調(diào)度整個集群進行計算的主控節(jié)點稱為 JobTracker,而每個負責具體的數(shù)據(jù)計算的從節(jié)點稱為TaskTracker。
JobTracker可以與負責管理數(shù)據(jù)存儲的主控節(jié)點NameNode 設置在物理的主控服務器上,也可以設置在其他服務器上,如果遇到規(guī)模大、負載過重的情況下最好是分開設置。但數(shù)據(jù)存儲節(jié)點 DataNode 與計算節(jié)點 TaskTracker 會配對地設置在同一個物理的從節(jié)點服務器上。Hadoop 系統(tǒng)中的其他子系統(tǒng),例如 HBase,將建立在 HDFS 分布式文件系統(tǒng)和 MapReduce 并行化計算框架之上。
梯度科技基于開源Hadoop自研了TDHadoop,解決開源引擎版本不兼容的問題,支持主流數(shù)據(jù)源,具有良好的可擴展性和適配性。能夠對大數(shù)據(jù)生態(tài)組件進行統(tǒng)一管理及封裝,產(chǎn)品本身是松耦合設計,支持集成其他業(yè)界主流組件環(huán)境,比如CDH、星環(huán)等。
掃描二維碼推送至手機訪問。
版權聲明:本文由財神資訊-領先的體育資訊互動媒體轉載發(fā)布,如需刪除請聯(lián)系。