您現在的位置是：首頁 > 運動

深入解析大資料Hadoop中的HDFS

由加米穀大資料張衡發表于運動2021-10-04

簡介HDFS作為Hadoop主要的核心，在資料儲存方面為我們提供了保證，是非常優秀的分散式檔案系統

什麼是hdfs

大資料需要學習的框架有很多，而Hadoop作為大資料開發的核心模組，就需要多加了解。HDFS是基於Java的分散式檔案系統，對於理解Hadoop分散式檔案系統很有幫助，今天我們就一起來深入解析大資料Hadoop中的HDFS。

一、什麼是HDFS？

HDFS負責資料檔案的儲存，為整個Hadoop生態圈提供了基礎的儲存服務。提供了一個低成本、高效能、高容錯、高可靠的分散式檔案系統。

HDFS是一個主/從（Master/Slave）體系架構，由於分散式儲存的性質，叢集擁有兩類節點NameNode和DataNode。NameNode（名位元組點）：系統中通常只有一個，中心伺服器的角色，管理儲存和檢索多個DataNode的實際資料所需的所有元資料。

二、HDFS的特點

1、低成本：搭建HDFS主要是透過橫向擴充套件機器數量而非花高價錢購進昂貴的伺服器。

2、高效能：處理大型任務上叢集處理效率，多臺機器分塊並行處理要比單臺機器序列處理要快很多

3、高容錯：資料自動儲存多個副本。它透過增加副本的形式，提高容錯性。資料自動儲存多個副本，副本丟失後，自動恢復。

4、高可靠：HDFS解決了單點問題，HDFS叢集中心節點是非常重要的，如果中心節點宕機整個叢集將無法使用，所以中心節點NameNode會有主要節點（Primary）和備份節點（Stand By）。如果Primary出現問題Stand By可以自動接替Primary工作。

三、HDFS如何儲存資料？

HDFS 採用Master/Slave的架構來儲存資料，這種架構主要由四個部分組成，分別為HDFS Client（客戶端）、NameNode（主管、管理者）、DataNode（slave）和Secondary NameNode。可以看看下面這張圖：

以上就是關於HDFS的部份解析了，希望對大家能有多幫助。HDFS作為Hadoop主要的核心，在資料儲存方面為我們提供了保證，是非常優秀的分散式檔案系統。如果想了解更多詳情，請點選成都加米穀大資料官網咖！