您現在的位置是:首頁 > 運動

資料儲存系統策略

由 熱愛科技的小陳 發表于 運動2023-01-04
簡介該方案是透過客戶端和DataNode儲存管理海量的小檔案資料,透過對儲存在DataNode中的小檔案的元資料進行管理,減少與NameNode的通訊週期而提高小檔案的訪問成本,HDFS 資料儲存主要由 Hadoop 叢集和透過訪問叢集使用實際

男30了學什麼有前途

一、 資料儲存策略

針對 HDFS 儲存海量小檔案資料時讀取率低、儲存時間長且消耗記憶體大等問題,本文設計了一種新的儲存方案,以提高海量小檔案的儲存效率。該方案是透過客戶端和DataNode儲存管理海量的小檔案資料,透過對儲存在DataNode中的小檔案的元資料進行管理,減少與NameNode的通訊週期而提高小檔案的訪問成本,HDFS 資料儲存主要由 Hadoop 叢集和透過訪問叢集使用實際資料的客戶端組成,包括塊元資料和快取元資料。

資料儲存系統策略

二、小檔案管理方法

一般情況下,小檔案大小為幾十到幾百 KB,但 HDFS 的基本儲存單位是64MB 的資料塊。因此,透過 HDFS 儲存海量小檔案的時候,一個單位塊用來儲存一個幾十 KB 的小檔案,將會導致塊數量急劇增加,消耗大量的記憶體和增加儲存時間。該方案不是將海量小檔案單獨儲存在DataNode中,而是將它們合併為大小不超過64 MB 一個大檔案的形式進行儲存管理,在合併檔案的上層,以索引的形式處理小檔案的位置和大小,允許識別使用者請求檔案的位置。

資料儲存系統策略

三、分散式儲存方案

分散式儲存管理方案旨在提高對小檔案的訪問效率,透過使用客戶端快取和DataNode快取來儲存和管理海量小檔案。小檔案資料通常非常小,並且可執行順序的讀取和寫入等操作。在該方案中,客戶端分別從NameNode和DataNode接收包含被請求檔案的塊元資料,並將它們儲存在客戶端快取中。如果在客戶端快取中只處理塊元資料,則請求的檔案資訊不會在快取中,反而會被髮送到datanode的磁碟中搜索。

資料儲存系統策略

四、快取資料替換

分散式快取資料替換策略需要考慮以下兩個問題:小文的件訪問頻率和時間。因為快取的容量也有限,所以只能處理一定數量的檔案和元資料。因此,當快取已滿,但又請求一個新的小檔案時,快取將刪除儲存檔案中確定為容納新檔案最少需要的檔案。

針對小檔案,由於儲存的小檔案本質上是相互關聯的資訊,不同的使用者通常會請求類似的檔案,所以頻繁請求的檔案很可能在下次使用。

資料儲存系統策略

本文采用的快取替換方案中結合了使用最少使用次數( LFU)和最近最少使用次數( LRU)。為了在請求頻率和請求時間之間保持適當的平衡,選擇要替換的檔案,需要維護一個數據訪問模式表,其中包含小檔案的名稱、請求頻率(RF)和時間資訊(RT)。根據訪問模式表中維護的每個檔案的請求頻率和時間資訊,使用公式(1)計算快取中要替換的檔案,其中需要從試驗中選擇合適的α值。

資料儲存系統策略

綜上所述,在網際網路、雲計算和大資料技術的應用過程中會產生圖片、微影片等海量的小檔案資料,這對資料的有效儲存和綜合管理提出了更高的要求。本文探討了基於 HDFS 儲存海量小檔案的方案策略,提高了資料讀取率、降低了記憶體的消耗。透過試驗測試儲存方案的效能,結果表明,本文使用的分散式快取方案的小檔案訪問時間比 EHDFS 方案減少了68%;小檔案訪問頻率比 EHDFS 方案降低了57%。該分散式快取管理方案利用 HDFS 中的NameNode節點可以快捷地調節通訊週期,提高小檔案訪問速度,降低了網路負載。

推薦文章

  • 閩西南五市直播連線攜手推崗引才 人才需求總量近5000人 平均薪資達到7700元

    閩西南五市直播連線攜手推崗引才 人才需求總量近5000人 平均薪資達到7700元據統計,本次大會共有來自閩西南五市的160餘家企業參會,其中包括翔鷺化纖、科華資料、廈門太古飛機、壘知控股集團、福建傲農生物、漳州片仔癀藥業、泉州三安半導體、泉州匹克體育用品、福龍馬集團、福建省三鋼(集團)、福建龍淨環保、三明廈鎢新能源材料...

  • 那些年,遇到靈異事件

    那些年,遇到靈異事件就再嘗試一下去騎車子,上去還是一樣蹬不動,我問老二冷不,老二說有點,那我跑一會兒,直到跑出來那條路,再騎上車子就可以走了,問他看到沒有他也看到了,也是怕我沒有看見...

  • 三年封閉期滿,6只戰略配售基金要轉型,還持有嗎

    根據當時安排,這些被稱為“獨角獸”基金的戰略配售基金,封閉期三年,將主要投資於獨角獸企業迴歸A股的戰略配售環節,每隻規模上限為500億元...