您現在的位置是:首頁 > 旅遊

如何透過統一元資料管理實現敏捷資料分析

由 湖倉一體基礎設施滴普 發表于 旅遊2022-11-30
簡介圖2:統一元資料技術架構最終,支援異構資料的統一元資料管理,實現端到端的資料鏈路的自動化元資料採集,支援全鏈路血緣,一鍵式分析技術、業務、操作元資料詳情,為資料標準建設和資料質量提供重要支撐

crco6怎麼命名

如何透過統一元資料管理實現敏捷資料分析

資料智慧時代下,企業利用先進的技術釋放資料價值,實現資料資產管理,築牢核心競爭力已成大勢所趨。而且,隨著大資料在企業經營管理中的深度拓展,企業結構化、非結構化、半結構資料逐漸增多,使得企業面臨更加複雜的資料問題,加速了企業提升資料價值,發展資料智慧的戰略轉型。

在DEEPNOVA 技術薈系列公開課前四期中,主要闡釋了湖倉一體架構為主的關鍵技術與實踐經驗。那麼,在湖倉一體建設過程中,具體如何進行元資料管理呢?滴普科技麗影創新中心研發總經理呂鑫在第五期課程中,帶來了《資料治理之元資料管理》,或許能從中找到答案。

1

何為元資料管理?

顧名思義,元資料就是描述資料的資料,主要是描述資料屬性的資訊,用來支援如指示儲存位置、歷史資料、資源查詢、檔案記錄等功能。根據資料產生、資料儲存、資料加工和展現等各個環節的資料描述資訊,可以分為業務元資料、技術元資料、操作元資料。

在進行元資料管理時,很重要的一個目標是做元資料分析。元資料分析主要針對元資料的基本資訊做進一步的分析,形成了能力上的輸出,包含指標一致性分析、影響分析、血緣分析等。

元資料管理的應用場景主要有血緣分析、冷熱度分析、資料地圖、關聯度分析。儘管有諸多應用場景,但元資料管理整體卻存在著引擎多樣化,導致元資料同步難、元資料模型管理不靈活、資料使用價值難以評估等問題。

因此,企業對於元資料管理的訴求是可以實現端到端的元資料整合,當面對數十個平臺&系統、大規模的資料資產時,可以建設統一的流程規範保證接入元資料的效率和質量,發掘元資料價值。

2

元資料管理:統一元資料架構

隨著企業對資料資產管理的重視,對元資料的管理顯得更為重要。但是,當前開源的方案不夠成熟:缺少統一管理檢視;元資料分散,難於統一管理;缺少統一的元模型抽象應對負責的元資料格式,無法有效的提供快速擴縮容和可靠的服務化介面。

面對這樣的技術難題,滴普科技催生了構建元資料管理平臺(如圖1)的初衷。平臺包含採集與錄入層、管理儲存層、應用層。

如何透過統一元資料管理實現敏捷資料分析

圖 1

從功能邏輯上來看,資料錄入層會對企業整體架構進行採集與編輯,形成全鏈路的資料血緣;儲存管理層主要包含元資料的版本管理、庫表結構、資料質量相關的儲存;應用層會提供資料目錄、資料標準、資料影響分析、血緣分析等一系列的資料服務。

技術架構層面,將元資料分為引擎、適配層、服務層以及第三方的 API 的訪問層,將不同引擎適配的邏輯下沉到元資料服務內部,抽象了不同引擎的訪問介面,對外提供統一、標準的訪問方式,如Thrift RPC,Restful ,特別是Restful遵循開放式協議。外部引擎可以像使用標準的HMS那樣使用統一元資料的服務。

如何透過統一元資料管理實現敏捷資料分析

圖2:統一元資料技術架構

最終,支援異構資料的統一元資料管理,實現端到端的資料鏈路的自動化元資料採集,支援全鏈路血緣,一鍵式分析技術、業務、操作元資料詳情,為資料標準建設和資料質量提供重要支撐。

3

統一元資料管理的五大環節

1. 元資料採集

元資料採集內容主要包括業務元資料、技術元資料和操作元資料。同時,透過主動採集、感知上報、人工錄入三種採集方式,可以將所有的技術類資料、業務類資料以及操作類資料,匯聚同一資料平臺,支撐後續元資料的訪問服務。

2. 元資料儲存

元資料的模型裡包括採集到的各式各樣的元資料的形態及結構,所以提供元資料服務的前提是要先統一元資料模型。因而,元資料使用以下抽象建模:實體,即實體是元資料圖中的主要節點;特徵,即描述實體的特定方面的屬性的集合,與同一實體關聯的多個特徵可以獨立更新。

特徵可以在實體之間共享,例如“所有權”是一個特徵,可以在所有擁有所有者的實體中重複使用。另外,元資料儲存還支援多儲存引擎動態切換,及多租戶與許可權隔離。

3. 元資料管理

資料地圖提供元資料的統一查詢入口,透過對技術元資料、業務元資料、管理元資料的採集、儲存、整合與控制,支援高效查詢想要的資料,檢視多種多樣的資料血緣資訊,增強實時分析和查詢能力,實現對資料現狀的清晰掌控與查詢分析。

技術上統一的Catalog,支援系統掛載不同的資料來源,如Hive、Iceberg、Mysql等,Catalog 提供了資料來源管理的統一檢視,關聯了資料來源的詳細資訊。在SQL編輯器中,使用者能夠列舉其中存在的Catalog ,database和table,以及table的詳細欄位、屬性等資訊。

4. 元資料分析

元資料分析如前邊所述功能很多。以元資料血緣分析為例,採用向上追溯的方式查詢資料來源於哪裡,經過了哪些加工和處理。常用於在發現數據問題時,快速定位和找到資料問題的原因,快速定位資料問題,提升資料鏈路分析。

另一個是影響分析功能,可以幫助企業開發者快速瞭解當前物件的下游資料,快速掌握元資料變更可能造成的影響,常用於當元資料發生變更時,分析和評估變更對下游業務的影響,有效評估避免改造風險,幫助企業高效準確對資料資產進行維護與使用。

5. 全鏈路資料血緣

一個企業可能有成百上千的資料來源和數千萬的資料物件。鑑於當今資料的數量和規模,企業幾乎不可能使用手動流程跟蹤資料在其系統基礎設施中的流程。因此,可以借鑑 DataOps 的理念 ,優先在資料目錄之前構建有效的元資料管理和全鏈路的資料血緣。

核心能力包括自動化採集和構建的元資料、資料生產到服務全鏈路的血緣,方便易用的產品邏輯,既滿足資料開發運維的需求,也滿足業務分析師對與資料探查的需求。

構建全鏈路血緣,也需要從採集、儲存、形成血緣到應用服務,再根據業務系統-數倉分層-資料API 形成全域性資料鏈路規劃概覽,並根據資料整合任務、開發任務,資料服務的上下游表和欄位,構建全鏈路血緣,提供檢索和詳情檢視,實現全鏈路資料血緣分析。

依託這些技術積累,滴普科技正在為更多使用者構建資料基礎設施,服務企業資料資產管理,進而釋放資料價值。

DEEPNOVA 開發者社群作為面向技術開發者的交流學習、生態共創平臺,未來也將繼續以建立技術生態、合作共創為宗旨,持續激發社群創新力,為開發者們提供更加前沿的技術思想及技術內容,交流共享,開拓技術視野。

推薦文章