您現在的位置是:首頁 > 農業

實戰 | 基於大資料平臺全鏈路分析查詢的設計與實踐

由 金融電子化 發表于 農業2022-02-26
簡介本文透過分析不同邏輯層次下的物理表資料、作業、指令碼等元資料內容,建立串聯起檔案、作業、模型、指令碼等物件的技術資料全鏈路分析方法,可為端到端跨系統跨層次的鏈路查詢服務提供支撐,滿足使用者分層自助查閱資料鏈路結果的需求

鏈路分析是什麼

歡迎金融科技工作者積極投稿!

投稿郵箱:[email protected]

——金融電子化

文 / 中國農業銀行研發中心 常青 馮建

大資料平臺處理資料內容和型別多樣,目前缺乏能夠分析和展示資料流動關係全貌的服務和工具,為資料開發、分析、運維各個環節帶來困難:比如在模型設計時不瞭解存量資料的覆蓋範圍是否足夠;在資料分析時無法直觀查詢資料的加工脈落;在資料運維時不知曉上游系統資料晚到會對下游哪些作業和系統產生影響等等。為解決上述困難和問題,本文針對大資料平臺的實際情況,基於元資料建立了一種可串聯起檔案、作業、物理表、指令碼等內容的技術資料全鏈路分析方法,支撐從源標頭檔案到輸出模型的跨系統跨層次全鏈路查詢服務。

研究背景

隨著大資料平臺的不斷髮展,累積資料的數量和內容也呈現幾何式的增長。由於缺乏能夠分析和展示資料流動關係全貌的服務和工具,使用者在消費資料時會遇到無法知曉資料加工流程、無法瞭解上游資料會對下游哪些作業或系統產生影響等問題,給資料開發、分析、運維等工作帶來困擾。傳統的血緣分析僅僅涉及到該系統中儲存的表資料,對於上下游中的指令碼、檔案、作業等資料無法提供資料鏈路分析查詢服務;此外鏈路資料延伸範圍較短,無法提供從資料真正入庫源頭到下游系統利用末端這樣完整的資料流轉描述。本文透過分析不同邏輯層次下的物理表資料、作業、指令碼等元資料內容,建立串聯起檔案、作業、模型、指令碼等物件的技術資料全鏈路分析方法,可為端到端跨系統跨層次的鏈路查詢服務提供支撐,滿足使用者分層自助查閱資料鏈路結果的需求。

相關技術

1.AntV G6

G6是AntV旗下的一款專業級圖視覺化引擎,它在高定製能力的基礎上,提供簡單、易用的介面以及一系列設計優雅的圖視覺化解決方案,是阿里經濟體圖視覺化與圖分析的基礎設施。G6提供圖的渲染、繪製、互動、動畫等視覺化基礎能力,能夠將複雜的關係資料以更低的視覺複雜度、更高的可讀性呈現給終端使用者。該引擎具有圓形、矩形、三角形和自動彎折的折線多邊形等豐富的內建元素、多樣的內建互動和易用的輔助元件。為支援業務中的流量分析、關係分析等需求還提供了圖佈局、演算法、分析元件等圖分析基礎能力,能夠降低視覺混亂,提高可讀性。

2.CWM

CWM標準是OMG組織定義的資料倉庫和相關係統的國際元資料標準,給出了各種元資料結構的標準定義。CWM標準的目的在於使資料倉庫和商業智慧軟體的元資料在異構的資料分析工具、資料倉庫平臺、元資料儲存庫等系統之間進行互動。

3.元資料

元資料是對資料的描述資訊,可以理解為關於資料的資料。系統中元資料泛指描述資料概念(Concepts)、資料間關係(Roles)、資料處理規則(Rules)的資料,其中領域語義(Semantics)和知識(Knowledge)也屬於元資料的範疇。根據其屬性的不同,元資料可分為技術元資料和業務元資料。

方法與實踐

1.鏈路層次

按照CWM標準設計資料鏈路分析使用的元模型並定義其間的關係,如資料鏈路段、作業匹配規則、邏輯層次關係等,形成如下圖所示的鏈路層次劃分。使用者獲得的初始鏈路至少有四層,自頂向下描述目標資料的所屬系統、邏輯層次、隸屬實體以及物件自身,一個典型的資料鏈路會進行如下分層描述:

第一層描述當前請求內容涉及到的系統,展示鏈路最遠延伸的範圍;

第二層描述當前請求內容涉及到系統的邏輯分層情況;

第三層描述關聯的檔案、作業(指令碼),並展示相應的屬性資訊;

第四層及以下描述檔案轉發以及指令碼加工邏輯,並展示相應的屬性資訊。

實戰 | 基於大資料平臺全鏈路分析查詢的設計與實踐

圖1 資料鏈路層次組織結構

2.分析原理

鏈路前三層相對較為固定,依靠資料預處理、大資料平臺及集市等系統邏輯層次與實際排程作業之間的對應關係即可完成分析。比如,可將各鏈路分段中的作業按照下表對照關係進行分類,從而得出資料加工層次。

實戰 | 基於大資料平臺全鏈路分析查詢的設計與實踐

圖2 資料鏈路概要分析對映關係示例

鏈路第四層及以下的內容需要解析大資料平臺及集市指令碼、預處理平臺配置檔案等來獲取。元資料提供了對ETL指令碼、配置檔案的自動解析及分析能力,可對目標檔案中的要素和物件進行拆解與再加工。

實戰 | 基於大資料平臺全鏈路分析查詢的設計與實踐

圖3 資料鏈路細節分析要素型別示例

3.即時查詢

資料鏈路查詢目標入口是排程作業,透過作業關係圖進行目標關聯資料的上下游追溯。但使用者提供的起始查詢資料並不一定就是排程作業,可能是一張表,也可能是一個檔案等等,因此需要對資料傳輸階段和資料加工階段進行鏈路拼接。下圖表示的是源頭資料入大資料平臺時,需要對檔案資訊與起始作業資訊進行的拼接過程。

實戰 | 基於大資料平臺全鏈路分析查詢的設計與實踐

圖4 入平臺方向資料鏈路資訊的匹配

下圖表示的是資料出大資料平臺時,需要對排程作業與資料檔案資訊進行拼接,進而獲知大資料平臺服務的下游系統。

實戰 | 基於大資料平臺全鏈路分析查詢的設計與實踐

圖5 出平臺方向資料鏈路資訊的匹配

4.資料來源

解析涉及的各類資料主要透過從相關源頭系統提取的方式獲得,對於無法自動抽取或對接的內容則由人工補錄作為輔助手段進行補充。一般說來,ETL指令碼可從程式碼庫批次獲取;作業與檔案可從排程系統、監控系統等獲得時點的增全量資料;人工補錄可按照模板填寫完成後,一次性匯入。

實戰 | 基於大資料平臺全鏈路分析查詢的設計與實踐

圖6 資料鏈路分析的基礎資料來源

5.鏈路效果

使用者透過關鍵字查詢到目標資料,並以此資料為起始進行鏈路分析。初始分析結果僅展示與目標資料關係最為緊密的鏈路段,若使用者對其它鏈路段感興趣,可展開相應節點檢視內容。

實戰 | 基於大資料平臺全鏈路分析查詢的設計與實踐

實戰 | 基於大資料平臺全鏈路分析查詢的設計與實踐

圖7 資料鏈路預設展現與自助探查

未來展望

目前的探索和實踐結果存在需要完善的地方,如資料鏈路分析應當具備欄位級鏈路分析的能力,是未來鏈路分析發展的發力方向之一;此外以作業關係為表間關係資料來源頭的分析可否利用指令碼的加工關係進行替換,也是分析思路上的另外一種嘗試。

《金融電子化》新媒體部:主任 / 鄺源 編輯 /傅甜甜 潘婧

推薦文章