本站小編為你精心準備了銀行業務數據庫導入的探析與規劃參考范文,愿這些范文能點燃您思維的火花,激發您的寫作靈感。歡迎深入閱讀并收藏。
1加載策略
源數據的獲取將依賴于數據的生成和更新周期,目前與源數據層約定的獲取接口為規定的數據庫接口,由DataStage通過數據庫接口,從各個源系統獲取源數據,在ETL服務器上,以數據文件或命名管道文件的形式,將數據加載到數據倉庫中央數據庫中。
在經過初步的轉換處理后,數據將首先加載進入數據倉庫臨時數據區,在臨時數據區的基礎上完成數據的進一步清洗、匯總計算和轉換處理,并最終生成數據倉庫的物理模型數據,相關的數據集市和OLAP立方體,以及其他為數據輸出而準備的中間數據。在整個ETL過程中,需要自動化管理ETL任務調度和控制以及必要的數據質量檢查模塊。
2相關層次
數據導入是在源數據中經確認的數據進入數據倉庫數據服務的數據獲取和數據處理的中間層,是重要的數據處理環節。以下將結合ETL過程的幾個重點步驟,對數據導入的數據處理過程進行詳細的描述:
(1)確認源數據的確認是指根據針對本系統的業務需求,來定義包含相應的數據源的物理表/數據結構的過程,這些表在進行信息需求分析時需要確定下來,即確定需要使用源系統的哪些數據來滿足業務需求。
(2)映射數據的映射(Mapping)是指確定操作源數據和數據倉庫數據庫中數據存儲之間的物理映射關系,簡單的說就是將已確認的源數據與本系統數據庫中的數據相對應起來,供ETL參考。
(3)獲取為了把源數據加載到數據倉庫數據庫中,首先需要先獲取這些數據。一般來講,數據獲取包括兩種方式:數據源主動(PUSH):即數據源主動定時將相關數據吐到ETL服務器上。再由ETL服務器對數據進行必要處理(轉換、清洗)后加載到數據庫;ETL服務器主動(PULL):即ETL服務器主動到數據源中獲取數據。考慮到本系統的主要數據源是業務系統的鏡像系統或Snapshot,數據獲取過程將采用ETL服務器主動(PULL)的方式,即業務系統完成Snapshot或鏡像處理后,由ETL服務器主動到業務系統的鏡像系統或Snapshot中獲取數據,而后直接加載入數據倉庫數據庫中。
(4)轉換轉換工作主要分為兩部分:加載前的轉換:主要是針對數據格式、代碼映射以及數據類型轉換等。加載后的清洗和轉換:主要是針對明細數據進行匯總計算以及異常數據的過濾。
(5)加載數據加載是將完成抽取、轉換后的源數據加載到數據倉庫中央數據庫中,數據加載過程需保證加載的快速、穩定,并且考慮到數據加載的維護,本次源數據向數據庫加載將僅采用DataStage的Teradata專用組件TeradataEnterprise來完成,數據后續處理(產生匯總表,多表關聯等)的工作將使用TeradataSQL來完成。
3數據質量管理
數據質量對任何數據倉庫來說都是非常重要的,決策支持的質量往往是取決于查詢所選擇的數據本身的質量。一般地,數據質量問題主要來源于以下幾種情況:
1)源數據質量問題:源系統中的數據信息不真實、不符合業務規則或數據約束條件,或者源系統導出的接口數據文件不符合接口標準或格式等;因此在數據倉庫建設中仍要采用多種手段進行數據質量的檢查和管理。
2)數據從源系統到數據倉庫的抽取、傳輸過程中造成數據失真、丟失,或在整合過程中對數據的取舍存在誤判;這類問題主要來自于ETL體系本身,可以通過各類技術手段進行避免。
3)從數據倉庫到前端展現存在的問題,包括代碼錯誤、算法錯誤,或者對業務問題的理解錯誤等。這部分主要是業務邏輯與統計口徑不準確所致,并不能代表數據本身的質量問題。數據質量管理包括:檢查規則管理、數據質量檢查模塊以及數據質量檢查結果展示與管理。檢查規則管理是通過數據庫中建立一個數據檢查的規則庫,用于各數據質量檢查模塊進行數據檢查的依據。
數據質量檢查模塊是分散在數據導入即ETL的各個環節中,數據質量檢查包括文件級檢查、記錄級檢查以及業務指標檢查。文件級檢查的主要內容包括:文件大小檢驗:確保數據在傳輸過程中沒有缺失、損壞,在本系統中,就是保證數據由數據源到數據加載機(ETL服務器)傳輸的完整性。文件格式檢驗:接口數據文件的格式是否是按照約定的格式進行,如定長或變長、分割符的約定等。
記錄級檢查的主要內容包括:數據類型與格式檢查主外鍵及關聯檢查編碼映射檢查數據值域檢查基本業務規則檢查記錄集合檢查,數據倉庫臨時數據區數據與一期ODS的數據比較;業務指標檢查的主要內容包括:比較同一業務指標在臨時數據區、數據區及OLAP的計算值,判斷數據在轉換過程中是否遺漏;利用來自其他渠道的業務指標參考值,與該指標在數據區或OLAP的計算值相比較,判斷數據的正確性;在數據質量檢查過程中,如果發生了數據異常和錯誤現象,則需及時通知相關人員進行相應處理,甚至包括數據文件的二次生成或重新傳輸的過程;如果確定源數據本身有誤,則需要通知源數據方進行修改或更正,對數據倉庫系統來說,不得修改任何記錄。
作者:王彥慈單位:河南商業高等專科學校