物資數據清洗解決方案
  • 發表時間:2017-08-20 點擊數:346
  • 來源:未知

中翰軟件根據數據類型的不同研發了不同的數據清洗工具,系統操作步驟簡要如下:

數據清洗是數據完善及數據映射的過程,中翰ODC支持手動清洗及智能清洗。
手動清洗是首先通過人工完善數據屬性信息,然后自動生成映射表;智能清洗是在建立數據質量模型的基礎上,歷史數據與質量模型自動匹配,歷史數據規范完成后,通過ODC工具自動生成新舊數據映射表。如下圖(企業數據清洗整體架構及中翰數據清洗流水線):





數據清洗背景:

l  清楚哪些數據是重復的;

l  不清楚哪些老數據是重復的;

l  針對老數據的模擬,某一個人很難確定所有的具體屬性參數值,需要多人協同補充完善;

根據上圖,系統操作步驟如下:

u  首先批量加載老數據到中翰數據清洗(簡稱ODC)系統;

u  模糊查詢出需要清洗的批量歷史數據,一般是某個類別或者有共同特征的歷史數據集合;

歷史數據自動清洗處理模式步驟:

u  初步手動合并模擬已知重復數據;

u  匹配歷史數據參數值被自動提取到的數據模擬目標單據;

u  根據目標單據和歷史數據描述格式,制定歷史數據參數值自動提取規則;

u  系統自動添加被提取的參數值進入目標單據,進入多人補充數據流程;

u  審核通過后,自動查重生成新數據、編碼、映射關系表等;

u  如再有重復歷史數據被模擬到此,系統依然會自動追加產生映射關系;

歷史數據手動清洗處理模式步驟:

u  查找已知重復數據,選中后點擊‘合并模擬’;

u  選擇匹配目標模擬單據,生成單據,進入多人補充申請流程;

u  選中全部剩余數據,點擊‘單獨模擬’;

u  選擇匹配目標模擬單據;

u  根據目標模擬單據格式,制定參數值自動提取規則;(可選步驟)

u  批量生成單據,如有分詞表達式,系統會自動添加相關參數值進入目標模擬單據,如沒有就直接由補充申請流程中的人工操作添加;

u  審核通過后,自動查重生成新數據、編碼、映射關系表等;

u  如再有重復老數據被模擬到此,系統依然會自動追加產生映射關系;

u  系統支持后期手工追加映射操作。