有關數據治理的本質及實踐,看這一篇就夠了!
  • 發表時間:2019-12-27 點擊數:64
  • 來源:未知

 1)什么是數據治理?

我們認為,數據治理是指從使用零散數據變為使用統一數據、從具有很少或沒有組織流程到企業范圍內的綜合數據管控、從數據混亂狀況到數據井井有條的一個過程。

所以,數據治理強調的是一個過程,是一個從混亂到有序的過程。從范圍來講,數據治理涵蓋了從前端業務系統、后端業務數據庫再到業務終端的數據分析,從源頭到終端再回到源頭,形成的一個閉環負反饋系統。從目的來講,數據治理就是要對數據的獲取、處理和使用進行監督管理。

具體一點來講,數據治理就是以服務組織戰略目標為基本原則,通過組織成員的協同努力,流程制度的制定,以及數據資產的梳理、采集清洗、結構化存儲、可視化管理和多維度分析,實現數據資產價值獲取、業務模式創新和經營風險控制的過程。

所以,數據治理是一個過程,是逐步實現數據價值的過程,也正是因為這個過程特性,我們認為,數據治理是一個持續性的服務,而不是一個有著明確范圍的一錘子買賣。

2)為什么要實施數據治理?

當前,企業變革已經成為企業適應劇烈變化的市場環境、實現長期發展的必經之路。然而,過去為組織帶來工作效率提升的煙囪式的孤島式的業務系統已經成為組織變革重組的阻力,這也是從數據層面打通各個組織單元、實現業務單元快速重組的最根本的需求來源。

并且,在互聯網的沖擊下,各行各業都在尋求業務模式的創新,實現業務自動化向業務持續優化的轉變,以求在競爭中找到一片藍海。而組織要能實現業務模式的創新,第一步就是對自身的洞察,以及提升組織的運行效率,方能在互聯網背景中立于不敗之地。

所以,以下就是企業實施數據治理的根本原因:

1、經過 30 年的信息化建設,企業和政府部門都圍繞著業務需求建設了眾多的業務系統,從而導致數據的種類和數量大增,看似積累了眾多的數據資產,實則在需要使用時,困難重重。

2、因為各個業務系統的建設都是圍繞著業務需求來建設的,當業務環境發生變化時,原來的業務系統不能互聯互通,不能滿足跨部門、跨職能、跨組織的協作需求。

3、各個業務系統所產生的海量數據以復雜而分散的形式存儲,導致數據之間的不一致和沖突等質量問題,從而導致數據在應用過程中的無所適從,難以實現數據的深度利用,從而難以實現業務模式創新和經營風險控制。

3)數據治理的目標是什么?

數據治理本身不是目的,它只是實現組織戰略目標的一個手段而已,例如基于需求的智能制造、智慧市場監督管理、融合市民服務、一網通辦等。

從組織職能和體量大小方面來看,不同類型組織的數據治理目標大不相同,例如:

·   集團企業總部和政府大數據管理局的目標是:制定數據政策、保障數據安全、促進數據在組織內無障礙共享,其重點目標是推進和保障數據戰略的順利實施。

·   企業和政府業務部門的目標是:通過提升信息管理能力,提升組織精細化管理水平,提高業務運營效率,增強組織決策能力和核心競爭力,從而為實現組織戰略目標提供能力支撐,其重點目標是數據價值獲取、業務模式創新和經營風險控制。

4)當前數據治理存在哪些問題和困難?

數據治理不只是技術問題,更是一個管理問題。例如大家常見的項目管理系統只是一個工具,如何讓項目管理工具與項目管理思想相匹配才是項目管理系統實施過程中的最大挑戰,也才能發揮最大的效果。數據治理也是同樣的道理。

組織信息化建設正從以應用為中心向以數據為中心轉變的關鍵時期,組織也逐步認識到數據的巨大價值,但低質量的數據和復雜的數據應用手段,讓數據價值發掘的效果大大降低,甚至,會讓組織決策層喪失數字化轉型的信心。

那么,如果在項目實施的初期能識別出影響項目實施效果的困難,并找到相應解決辦法,就顯得異常重要。以下是龍石數據在工作中總結的最常見的數據治理問題:

1、跨組織的溝通協調問題。數據治理是一個組織的全局性項目,需要 IT 部門與業務部門的傾力合作和支持,需要各個部門站在組織戰略目標和組織長遠發展的視角來看待數據治理。因此,數據治理項目需要得到組織高層的支持,在條件允許的情況下,成立以組織高層牽頭的虛擬項目小組,會讓數據治理項目事半功倍。

2、投資決策的困難。組織的投資決策以能夠產生可預期的建設成效為前提,但往往綜合性的數據治理的成效并不能立馬體現,它更像一個基礎設施,是以支撐組織戰略和長期發展為目標,所以,導致此類項目無法界定明確的邊界和目標,從而難以作出明確的投資決策。面對此類情況,我們的經驗是采用“大平臺 + 小目標”的實施方案。“大平臺”指的是數據治理的支撐平臺。“小目標”指的是利用基礎支撐平臺和一小部分數據實現某一個具體業務目標。“大平臺 + 小目標”方案的優勢是能夠快速實現可評估的工作成效,難點就在于基礎支撐平臺要能夠對未來的綜合治理提供足夠的支撐能力,避免重頭再來。以智慧市場監管為例,全部的數據包含企業法人監管、質量監督檢查、食品監管、藥品監管、特種設備監管、主題檢查和執法等等,實施綜合性的數據治理項目,則可以對企業法人實現全維度的分析和預警,而“大平臺 + 小目標”的實施方案則可以實現諸如食品藥品安全監管這些主題性的建設目標。

3、工作的持續推進。數據治理是以支撐組織戰略和長遠發展為目標,應當不斷吸收新的數據來源,持續追蹤數據問題并不斷改進,所以數據治理工作不應當是一錘子買賣,應當建立長效的數據改進機制,并在有條件的情況下,盡量自建數據治理團隊。

4、技術選型。前幾年,隨著大數據的發展,各種名詞層出不窮,令人眼花繚亂,例如:數據倉庫、ETL、元數據、主數據、血緣追蹤、資源目錄、結構化非結構化、Hadoop、Spark、聯機事務處理(OLTP)、聯機分析處理(OLAP)、商業智能(BI),等等。這里面有針對傳統數據庫的,有針對大數據數據庫的,再加上組織對自身數據資產情況沒有一個清晰的認識,這也就導致了數據治理的技術選型困難。而當下,基于傳統關系型數據庫仍然符合絕大多數據企業的業務需求,為避免誤解,以下內容主要針對的是傳統關系型數據庫數據治理的介紹。

5)數據治理包含哪些內容?

從我們龍石數據的實踐經驗來看,相對于國際組織和國際企業發布的數據治理框架,以下國家標準 GB/T 34960 發布的數據治理框架比較符合我國企業和政府的組織現狀,更加全面地和精煉地描述了數據治理的工作內容,包含頂層設計、數據治理環境、數據治理域和數據治理過程。

1) 頂層設計是數據治理實施的基礎,是根據據組織當前的業務現狀、信息化現狀和數據現狀,設定組織機構的職權利,并定義符合組織戰略目標的數據治理目標和可行的行動路徑。

2) 數據治理環境是數據治理成功實施的保障,指的是分析領導層、管理層、執行層等等利益相關方的需求,識別項目支持力量和阻力,制定相關制度以確保項目的順利推進。

3) 數據治理域是數據治理的相關管理制度,是指制定數據質量、數據安全、數據管理體系等相關標準制度,并基于數據價值目標構建數據共享體系、數據服務體系和數據分析體系。

4) 數據治理過程就是一個 PDCA(plan-do-check-act)的過程,是數據治理的實際落地過程,包含確定數據治理目標,制定數據治理計劃,執行業務梳理、設計數據架構、數據采集清洗、存儲核心數據、實施元數據管理和血緣追蹤,并檢查治理結果與治理目標的匹配程度。

6)數據治理需要哪些工具?

從技術實施角度看,數據治理包含“理”“采”“存”“管”“用”這五個步驟,即業務和數據資源梳理、數據采集清洗、數據庫設計和存儲、數據管理、數據使用。

·   數據資源梳理:數據治理的第一個步驟是從業務的視角厘清組織的數據資源環境和數據資源清單,包含組織機構、業務事項、信息系統,以及以數據庫、網頁、文件和 API 接口形式存在的數據項資源,本步驟的輸出物為分門別類的數據資源清單。

·   數據采集清洗:通過可視化的 ETL 工具(例如阿里的 DataX,Pentaho Data Integration)將數據從來源端經過抽取 (extract)、轉換 (transform)、加載 (load) 至目的端的過程,目的是將散落和零亂的數據集中存儲起來。

·   基礎庫主題庫建設:一般情況下,可以將數據分為基礎數據、業務主題數據和分析數據?;∈菀話闃傅氖嗆誦氖堤迨?,或稱主數據,例如智慧城市中的人口、法人、地理信息、信用、電子證照等數據。主題數據一般指的是某個業務主題數據,例如市場監督管理局的食品監管、質量監督檢查、企業綜合監管等數據。而分析數據指的是基于業務主題數據綜合分析而得的分析結果數據,例如市場監督管理局的企業綜合評價、產業區域分布、高危企業分布等。那么基礎庫和主題庫的建設就是在對業務理解的基礎上,基于易存儲、易管理、易使用的原則抽像數據存儲結構,說白了,就是基于一定的原則設計數據庫表結構,然后再根據數據資源清單設計數據采集清洗流程,將整潔干凈的數據存儲到數據庫或數據倉庫中。

·   元數據管理:元數據管理是對基礎庫和主題庫中的數據項屬性的管理,同時,將數據項的業務含義與數據項進行了關聯,便于業務人員也能夠理解數據庫中的數據字段含義,并且,元數據是后面提到的自動化數據共享、數據交換和商業智能(BI)的基礎。需要注意的是,元數據管理一般是對基礎庫和主題庫中(即核心數據資產)的數據項屬性的管理,而數據資源清單是對各類數據來源的數據項的管理。

·   血緣追蹤:數據被業務場景使用時,發現數據錯誤,數據治理團隊需要快速定位數據來源,修復數據錯誤。那么數據治理團隊需要知道業務團隊的數據來自于哪個核心庫,核心庫的數據又來自于哪個數據源頭。我們的實踐是在元數據和數據資源清單之間建立關聯關系,且業務團隊使用的數據項由元數據組合配置而來,這樣,就建立了數據使用場景與數據源頭之間的血緣關系。

·   數據資源目錄:數據資源目錄一般應用于數據共享的場景,例如政府部門之間的數據共享,數據資源目錄是基于業務場景和行業規范而創建,同時依托于元數據和基礎庫主題而實現自動化的數據申請和使用。

·   質量管理:數據價值的成功發掘必須依托于高質量的數據,唯有準確、完整、一致的數據才有使用價值。因此,需要從多維度來分析數據的質量,例如:偏移量、非空檢查、值域檢查、規范性檢查、重復性檢查、關聯關系檢查、離群值檢查、波動檢查等等。需要注意的是,優秀的數據質量模型的設計必須依賴于對業務的深刻理解,在技術上也推薦使用大數據相關技術來保障檢測性能和降低對業務系統的性能影響,例如 Hadoop,MapReduce,Hbase 等。

·   商業智能(BI):數據治理的目的是使用,對于一個大型的數據倉庫來說,數據使用的場景和需求是多變的,那么可以使用 BI 類的產品快速獲取需要的數據,并分析形成報表,比較知名的產品有 Microsoft Power BI,QlikView,Tableau,帆軟等。

·   數據共享交換:數據共享包括組織內部和組織之間的數據共享,共享方式也分為庫表、文件和 API 接口三種共享方式,庫表共享比較直接粗暴,文件共享方式通過 ETL 工具做一個反向的數據交換也就可以實現。我們比較推薦的是 API 接口共享方式,在這種方式下,能夠讓中心數據倉庫保留數據所有權,把數據使用權通過 API 接口的形式進行了轉移。API 接口共享可以使用 API 網關實現,常見的功能是自動化的接口生成、申請審核、限流、限并發、多用戶隔離、調用統計、調用審計、黑白名單、調用監控、質量監控等等。