全面解析數據質量管理【建議收藏】
前言
大家好,我是唐三少。大數據蘊藏著大價值,但想要將大數據的價值充分發揮出來,首先必須要確保收集來的數據質量可靠,否則即使擁有最好的硬件、應用系統和數據分析平臺,也難以保障業務的最終成果。數據質量差的大數據帶來的很可能不是洞見,而是誤導,甚至是慘痛的損失。
1. 什么是數據質量
在DIKW金字塔模型中,數據出于底層,在數據之上,是經過數據加工之后的形成的信息,即上下文的數據。在往上,我們將知識視為可操作的信息,并將頂級智慧視為可應用的知識。如果數據質量差,則信息質量將不佳。信息質量差,業務操作方面將缺乏可應用的知識,而使用錯誤的知識將對業務結果帶來高風險。
所以,所有數據都有一定程度的質量,該程度在一定意義上是可評估,可測量的。高質量數據的定義是什么:
■ 數據適合預期的使用目的
■ 數據正確的表達了所描述事物和現象的真實構造
■ 數據符合某個標準或 達到人們期望的水平
無論從哪個定義來看,數據質量都是指數據滿足人們的隱性或顯性期望的程度。人們判斷數據質量的高低取決于人們的期望,當然高質量的數據更符合期望。
人們的期望很復雜,不僅在于數據應該表示什么,還在于使用數據的目的和如何使用它們。所以數據質量是相對的,主觀的,還可能是矛盾的。比如同一條客戶信息,對于銷售部門來說是高質量的,因為他只需要知道賣給了誰;對于物流部門來說,除了用戶基本信息,還需要知道收貨信息(收貨人地址,姓名,電話等);對于財務部門來說,除了上面的信息,還需要關注客戶的開票信息。如果這一條客戶信息不完整,就無法進行客戶服務,因為該數據沒有完整且正確地描述在業務運營中所需的真實身份和地點,這會對企業業務帶來影響。
2. 數據質量差的后果
2.1 經濟損失
質量差最直接的影響就是遭受經濟損失。如果不了解客戶的最新產品和動態,就會失去客戶和潛在客戶,以及他們可能帶來的收入。如果系統中的客戶聯系信息不正確(比如電話、電子郵箱等),客戶的家庭關系錯誤,就無法對客戶進行精準分析,甚至連營銷信息都無法送達客戶,更不用說銷售產品了。數據錯誤可能會給企業帶來巨大的經濟損失甚至名譽損失。
2.2 增加成本
如果企業中存在大量不完整,不正確的數據,將會給業務帶來額外的溝通成本。如果企業使用這些質量差的數據進行數據分析或預測分析,不僅浪費時間,而且有可能被誤導。同樣,如果數據中存在重復項和缺少字段的情況,企業數據管理效率也會降低。
“垃圾進,垃圾出”,基于低質量數據做出的分析結果一定是不可信的,不具備任何輔助決策意義,只能造成成本的浪費。
2.3 名譽受損
有一個故事,美國一超市給還在上高中的女兒寄送嬰兒服和嬰兒床的優惠券,而被這位父親所投訴,后來這位父親發現女兒真的懷孕了,又向超市道歉。假如超市的數據質量有問題,還能準確預測上高中的女兒已經懷孕了嗎?如果預測失敗會發生什么?如果嬰兒用品的優惠券寄錯地址又會發生什么?顯而易見,數據質量差將可能是企業名譽受損,從而在競爭中處于不利地位。
2.4 無形成本
數據質量差帶來的溝通成本,運營成本以及經濟損失屬于有形成本,可衡量的。而基于不準確的數據所做出的錯誤決策造成的成本是無形,這種無形成本還可能導致更大更嚴重的影響。
要讓領導相信數據,首先要提供高質量的數據!
2.5 運營風險
低質量的數據不僅會給企業帶來經濟上的損失,增加企業的運營成本,給企業的聲譽帶來影響,還可能存在潛在的運營風向。
運營風險是與企業核心業務職能執行相關的風險,很大程度上與人員,流程和日常業務活動所使用的系統有關,主要包括內部流程,外部監管,法定業務,人力資源等方面的風險。例如:數據質量差,不滿足監管部門的要求,面臨審計不通過的風險;數據質量差,會給數據所產生的衍生品帶來負面影響,引起用戶的不滿和質疑,甚至引發糾紛等。
3.什么是數據質量維度
數據質量類似于人類健康。影響健康的因素有很多,比如飲食、運動、情緒等,準確測量這些健康的影響因素非常困難。同樣,準確測量數據質量中影響業務的數據元素也非常困難。數據質量差對業務而言是不“健康”的,數據質量維度將幫助我們認識數據質量對業務的重要性。數據質量維度就是用來測量或評估數據質量的各方面,通過測量維度來對數據質量進行量化,通過改進數據質量維度來提高數據質量。針對不同的數據集,數據質量維度可能不同,一般包含數據的一致性,完整性,唯一性,準確性,真實性,及時性和關聯性。
3.1 一致性
數據一致性主要體現在多個數據源之間:
第一,多個數據源之間的元數據的一致性;主要包括命名一致性、數據結構一致性、約束規則一致性等
第二,多個數據源之間數據記錄的一致性。主要包括數據編碼的一致性、命名及含義的一致性、數據分類層次的一致性、數據生命周期的一致性等
在相同的數據有多個副本的情況下,也會產生數據不一致、數據內容沖突等問題。
3.2 完整性
數據完整性主要體現三個方面:
第一,數據模型的完整性,例如唯一性約束的完整性、參照數據的完整性;
第二,數據記錄的完整性,例如數據記錄是否丟失或數據是否不可用;
第三,數據屬性的完整性,例如數據屬性是否存在空值等。
不完整的數據的價值會大大降低,數據完整性是數據質量問題中最為基礎和常見的一類問題。
3.3 唯一性
數據唯一性用于識別和度量冗余數據。冗余數據是導致業務無法協同,流程無法追溯的重要因素。例如,主數據治理中的“一物多碼,多物一碼”問題。為每個數據實體賦予唯一的“身份ID”是數據治理需要解決的基本問題。
3.4 準確性
數據準確性也叫可靠性,用于分析,識別和度量不準確或無效的數據。數據準確性體現為數據描述是否準確,數據計算是否準確,數據的值是否準確等。不可靠的數據可能會導致嚴重的問題,會造成有缺陷的方法和糟糕的決策。
3.5 真實性
數據真實性用于度量數據是否真實、是否正確地表達了所描述事物和現象的真實構造。真實可靠的原始數據是數據分析的靈魂。但事實上,數據的真實性往往難以保證,有時候數據不真實并不是因為原始的數據記錄有問題,而是人為因素所致,尤其是一些需要層層上報的數據,數據失真很常見。
3.6 及時性
數據的及時性是指能否在需要的時候獲得數據。統計學認為,獲得數據的時間不應當超過該數據對未來經濟或業務產生影響的平均時間。數據也是有時效性的,過期數據的價值大打折扣。
3.7 關聯性
數據關聯性用于度量存在關系的數據,即關聯關系是否缺失或錯誤。數據關聯關系包括函數關系,相關系數,主外鍵關系,索引關系等。 數據之間存在關聯性問題會影響分析的結果。
4.什么是數據質量測量
數據質量測量是指為了達到某一預期,按照一定的標準從數據質量維度進行衡量,以確定數據達到預期的程度。通過測量,我們可以在不同對象之間跨越不同時間,不同空間進行比較,從而做出決策。
要保證達成數據預期,首先要保證數據質量測量是有效的。有效的測量的幾個特點。
4.1 數據測量必須要有目的
古人用“風馬牛不相及”來形容互不相干的事物,我們也經常說“不能拿蘋果和香蕉比較”,意思是蘋果和香蕉差異大,拿它們進行比較沒有意義。這意味著要有兩個“相同”的對象,才能形成有意義的測量。
當然,蘋果和香蕉之間也有共同之處,比如它們都是水果,都有果皮,果肉中都含有維生素和糖分。它們也有不同之處:香蕉是長的,蘋果是圓的;香蕉是黃色的,蘋果有紅色的、綠色的、黃色的;它們的口感也不一樣。
那么,我們為什么要比較它們呢?這是問題的關鍵,我們需要一個“原因”來測量我們要測量的東西。
4.2 數據質量測量必須可重復
測量涉及一個對比前后的變化程度,只與抽象的結果比較是遠遠不夠的。就像我們測量孩子的身高,孩子身高是會隨著時間的推移發生變化的,重復的測量能夠讓我們獲得這種變化的規律和程度。這就是為什么測量必須是可重復的,而不能是單次的。重復的測量意味著對事物真實性的持續探索。
4.3 數據質量測量必須可解釋
數據質量測量的可解釋性是保證數據測量有效的前提。如果人們無法理解被測量的是什么,那么這個測量結果就是無用的,不能幫助人們減少不確定性。
例如:企業通過統計職工的平均年齡來分析員工的年齡結構。一般認為:企業員工平均年齡在30歲以下,說明這個企業比較有活力;平均年齡在30~40歲之間,說明企業是以中青年勞動力為主力軍,員工年齡結構處于合理區間;平均年齡超過45歲,說明企業的老齡化程度較高。如果企業員工的平均年齡超過了60歲,這就很難理解了,是統計數據出了問題,還是企業就只有幾名老員工?
用不能被理解的方式進行測量,或者測量的結果不能被理解,都是無意義的。數據測量既是一個交流的工具,也是一個分析的工具。
5. 什么是數據質量管理
上面我們已經知道什么是數據質量,數據質量的維度 和 數據質量測量,那什么是數據質量管理呢?
數據質量管理就是 指對數據從計劃,獲取,存儲,共享,維護,應用到消亡,這整個生命周期的每一個階段可能引發的數據質量問題,進行識別,測量,監控,預警等一系列管理活動,并通過改善和提高組織的管理水平,使數據質量獲得進一步的提高。數據質量管理的終極目標:通過可靠的數據提升數據在使用中的價值,并最終為企業贏得經濟效益。
我們可以簡單地將數據質量管理理解為一種業務原則,需要將合適的人員、流程和技術進行有機整合,改進數據質量各維度的數據問題,提高數據質量。實際上,企業數據治理的各個關鍵領域和關鍵活動都是圍繞如何提升數據質量,以獲得更大的業務成果或經濟利益而展開的。
數據質量管理是數據治理的重要組成部分,通常用在數據模型設計、數據資產管理、主數據管理、數據倉庫等解決方案中。 數據質量管理可以是反應性的被動管理,也可以是預防性的主動管理。很多公司將數據質量管理的技術與企業管理的流程相結合,用來提升主動管理數據質量的能力,這是一個很好的實踐。
6. 數據質量管理策略和技術
數據質量管理包含正確定義數據標準,并采用正確的技術、投入合理的資源來管理數據質量。數據質量管理策略和技術的應用是一個比較廣泛的范疇,它可以作用于數據質量管理的事前、事中、事后三個階段。數據質量管理應秉持預防為主的理念,堅持將“以預控為核心,以滿足業務需求為目標”作為工作的根本出發點和落腳點,加強數據質量管理的事前預防、事中控制、事后補救的各種措施,以實現企業數據質量的持續提升
6.1 事前預防
事前預防即防患于未然,是數據質量管理的上上之策。數據質量管理的事前預防可以從組織人員、標準規范、制度流程三個方面入手。
6.1.1 加強組織建設
企業需要建立一種文化,以讓更多的人認識到數據質量的重要性,這離不開組織機制的保障。建立數據質量管理的組織體系,明確角色職責并為每個角色配置適當技能的人員,以及加強對相關人員的培訓和培養,這是保證數據質量的有效方式。
(1)組織角色設置
企業在實施數據質量管理時,應考慮在數據治理整體的組織框架下設置相關的數據質量管理角色,并確定他們在數據質量管理中的職責分工。常見的組織角色及其職責如下。
數據治理委員會:為數據質量定下基調,制定有關數據基礎架構和流程的決策。數據治理委員會確保在整個企業范圍內采用與數據質量相關的類似方法和政策,并在組織的所有職能部門之間進行橫向調整。數據治理委員會定期開會以新的數據質量目標,推動測量并分析各個業務部門內數據質量的狀態。
數據分析師:負責數據問題的根因分析,以便為數據質量解決方案的制定提供決策依據。
數據管理員:負責將數據作為公司資產進行管理,保障數據質量,例如定期數據清理、刪除重復數據或解決其他數據問題。
(2)加強人員培訓
數據不準確的主要原因是人為因素,加強對相關人員的培訓,提升人員的數據質量意識,能夠有效減少數據質量問題的發生。
數據質量管理培訓是一個雙贏的過程。對于員工來說,通過培訓,自己不僅能夠認識到數據質量對業務和管理的重要性,還能學習到數據管理理論、技術、工具等知識和技能,確保上游業務人員知道他們的數據對下游業務和應用程序的影響,讓自己在工作中盡可能不犯錯、少犯錯,提高自己的業務處理效率和質量。對于企業來說,通過培訓,可以使數據標準得到宣貫,提升員工的數據思維和對數據的認識水平,建立起企業的數據文化,以支撐企業數據治理的長治久安。
此外,企業應鼓勵員工參加專業資格認證的培訓,這樣能夠讓相關人員更加系統地學習數據治理知識體系,提升數據管理的專業能力。
6.1.2 落實數據標準
數據標準的有效執行和落地是數據質量管理的必要條件。數據標準包括數據模型標準、主數據和參考數據標準、指標數據標準等。
(1)數據模型標準
數據模型標準數對數據模型中的業務定義、業務規則、數據關系、數據質量規則等進行統一定義,以及通過元數據管理工具對這些標準和規則進行統一管理。在數據質量管理過程中,可以將這些標準映射到業務流程中,并將數據標準作為數據質量評估的依據,實現數據質量的稽查核驗,使得數據的質量校驗有據可依,有法可循。
(2)主數據和參考數據標準
主數據和參考數據標準包含主數據和參考數據的分類標準、編碼標準、模型標準,它們是主數據和參考數據在各部門、各業務系統之間進行共享的保障。如果主數據和參考數據標準無法有效執行,就會嚴重影響主數據的質量,帶來主數據的不一致、不完整、不唯一等問題,進而影響業務協同和決策支持。
(3)指標數據標準
指標數據是在業務數據基礎上按照一定業務規則加工匯總的數據,指標數據標準主要涵蓋業務屬性、技術屬性、管理屬性三個方面。
指標數據標準統一了分析指標的統計口徑、統計維度、計算方法的基礎,不僅是各業務部門共識的基礎,也是數據倉庫、BI項目的主要建設內容,為數據倉庫的數據質量稽查提供依據。
6.1.3 制度流程保障
(1)數據質量管理流程
數據質量管理是一個閉環管理流程,包括業務需求定義、數據質量測量、根本原因分析、實施改進方案、控制數據質量。
① 業務需求定義
筆者的一貫主張是:企業不會為了治理數據而治理數據,背后都是為了實現業務和管理的目標,而數據質量管理的目的就是更好地實現業務的期望。
第一,將企業的業務目標對應到數據質量管理策略和計劃中。
第二,讓業務人員深度參與甚至主導數據質量管理,作為數據主要用戶的業務部門可以更好地定義數據質量參數。
第三,將業務問題定義清楚,這樣才能分析出數據數量問題的根本原因,進而制定出更合理的解決方案。
② 數據質量測量
數據質量測量是圍繞業務需求設計數據評估維度和指標,利用數據質量管理工具完成對相關數據源的數據質量情況的評估,并根據測量結果歸類數據問題、分析引起數據問題的原因。
第一,數據質量測量以數據質量問題對業務的影響分析為指導,清晰定義出待測量數據的范圍和優先級等重要參數。
第二,采用自上而下和自下而上相結合的策略識別數據中的異常問題。自上而下的方法是以業務目標為出發點,對待測量的數據源進行評估和衡量;自下而上的方法是基于數據概要分析,識別數據源問題并將其映射到對業務目標的潛在影響上。
第三,形成數據治理評估報告,通過該報告清楚列出數據質量的測量結果。
③ 根本原因分析
產生數據質量問題的原因有很多,但是有些原因僅是表象,并不是根本原因。要做好數據質量管理,應抓住影響數據質量的關鍵因素,設置質量管理點或質量控制點,從數據的源頭抓起,從根本上解決數據質量問題。
④ 實施改進方案
沒有一種通用的方案來保證企業每個業務每類數據的準確性和完整性。企業需要結合產生數據問題的根本原因以及數據對業務的影響程度,來定義數據質量規則和數據質量指標,形成一個符合企業業務需求的、獨一無二的數據質量改進方案,并立即付諸行動。
⑤ 控制數據質量
數據質量控制是在企業的數據環境中設置一道數據質量“防火墻”,以預防不良數據的產生。數據質量“防火墻”就是根據數據問題的根因分析和問題處理策略,在發生數據問題的入口設置的數據問題測量和監控程序,在數據環境的源頭或者上游進行的數據問題防治,從而避免不良數據向下游傳播并污染后續的存儲,進而影響業務。
(2)數據質量管理制度
數據質量管理制度設置考核KPI,通過專項考核計分的方式對企業各業務域、各部門的數據質量管理情況進行評估。以數據質量的評估結果為依據,將問題數據歸結到相應的分類,并按所在分類的權重進行量化??偨Y發生數據質量問題的規律,利用數據質量管理工具定期對數據質量進行監控和測量,及時發現存在的數據質量問題,并督促落實改正。
數據質量考核制度實行獎懲結合制,每次根據各業務域數據質量KPI的檢核情況,給予相應的獎罰分值,并將數據質量專項考核結果納入對人員和部門的整體績效考核體系中。
數據質量管理制度的作用在于約束各方加強數據質量意識,督促各方在日常工作中重視數據質量,在發現問題時能夠追根溯源、主動解決。
6.2 事中控制
數據質量管理的事中控制是指在數據的維護和使用過程中監控和管理數據質量。通過建立數據質量的流程化控制體系,對數據的創建、變更、采集、清洗、轉換、裝載、分析等各個環節的數據質量進行控制。
6.2.1 加強數據源頭的控制
“問渠那得清如許,為有源頭活水來?!绷私鈹祿膩碓磳τ谄髽I的數據質量至關重要,從數據的源頭控制好數據質量,讓數據“規范化輸入、標準化輸出”是解決企業數據質量問題的關鍵所在。企業可以考慮從以下幾個方面做好源頭數據質量的管理。
(1)維護好數據字典
數據字典是記錄標準數據、確保數據質量的重要工具。數據會隨著時間累積,如果數據積累在電子表格等非正式數據系統中,那么這些寶貴的數據就可能會存在一定的風險,例如可能會隨著關鍵員工的離職而丟失。通過建立企業級數據字典對企業的關鍵數據進行有效標識,并清晰、準確地對每個數據元素進行定義,可以消除不同部門、不同人員對數據可能的誤解,并讓企業在IT項目上節省大量時間和成本。
(2)自動化數據輸入
數據質量差的一個根本原因是人為因素,手動輸入數據,很難避免數據錯誤。因此,企業應該考慮自動化輸入數據,以減少人為錯誤。一個方案,只要系統可以自動執行某些操作就值得實施,例如,根據關鍵字自動匹配客戶信息并自動帶入表單。
(3)自動化數據校驗
對于疾病,預防比治療更容易,數據治理也一樣。我們可以通過預設的數據質量規則對輸入的數據進行自動化校驗,對于不符合質量規則的數據進行提醒或拒絕保存。數據質量校驗規則包括但不限于以下幾類。
數據類型正確性:數字、整數、文本、日期、參照、附件等。
數據去重校驗:完全重復的數據項、疑似重復的數據項等。
數據域值范圍:最大值、最小值、可接受的值、不可接受的值。
數據分類規則:用來確定數據屬于某個分類的規則,確保正確歸類。
單位是否正確:確保使用正確的計量單位。
數據權限的識別:數據新增、修改、查看、刪除、使用等權限是否受控,例如,數據字段中是否包含不能向游客開放的專有信息。
(4)人工干預審核
數據質量審核是從源頭上控制數據質量的重要手段,采用流程驅動的數據管理模式,控制數據的新增和變更,每個操作都需要人工進行審核,只有審核通過數據才能生效。例如:供應商主數據發生新增或變更,就可以采用人工審核的方式來控制數據質量。
6.2.2 加強流轉過程的控制
數據質量問題不止發生在源頭,如果以最終用戶為終點,那么數據采集、存儲、傳輸、處理、分析中的每一個環節都有可能出現數據質量問題。所以,要對數據全生命周期中的各個過程都做好數據質量的全面預防。數據流轉過程的質量控制策略如下。
(1)數據采集
在數據采集階段,可采用以下質量控制策略:
明確數據采集需求并形成確認單;
數據采集過程和模型的標準化;
數據源提供準確、及時、完整的數據;
將數據的新增和更改以消息的方式及時廣播到其他應用程序;
確保數據采集的詳細程度或粒度滿足業務的需要;
定義采集數據的每個數據元的可接受值域范圍;
確保數據采集工具、采集方法、采集流程已通過驗證。
(2)數據存儲
在數據存儲階段,可采用以下質量控制策略:
選擇適當的數據庫系統,設計合理的數據表;
將數據以適當的顆粒度進行存儲;
建立適當的數據保留時間表;
建立適當的數據所有權和查詢權限;
明確訪問和查詢數據的準則和方法。
(3)數據傳輸
在數據傳輸階段,可采用以下質量控制策略:
明確數據傳輸邊界或數據傳輸限制;
保證數據傳輸的及時性、完整性、安全性;
保證數據傳輸過程的可靠性,確保傳輸過程數據不會被篡改;
明確數據傳輸技術和工具對數據質量的影響。
(4)數據處理
在數據處理階段,可采用以下質量控制策略:
合理處理數據,確保數據處理符合業務目標;
重復值的處理;
缺失值的處理;
異常值的處理;
不一致數據的處理。
(5)數據分析
確保數據分析的算法、公式和分析系統有效且準確;
確保要分析的數據完整且有效;
在可重現的情況下分析數據;
基于適當的顆粒度分析數據;
顯示適當的數據比較和關系。
6.2.3 事中控制的相關策略
(1)質量規則的持續更新
數據質量管理不是一次性的工作,而是一個不間斷的過程,企業需要定期檢查數據質量規則對業務的滿足度,并不斷改進它們。另外,企業和業務環境在不斷變化,因此企業需要提出新的數據質量規則來應對這些變化。
(2)數據質量的持續監控
DQAF給出了一種數據質量的持續監控方法,叫作聯機測量,它強調利用數據質量管理工具的自動化功能,將定義好的數據質量規則作用于數據測量對象(數據源),實現對數據質量有效性的持續性檢查,以便發現數據質量問題和確定改進方案。
(3)使用先進的技術
我們可以利用人工智能技術來進行數據質量監控、評價和改善,以應對不斷增加的數據和日趨復雜的數據環境等的挑戰。人工智能技術在數據質量管理中的應用包括:
更好地識別和解析企業的數據;
更好地了解和量化數據質量;
更好地進行數據質量問題分析;
更好地進行數據匹配和刪除重復數據;
更好地豐富企業的數據。
(4)數據質量預警機制
數據質量預警機制用于對在數據質量監控過程中發現的數據質量問題進行預警和提醒。例如,通過微信、短信的形式提醒數據管理員發生了數據質量問題,通過電子郵件的形式向數據管理員發送數據質量問題列表等,以便相關人員及時采取改善或補救措施。
(5)數據質量報告 數據質量報告有利于清晰地顯示數據質量測量和評估情況,方便相關數據質量責任人分析數據問題,制定處理方案。數據質量報告有兩種常見的形式:一種是以儀表板的形式統計數據質量問題,顯示數據質量KPI,幫助數據管理者分析和定位數據質量問題;另一種是生成數據質量問題日志,該日志記錄了已知的數據問題,能夠幫助企業預防數據質量問題和執行數據清理活動。
6.3 事后補救
是不是做好了事前預防和事中控制就不會再有數據質量問題發生了?答案顯然是否定的。事實上,不論我們采取了多少預防措施、進行了多么嚴格的過程控制,數據問題總是還有“漏網之魚”。你會發現只要是人為干預的過程,總會存在數據質量問題,而即使拋開人為因素,數據質量問題也無法避免。為了盡可能減少數據質量問題,減輕數據質量問題對業務的影響,我們需要及時發現它并采取相應的補救措施。
6.3.1 定期質量監控
定期質量監控也叫定期數據測量,是對某些非關鍵性數據和不適合持續測量的數據定期重新評估,為數據所處狀態符合預期提供一定程度的保證。定期監控數據的狀況,為數據在某種程度上符合預期提供保障,發現數據質量問題及數據質量問題的變化,從而制定有效的改進措施。
定期質量監控就像人們定期體檢一樣,定期檢查身體的健康狀態,當某次體檢數據發生明顯變化時,醫生就會知道有哪些數據出現異常,并根據這些異常數據采取適當的治療措施。對于數據也一樣,需要定期對企業數據治理進行全面“體檢”,找到問題的“病因”,以實現數據質量的持續提升。
6.3.2 數據問題補救
盡管數據質量控制可以在很大程度上起到控制和預防不良數據發生的作用,但事實上,再嚴格的質量控制也無法做到100%的數據問題防治,甚至過于嚴格的數據質量控制還會引起其他數據問題。因此,企業需要不時進行主動的數據清理和補救措施,以糾正現有的數據問題。
(1)清理重復數據
對經過數據質量檢核檢查出的重復數據進行人工或自動處理,處理的方法有刪除或合并。例如:對于兩條完全相同的重復記錄,刪除其中一條;如果重復的記錄不完全相同,則將兩條記錄合并為一條,或者只保留相對完整、準確的那條。
(2)清理派生數據
派生數據是由其他數據派生出來的數據,例如:“利潤率”就是在“利潤”的基礎上計算得出的,它就是派生數據。而一般情況下,存儲派生出的數據是多余的,不僅會增加存儲和維護成本,而且會增大數據出錯的風險。如果由于某種原因,利潤率的計算方式發生了變化,那么必須重新計算該值,這就會增加發生錯誤的機會。因此,需要對派生數據進行清理,可以存儲其相關算法和公式,而不是結果。
(3)缺失值處理
處理缺失值的策略是對缺失值進行插補修復,有兩種方式:人工插補和自動插補。對于“小數據”的數據缺失值,一般采用人工插補的方式,例如主數據的完整性治理。而對于大數據的數據缺失值問題,一般采用自動插補的方式進行修復。自動插補主要有三種方式:
利用上下文插值修復;
采用平均值、最大值或最小值修復;
采用默認值修復。
當然,最為有效的方法是采用相近或相似數值進行插補,例如利用機器學習算法找到相似值進行插補修復。
(4)異常值處理
異常值處理的核心是找到異常值。異常值的檢測方法有很多,大多要用到以下機器學習技術:
基于統計的異常檢測;
基于距離的異常檢測;
基于密度的異常檢測;
基于聚類的異常檢測。
檢測出異常值后,處理就相對簡單了,有如下處理方法:
刪除異常值;
數據轉換或聚類;
替換異常值;
分離對待
6.3.3 持續改進優化
數據質量管理是個持續的良性循環,不斷進行測量、分析、探查和改進可全面改善企業的信息質量。通過對數據質量管理策略的不斷優化和改進,從對于數據問題甚至緊急的數據故障只能被動做出反應,過渡到主動預防和控制數據缺陷的發生。
經過數據質量測量、數據問題根因分析以及數據質量問題修復,我們可以回過頭來評估數據模型設計是否合理,是否還有優化和提升的空間,數據的新增、變更、采集、存儲、傳輸、處理、分析各個過程是否規范,預置的質量規則和閾值是否合理。如果模型和流程存在不合理的地方或可優化的空間,那么就實施這些優化。
事后補救始終不是數據質量管理的最理想方式,建議堅持以預防為主的原則開展數據質量管理,并通過持續的數據質量測量和探查,不斷發現問題,改進方法,提升質量。
7. 總結
數據質量影響的不僅是信息化建設的成敗,更是影響企業業務協同、管理創新、決策支持的核心要素。對于數據質量的管理,堅持“垃圾進,垃圾出”的總體思想,堅持“事前預防、事中控制、事后補救”的數據質量管理策略 ,持續提升企業數據質量水平。盡管可能沒有一種真正的萬無一失的方法來防止所有數據質量問題,但是使數據質量成為企業數據環境DNA的一部分將在很大程度上能夠獲得業務用戶和領導的信任。
隨著大數據的發展,企業用數需求與日俱增,解決數據質量問題變得比以往任何時候都重要。技術的發展、業務的變化、數據的增加讓企業的數據環境日益復雜多變。因此,企業的數據質量管理是一個持續的過程,永遠也不會出現所謂的“最佳時機”,換句話說,企業進行數據質量管理的最佳時機就是現在!
作者: 教你學懂大數據
歡迎關注微信公眾號 :教你學懂大數據