十步法原則解決數(shù)據(jù)質(zhì)量問題-創(chuàng)新互聯(lián)

一、相關(guān)概念

1.1 數(shù)據(jù)質(zhì)量

數(shù)據(jù)的一組固有屬性滿足數(shù)據(jù)消費(fèi)者要求的程度。

目前創(chuàng)新互聯(lián)建站已為數(shù)千家的企業(yè)提供了網(wǎng)站建設(shè)、域名、雅安服務(wù)器托管、網(wǎng)站運(yùn)營、企業(yè)網(wǎng)站設(shè)計(jì)、南雄網(wǎng)站維護(hù)等服務(wù),公司將堅(jiān)持客戶導(dǎo)向、應(yīng)用為本的策略,正道將秉承"和諧、參與、激情"的文化,與客戶和合作伙伴齊心協(xié)力一起成長,共同發(fā)展。

1)數(shù)據(jù)固有屬性

  • 真實(shí)性:即數(shù)據(jù)是客觀世界的真實(shí)反映
  • 及時(shí)性:即數(shù)據(jù)是隨著變化及時(shí)更新的
  • 相關(guān)性:即數(shù)據(jù)是數(shù)據(jù)消費(fèi)者關(guān)注和需要的

2)高質(zhì)量數(shù)據(jù)滿足要求(消費(fèi)者角度)

  • 可得的,當(dāng)數(shù)據(jù)消費(fèi)者需要時(shí)能夠獲取到;
  • 及時(shí)的,當(dāng)需要時(shí),數(shù)據(jù)獲得且是及時(shí)更新的;
  • 完整的,數(shù)據(jù)是完整沒有遺漏的;
  • 安全的,數(shù)據(jù)是安全的,避免非授權(quán)的訪問和操控;
  • 可理解的,數(shù)據(jù)是可理解和解釋的;
  • 正確的,數(shù)據(jù)是現(xiàn)實(shí)世界的真實(shí)反映。

1.2 數(shù)據(jù)質(zhì)量管理

數(shù)據(jù)質(zhì)量管理,是指對數(shù)據(jù)從計(jì)劃、獲取、存儲、共享、維護(hù)、應(yīng)用、消亡生命周期的每個(gè)階段里可能引發(fā)的各類數(shù)據(jù)質(zhì)量問題,進(jìn)行識別、度量、監(jiān)控、預(yù)警等一系列管理活動,并通過改善和提高組織的管理水平使得數(shù)據(jù)質(zhì)量獲得進(jìn)一步提高。

二、評估維度

任何改善都是建立在評估的基礎(chǔ)上,知道問題在哪才能實(shí)施改進(jìn)。通常數(shù)據(jù)質(zhì)量評估和管理評估需通過以下幾個(gè)維度衡量。常見的以下維度:

1)完整性

完整性,是指數(shù)據(jù)信息是否完整,是否存在缺失情況。數(shù)據(jù)缺失的情況可能是整個(gè)數(shù)據(jù)記錄缺失,也可能是數(shù)據(jù)中某個(gè)字段信息的記錄缺失。記錄的完整性,一般使用統(tǒng)計(jì)的記錄數(shù)和唯一值個(gè)數(shù)。完整性的另一方面,記錄中某個(gè)字段的數(shù)據(jù)缺失,可使用統(tǒng)計(jì)信息中的NULL的個(gè)數(shù)進(jìn)行審核。一般空值的占比基本恒定,同樣可以使用統(tǒng)計(jì)的空值個(gè)數(shù)來計(jì)算空值占比,如果空值的占比明顯增大,很可能這個(gè)字段的記錄出現(xiàn)了問題,信息出現(xiàn)缺失??偠灾?,完整性可用記錄數(shù)、均值、唯一值、空值占比等指標(biāo)來衡量。

2)規(guī)范性

規(guī)范性,是指記錄是否符合規(guī)范,是否按照規(guī)定的格式存儲(例如標(biāo)準(zhǔn)編碼規(guī)則)。數(shù)據(jù)規(guī)范性審核是數(shù)據(jù)質(zhì)量審核中比較重要也是比較復(fù)雜的一塊。規(guī)范性檢驗(yàn)主要是檢驗(yàn)數(shù)據(jù)和數(shù)據(jù)定義是否一致,因此可以通過合規(guī)記錄的比率來衡量。比如取值范圍是枚舉集合的數(shù)據(jù),其實(shí)際值超出范圍之外的數(shù)據(jù)占比,比如存在特定編碼規(guī)則的屬性值不符合其編碼規(guī)則的記錄占比。

3)一致性

一致性,是指數(shù)據(jù)是否符合邏輯,數(shù)據(jù)內(nèi)單項(xiàng)或多項(xiàng)數(shù)據(jù)間存在邏輯關(guān)系。一致性檢驗(yàn),存在邏輯關(guān)系的屬性之間的校驗(yàn),比如屬性A取某定值時(shí),屬性B的值應(yīng)該在某個(gè)特定的數(shù)據(jù)范圍內(nèi),都可以通過合規(guī)率來衡量。

4)準(zhǔn)確性

準(zhǔn)確性,用于度量哪些數(shù)據(jù)和信息是不正確的,或者數(shù)據(jù)是超期的。準(zhǔn)確性可能存在于個(gè)別記錄,也可能存在于整個(gè)數(shù)據(jù)集上。準(zhǔn)確性和規(guī)范性的差別在于規(guī)范性關(guān)注合規(guī),表示統(tǒng)一,而準(zhǔn)確性關(guān)注數(shù)據(jù)錯(cuò)誤。因此,同樣的數(shù)據(jù)表現(xiàn),比如數(shù)據(jù)實(shí)際值不在定義的范圍內(nèi),如果定義的范圍準(zhǔn)確,值完全沒有意義,那么這屬于數(shù)據(jù)錯(cuò)誤。

數(shù)據(jù)的準(zhǔn)確性可能存在于個(gè)別記錄,也可能存在于整個(gè)數(shù)據(jù)集。如果整個(gè)數(shù)據(jù)集的某個(gè)字段的數(shù)據(jù)存在錯(cuò)誤,這種錯(cuò)誤很容易發(fā)現(xiàn),利用平均數(shù)和中位數(shù)也可以發(fā)現(xiàn)這類問題。當(dāng)數(shù)據(jù)集中存在個(gè)別的異常值時(shí),可使用大值和最小值的統(tǒng)計(jì)量去審核,或者使用箱線圖也可以讓異常一目了然。

還有幾個(gè)準(zhǔn)確性的審核問題,字符亂碼的問題或者字符被截?cái)嗟膯栴},可以使用分布來發(fā)現(xiàn)這類問題,一般的數(shù)據(jù)記錄基本符合正態(tài)分布或者類正態(tài)分布,那么那些占比異常小的數(shù)據(jù)項(xiàng)很可能存在問題。如果數(shù)據(jù)并沒有顯著異常,但仍然可能記錄的值是錯(cuò)誤的,只是這些值和正常值比較接近而已,這類準(zhǔn)確性檢驗(yàn)最困難,一般只能與其他來源或者統(tǒng)計(jì)結(jié)果進(jìn)行對比來發(fā)現(xiàn)問題。

5)時(shí)效性

數(shù)據(jù)從產(chǎn)生到可以查看的時(shí)間間隔,也叫數(shù)據(jù)的延時(shí)時(shí)長。某些實(shí)時(shí)分析和決策需要用到小時(shí)或者分鐘級的數(shù)據(jù),這些需求對數(shù)據(jù)的時(shí)效性要求極高,所以及時(shí)性也是數(shù)據(jù)質(zhì)量的組成要素之一。例如定義某張表在每月最晚達(dá)到的日期是幾號。

6)唯一性

唯一性,用于度量哪些數(shù)據(jù)是重復(fù)數(shù)據(jù)或者數(shù)據(jù)的哪些屬性是重復(fù)的。即對存在于系統(tǒng)內(nèi)或系統(tǒng)間的特定字段、記錄或數(shù)據(jù)集意外重復(fù)的測量標(biāo)準(zhǔn)。

7)合理性

合理性,是從業(yè)務(wù)邏輯角度判斷數(shù)據(jù)是否正確。評估方面可參照規(guī)范性、一致性做法。

8)冗余性

冗余性,是指多層次數(shù)據(jù)中是否存在不必要的數(shù)據(jù)冗余。

9)獲取性

獲取性,是指數(shù)據(jù)是否易于獲取、易于理解和易于使用。

三、影響因素

影響數(shù)據(jù)質(zhì)量的因素主要來源于四方面:信息因素、技術(shù)因素、流程因素和管理因素。

1)信息因素

產(chǎn)生這部分?jǐn)?shù)據(jù)質(zhì)量問題的原因主要有:元數(shù)據(jù)描述及理解錯(cuò)誤、數(shù)據(jù)度量的各種性質(zhì)(如:數(shù)據(jù)源規(guī)格不統(tǒng)一)得不到保證和變化頻度不恰當(dāng)?shù)取?/p>

2)技術(shù)因素

主要是指由于具體數(shù)據(jù)處理的各技術(shù)環(huán)節(jié)的異常造成的數(shù)據(jù)質(zhì)量問題。數(shù)據(jù)質(zhì)量問題的產(chǎn)生環(huán)節(jié)主要包括數(shù)據(jù)創(chuàng)建、數(shù)據(jù)獲取、數(shù)據(jù)傳輸、數(shù)據(jù)裝載、數(shù)據(jù)使用、數(shù)據(jù)維護(hù)等方面的內(nèi)容。

3)流程因素

是指由于系統(tǒng)作業(yè)流程和人工操作流程設(shè)置不當(dāng)造成的數(shù)據(jù)質(zhì)量問題,主要來源于系統(tǒng)數(shù)據(jù)的創(chuàng)建流程、傳遞流程、裝載流程、使用流程、維護(hù)流程和稽核流程等各環(huán)節(jié)。

4)管理因素

是指由于人員素質(zhì)及管理機(jī)制方面的原因造成的數(shù)據(jù)質(zhì)量問題。如人員培訓(xùn)、人員管理、培訓(xùn)或者獎懲措施不當(dāng)導(dǎo)致的管理缺失或者管理缺陷。

四、解決質(zhì)量問題方法

可以遵從下面的十步法原則(此部分摘自御數(shù)坊公開材料)。

圖1

4.1 定義業(yè)務(wù)需求與方法

找出有哪些業(yè)務(wù)受到數(shù)據(jù)質(zhì)量問題的影響,或者由于數(shù)據(jù)質(zhì)量的改進(jìn)將會為企業(yè)帶來更好的業(yè)務(wù)效益的需求,評估這些業(yè)務(wù)需求并按照重要等級排序,作為本次數(shù)據(jù)質(zhì)量提升的目標(biāo)與范圍。只有明確了業(yè)務(wù)需求與方法,才能確保要解決的數(shù)據(jù)質(zhì)量問題是與業(yè)務(wù)需求相關(guān)的,從而真正的解決了業(yè)務(wù)問題。

4.2 分析信息環(huán)境

細(xì)化已定義的業(yè)務(wù)需求,識別出業(yè)務(wù)需求與數(shù)據(jù)、數(shù)據(jù)規(guī)范、流程、組織和技術(shù)(如系統(tǒng)、軟件等)之間的關(guān)聯(lián)信息,定義信息生命周期,確定數(shù)據(jù)來源及范圍。通過分析信息環(huán)境,不僅可以為后續(xù)的原因分析提供幫助,也可以使我們對數(shù)據(jù)問題及現(xiàn)狀有一個(gè)更全面、直觀的理解與認(rèn)識。

4.3 評估數(shù)據(jù)質(zhì)量

從相關(guān)數(shù)據(jù)源提取數(shù)據(jù),圍繞已定義的業(yè)務(wù)需求,設(shè)計(jì)數(shù)據(jù)評估維度并利用相關(guān)工具完成評估,將數(shù)據(jù)質(zhì)量評估結(jié)果以圖表或報(bào)告形式準(zhǔn)確的表達(dá)出來,使相關(guān)領(lǐng)導(dǎo)或業(yè)務(wù)人員都能夠清晰的、直觀的了解實(shí)際的數(shù)據(jù)質(zhì)量情況,確保數(shù)據(jù)問題是與業(yè)務(wù)需求相關(guān)的,并能夠得到相關(guān)領(lǐng)導(dǎo)或業(yè)務(wù)人員的重視與支持。

4.4 評估業(yè)務(wù)影響

了解低質(zhì)量數(shù)據(jù)是如何影響業(yè)務(wù)的,為什么這些數(shù)據(jù)很重要,如果改善這些問題會帶來哪些業(yè)務(wù)價(jià)值。評估方式的復(fù)雜度越高所花費(fèi)的時(shí)間越長,不過與評估效果卻并不一定成正比,所以在評估業(yè)務(wù)影響時(shí)也要注意方法的選擇。另外,要將業(yè)務(wù)影響評估結(jié)果及時(shí)歸檔,這樣,隨著時(shí)間的推移即便問題被淡化,也能夠有跡可查。

4.5 確定根本原因

在糾正數(shù)據(jù)問題之前要先確定其根本原因,產(chǎn)生問題的根源有很多。不過,有些問題的發(fā)生僅是表象,并不一定是導(dǎo)致錯(cuò)誤數(shù)據(jù)的根本原因,所以在分析的過程中,要不斷的去追蹤數(shù)據(jù)進(jìn)行問題定位,確定問題最早出現(xiàn)的根本原因;或者多問自己幾遍“WHY”以弄清楚問題的根本原因,進(jìn)而使問題得到有效的解決,達(dá)到治標(biāo)又治本的效果。

4.6 制定改進(jìn)方案

通過前面幾步詳細(xì)的問題分析及原因確定,在這一步則可以有針對性的制定出合理的數(shù)據(jù)質(zhì)量改進(jìn)方案,包括對已知數(shù)據(jù)問題的改進(jìn)建議及如何預(yù)防未來類似錯(cuò)誤數(shù)據(jù)的發(fā)生。

4.7 預(yù)防未來數(shù)據(jù)錯(cuò)誤

根據(jù)解決方案的設(shè)計(jì),預(yù)防未來錯(cuò)誤數(shù)據(jù)的發(fā)生。

4.8 糾正當(dāng)前數(shù)據(jù)錯(cuò)誤

根據(jù)解決方案的設(shè)計(jì),解決現(xiàn)有數(shù)據(jù)問題。這一步更多是”臟活累活”,但對于最終質(zhì)量目標(biāo)的達(dá)成至關(guān)重要。

4.9 實(shí)施控制監(jiān)控

實(shí)施持續(xù)的監(jiān)測,確定是否已經(jīng)達(dá)到預(yù)期效果。

4.10 溝通行動和結(jié)果

對結(jié)果和項(xiàng)目進(jìn)展情況溝通,保證整體項(xiàng)目的持續(xù)推進(jìn)。

五、數(shù)據(jù)質(zhì)量產(chǎn)品設(shè)計(jì)

5.1 數(shù)據(jù)產(chǎn)品價(jià)值

  • 完整檢核標(biāo)準(zhǔn)梳理方法及指標(biāo)規(guī)則模板。
  • 自動化的檢核處理及問題通知機(jī)制,達(dá)到無人值守。
  • 提供全面的數(shù)據(jù)分析機(jī)制,加速問題解決。
  • 規(guī)范的問題管理流程及制度,精確管理問題每個(gè)階段。
  • 完善的質(zhì)量問題解決共享機(jī)制,實(shí)現(xiàn)數(shù)據(jù)治理的閉環(huán)管理。

5.2 處理問題流程

  • 確定規(guī)則:數(shù)據(jù)質(zhì)量指標(biāo)
  • 發(fā)現(xiàn)問題:數(shù)據(jù)質(zhì)量檢核
  • 提出問題:質(zhì)量問題告警
  • 解決問題:質(zhì)量問題分析
  • 歸納問題:問題管理流程

5.3 主要功能模塊

1)質(zhì)量評估

提供全方位數(shù)據(jù)質(zhì)量評估能力,如數(shù)據(jù)的重復(fù)性、關(guān)聯(lián)性、正確性、完全性、一致性、合規(guī)性等,對數(shù)據(jù)進(jìn)行體檢進(jìn)而識別和理解數(shù)據(jù)質(zhì)量問題。有評價(jià)體系作為參照,需要進(jìn)行數(shù)據(jù)的采集、分析和監(jiān)控,為數(shù)據(jù)質(zhì)量提供全面可靠的信息。在數(shù)據(jù)流轉(zhuǎn)環(huán)節(jié)的關(guān)鍵點(diǎn)上設(shè)置采集點(diǎn),根據(jù)系統(tǒng)對數(shù)據(jù)質(zhì)量的要求,配置相應(yīng)的采集規(guī)則,通過在采集點(diǎn)處進(jìn)行質(zhì)量數(shù)據(jù)采集并進(jìn)行統(tǒng)計(jì)分析,就可以得到采集點(diǎn)處的數(shù)據(jù)分析報(bào)告。

2)檢核執(zhí)行

提供配置化的度量規(guī)則和檢核方法生成能力,提供檢核腳本的定時(shí)調(diào)度執(zhí)行和第三方調(diào)度工具的調(diào)度執(zhí)行功能。

3)質(zhì)量監(jiān)控

系統(tǒng)提供報(bào)警機(jī)制,對檢核規(guī)則或方法進(jìn)行閥值設(shè)置,對超出閥值的規(guī)則進(jìn)行不同級別的告警和通知。

4)問題管理

對數(shù)據(jù)問題進(jìn)行流程處理支持,規(guī)范問題處理機(jī)制和步驟,強(qiáng)化問題認(rèn)證,提升數(shù)據(jù)質(zhì)量。通過質(zhì)量評價(jià)體系和質(zhì)量數(shù)據(jù)采集系統(tǒng),可以發(fā)現(xiàn)問題,之后還需要對發(fā)現(xiàn)的問題及時(shí)作出反應(yīng),追溯問題原因和形成機(jī)制,根據(jù)問題種類采取相應(yīng)的改進(jìn)措施,并持續(xù)跟蹤驗(yàn)證改進(jìn)之后的數(shù)據(jù)質(zhì)量提升效果,形成正反饋,達(dá)到數(shù)據(jù)質(zhì)量持續(xù)改良的效果。

在源頭建立數(shù)據(jù)標(biāo)準(zhǔn)或接入標(biāo)準(zhǔn),規(guī)范數(shù)據(jù)定義,在數(shù)據(jù)流轉(zhuǎn)過程中建立監(jiān)控?cái)?shù)據(jù)轉(zhuǎn)換質(zhì)量的流程和體系,盡量做到在哪發(fā)現(xiàn)問題就在哪解決問題,不把問題數(shù)據(jù)帶到后端。

5)質(zhì)量報(bào)告

系統(tǒng)提供了豐富的API可進(jìn)行定制化數(shù)據(jù)質(zhì)量包括開發(fā),另外系統(tǒng)內(nèi)置了常用質(zhì)量報(bào)告。

6)質(zhì)量分析

提供多種問題分析能力,包括血統(tǒng)分析,影響分析,全鏈分析,定位問題產(chǎn)生的根源。

作者:韓鋒

首發(fā)于作者個(gè)人公號《韓鋒頻道》。

來源:宜信技術(shù)學(xué)院

另外有需要云服務(wù)器可以了解下創(chuàng)新互聯(lián)scvps.cn,海內(nèi)外云服務(wù)器15元起步,三天無理由+7*72小時(shí)售后在線,公司持有idc許可證,提供“云服務(wù)器、裸金屬服務(wù)器、高防服務(wù)器、香港服務(wù)器、美國服務(wù)器、虛擬主機(jī)、免備案服務(wù)器”等云主機(jī)租用服務(wù)以及企業(yè)上云的綜合解決方案,具有“安全穩(wěn)定、簡單易用、服務(wù)可用性高、性價(jià)比高”等特點(diǎn)與優(yōu)勢,專為企業(yè)上云打造定制,能夠滿足用戶豐富、多元化的應(yīng)用場景需求。

新聞名稱:十步法原則解決數(shù)據(jù)質(zhì)量問題-創(chuàng)新互聯(lián)
本文鏈接:http://muchs.cn/article10/dddego.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供全網(wǎng)營銷推廣、服務(wù)器托管、微信小程序做網(wǎng)站、App設(shè)計(jì)、企業(yè)網(wǎng)站制作

廣告

聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請盡快告知,我們將會在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場,如需處理請聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時(shí)需注明來源: 創(chuàng)新互聯(lián)

網(wǎng)站托管運(yùn)營