煙草企業(yè)數(shù)據(jù)倉庫建設中的數(shù)據(jù)質(zhì)量評估
1 背景
數(shù)據(jù)倉庫技術(shù)被越來越多的煙草行業(yè)企業(yè)所采用,在企業(yè)構(gòu)建數(shù)據(jù)倉庫時面臨的一個突出問題就是數(shù)據(jù)來源的廣泛性以及保證數(shù)據(jù)質(zhì)量的重要性,數(shù)據(jù)質(zhì)量問題成為關(guān)系到數(shù)據(jù)倉庫建設成敗和數(shù)據(jù)能否有效應用的重要關(guān)鍵問題。由于
煙草行業(yè)信息化建設起步比較早,各企業(yè)在多年來信息化建設中積累了大量的業(yè)務數(shù)據(jù),這些數(shù)據(jù)由于歷史原因,數(shù)據(jù)質(zhì)量的狀況差異很大,因此在使用這些數(shù)據(jù)建立數(shù)據(jù)倉庫時,低質(zhì)量的數(shù)據(jù)不僅會帶來數(shù)據(jù)倉庫自身維護的高昂費用,而且更重要的是會導致制定糟糕的決策。即使在設計和建設數(shù)據(jù)倉庫時做到非常好的數(shù)據(jù)倉庫基礎(chǔ)設施,但如果倉庫中的數(shù)據(jù)不符合支持決策的質(zhì)量特征的要求,那么建設數(shù)據(jù)倉庫所付出的努力就會付諸東流。
從數(shù)據(jù)質(zhì)量管理的發(fā)展歷程來看,對于數(shù)據(jù)質(zhì)量的控制從單純的對倉庫中已有數(shù)據(jù)的監(jiān)控發(fā)展到對倉庫數(shù)據(jù)形成過程的全面質(zhì)量管理。因此,以數(shù)據(jù)倉庫的長期建設來看,好的數(shù)據(jù)質(zhì)量管理的方法不是臨時解決問題,而是建立適宜的數(shù)據(jù)質(zhì)量評價體系,來管理數(shù)據(jù)的正確性、有效性、安全性、完備性。
……(新文秘網(wǎng)http://jey722.cn省略728字,正式會員可完整閱讀)……
錯誤的分析來看,從源頭上控制數(shù)據(jù)的質(zhì)量是解決數(shù)據(jù)質(zhì)量問題的最根本的方法。基于數(shù)據(jù)源本身的正確性和質(zhì)量對數(shù)據(jù)倉庫數(shù)據(jù)質(zhì)量的重要性,數(shù)據(jù)源分析成為數(shù)據(jù)倉庫規(guī)劃與分析階段的一項重要內(nèi)容,具有十分重要的意義。數(shù)據(jù)源分析的主要任務是完成各源系統(tǒng)的數(shù)據(jù)現(xiàn)狀描述、評估,評價數(shù)據(jù)質(zhì)量以及存在的問題和不足,為數(shù)據(jù)倉庫的實施做準備。
4 數(shù)據(jù)質(zhì)量的度量
一般來說,數(shù)據(jù)質(zhì)量是由數(shù)據(jù)質(zhì)量元素來描述的。數(shù)據(jù)質(zhì)量元素分為兩類:數(shù)據(jù)質(zhì)量的定量元素和數(shù)據(jù)質(zhì)量的非定量元素。數(shù)據(jù)質(zhì)量定量元素用于描述數(shù)據(jù)集滿足預先設定的質(zhì)量標準要求及指標的程度,并提供定量的質(zhì)量信息。數(shù)據(jù)質(zhì)量非定量元
圖1 數(shù)據(jù)流圖
素提供綜述性的、非定量的質(zhì)量信息。本文重點探討數(shù)據(jù)質(zhì)量的定量元素分析。
對一個信息系統(tǒng)而言,數(shù)據(jù)質(zhì)量定量元素主要考慮以下指標:
● 正確性(Correctness)
● 完整性(Completeness)
● 一致性(Consistency)
● 及時性(Timeliness)
● 相關(guān)性(Relatability)
● 唯一性(Uniqueness)
● 有效性(Validity)
● 可理解性(Understandable)
根據(jù)上述指標,可以針對不同的信息系統(tǒng)進行定量的數(shù)據(jù)質(zhì)量評估,在評估過程中,用戶可以根據(jù)應用的需求選擇其中一部分來執(zhí)行。
5 數(shù)據(jù)質(zhì)量評估指標及檢測方法
根據(jù)以上論述的數(shù)據(jù)質(zhì)量的度量,在進行具體系統(tǒng)數(shù)據(jù)質(zhì)量評估時主要考慮以下指標:
● 完整性檢測(Completeness):完整性即實體的每個屬性都有明確的值,不存在“空”或“未知”的屬性。完整性檢測就是計算表中不存在缺失字段的數(shù)據(jù)的百分比。
檢測方法:(1) 用戶選擇需要進行完整性檢測的字段, 即該字段不能為空。缺省情況下是該表的所有主碼。(2) 對設定的的每個字段,建立規(guī)則,給出其非空值的比例。
● 唯一性檢測(Uniqueness):唯一性即一個表中的一組屬性的值是唯一的。唯一性檢測是計算滿足唯一性約束數(shù)據(jù)的百分比。
檢測方法:(1) 用戶設定需要進行唯一性檢測的字段, 缺省情況下是主碼。(2) 對選擇的每個字段,給出其唯一性的符合比例。
● 有效性檢測(Validity):有效性即實體屬性的值要在用戶定義的有效范圍之內(nèi)。有效性檢測是計算滿足域和數(shù)據(jù)有效范圍定義的數(shù)據(jù)的百分比。檢測方法:(1) 用戶選擇需要進行有效性檢測的字段。(2) 針對每個字段,用戶設定有效性規(guī)則,有效性規(guī)則分為數(shù)值有效性和自定義有效性兩類。數(shù)值有效性將數(shù)據(jù)分為連續(xù)型和離散型。對于連續(xù)型數(shù)據(jù),用戶可設定該字段的最大值和最小值,以限制該字段的有效范圍。對于離散型數(shù)據(jù),用戶可設置該字段的所有有效取值。例如,在性別一欄中,只能填F、M 或U,其他均為無效。在自定義有效性中,用戶可以_設定有效性規(guī)則。(3)針對該字段,檢測給出的有效性規(guī)則,給出滿足程度。
● 相關(guān)性檢測(Relatability):參照完整性是指一
個子表(從表)中的一個字段必須在另一個父表(主
表)中存在。相關(guān)性就是計算滿足參照完整性數(shù)據(jù)
的百分比。對于數(shù)據(jù)庫中的某些實體,它們的存在
可能要依賴于其他的實體,但在數(shù)據(jù)庫中并沒有定
義這些實體的參照完整性,而靠應用程序或其它手
段來檢查,但這并不能完全保證實體的參照完整性,
所以要在數(shù)據(jù)質(zhì)量評估時進行檢查。
檢測方法:(1) 用戶設定需要檢測參照完整性
的主表字段。(2) 用戶設定相應的從表和從表字段,
而且只能在具有匹配值的相似字段間建立參照完整
性檢驗。(3)逐一考察每個字段的參照完整性,給
出其參照完整性的符合程度。
(4) 一致性檢測(Consistency):同一個實體的
一些屬性可能在多個表(可能在不同的系 ……(未完,全文共5821字,當前僅顯示2044字,請閱讀下面提示信息。
收藏《煙草企業(yè)數(shù)據(jù)倉庫建設中的數(shù)據(jù)質(zhì)量評估》)