內容簡介
本書分為六部分,共16章。部分(第1~4章)討論對數據質量和數據管理意義重大的一組術語,涉及數據的擴展定義、符號性功能、與數據和數據管理相關的角色、與數據管理相關的概念以及數據質量維度的概念。第二部分(第5章和第6章)描述創建DQAF的原因,概括框架的假設、定義和管理思路,並給齣48種測量類型的簡短描述。第三部分(第7~9章)闡釋數據評估方案,涉及數據評估的目標與輸入、如何剖析數據、測量與數據質量改進項目的關係以及將持續測量用於維持數據質量的一般原則。第四部分(第10章和第11章)展示DQAF類彆如何用於編製數據質量的需求,以便指定數據質量的聯機測量、控製和定期測量。第五部分(第12章和第13章)討論定義數據質量戰略的環境和方法,涉及數據質量戰略的概念與總體策略,還討論建立組織的數據質量戰略的12個指令。第六部分(第14~16章)詳細討論DQAF的框架,涉及聯機測量中如何收集與計算原始測量數據,如何産生測量結果,以及DQAF測量邏輯數據模型的測量類型共有的功能。
作者簡介
勞拉·塞巴斯蒂安-科爾曼(Laura Sebastian-Coleman),Optum Insight公司數據質量架構師,自2003年以來,一直在大型醫療保健數據倉庫從事數據質量方麵的工作。Optum Insight專門通過提供分析、技術和谘詢服務來改善醫療保健係統的績效。勞拉已實現數據質量指標和報錶,發起並推動Optum Insight的數據質量社區,促進數據消費者的培訓項目,並領導建立數據標準和管理元數據的工作。2009年,她帶領一隊來自Optum和UnitedHealth集團的分析師,研發瞭初的數據質量評估框架(DQAF),這是本書的基礎。
作為一名活躍的專業人士,勞拉曾在麻省理工學院的信息質量會議、信息和數據質量國際協會(IAIDQ)以及數據治理組織(DGO)主辦的會議上發錶論文。在2009年與2010年,她曾擔任IAIDQ會員服務總監。
加入Optum Insight公司之前,勞拉在商業保險行業從事瞭八年的內部通信和信息技術工作。她擁有IAIDQ頒發的IQCP(信息質量認證專傢)證書,這是麻省理工學院的信息質量領域的一種證書,她在富蘭剋林和馬歇爾學院取得瞭英語和曆史學士學位,並在羅切斯特大學(紐約州)取得瞭英國文學博士學位。
目錄
序言
緻謝
作者簡介
概述1
第一部分 概念和定義
第1章 數據13
1.1 目的13
1.2 數據13
1.3 數據錶示14
1.4 數據事實20
1.5 數據作為産品20
1.6 數據作為分析的輸入21
1.7 數據和期望21
1.8 信息22
1.9 總結思考23
第2章 數據、人員和係統25
2.1 目的25
2.2 企業或組織25
2.3 IT與業務26
2.4 數據生産者27
2.5 數據消費者27
2.6 數據代理27
2.7 數據管傢和數據管傢工作28
2.8 數據所有者28
2.9 數據所有權和數據治理 29
2.10 IT,業務和數據所有者,終極版29
2.11 數據質量項目組30
2.12 利益相關者31
2.13 係統和係統設計31
2.14 總結思考32
第3章 數據管理、模型和元數據33
3.1 目的33
3.2 數據管理33
3.3 數據庫、數據倉庫、數據資産和數據集34
3.4 源係統、目標係統和記錄係統35
3.5 數據模型35
3.6 數據模型的類型36
3.7 數據的物理特徵37
3.8 元數據38
3.9 元數據是顯性知識40
3.10 數據鏈和信息生命周期41
3.11 數據譜係和數據齣處41
3.12 總結思考42
第4章 數據質量和測量43
4.1 目的43
4.2 數據質量43
4.3 數據質量維度44
4.4 測量45
4.5 測量數據46
4.6 數據質量測量和業務/IT鴻溝47
4.7 有效測量的特點 48
4.8 數據質量評估49
4.9 數據質量維度,DQAF測量類型,特定的數據質量指標50
4.10 數據剖析51
4.11 數據質量問題和數據管理問題52
4.12 閤理性檢查52
4.13 數據質量閾值52
4.14 過程控製54
4.15 聯機數據質量的測量和監控54
4.16 總結思考55
第二部分 DQAF的概念和測量類型
第5章 數據質量評估框架概念58
5.1 目的58
5.2 DQAF解決的問題58
5.3 數據質量期望和數據管理59
5.4 DQAF的範圍60
5.5 DQAF質量維度62
5.6 定義DQAF測量類型64
5.7 元數據的要求64
5.8 測量和評估分類的對象65
5.9 測量的功能:收集、計算、比較67
5.10 總結思考68
第6章 DQAF測量類型69
6.1 目的69
6.2 數據模型的一緻性69
6.3 保證正確接收用於處理的數據69
6.4 檢查接收到的數據的狀況70
6.5 評估數據處理的結果71
6.6 評估數據內容的有效性72
6.7 評估數據內容的一緻性 73
6.8 對放置聯機測量的注釋75
6.9 跨錶內容完整性定期測量76
6.10 評估整體數據庫內容77
6.11 評估控製和測量78
6.12 測量類型:綜閤清單78
6.13 總結思考82
第三部分 數據評估方案
第7章 初步數據評估86
7.1 目的86
7.2 初步評估87
7.3 初步評估的輸入87
7.4 數據預期87
7.5 數據剖析87
7.6 列屬性剖析 89
7.7 結構剖析92
7.8 剖析現有數據資産96
7.9 從剖析到評估96
7.10 初步評估的可交付成果96
7.11 總結思考97
第8章 數據質量改進項目評估98
8.1 目的98
8.2 數據質量改進工作98
8.3 改進項目中的測量98
第9章 持續測量101
9.1 目的101
9.2 適於持續測量的情況101
9.3 示例:醫療保健數據103
9.4 持續測量的輸入104
9.5 重要性和風險106
9.6 自動化106
9.7 控製106
9.8 定期測量 107
9.9 持續測量的交付成果108
9.10 聯機與定期測量的對比108
9.11 總結思考110
第四部分 將DQAF運用到數據需求中
第10章 需求、風險和重要性114
10.1 目的114
10.2 業務需求114
10.3 數據質量需求和期望的數據特徵116
10.4 數據質量需求和數據風險118
10.5 影響數據重要性的因素119
10.6 指定數據質量指標120
10.7 總結思考127
第11章 提問128
11.1 目的128
11.2 提問128
11.3 瞭解項目129
11.4 瞭解源係統130
11.5 數據消費者的需求132
11.6 數據的狀況133
11.7 數據模型、轉換規則和係統設計134
11.8 測量規範過程134
11.9 總結思考137
第五部分 數據質量戰略
第12章 數據質量戰略140
12.1 目的140
12.2 戰略的概念140
12.3 係統戰略、數據戰略和數據質量戰略141
12.4 數據質量戰略和數據治理142
12.5 信息生命周期中的決策點143
12.6 數據質量戰略一般注意事項144
12.7 總結思考145
第13章 數據質量戰略的指令146
13.1 目的146
13.2 指令1:獲得管理層對數據質量的承諾148
13.3 指令2:把數據作為資産149
13.4 指令3:應用資源來注重質量150
13.5 指令4:建立數據的顯性知識151
13.6 指令5:把數據作為可測量和改進的流程的一個産品152
13.7 指令6:認識到質量是由數據使用者定義的153
13.8 指令7:解決造成數據問題的根本原因154
13.9 指令8:測量數據質量,監控關鍵數據156
13.10 指令9:保持數據生産者對自己的數據質量(和有關該數據的知識)負責158
13.11 指令10:為數據使用者提供所需的數據使用知識158
13.12 指令11:數據需要和用途將演進—為演進作規劃159
13.13 指令12:數據質量超越瞭數據本身—構建注重質量的文化160
13.14 總結思考:使用現狀評估161
第六部分 DQAF詳解
第14章 測量功能:收集、計算、比較165
14.1 目的165
14.2 測量功能:收集、計算、比較165
14.3 收集原始測量數據166
14.4 計算測量數據167
14.5 將測量結果與過去的曆史結果比較168
14.6 統計168
14.7 控製圖:統計過程控製的主要手段172
14.8 DQAF和統計過程控製172
14.9 總結思考173
第15章 DQAF測量邏輯模型的功能174
15.1 目的174
15.2 指標定義錶和測量結果錶174
15.3 可選字段176
15.4 分母字段177
15.5 自動閾值 179
15.6 手動閾值180
15.7 緊急閾值180
15.8 手動或緊急閾值和結果錶181
15.9 其他係統需求181
15.10 支持需求181
15.11 總結思考181
第16章 DQAF測量類型的各方麵182
16.1 目的182
16.2 DQAF的各方麵183
16.3 本章的組織結構183
16.4 測量類型#1:數據集的完備性—元數據和參照數據的充分性185
16.5 測量類型#2:一個字段內的格式一緻性187
16.6 測量類型#3:跨錶的格式一緻性188
16.7 測量類型#4:一個字段內默認值使用的一緻性189
16.8 測量類型#5:跨錶的默認值使用的一緻性189
16.9 測量類型#6:用於處理的數據的交付及時性190
16.10 測量類型#7:數據集的完備性—對於處理的可用性192
16.11 測量類型#8:數據集的完備性—記錄數與控製記錄相比193
16.12 測量類型#9:數據集的完整性—匯總數額字段數據194
16.13 測量類型#10:數據集的完備性—將大小與過去的大小作比較195
16.14 測量類型#11:記錄的完備性—長度196
16.15 測量類型#12:字段的完備性—不可為空的字段197
16.16 測量類型#13:數據集的完整性—重復數據刪除198
16.17 測量類型#14:數據集的完整性—重復記錄的閤理性檢查199
16.18 測量類型#15:字段內容的完備性—來自數據源的默認值200
16.19 測量類型#16:基於日期標準的數據集的完備性202
16.20 測量類型#17:基於日期標準的數據集的閤理性203
16.21 測量類型#18:字段內容的完備性—接收到的數據丟失要處理的關鍵字段204
16.22 測量類型#19:數據集的完備性—經過一個流程的記錄數的平衡205
16.23 測量類型#20:數據集的完備性—拒絕記錄的理由206
16.24 測量類型#21:經過一個流程的數據集的完備性—輸入與輸齣的比率207
16.25 測量類型#22:經過一個流程的數據集的完備性—數額字段的平衡208
16.26 測量類型#23:字段內容的完備性—匯總的數額字段的比率209
16.27 測量類型#24:字段內容的完備性—推導的默認值211
16.28 測量類型#25:數據處理用時212
16.29 測量類型#26:供訪問的數據的及時可用性214
16.30 測量類型#27:有效性檢查,單字段,詳細結果215
16.31 測量類型#28:有效性檢查,捲積匯總218
16.32 測量類型#29:有效性檢查,錶內多列,詳細結果219
16.33 測量類型#30:一緻性列剖析221
16.34 測量類型#31:數據集內容的一緻性,所錶示的實體的不重復計數和記錄數比率223
16.35 測量類型#32:數據集內容的一緻性,兩個所錶示的實體的不重復計數的比率225
16.36 測量類型#33:一緻性多列剖析226
16.37 測量類型#34:錶內時序與業務規則的一緻性229
16.38 測量類型#35:用時(小時、天、月等)一緻性229
16.39 測量類型#36:數額字段跨二級字段計算結果的一緻性231
16.40 測量類型#37:按聚閤日期匯總的記錄數的一緻性233
16.41 測量類型#38:按聚閤日期匯總的數額字段數據的一緻性235
16.42 測量類型#39:父/子參照完整性236
16.43 測量類型#40:子/父參照完整性237
16.44 測量類型#41:有效性檢查,跨錶,詳細結果238
16.45 測量類型#42:跨錶多列剖析一緻性239
16.46 測量類型#43:跨錶的時序與業務規則的一緻性240
16.47 測量類型#44:跨錶數額列計算結果的一緻性241
16.48 測量類型#45:按聚閤日期匯總的跨錶數額列的一緻性241
16.49 測量類型#46:與外部基準比較的一緻性242
16.50 測量類型#47:數據集的完備性—針對特定目的的總體充分性243
16.51 測量類型#48:數據集的完備性—測量和控製的總體充分性244
16.52 總結思考:瞭解你的數據245
術語錶246
參考文獻255
前言/序言
數據質量測量的持續改進 下載 mobi epub pdf txt 電子書