内容简介
《数据质量导论》结合国内信息环境特点,系统分析了数据质量以及数据全生命周期质量管理的内涵,构建了数据质量研究和数据清洗系统框架,并引入了数据质量管理的并行发展模式;深入研究了实体分辨、不完整数据、不一致数据三类实例层数据质量问题的数据清洗技术,提出了若干数据清洗技术方法;归纳了数据质量工具的发展概况,提出了两种数据质量工具设计方法;总结提出了大数据质量面临的十大挑战,构建了适用于国内信息环境特点的数据治理系统框架。
《数据质量导论》内容由浅入深,系统性强,易读性和可操作性强,既可作为数据质量领域的入门和进阶用书,又可作为数据资源建设与利用、信息技术等相关学科的教学参考用书。
作者简介
曹建军,副研究员,硕士生导师,全国优秀博士学位论文提名奖、中国博士后科学基金特别资助获得者,主要从事数据质量控制与数据治理等方面的研究工作。2008年组建信息质量研究组(Information Quality Research Group.IORG),结合国内信息环境特点系统开展相关研究与实践。先后主持省部级重点项目7项,获省部级奖励4项,授权发明专利4项,注册软件著作权2项,出版专译著4部,发表学术论文80余篇。
刁兴春,研究员,博士生导师,享受国务院特殊津贴专家,长期从事数据资源管理与分析等方面的研究工作。信息质量研究组的共同发起人。先后主持多项重大科研项目,获省部级科技进步奖10余项和发明专利6项,出版数据质量方面译著3部,在国内外重要会议和期刊上发表学术论文90余篇。
内页插图
目录
第1章 绪论
1.1 引言
1.2 数据工程建设概述
1.2.1 数据处理与应用的发展简况
1.2.2 信息系统建设中的数据工程
1.2.3 我国数据工程建设面临的问题
1.3 数据质量概述
1.3.1 数据质量的含义
1.3.2 数据全生命周期质量管理
1.3.3 数据质量问题的来源
1.3.4 数据质量研究发展简况
1.4 本书内容结构安排
参考文献
第2章 数据质量研究和数据清洗系统框架
2.1 引言
2.2 数据质量研究框架
2.2.1 典型的数据质量框架
2.2.2 数据质量的研究主题
2.2.3 数据质量的研究方法
2.3 对数据质量管理的思考
2.3.1 数据质量管理的发展模式
2.3.2 数据质量管理问题剖析
2.4 典型数据质量控制的框架
2.4.1 层次结构数据质量控制框架
2.4.2 层次结构数据质量控制所涉及的关键问题
2.4.3 数据清洗技术简介
2.4.4 数据清洗的概念辨析.
2.4.5 数据清洗的一般性系统框架
2.5 本章小结
参考文献
第3章 典型数据清洗技术的发展动态
3.1 引言
3.2 实体分辨技术的发展动态
3.2.1 数据分块算法
3.2.2 记录比较算法
3.2.3 匹配决策模型
3.2.4 基于关系的实体分辨
3.2.5 实体分辨中的训练和测试数据集
3.2.6 实体分辨面临的挑战
3.3 不完整数据清洗技术的发展动态
3.3.1 数据完整性及其评价方法
3.3.2 不完整数据的分类
3.3.3 不完整数据清洗技术
3.4 一致数据清洗技术的发展动态
3.4.1 针对一致性的数据依赖理论
3.4.2 典型数据依赖(规则)挖掘方法
3.4.3 基于数据依赖的数据一致性保证
3.5 本章小结
参考文献
第4章 实体分辨中的数据分块方法
4.1 引言
4.2 基于冗余的数据分块
4.3 基于倒排索引消除冗余记录对
4.3.1 数据块排序索引
4.3.2 记录倒排索引
4.3.3 冗余记录对识别
4.3.4 实验分析
4.4 基于空间映射的数据块约减
4.4.1 数据块映射
4.4.2 数据块约减
4.4.3 实验分析
4.5 基于Canopy聚类的数据分块
4.5.1 整体流程
4.5.2 ID指定
4.5.3 BK生成
4.5.4 Canopy聚类
4.5.5 候选对象获取
4.5.6 复杂性分析
4.5.7 实验分析
4.6 本章小结
参考文献
第5章 实体分辨中的相似度计算方法
5.1 引言
5.2 基于多编辑距离融合的相似度计算
5.2.1 相似特征定义及其标准化
5.2.2 编辑距离
5.2.3 中西文混合字符串的编辑距离
5.2.4 多编辑距离字符串相似度融合
5.2.5 实验分析
5.3 属性相似度与函数依赖的关系
5.4 基于函数依赖的属性相似度调整
5.4.1 属性相似度划分
5.4.2 属性相似度调整
5.4.3 算法描述
5.4.4 实验分析
5.5 本章小结
参考文献
第6章 基于关系的实体分辨
6.1 引言
6.2 基于云模型的实体分辨记录对划分
6.2.1 云模型简介
6.2.2 记录相似度的分布
6.2.3 记录相似度的云模型表示
6.2.4 划分方法
6.2.5 结果分析
6.3 基于邻域粗糙集的实体分辨记录对划分
6.3.1 邻域粗糙集
6.3.2 基于邻域粗糙集的记录对划分
6.3.3 实验分析
6.4 基于关系类型的自适应实体分辨
6.4.1 路径权重
6.4.2 路径概率
6.4.3 连接强度
6.4.4 自适应关系类型权重学习
6.4.5 实验分析
6.5 本章小结
参考文献
第7章 不完整数据的分类与检测
7.1 引言
7.2 基于位运算的不完整数据分类与检测
7.2.1 不完整数据及其分类
7.2.2 记录的二进制表示
7.2.3 不完整记录的位运算分类检测方法
7.2.4 应用实例
7.3 基于统计关系的不完整数据分类
7.3.1 数据缺失模式分类
7.3.2 数据缺失机制分类
7.4 本章小结
参考文献
第8章 不完整数据的估计与填充
8.1 引言
8.2 基于统计关系学习的缺失数据估计与填充
8.2.1 统计关系学习概述
8.2.2 基于马尔可夫模型的缺失值估计方法
8.2.3 基于关系马尔可夫模型的缺失值估计
8.3 基于机器学习的缺失数据估计与填充
8.3.1 基于后一近邻的填补算法
8.3.2 局部敏感哈希技术
8.3.3 LSH-KNN数据填补算法
8.3.4 实验验证
8.4 函数依赖一致性数据生成
8.4.1 函数依赖一致性
8.4.2 单函数依赖一致性数据生成算法
8.4.3 基于有向无环图的多函数依赖一致性数据生成
8.4.4 属性集划分和数据生成流水线
8.5 本章小结
参考文献
第9章 条件函数依赖挖掘及其优化方法
9.1 引言
9.2 条件函数依赖挖掘及其常用算法
9.2.1 条件函数依赖及其挖掘问题
9.2.2 函数依赖挖掘
9.2.3 CTANE算法
9.2.4 CFDMiner算法
9.3 基于开项集剪枝的常量条件函数依赖挖掘算法
9.3.1 剪枝与优化策略
9.3.2 优化前后复杂度对比
9.3.3 实验验证与结果分析
9.4 本章小结
参考文献
第10章 基于规则的不一致数据检测与修复方法
10.1 引言
10.2 基于Fellegi一Holt方法的不一致数据检测
10.2.1 Fellegi-Holt方法
10.2.2 检测流程及策略
10.2.3 实验及分析
10.3 基于:Evidence-Rules模型的不一致数据修复
10.3.1 确定问题记录中待修改属性集
10.3.2 基于函数依赖规则的属性值修复
10.3.3 Evidence-Rules模型与问题数据修复
10.3.4 实验及分析
10.4 本章小结
参考文献
第11章 数据质量工具
11.1 引言
11.2 数据质量工具发展概况
11.2.1 Gartner分析报告
11.2.2 数据质量管理工具分析
11.3 基于表达式树的数据质量工具设计
11.3.1 数据质量规则的分类与表达
11.3.2 数据质量规则的存储与识别
11.4 基于流程的数据质量工具设计
11.4.1 数据模型
11.4.2 作业模型
11.4.3 执行方案模型
11.5 本章小结
参考文献
第12章 大数据与大数据质量问题
12.1 引言
12.2 大数据时代的特征
12.2.1 大数据的含义
12.2.2 大数据的特征
12.2.3 进入大数据时代的必要条件
12.2.4 大数据时代的革命性转变
12.2.5 大数据时代的核心任务
12.3 大数据质量面临的挑战
12.3.1 数据安全问题
12.3.2 大数据的偏见和盲区
12.3.3 非结构化数据的质量控制
12.3.4 结构化数据内缺少结构性
12.3.5 分布式数据清洗
12.3.6 数据化程度不够
12.3.7 数据稀缺
12.3.8 数据冗余
12.3.9 数据对实际需求的适用性
12.3.1 0人为选择导致的信息失真.
12.4 数据治理
12.4.1 数据治理的出发点
12.4.2 数据治理的一般流程
12.4.3 数据治理的系统框架
12.5 本章小结
参考文献
基金资助目录
前言/序言
大数据战略进展如火如荼,数据质量问题日益突显。好产品的典型特征是具有较好的自身守恒能力,能够稳定保持用户期望的产品使用价值,较之其他有形声品或软件产品,数据产品的这种能力恰恰较差。同时,数据的价值主要体现在7iiK通”,而非“存储”,所以,数据质量问题较传统产品质量面临更多挑战。
信息质量研究组(Infonnation Quality Reaearch Group,IQRG)成立于2008年,以结合我国信息环境特点系统开展数据质量研究与实践为己任,随着相关工作的深入推进,对国内数据现状及特点的认识也逐渐清晰。
信息质量研究组成立以来,我们陆续出版了译著《数据质量工程实践》、《信息质量)和《数据质量改进实践指南》,后两者受到了装备科技译著出版基金的资助。“御数坊”在介绍第20届企业数据世界(Enterprise Data Wodd)大会(加利福尼亚州圣迭戈.2016年4月17-22日)时,向关注数据质量的同学推荐了《数据质量工程实践》。三本译著在国内普及数据质量理论与实践体系、提升数据质量认识层次上发挥了积极作用。为了有计划地推出研究成果,立足我国信息环境特点逐步构建数据治理与应用理论技术体系,2016年上半年,受国防工业出版社之邀,信息质量研究组启动了“大数据治理与应用丛书”出版工作,译著《数据质量改进实践指南)是丛书开卷,本书是此丛书的第二个成员。
本书共分12章。第1章至第3章是本书的总述部分。第1章为绪论,引出数据质量问题,介绍了数据质量以及数据全生命周期质量管理的含义,分析了数据质量问题的来源并归纳其研究发展简况;第2章分析构建了数据质量研究和数据清洗系统框架,引入了数据质量管理的并行发展模式,构建了数据质量控制层次框架,分析了其实现所涉及的关键问题,在进一步辨析数据清洗概念的基础上,构建了数据清洗的一般性系统框架;第3章综述了典型数据清洗技术的发展动态,系统归纳了实体分辨、不完整数据、不一致数据三类实例层数据质量问题的数据清洗技术发展动态。第4章至第10章是以上三类数据清洗技术的研究成果。第4章研究了实体分辨中的数据分块问题,第5章研究了实体分辨中的相似度算法,第6章研究了基于关系的实体分辨;第7章研究了不完整数据的分类与检测,第8章研究了不完整数据的估计与填充;第9章研究了条件函数依赖挖掘及其优化方法,第10章研究了基于规则的不一致数据检测与修复方法。第11章研究了数据质量工具的发展概况及设计方法,分别研究了基于表达式树的数据质量工具设计和基于流程的数据质量工具设计方法。第12章研究了大数据与大数据质量问题,归纳了大数据时代的特征,总结提出了大数据质量面临的十大挑战,构建了适用于我国信息环境特点的数据治理系统框架。
本书由曹建军、刁兴春全面筹划,并负责了第1章至第3章、第12章的研究撰写工作,指导参与了其他各章的研究撰写;谭明超、周星负责了第4章至第6章的研究撰写;郑奇斌、谭明超负责了第7章的研究撰写;郑奇斌、谭明超、陈爽负责了第8章的研究撰写;周金陵负责了第9章的研究撰写;高科负责了第10章的研究撰写;江春、翁年风、高科负责了第11章的研究撰写。许永平参与了第9章、第10章的编辑整理,刘艺、冯钦参与了部分章节的编辑整理。江春、彭琮负责了全书的文字编辑润色;尚玉玲、刘艺、李红梅、张磊、冯钦负责了全书的规范性审核与修改工作。
感谢两位国际著名数据质量领域专家David Loahin、Danette McGilvray为本书拨冗作序,感谢二位对信息质量研究组相关工作的支持与肯定。
本书是作者在数据质量领域研究成果的梳理小结,试图传递三个信息:一是国内数据质量领域的发展模式要紧贴国内信息环境特点与数据应用实际;二是数据质量控制技术研究要紧贴国际前沿;三是数据质量管理实践既要重视具体的数据质量工具又要重视体系化的数据治理平台。通过阅读本书,甚望读者能够在概念层面对数据质量有全面客观的认识,在技术层面能够管中窥豹,在实践层面获得可用参考。
本书可作为数据资源建设与利用、信息技术等领域科研和工程技术人员进行数据质量研究与实践的入门指导及工程参考用书。
在本书内容的研究整理过程中,广泛参考了国内外相关成果,并与多家兄弟科研团队及专家同仁进行有益的经常化交流研讨,在此一并致以诚挚的谢意。
受水平所限,书中若有错误和不妥之处,恳请广大读者批评指正,并欢迎与作者直接交流。
作者
2016年10月
数据质量导论 [Introdnction to Data quality] 电子书 下载 mobi epub pdf txt