| 数据挖掘与分析:概念与算法 | ||
| 定价 | 129.00 | |
| 出版社 | 人民邮电出版社 | |
| 版次 | 1 | |
| 出版时间 | 2017年8月 | |
| 开本 | ||
| 作者 | (美) 穆罕默德· 扎基 (Mohammed J. Zaki) | |
| 装帧 | 平装 | |
| 页数 | ||
| 字数 | ||
| ISBN编码 | 9787115458421 | |
| 重量 | ||
第1章 数据挖掘与分析 1
1.1 数据矩阵 1
1.2 属性 2
1.3 数据的几何和代数描述 3
1.3.1 距离和角度 5
1.3.2 均值与总方差 8
1.3.3 正交投影 9
1.3.4 线性无关与维数 10
1.4 数据:概率观点 12
1.4.1 二元随机变量 17
1.4.2 多元随机变量 20
1.4.3 随机抽样和统计量 21
1.5 数据挖掘 22
1.5.1 探索性数据分析 23
1.5.2 频繁模式挖掘 24
1.5.3 聚类 24
1.5.4 分类 25
1.6 补充阅读 26
1.7 习题 26
第壹部分 数据分析基础
第2章 数值属性 28
2.1 一元变量分析 28
2.1.1 数据居中度度量 29
2.1.2 数据离散度度量 32
2.2 二元变量分析 35
2.2.1 位置和离散度的度量 36
2.2.2 相关性度量 37
2.3 多元变量分析 40
2.4 数据规范化 44
2.5 正态分布 46
2.5.1 一元正态分布 46
2.5.2 多元正态分布 47
2.6 补充阅读 50
2.7 习题 51
第3章 类别型属性 53
3.1 一元分析 53
3.1.1 伯努利变量(Bernoulli variable) 53
3.1.2 多元伯努利变量 55
3.2 二元分析 61
3.3 多元分析 69
3.4 距离和角度 74
3.5 离散化 75
3.6 补充阅读 77
3.7 习题 78
第4章 图数据 79
4.1 图的概念 79
4.2 拓扑属性 83
4.3 中心度分析 86
4.3.1 基本中心度 86
4.3.2 Web中心度 88
4.4 图的模型 96
4.4.1 Erd?s-Rényi随机图模型 98
4.4.2 Watts-Strogatz小世界图模型 101
4.4.3 Barabási-Albert无标度模型 104
4.5 补充阅读 111
4.6 习题 112
第5章 核方法 114
5.1 核矩阵 117
5.1.1 再生核映射 118
5.1.2 Mercer核映射 120
5.2 向量核 122
5.3 特征空间中的基本核操作 126
5.4 复杂对象的核 132
5.4.1 字符串的谱核 132
5.4.2 图节点的扩散核 133
5.5 补充阅读 137
5.6 习题 137
第6章 高维数据 139
6.1 高维对象 139
6.2 高维体积 141
6.3 超立方体的内接超球面 143
6.4 薄超球面壳的体积 144
6.5 超空间的对角线 145
6.6 多元正态的密度 146
6.7 附录:球面体积的推导 149
6.8 补充阅读 153
6.9 习题 153
第7章 降维 156
7.1 背景知识 156
7.2 主成分分析 160
7.2.1 zui优线近似 160
7.2.2 zui优二维近似 163
7.2.3 zui优r维近似 167
7.2.4 主成分分析的几何意义 170
7.3 核主成分分析 172
7.4 奇异值分解 178
7.4.1 奇异值分解的几何意义 179
7.4.2 奇异值分解和主成分分析之间的联系 180
7.5 补充阅读 182
7.6 习题 182
第二部分 频繁模式挖掘
第8章 项集挖掘 186
8.1 频繁项集和关联规则 186
8.2 频繁项集挖掘算法 189
8.2.1 逐层的方法:Apriori算法 191
8.2.2 事务标识符集的交集方法:Eclat算法 193
8.2.3 频繁模式树方法:FPGrowth算法 197
8.3 生成关联规则 201
8.4 补充阅读 203
8.5 习题 203
第9章 项集概述 208
9.1 zui大频繁项集和闭频繁项集 208
9.2 挖掘zui大频繁项集:GenMax算法 211
9.3 挖掘闭频繁项集:Charm算法 213
9.4 非可导项集 215
9.5 补充阅读 220
9.6 习题 221
第10章 序列挖掘 223
10.1 频繁序列 223
10.2 挖掘频繁序列 224
10.2.1 逐层挖掘:GSP 225
10.2.2 垂直序列挖掘:Spade 226
10.2.3 基于投影的序列挖掘:PrefixSpan 228
10.3 基于后缀树的子串挖掘 230
10.3.1 后缀树 230
10.3.2 Ukkonen线性时间算法 233
10.4 补充阅读 238
10.5 习题 239
第11章 图模式挖掘 242
11.1 同形和支撑 242
11.2 候选生成 245
11.3 gSpan算法 249
11.3.1 扩展和支撑计算 250
11.3.2 权wei性测试 255
11.4 补充阅读 256
11.5 习题 257
第12章 模式与规则评估 260
12.1 规则和模式评估的度量 260
12.1.1 规则评估度量 260
12.1.2 模式评估度量 268
12.1.3 比较多条规则和模式 270
12.2 显著性检验和置信区间 273
12.2.1 产生式规则的费希尔精que检验 273
12.2.2 显著性的置换检验 277
12.2.3 置信区间内的自助抽样 282
12.3 补充阅读 284
12.4 习题 285
第三部分 聚类
第13章 基于代表的聚类 288
13.1 K-means 算法 288
13.2 核K-means 292
13.3 期望zui大聚类 295
13.3.1 一维中的EM 297
13.3.2 d维中的EM 300
13.3.3 极大似然估计 305
13.3.4 EM方法 309
13.4 补充阅读 311
13.5 习题 312
第14章 层次式聚类 315
14.1 预备知识 315
14.2 聚合型层次式聚类 317
14.2.1 簇间距离 317
14.2.2 更新距离矩阵 321
14.2.3 计算复杂度 322
14.3 补充阅读 322
14.4 习题 323
第15章 基于密度的聚类 325
15.1 DBSCAN 算法 325
15.2 核密度估计 328
15.2.1 一元密度估计 328
15.2.2 多元密度估计 331
15.2.3 zui近邻密度估计 333
15.3 基于密度的聚类:DENCLUE 333
15.4 补充阅读 338
15.5 习题 339
第16章 谱聚类和图聚类 341
16.1 图和矩阵 341
16.2 基于图的割的聚类 347
16.2.1 聚类目标函数:比例割与归—割 349
16.2.2 谱聚类算法 351
16.2.3 zui大化目标:平均割与模块度 354
16.3 马尔可夫聚类 360
16.4 补充阅读 366
16.5 习题 367
第17章 聚类的验证 368
17.1 外部验证度量 368
17.1.1 基于匹配的度量 369
17.1.2 基于熵的度量 372
17.1.3 成对度量 375
17.1.4 关联度量 378
17.2 内部度量 381
17.3 相对度量 388
17.3.1 分簇稳定性 394
17.3.2 聚类趋向性 396
17.4 补充阅读 400
17.5 习题 401
第四部分 分类
第18章 基于概率的分类 404
18.1 贝叶斯分类器 404
18.1.1 估计先验概率 404
18.1.2 估计似然 405
18.2 朴素贝叶斯分类器 409
18.3 Kzui近邻分类器 412
18.4 补充阅读 414
18.5 习题 415
第19章 决策树分类器 416
19.1 决策树 417
19.2 决策树算法 419
19.2.1 分割点评估度量 420
19.2.2 评估分割点 422
19.3 补充阅读 429
19.4 习题 429
第20章 线性判别分析 431
20.1 zui优线性判别 431
20.2 核判别分析 437
20.3 补充阅读 443
20.4 习题 443
第21章 支持向量机 445
21.1 支持向量和间隔 445
21.2 SVM:线性可分的情况 450
21.3 软间隔SVM:线性不可分的情况 454
21.3.1 铰链误损 455
21.3.2 二次误损 458
21.4 核SVM:非线性情况 459
21.5 SVM训练算法 462
21.5.1 对偶解法:随机梯度上升 463
21.5.2 原始问题解:牛顿优化 467
21.6 补充阅读 473
21.7 习题 473
第22章 分类的评估 475
22.1 分类性能度量 475
22.1.1 基于列联表的度量 476
22.1.2 二值分类:正类和负类 479
22.1.3 ROC分析 482
22.2 分类器评估 487
22.2.1 K折交叉验证 487
22.2.2 自助抽样 488
22.2.3 置信区间 489
22.2.4 分类器比较:配对t检验 493
22.3 偏置-方差分解 495
22.4 补充阅读 503
22.5 习题 504
本书是专注于数据挖掘与分析的入门图书,内容分为数据分析基础、频繁模式挖掘、聚类和分类四个部分,
每一部分的各个章节兼顾基础知识和前沿话题,例如核方法、高维数据分析、复杂图和网络等。每一章zui后
均附有参考书目和习题。
本书适合高等院校相关专业的学生和教师阅读,也适合从事数据挖掘与分析相关工作的人员学习参考
这本《数据挖掘与分析》给我最大的感受就是它的“融会贯通”能力。它不像我之前读过的一些书籍,要么是纯粹的算法介绍,要么是偏重某一门学科。这本书很聪明地将数据挖掘、机器学习、统计学以及一些必要的计算机科学基础知识有机地结合在了一起。举个例子,在讲解异常检测时,作者不仅介绍了基于统计的方法(如Z-score、IQR),还穿插了基于机器学习的方法(如孤立森林、One-Class SVM),并且详细解释了这些方法在概念上的联系和区别,以及它们各自的优缺点。这种跨学科的视角让我受益匪浅,我能够从不同的角度去理解同一个问题。书中还对一些基础的数学概念,如概率论、线性代数等进行了必要的回顾和阐述,这对于那些像我一样,可能已经遗忘部分数学知识的读者来说,是非常贴心的。虽然有时会觉得内容有点“跳跃”,但仔细阅读后,你会发现作者的逻辑非常清晰,每一部分知识的引入都有其必然性。这本书让我明白了,数据挖掘并非孤立存在,而是建立在坚实的理论基础之上,并且需要与其他学科的知识相互支撑。
评分我拿到这本书时,主要的目标是想提升自己在实际工作中使用数据分析解决问题的能力。我一直觉得理论知识固然重要,但更关键的是如何将这些理论转化为可操作的步骤。这本书在这一点上做得可圈可点。它并非只是罗列算法和概念,而是将大量的案例研究贯穿其中,从数据预处理、特征工程,到模型选择、结果评估,每一步都配有详实的说明和代码示例。我尤其喜欢书中关于“特征工程”部分的讲解,作者列举了非常多实用的技巧,比如如何处理缺失值、如何进行特征编码,甚至是如何通过领域知识来创造新的特征。这些内容在其他很多数据挖掘的书籍中都很少提及,或者只是简单带过。这本书让我意识到,好的特征工程往往比复杂的模型更能提升分析效果。此外,书里在讲解模型评估时,也提供了很多不同于简单准确率的度量方法,比如F1-score、AUC等,并解释了它们各自的适用场景,这对我理解模型的好坏有了更深的层次。虽然有些案例的代码我还需要调试才能运行,但整体而言,这本书极大地丰富了我解决实际数据问题的工具箱,让我更有信心去面对复杂的数据挑战。
评分购买这本书,很大程度上是受到了“融合机器学习、统计学等相关学科知识”这句话的吸引。我对数据挖掘的兴趣,正是源于它能够从海量数据中提取有价值的信息,而机器学习和统计学无疑是实现这一目标的两大基石。这本书在内容组织上,非常注重这种融合。我印象比较深的是,在讲到回归分析时,作者不仅介绍了传统的线性回归,还详细阐述了岭回归、Lasso回归等正则化方法,并将这些与机器学习中的过拟合问题紧密联系起来,让我明白了正则化为何能够有效防止过拟合。书中还引入了许多统计学的概念,比如概率分布、参数估计、置信区间等,并且将这些统计学概念融入到数据挖掘的实际应用中,让我看到统计学在数据分析中的重要作用。对我而言,这本书最大的价值在于它打破了学科壁垒,将看似独立的知识点串联起来,形成了一个完整的知识体系。通过阅读这本书,我不仅学习了数据挖掘的各种技术,更重要的是,我理解了这些技术背后的学科原理,以及它们是如何协同工作的。这让我对数据分析的理解更加全面和深刻。
评分我最初购买这本书,主要是出于对其“概念与算法”并重的承诺。我一直认为,对算法的深刻理解,必须建立在对其背后概念的透彻把握之上。这本书在这方面做得相当不错。它在介绍每一个算法时,都会先从其核心思想、解决了什么问题入手,然后逐步深入到数学原理和实现细节。比如,在讲解决策树时,作者并没有直接给出ID3或C4.5的伪代码,而是先详细解释了信息增益、增益率这些概念是如何指导树的构建的,以及它们各自的局限性。这种循序渐进的讲解方式,让我能够真正理解算法的设计逻辑,而不是简单地记住公式。书中还对一些容易混淆的概念进行了清晰的区分,比如分类与回归的区别,聚类与分类的区别等,并且给出了具体的例子来说明。此外,对于一些常用算法的优缺点、适用场景,作者也进行了详细的分析,这对于我们在实际应用中选择合适的算法非常有帮助。虽然有些章节的技术细节可能需要反复阅读,但总体来说,这本书在概念的清晰度和算法的深入讲解上,都达到了我的预期,让我对数据挖掘的各个环节有了更扎实的认识。
评分这本书我看了有一阵子了,本来是想找一本比较“接地气”的数据挖掘入门书,结果发现内容比我想象的要深奥不少。比如,在讲聚类算法的时候,作者并没有停留在K-Means这种基础模型,而是深入到DBSCAN、层次聚类等更复杂的变体,并且详细解释了它们背后的数学原理,像是距离度量、簇的定义等等。光是理解这些就花了我不少时间和精力。而且,书里还穿插了不少统计学方面的知识,比如假设检验、方差分析,这对我这个统计学基础比较薄弱的人来说,简直是在挑战极限。不过,也正是因为这样,我感觉学到的东西特别扎实,不再是那种“知其然不知其所以然”的学习。书里还提到了不少机器学习的算法,虽然不是机器学习的专著,但把它们巧妙地融入到数据挖掘的流程中,让我对如何选择和应用这些算法有了更清晰的认识。总的来说,这本书适合那些有一定编程基础,并且愿意深入钻研数据挖掘背后的理论和数学原理的读者。如果你是想速成,或者只想了解一些表面的技巧,这本书可能就不是你的首选了。我个人觉得,虽然啃起来比较费劲,但每一页都充满了干货,值得反复琢磨。
本站所有内容均为互联网搜索引擎提供的公开搜索信息,本站不存储任何数据与内容,任何内容与数据均与本站无关,如有需要请联系相关搜索引擎包括但不限于百度,google,bing,sogou 等
© 2025 book.coffeedeals.club All Rights Reserved. 静流书站 版权所有