数据挖掘与分析 概念与算法

数据挖掘与分析 概念与算法 pdf epub mobi txt 电子书 下载 2025

[美] 穆罕默德·扎基(Mohammed J.Zaki),[巴西] 小瓦格纳·梅拉(Wagner Meira Jr.) 著,吴诚堃 译
图书标签:
  • 数据挖掘
  • 数据分析
  • 机器学习
  • 算法
  • 统计学习
  • 模式识别
  • 商业智能
  • 数据科学
  • 人工智能
  • Python
想要找书就要到 静流书站
立刻按 ctrl+D收藏本页
你会得到大惊喜!!
出版社: 人民邮电出版社
ISBN:9787115458421
版次:1
商品编码:12179115
包装:平装
丛书名: 图灵计算机科学丛书
开本:16开
出版时间:2017-09-01
用纸:胶版纸
页数:505
正文语种:中文

具体描述

编辑推荐

● 数据挖据与分析的入门书,针对初学者阐述所有关键概念,包括探索性数据分析、频繁模式挖掘、聚类和分类。
● 兼顾前沿话题,例如核方法、高维数据分析、复杂图和网络等。
● 提供算法对应的开源实现方法。
● 每章均有丰富示例和练习,帮助读者理解和巩固相关主题。
● 配备丰富教辅资源,包括课程幻灯片、教学视频、数据集等,可从以下网址获取:http://www.dataminingbook.info/pmwiki.php/Main/BookResources。

内容简介

本书是专注于数据挖掘与分析的基本算法的入门图书,内容分为数据分析基础、频繁模式挖掘、聚类和分类四个部分,每一部分的各个章节兼顾基础知识和前沿话题,例如核方法、高维数据分析、复杂图和网络等。每一章最后均附有参考书目和习题。

作者简介

Mohammed J. Zaki,伦斯勒理工学院计算机科学系教授,ACM杰出科学家,IEEE会士,目前致力于研究新数据挖掘技术。曾获得谷歌教职研究奖等诸多奖项。

Wagner Meira Jr.,巴西米纳斯联邦大学计算机科学系教授,数据库专家。

吴诚堃,博士,2014年毕业于英国曼彻斯特大学,博士论文题为《应用大规模文本挖掘实现疾病分子机理重构》。现担任国防科技大学计算机学院助理研究员,从事高性能计算应用研究。

目录

第1章 数据挖掘与分析 1
1.1 数据矩阵 1
1.2 属性 2
1.3 数据的几何和代数描述 3
1.3.1 距离和角度 5
1.3.2 均值与总方差 8
1.3.3 正交投影 9
1.3.4 线性无关与维数 10
1.4 数据:概率观点 12
1.4.1 二元随机变量 17
1.4.2 多元随机变量 20
1.4.3 随机抽样和统计量 21
1.5 数据挖掘 22
1.5.1 探索性数据分析 23
1.5.2 频繁模式挖掘 24
1.5.3 聚类 24
1.5.4 分类 25
1.6 补充阅读 26
1.7 习题 26
第一部分 数据分析基础
第2章 数值属性 28
2.1 一元变量分析 28
2.1.1 数据居中度度量 29
2.1.2 数据离散度度量 32
2.2 二元变量分析 35
2.2.1 位置和离散度的度量 36
2.2.2 相关性度量 37
2.3 多元变量分析 40
2.4 数据规范化 44
2.5 正态分布 46
2.5.1 一元正态分布 46
2.5.2 多元正态分布 47
2.6 补充阅读 50
2.7 习题 51
第3章 类别型属性 53
3.1 一元分析 53
3.1.1 伯努利变量(Bernoulli variable) 53
3.1.2 多元伯努利变量 55
3.2 二元分析 61
3.3 多元分析 69
3.4 距离和角度 74
3.5 离散化 75
3.6 补充阅读 77
3.7 习题 78
第4章 图数据 79
4.1 图的概念 79
4.2 拓扑属性 83
4.3 中心度分析 86
4.3.1 基本中心度 86
4.3.2 Web中心度 88
4.4 图的模型 96
4.4.1 Erd s-Rényi随机图模型 98
4.4.2 Watts-Strogatz小世界图模型 101
4.4.3 Barabási-Albert无标度模型 104
4.5 补充阅读 111
4.6 习题 112
第5章 核方法 114
5.1 核矩阵 117
5.1.1 再生核映射 118
5.1.2 Mercer核映射 120
5.2 向量核 122
5.3 特征空间中的基本核操作 126
5.4 复杂对象的核 132
5.4.1 字符串的谱核 132
5.4.2 图节点的扩散核 133
5.5 补充阅读 137
5.6 习题 137
第6章 高维数据 139
6.1 高维对象 139
6.2 高维体积 141
6.3 超立方体的内接超球面 143
6.4 薄超球面壳的体积 144
6.5 超空间的对角线 145
6.6 多元正态的密度 146
6.7 附录:球面体积的推导 149
6.8 补充阅读 153
6.9 习题 153
第7章 降维 156
7.1 背景知识 156
7.2 主成分分析 160
7.2.1 最优线近似 160
7.2.2 最优二维近似 163
7.2.3 最优r维近似 167
7.2.4 主成分分析的几何意义 170
7.3 核主成分分析 172
7.4 奇异值分解 178
7.4.1 奇异值分解的几何意义 179
7.4.2 奇异值分解和主成分分析之间的联系 180
7.5 补充阅读 182
7.6 习题 182
第二部分 频繁模式挖掘
第8章 项集挖掘 186
8.1 频繁项集和关联规则 186
8.2 频繁项集挖掘算法 189
8.2.1 逐层的方法:Apriori算法 191
8.2.2 事务标识符集的交集方法:Eclat算法 193
8.2.3 频繁模式树方法:FPGrowth算法 197
8.3 生成关联规则 201
8.4 补充阅读 203
8.5 习题 203
第9章 项集概述 208
9.1 最大频繁项集和闭频繁项集 208
9.2 挖掘最大频繁项集:GenMax算法 211
9.3 挖掘闭频繁项集:Charm算法 213
9.4 非可导项集 215
9.5 补充阅读 220
9.6 习题 221
第10章 序列挖掘 223
10.1 频繁序列 223
10.2 挖掘频繁序列 224
10.2.1 逐层挖掘:GSP 225
10.2.2 垂直序列挖掘:Spade 226
10.2.3 基于投影的序列挖掘:PrefixSpan 228
10.3 基于后缀树的子串挖掘 230
10.3.1 后缀树 230
10.3.2 Ukkonen线性时间算法 233
10.4 补充阅读 238
10.5 习题 239
第11章 图模式挖掘 242
11.1 同形和支撑 242
11.2 候选生成 245
11.3 gSpan算法 249
11.3.1 扩展和支撑计算 250
11.3.2 权威性测试 255
11.4 补充阅读 256
11.5 习题 257
第12章 模式与规则评估 260
12.1 规则和模式评估的度量 260
12.1.1 规则评估度量 260
12.1.2 模式评估度量 268
12.1.3 比较多条规则和模式 270
12.2 显著性检验和置信区间 273
12.2.1 产生式规则的费希尔精确检验 273
12.2.2 显著性的置换检验 277
12.2.3 置信区间内的自助抽样 282
12.3 补充阅读 284
12.4 习题 285
第三部分 聚类
第13章 基于代表的聚类 288
13.1 K-means 算法 288
13.2 核K-means 292
13.3 期望最大聚类 295
13.3.1 一维中的EM 297
13.3.2 d维中的EM 300
13.3.3 极大似然估计 305
13.3.4 EM方法 309
13.4 补充阅读 311
13.5 习题 312
第14章 层次式聚类 315
14.1 预备知识 315
14.2 聚合型层次式聚类 317
14.2.1 簇间距离 317
14.2.2 更新距离矩阵 321
14.2.3 计算复杂度 322
14.3 补充阅读 322
14.4 习题 323
第15章 基于密度的聚类 325
15.1 DBSCAN 算法 325
15.2 核密度估计 328
15.2.1 一元密度估计 328
15.2.2 多元密度估计 331
15.2.3 最近邻密度估计 333
15.3 基于密度的聚类:DENCLUE 333
15.4 补充阅读 338
15.5 习题 339
第16章 谱聚类和图聚类 341
16.1 图和矩阵 341
16.2 基于图的割的聚类 347
16.2.1 聚类目标函数:比例割与归—割 349
16.2.2 谱聚类算法 351
16.2.3 最大化目标:平均割与模块度 354
16.3 马尔可夫聚类 360
16.4 补充阅读 366
16.5 习题 367
第17章 聚类的验证 368
17.1 外部验证度量 368
17.1.1 基于匹配的度量 369
17.1.2 基于熵的度量 372
17.1.3 成对度量 375
17.1.4 关联度量 378
17.2 内部度量 381
17.3 相对度量 388
17.3.1 分簇稳定性 394
17.3.2 聚类趋向性 396
17.4 补充阅读 400
17.5 习题 401
第四部分 分类
第18章 基于概率的分类 404
18.1 贝叶斯分类器 404
18.1.1 估计先验概率 404
18.1.2 估计似然 405
18.2 朴素贝叶斯分类器 409
18.3 K最近邻分类器 412
18.4 补充阅读 414
18.5 习题 415
第19章 决策树分类器 416
19.1 决策树 417
19.2 决策树算法 419
19.2.1 分割点评估度量 420
19.2.2 评估分割点 422
19.3 补充阅读 429
19.4 习题 429
第20章 线性判别分析 431
20.1 最优线性判别 431
20.2 核判别分析 437
20.3 补充阅读 443
20.4 习题 443
第21章 支持向量机 445
21.1 支持向量和间隔 445
21.2 SVM:线性可分的情况 450
21.3 软间隔SVM:线性不可分的情况 454
21.3.1 铰链误损 455
21.3.2 二次误损 458
21.4 核SVM:非线性情况 459
21.5 SVM训练算法 462
21.5.1 对偶解法:随机梯度上升 463
21.5.2 原始问题解:牛顿优化 467
21.6 补充阅读 473
21.7 习题 473
第22章 分类的评估 475
22.1 分类性能度量 475
22.1.1 基于列联表的度量 476
22.1.2 二值分类:正类和负类 479
22.1.3 ROC分析 482
22.2 分类器评估 487
22.2.1 K折交叉验证 487
22.2.2 自助抽样 488
22.2.3 置信区间 489
22.2.4 分类器比较:配对t检验 493
22.3 偏置-方差分解 495
22.4 补充阅读 503
22.5 习题 504
《数据挖掘与分析:概念与算法》 内容简介 在信息爆炸的时代,数据已成为企业和组织最宝贵的资产之一。从海量的原始数据中挖掘出有价值的洞察,并将其转化为可行的商业决策,是当今社会面临的重大挑战与机遇。《数据挖掘与分析:概念与算法》一书,旨在为读者提供一个全面而深入的视角,理解并掌握数据挖掘与分析的核心概念、关键技术以及实现方法。本书并非一本简单的技术手册,它更注重于构建读者对数据本质的理解,以及如何运用科学的方法论来解锁数据的潜在价值。 本书结构严谨,由浅入深,从最基础的数据概念出发,逐步过渡到复杂的算法模型。我们将首先探讨数据挖掘在不同领域的应用场景,例如市场营销中的客户细分、金融领域的欺诈检测、医疗健康中的疾病预测、以及电子商务中的推荐系统等,让读者领略数据驱动决策的强大力量。在此基础上,本书将深入剖析数据挖掘的几个核心阶段:数据准备(Data Preparation)、模型构建(Model Building)、模型评估(Model Evaluation)以及模型部署(Model Deployment)。 数据准备是整个数据挖掘流程中最耗时但至关重要的一环。本书将详细讲解如何进行数据清洗(Data Cleaning),包括处理缺失值(Missing Values)、异常值(Outliers)、噪声数据(Noisy Data)等。我们将学习如何进行数据集成(Data Integration),将来自不同源头的数据合并,确保数据的一致性和准确性。同时,数据转换(Data Transformation)也是关键,例如数据规范化(Data Normalization)、数据离散化(Data Discretization)、特征工程(Feature Engineering)等,这些技术能够有效提升后续模型的效果。读者将了解到如何通过维度约减(Dimensionality Reduction)技术,如主成分分析(PCA)和因子分析(Factor Analysis),来处理高维度数据,降低计算复杂度,并减少过拟合的风险。 在模型构建阶段,本书将系统介绍各种经典且实用的数据挖掘算法。我们将从分类(Classification)算法入手,深入讲解决策树(Decision Trees)、支持向量机(Support Vector Machines, SVM)、朴素贝叶斯(Naive Bayes)、逻辑回归(Logistic Regression)以及神经网络(Neural Networks)等。读者将理解这些算法的工作原理,它们的优缺点,以及在不同场景下的适用性。 对于回归(Regression)问题,本书将探讨线性回归(Linear Regression)、多项式回归(Polynomial Regression)以及岭回归(Ridge Regression)、Lasso回归(Lasso Regression)等正则化回归方法,帮助读者预测连续型变量。 聚类(Clustering)是无监督学习的重要分支,本书将详细介绍K-均值聚类(K-Means Clustering)、层次聚类(Hierarchical Clustering)、DBSCAN等算法,以及如何评估聚类结果的质量。这些技术能够帮助我们发现数据中隐藏的自然分组,为进一步分析提供基础。 此外,本书还将覆盖关联规则挖掘(Association Rule Mining),如Apriori算法和FP-Growth算法,用于发现数据项之间的有趣关联,例如“啤酒与尿布”的经典案例,这在市场篮子分析中具有重要应用。 异常检测(Anomaly Detection)也是本书的重要组成部分,我们将学习识别那些偏离正常模式的数据点,这对于网络安全、金融欺诈等领域至关重要。 在模型评估阶段,本书将强调客观、科学地衡量模型性能的重要性。对于分类模型,我们将学习混淆矩阵(Confusion Matrix)、准确率(Accuracy)、精确率(Precision)、召回率(Recall)、F1分数(F1-Score)以及ROC曲线(Receiver Operating Characteristic Curve)和AUC值(Area Under the Curve)等评估指标。对于回归模型,我们将使用均方误差(Mean Squared Error, MSE)、均方根误差(Root Mean Squared Error, RMSE)以及决定系数(R-squared)等。本书还将探讨交叉验证(Cross-Validation)等技术,以确保模型的泛化能力,避免过度拟合。 模型部署是数据挖掘价值实现的最后一步。本书将讨论如何将训练好的模型集成到实际业务流程中,如何进行模型的监控和更新,以确保持续发挥作用。 本书的特色在于其理论与实践的紧密结合。在讲解每一个概念和算法时,都力求用清晰的语言和直观的图示进行阐述,并辅以大量的实例分析。读者无需具备深厚的数学背景,但需要有基本的编程概念。书中将推荐一些常用的数据挖掘工具和编程语言(例如Python及其相关库如Pandas, NumPy, Scikit-learn, Matplotlib等),为读者提供实践的指引。 《数据挖掘与分析:概念与算法》不仅仅是一本教科书,它更希望成为读者在数据科学之旅中的一位可靠向导。通过阅读本书,您将能够: 理解数据挖掘的核心价值与流程: 掌握从数据收集到价值实现的完整链条。 掌握关键的数据预处理技术: 能够有效地清洗、转换和准备数据,为建模打下坚实基础。 深入理解各类主流数据挖掘算法: 了解它们的原理、适用场景和优缺点。 学会科学地评估模型性能: 能够客观地衡量模型的有效性,并做出明智的选择。 具备将数据挖掘技术应用于实际问题的能力: 能够将所学知识转化为解决实际业务挑战的工具。 无论您是希望进入数据科学领域的初学者,还是希望系统性梳理和深化数据挖掘知识的专业人士,本书都将为您提供宝贵的指导和启迪。通过掌握本书介绍的概念和算法,您将能够更有效地驾驭数据,从中提取洞察,驱动创新,并在日益激烈的竞争中取得优势。本书的目标是赋能读者,让他们能够自信地面对数据,将其转化为智慧,最终实现业务的增长和价值的最大化。

用户评价

评分

这本书的内容给我一种“循序渐进,深入浅出”的感觉。作者在介绍每一个算法时,都能够从最基础的定义开始,逐步深入到其核心思想和数学原理。我特别喜欢作者在举例说明时,倾向于使用贴近实际生活或商业场景的案例,这使得原本可能枯燥的理论变得生动有趣,也更容易被理解和记忆。例如,在介绍聚类算法时,书中提到的“客户细分”的例子,就让我立刻联想到了电商平台的营销策略,从而对K-Means、DBSCAN等算法的应用有了更深刻的认识。此外,我对书中关于模型评估和优化的部分非常感兴趣。我希望它能够详细阐述各种评估指标的意义和局限性,并提供一些实用的模型调优技巧,比如如何进行交叉验证、如何调整超参数等。我相信,通过这本书的学习,我不仅能够掌握数据挖掘的各种算法,更重要的是能够理解如何科学地评估和优化模型的性能,从而在实际应用中取得更好的效果。

评分

我注意到这本书在介绍算法时,非常注重实操性。虽然我还没有动手去实现其中的代码,但从章节的结构和内容的描述来看,它似乎为读者提供了一个清晰的学习路径,可以引导我们一步步地掌握数据挖掘的实现技巧。我对书中提及的“概念与算法”部分尤为关注,我期望它能提供一些具体的伪代码或者清晰的逻辑步骤,方便我们在实际项目中进行复现和调整。例如,在提及关联规则挖掘时,我希望能看到Apriori算法是如何一步步找出频繁项集和生成关联规则的详细流程,以及如何评估规则的有效性。同样,在分类和聚类算法部分,我也期待能够看到具体的实现思路,比如如何处理缺失值、如何选择合适的相似度度量方法等。我相信,通过这本书的学习,我能够将理论知识转化为实际操作能力,真正地运用数据挖掘技术解决现实世界的问题。

评分

这本书的语言风格我非常喜欢,它不像一些学术专著那样枯燥乏味,而是充满了启发性和引导性。作者在阐述每一个概念时,都巧妙地结合了实际的案例,让我能够更直观地理解抽象的理论。我尤其欣赏的是作者对不同算法的比较分析,他不仅仅是罗列算法的步骤,更重要的是深入剖析了每种算法的优缺点、适用场景以及背后的数学原理。我曾经在学习机器学习时,对某些算法的理解一直停留在“知其然,不知其所以然”的层面,这本书似乎能够填补我在这方面的知识空白。例如,在讲解决策树时,作者不仅介绍了ID3、C4.5等经典算法,还生动地描述了剪枝技术如何解决过拟合问题,以及如何通过随机森林和梯度提升等集成方法来进一步提升模型的鲁棒性。这种深入浅出的讲解方式,让我感觉自己仿佛置身于一个经验丰富的导师的课堂,每一次阅读都能获得新的启发和感悟。

评分

这本书的封面设计非常简洁大气,深邃的蓝色背景搭配银色的书名,给人一种科技感和专业感,非常吸引我。拿到书后,我迫不及待地翻开,第一印象就是纸张的质感很好,摸上去滑滑的,印刷清晰,排版也很舒服,阅读起来不会感到疲惫。虽然我还没有深入阅读,但仅仅是浏览目录和章节标题,就让我对接下来的学习充满了期待。我对数据挖掘和分析领域一直很感兴趣,但总觉得概念比较抽象,缺乏一个清晰的框架。这本书的目录结构似乎很合理,从基础概念到具体的算法,层层递进,循序渐进,这正是我所需要的。我希望这本书能够为我构建一个扎实的理论基础,帮助我理解数据挖掘的核心思想和应用场景。尤其是其中的“概念”部分,我非常期待它能将那些复杂的理论用通俗易懂的方式讲解清楚,让我不再对这些概念感到畏惧。总而言之,从外观到内容的初步感受,这本书给我留下了非常好的印象,我相信它会成为我数据挖掘学习路上的重要伙伴。

评分

这本书的知识体系构建得非常完整,从数据预处理到模型评估,几乎涵盖了数据挖掘的全过程。我尤其欣赏的是作者在讲解每一个环节时,都强调了其背后的原理和注意事项。比如,在数据清洗部分,我希望它能够详细介绍各种异常值检测和处理方法,以及如何评估数据质量。而在特征选择和降维部分,我期待能够看到PCA、LDA等降维技术在实际应用中的效果对比,以及如何在保证信息损失最小的前提下,有效地提取关键特征。更重要的是,我希望书中能够对不同算法的适用性进行详细的分析,比如在处理高维稀疏数据时,哪种算法更具优势,在处理连续型和离散型数据时,又该如何选择合适的模型。这种系统性的讲解,能够帮助我建立起一套完整的数据挖掘工作流程,并且能够根据具体问题的特点,灵活地选择和应用合适的工具和技术。

评分

印刷很好,装帧漂亮,开卷有益!

评分

还不错~~~~~~~~~~~

评分

不错

评分

好好好!!!!!!!!!!!!!

评分

东西很好,就是有点深,需要仔细研究,下次好会买

评分

强烈推荐,书里不错,质量不错,值得买来一看

评分

书籍不错,值得阅读!

评分

东西很好,质量不错,值得购买

评分

印刷很好,装帧漂亮,开卷有益!

本站所有内容均为互联网搜索引擎提供的公开搜索信息,本站不存储任何数据与内容,任何内容与数据均与本站无关,如有需要请联系相关搜索引擎包括但不限于百度google,bing,sogou

© 2025 book.coffeedeals.club All Rights Reserved. 静流书站 版权所有