涵盖100多种数据分析和构建预测模型的实用方法,并提供简单易实现的R源码
用R进行数据分析已经成为各种机构的关注焦点。R让没有深厚的数学背景、仅对基本概念有一点直观理解的人们可以相当有效和仔细地考察他们的数据。
本书通过展示各种使用R来生成专业分析报告的方法来使你更上一层楼。它提供了各类数据分析和机器学习示例,并且准备好了所需的数据供读者立即尝试。同时书中详细讲解了如何快速调整示例代码来适应自己的需求,这将大大节约从零开始构建代码所需要的时间。
通过阅读本书,你将学到:
将数据导入R环境并为分析做好准备工作
执行探索性数据分析并生成有意义的数据可视化结果
应用一些机器学习技术来分类或者回归
借助数据归约技术来处理大型数据集
从时间序列数据中抽取特征并基于它预测未来
如何从社交网络数据中抽取出可行信息
实施地理空间分析
通过报告来呈现令人信服的分析结论,并建立一个架构让他人也能与数据交互
现在,越来越多的人开始接触并考虑引入大数据技术来促进公司产品的销售以获得更多利润,而机器学习已经成为除统计以外一种新的分析方法,采用学习算法既能提高数据模型的预测精准度,又确保了对商务活动及其发展过程的预测能够脱离人脑计算能力的局限,使面向大数据的分析处理在依托计算机大规模计算能力下得以完成。
本书由资深数据科学家亲笔撰写,借助当前机器学习和数据分析领域*常用的工具R语言,深入浅出地介绍了采用R语言进行数据分析及构建预测模型的100多种实用方法,包括分类、回归、聚类、关联分析等常用机器学习算法的实现,每一个算法都通过具体案例详细说明构建模型、实现模型以及评价模型的过程。而且书中还系统讲解了相关的R语言基础知识,包括环境准备以及数据转换、分析和结果可视化的方法。此外,还详细展示了使用RHadoop处理和分析海量数据的过程。
本书融合了作者在实践机器学习算法来完成数据分析方面的诸多心得,并且书中所有源代码和实验数据在配套的网站上都可以免费下载,相信阅读完本书并亲自动手完成书中所有算法案例后,你将对机器学习和R语言都有更深入的了解,设计学习算法来发现隐藏在数据中有价值的模式也不再是遥不可及的目标。
本书共11章。第1章介绍如何创建一个可用的R环境和基本的R命令;第2章讲述如何使用R语言进行探索性数据分析;第3章重点探讨数据采样和概率分布的概念;第4章探讨因变量和解释变量集合之间的线性关系;第5章介绍基于树的分类器:K近邻分类器、逻辑回归分类器以及朴素贝叶斯分类器;第6章神经网络和支持向量机;第7章展示一些模型评估的方法;第8章探讨集成分类器;第9章讲述多种聚类算法;第10章介绍关联分析和序列挖掘;第11章介绍如何从原始变量中选择和抽取特征;第12章讨论大数据分析(R和Hadoop)。
丘祐玮(Yu-Wei Chiu)
Largit Data公司创始人,资深数据科学家,之前曾就职于Trend Micro公司,主要负责为商务智能及客户关系管理系统构建大型数据处理平台。他专注于在数据分析中使用Spark和Hadoop技术来实现海量数据挖掘。同时,他还是一位资深讲师,在各类Python、 R、 Hadoop及相关会议上多次分享技术报告。
译者序
前言
作者简介
审校者简介
第1章 基于R实践机器学习 1
1.1 简介 1
1.2 下载和安装R 3
1.3 下载和安装RStudio 10
1.4 包的安装和加载 13
1.5 数据读写 15
1.6 使用R实现数据操作 18
1.7 应用简单统计 22
1.8 数据可视化 25
1.9 获取用于机器学习的数据集 28
第2章 挖掘RMS Titanic数据集 32
2.1 简介 32
2.2 从CSV文件中读取Titanic数据集 33
2.3 根据数据类型进行转换 36
2.4 检测缺失值 38
2.5 插补缺失值 40
2.6 识别和可视化数据 43
2.7 基于决策树预测获救乘客 50
2.8 基于混淆矩阵验证预测结果的准确性 53
2.9 使用ROC曲线评估性能 55
第3章 R和统计 58
3.1 简介 58
3.2 理解R中的数据采样 59
3.3 在R中控制概率分布 59
3.4 在R中进行一元描述统计 64
3.5 在R中进行多元相关分析 67
3.6 进行多元线性回归分析 69
3.7 执行二项分布检验 71
3.8 执行t检验 73
3.9 执行Kolmogorov-Smirnov检验 76
3.10 理解Wilcoxon秩和检验及Wilcoxon符号秩检验 78
3.11 实施皮尔森卡方检验 80
3.12 进行单因素方差分析 82
3.13 进行双因素方差分析 85
第4章 理解回归分析 90
4.1 简介 90
4.2 调用lm函数构建线性回归模型 90
4.3 输出线性模型的特征信息 93
4.4 使用线性回归模型预测未知值 94
4.5 生成模型的诊断图 96
4.6 利用lm函数生成多项式回归模型 98
4.7 调用rlm函数生成稳健线性回归模型 99
4.8 在SLID数据集上研究线性回归案例 101
4.9 基于高斯模型的广义线性回归 107
4.10 基于泊松模型的广义线性回归 109
4.11 基于二项模型的广义线性回归 111
4.12 利用广义加性模型处理数据 112
4.13 可视化广义加性模型 114
4.14 诊断广义加性模型 116
第5章 分类I——树、延迟和概率 119
5.1 简介 119
5.2 准备训练和测试数据集 119
5.3 使用递归分割树建立分类模型 121
5.4 递归分割树可视化 124
5.5 评测递归分割树的预测能力 126
5.6 递归分割树剪枝 128
5.7 使用条件推理树建立分类模型 130
5.8 条件推理树可视化 131
5.9 评测条件推理树的预测能力 132
5.10 使用k近邻分类算法 134
5.11 使用逻辑回归分类算法 137
5.12 使用朴素贝叶斯分类算法 142
第6章 分类II—神经网络和SVM 146
6.1 简介 146
6.2 使用支持向量机完成数据分类 147
6.3 选择支持向量机的惩罚因子 149
6.4 实现SVM模型的可视化 152
6.5 基于支持向量机训练模型实现类预测 154
6.6 调整支持向量机 157
6.7 利用neuralnet包训练神经网络模型 161
6.8 可视化由neuralnet包得到的神经网络模型 164
6.9 基于neuralnet包得到的模型实现类标号预测 166
6.10 利用nnet包训练神经网络模型 168
6.11 基于nnet包得到的模型实现类标号预测 170
第7章 模型评估 173
7.1 简介 173
7.2 基于k折交叉验证方法评测模型性能 173
7.3 利用e1071包完成交叉验证 175
7.4 利用caret包完成交叉检验 176
7.5 利用caret包对变量重要程度排序 177
7.6 利用rminer包对变量重要程度排序 180
7.7 利用caret包找到高度关联的特征 181
7.8 利用caret包选择特征 182
7.9 评测回归模型的性能 187
7.10 利用混淆矩阵评测模型的预测能力 189
7.11 利用ROCR评测模型的预测能力 191
7.12 利用caret包比较ROC曲线 193
7.13 利用caret包比较模型性能差异 196
第8章 集成学习 199
8.1 简介 199
8.2 使用bagging方法对数据分类 200
8.3 基于bagging方法进行交叉验证 203
8.4 使用boosting方法对数据分类 204
8.5 基于boosting方法进行交叉验证 207
8.6 使用gradient boosting方法对数据分类 208
8.7 计算分类器边缘 213
8.8 计算集成分类算法的误差演变 216
8.9 使用随机森林方法对数据分类 218
8.10 估算不同分类器的预测误差 223
第9章 聚类 226
9.1 简介 226
9.2 使用层次聚类处理数据 227
9.3 将树分成簇 231
9.4 使用k均值方法处理数据 234
9.5 绘制二元聚类图 237
9.6 聚类算法比较 239
9.7 从簇中抽取轮廓信息 241
9.8 获得优化的k均值聚类 242
9.9 使用密度聚类方法处理数据 244
9.10 使用基于模型的聚类方法处理数据 248
9.11 相异度矩阵的可视化 251
9.12 使用外部验证评估聚类效果 253
第10章 关联分析和序列挖掘 256
10.1 简介 256
10.2 将数据转换成事务数据 257
10.3 展示事务及关联 258
10.4 使用Apriori规则完成关联挖掘 261
10.5 去掉冗余规则 266
10.6 关联规则的可视化 267
10.7 使用Eclat挖掘频繁项集 270
10.8 生成时态事务数据 273
10.9 使用cSPADE挖掘频繁时序模式 276
第11章 降维 279
11.1 简介 279
11.2 使用FSelector完成特征筛选 280
11.3 使用PCA进行降维 283
11.4 使用scree测试确定主成分数 287
11.5 使用Kaiser方法确定主成分数 289
11.6 使用主成分分析散点图可视化多元变量 290
11.7 使用MDS进行降维 293
11.8 使用SVD进行降维 297
11.9 使用SVD进行图像压缩 299
11.10 使用ISOMAP进行非线性降维 302
11.11 使用局部线性嵌入法进行非线性降维 306
第12章 大数据分析(R和Hadoop) 310
12.1 简介 310
12.2 准备RHadoop环境 311
12.3 安装rmr2 314
12.4 安装rhdfs 315
12.5 在rhdfs中操作HDFS 316
12.6 在RHadoop中解决单词计数问题 318
12.7 比较R MapReduce程序和标准R程序的性能差别 320
12.8 测试和调试rmr2程序 321
12.9 安装plyrmr 323
12.10 使用plyrmr处理数据 324
12.11 在RHadoop中实施机器学习 327
12.12 在Amazon EMR环境中配置RHadoop机群 330
附录A R和机器学习的资源 335
附录B Titanic幸存者的数据集 337
如今,大数据在诸多领域已经成为一个时髦的热门词汇,越来越多的人开始接触并考虑引入这一技术以促进公司产品的销售获得更多利润。然而,数据的采集、聚集以及可视化仅仅是数据分析整体工程的一部分,要从数据中抽取出有价值的信息才是一项有挑战性的新工作。
大多数研究人员习惯依据历史样本数据进行统计分析,这种处理方法的弊端在于从统计分析中能够获得的信息十分有限。事实上,科学家们经常要解决从目标数据中发现被隐藏的模式以及探索未知关系的问题。目前,机器学习已经逐渐成为除统计分析以外的一种新的分析方法,它使用学习算法,结合输入的样本数据,能够得到更加精确的预测模型。通过机器学习,商业操作及其发展趋势的分析不再局限于人脑层面的思考,机器层面的分析使企业能够在大数据中发现潜在价值。
R语言是目前机器学习和数据分析领域最常用的工具,开源和免费的优势使得它成为最受数据科学家们欢迎的主流语言。R语言为用户提供了丰富的学习包和可视化函数,用户不需要掌握任何分析过程背后数学模型的细节就能很简单地通过R语言在数据集上执行机器学习算法,快捷地完成数据分析任务。
本书采取了务实的方法介绍如何使用R语言来实践机器学习。全书共12章,每章包含若干小节,当读者循序渐进地学习完每一小节后,将能够使用数目繁多的机器学习包构建自己的预测模型。
本书首先引导读者学会搭建一个R语言环境并使用简单的R命令来观察数据。接下来读者将学习利用机器学习算法进行统计分析并评价生成模型,以及如何使R语言与Hadoop结合以构建大型数据分析平台。本书所涉及的全部机器学习案例都附带了详细的说明。
我们相信,读完这本书你将发现机器学习从来没有这样容易。
章节内容第1章介绍了如何创建一个可用的R环境和基本的R命令,包括数据读取、数据操纵、简单的统计分析以及数据的可视化。
第2章介绍了如何使用R语言进行探索性数据分析,以Titanic数据为例,探讨了数据的转换、分析以及结果的可视化。我们建立了一个预测模型,来判断泰坦尼克号可能的幸存者。
第3章首先重点探讨了数据采样和概率分布的概念,然后演示了对数据进行统计描述和统计推断性统计的过程。
第4章探讨一个因变量(响应变量)和一组或多组独立的(预测量)解释变量之间的线性关系。读者将学习使用各类回归模型来解释数值间的关联,同时还将学习运用合适的模型对连续变量进行预测。
第5章介绍基于树的分类器、k近邻分类器、逻辑回归分类器以及朴素贝叶斯分类器。为了帮助读者们能够更好地理解分类器的工作方式,这一章提供了一个基于电信数据集的用户分类实例。
第6章介绍了两种复杂但功能强大的分类算法:神经网络和支持向量机。尽管这些方法从根本而言难度都较大,但通过这一章的学习,读者会发现在R语言里使用这些算法做出精确的预测是一件非常容易的事情。
第7章展示一些评估模型性能的方法,通过这些检验方法,我们能够从中挑选出最优化的模型应用于预测。
第8章探讨集成分类器,相对于单一分类器,集成分类器在分类和回归处理方面具有更多优势。而鉴于其在很多数据预测比赛中的良好表现,读者更应该了解在项目中如何使用集成分类器。
第9章讨论多种聚类算法。通过聚类,我们能够发现对象间的共性,该章使用聚类算法对顾客进行划分,同时比较了不同聚类算法之间的差异。
第10章讨论了如何发现事务数据中所隐含的常见模式和关联项。
第11章介绍如何从原始变量中选择和抽取特征。借助降维,我们能够消除冗余特征对分析结果的影响,并降低计算的代价以避免模型的过度适应。该章将借助一个具体的图像压缩和存储案例解释降维方法。
第12章介绍RHadoop处理和海量数据分析,以及如何使用RHadoop。该章依次介绍了RHadoop环境的构建,使用机器学习方法处理实际的海量数据集,最后该章探讨了使用亚马逊弹性计算云(Amazon EC2)服务来部署RHadoop集群。
附录A提供R和与机器学习相关的所有资源。
附录B提供泰坦尼克号幸存者的数据集。
学习指南如果希望实践本书中的案例,你需要一台安装了R语言包并且能够访问Internet的计算机。读者可以从下载安装程序,详细的安装说明可以在本书第1章中找到。
本书所提供的全部示例程序都已经在R 3.1.2版本+Windows环境下测试成功,这些示例也同样适用于安装在Mac OS X以及类UNIX OS系统上的最新版本的R语言包。
本书面向的读者本书适合那些希望了解并掌握R语言实践机器学习完成数据观察的读者,我们在书中介绍了R语言的基础知识,那些具备基本编程能力或了解机器学习算法的读者们能够在学习本书后有所收获,但如果读者没有任何R语言的基础也没有关系。
读完《机器学习与R语言实战》,我感觉自己像是获得了一把开启数据科学大门的钥匙。这本书的内容覆盖面非常广,从基础概念到高级算法,再到实际应用,几乎面面俱到。我最喜欢的部分是书中对各种算法的深入剖析,作者没有简单地罗列公式,而是用通俗易懂的语言解释了算法的内在逻辑。例如,在讲解支持向量机(SVM)时,作者详细阐述了“最大间隔”的思想,以及如何通过核函数处理非线性可分的情况,这让我豁然开朗。R语言代码的运用也是这本书的一大亮点。书中提供的代码示例非常规范且具有可操作性,我可以直接复制粘贴到R环境中运行,并对数据进行修改和实验。这种“动手实践”的学习方式,让我对算法的理解更加深刻,也培养了我独立解决问题的能力。书中的数据案例也很有代表性,涵盖了分类、回归、聚类等多种任务,这让我能够将学到的知识应用到不同的场景中。更让我惊喜的是,书中还涉及了模型的可解释性以及一些常见问题的排查方法,这些都是在实际工作中非常宝贵的经验。
评分这本书真是让我大开眼界!作为一个对数据分析领域充满好奇但又相对新手的人,我一直想找一本既能入门又能深入的书籍。市面上的相关书籍琳琅满目,一开始确实有点不知所措。在朋友的推荐下,我选择了这本《机器学习与R语言实战》,事实证明这是个非常明智的决定。作者的讲解方式非常清晰易懂,对于我这种初学者来说,没有那种晦涩难懂的理论堆砌,而是循序渐进地引导我理解机器学习的基本概念和核心算法。书中的R语言代码示例更是点睛之笔,每一个例子都紧密结合理论,让我能够亲自上手实践,通过代码来感受算法的魅力。我尤其喜欢它在介绍算法时,不仅给出了数学原理,还用了生动的比喻和图示,这让那些原本抽象的概念变得触手可及。例如,在讲解决策树时,书中通过一个简单的预测天气的小例子,将分支和叶节点的关系描绘得淋漓尽致。阅读过程中,我感觉自己不再是旁观者,而是真正参与到了学习的过程中。而且,书中的案例也非常贴近实际应用,涉及到了图像识别、文本分析等多个领域,让我对机器学习的实际应用场景有了更直观的认识。我可以想象,未来在工作中遇到类似的问题时,这本书将成为我重要的参考资料。
评分这本书的结构安排堪称完美,让我从入门到精通的整个学习路径都得到了很好的规划。我一直觉得学习一门新技术,如果能有一条清晰的路线图,会大大提高效率。这本书恰好做到了这一点。它首先从机器学习的基础知识讲起,包括监督学习、无监督学习、半监督学习等不同类型的学习方式,并简要介绍了它们的应用场景。然后,书中逐一深入讲解了各种经典的机器学习算法,比如线性回归、逻辑回归、支持向量机(SVM)、K近邻(KNN)、聚类算法(如K-Means)、决策树、随机森林以及神经网络等。每一章节都围绕一个核心算法展开,先介绍算法的原理,再提供对应的R语言实现代码,最后通过实际数据集进行演示和结果分析。这种“理论+实践”的模式非常有效。我特别欣赏书中对于算法优缺点以及适用范围的分析,这帮助我更好地理解在不同场景下应该选择哪种算法。而且,书中还涉及了模型评估、特征工程、交叉验证等关键环节,这些都是构建高性能机器学习模型不可或缺的部分。读完这本书,我感觉我对机器学习的理解已经上升到了一个新的高度,并且掌握了利用R语言解决实际问题的能力。
评分《机器学习与R语言实战》这本书就像是一位经验丰富的导师,在我踏入机器学习这片广阔领域时,给予了我细致入微的指导。我一直认为,学习任何一门技术,理解其核心思想比死记硬背公式更重要,而这本书在这方面做得尤为出色。作者在介绍算法时,总是能用最精炼的语言和最直观的例子来阐述复杂的概念,让我能够迅速抓住算法的精髓。例如,在讲解K-Means聚类算法时,书中用一个形象的例子说明了“质心”的概念以及迭代过程,让我瞬间茅塞顿开。R语言代码的运用是这本书的另一大亮点,作者提供的代码不仅质量高,而且具有很强的可读性和可扩展性。我可以直接将代码作为模板,应用于我自己的数据集中,并通过修改参数来观察不同设置对模型性能的影响。书中涉及的数据集也多种多样,覆盖了分类、回归、降维等多种任务,这让我能够全面地了解机器学习在不同应用场景下的实现方式。更让我受益匪浅的是,书中还探讨了模型过拟合与欠拟合的解决办法,以及如何进行特征选择和降维,这些都是在实际项目中经常会遇到的挑战。
评分这本书绝对是我近几年来读过的最实用、最具启发性的技术书籍之一。我之所以这么说,是因为它不仅仅是理论知识的堆砌,更是将理论与实践无缝地结合在了一起。作者在讲解每一个机器学习算法的时候,都会配上详尽的R语言代码示例,并且这些代码都是可以直接运行并产生结果的。这对于我这种喜欢“边学边做”的学习者来说,简直是福音。我不需要花费大量时间去自己编写代码,而是可以专注于理解算法背后的思想,并通过修改现有代码来探索不同的参数设置和数据处理方式。书中的案例也让我印象深刻,它们覆盖了从入门级的线性回归到更复杂的神经网络,并且每个案例都清晰地展示了如何利用R语言进行数据预处理、模型训练、参数调优以及结果评估。我尤其喜欢书中关于模型选择和评估的部分,它让我明白了如何客观地衡量一个模型的优劣,而不是仅仅依靠直觉。阅读过程中,我不仅学到了大量的机器学习算法和R语言编程技巧,更重要的是,我开始培养了一种解决实际问题的思维方式。
评分挺不错的吧,六一八备货
评分很不错的书,赞一个,哈哈
评分很好
评分还没用包装好
评分送货特别快
评分不好。。。。还有点失望
评分帮朋友双双十一活动买的,应该还可以。。。。。
评分还没有看,应该还不错的,慢慢?
评分很不错的书,赞一个,哈哈
本站所有内容均为互联网搜索引擎提供的公开搜索信息,本站不存储任何数据与内容,任何内容与数据均与本站无关,如有需要请联系相关搜索引擎包括但不限于百度,google,bing,sogou 等
© 2025 book.coffeedeals.club All Rights Reserved. 静流书站 版权所有