编辑推荐
本书为读者建立机器学习模型提供了容易理解和上手的指导。本书拨开迷雾,开辟出一条清晰的学习路径,帮助读者发现、理解、应用和开发机器学习和数据科学的潜力。本书通过免费的预测分析软件包 ,为读者提供必要的工具,帮助读者充分理解、深化认识并展开创造性思维,以增强自己的机器学习和数据科学项目。
本书阐述了:
★ 能够从数据中学习到什么?
★ 为什么从数据中学习是数据科学工具箱的必 备部分?
★ 如何将机器学习运用到自己的研究中?
通过阅读本书,你将能够:
★ 掌握从数据中学习的技能;
★ 探索、评价并利用核心学习类型;
★ 发挥监督学习的威力;
★ 使用半监督学习设计成功的解决方案;
★ 学会使用无监督学习;
★ 模拟实现自己的想法并帮助开创新方法。
本书是一本可以轻轻松松从入门到精通的指南,你可以亲自动手实践其中巧妙的算法。
如果你对数据科学或机器学习应用领域有兴趣,并希望尝试其中的重要模型和预测技术,本书正是为你量身打造的。
内容简介
随着R语言的流行,从数据中学习比过去更加轻松。本书是通过R语言掌握数据科学技能的快速入门指南,书中一步一步地介绍如何在免费和流行的R统计包中建立每一种类型的模型。书中的案例描述得很清楚,几乎所有的代码都可以使用。读完本书,读者将可以在自己专注的某个领域把书中所介绍的技术付诸实践。
本书适合数据科学入门的读者阅读,尤其是通过R语言实现数据建模和分析方法的读者学习。
作者简介
作者简介
尼格尔?刘易斯(N.D. Lewis)是一位数据科学和预测领域的讲师、作者和研究者。他在华尔街和伦敦从事投资管理工作多年,编著了统计、数据科学和量化模型方面的数本图书,并且在大学里开设深度学习、机器学习和数据分析应用等方面的课程。
译者简介
高蓉,博士,任教于杭州电子科技大学,毕业于南开大学;研究领域包括资产定价、实证金融、数据科学应用;已出版教材和译著多部,发表学术论文数篇。
李茂,任教于天津理工大学,毕业于北京师范大学,热爱数据科学,从事与统计和数据分析相关的教学和研究工作。
目录
* 1章 简明学习问题… ……………………………………………………1
1.1 归纳推理和演绎推理的基础……………………………………………………2
1.2 你曾遇到这些事情吗?…………………………………………………………3
1.3 释放归纳的力量…………………………………………………………………3
1.4 推断的阴阳之道…………………………………………………………………4
1.5 学习问题的三大要素……………………………………………………………4
1.6 从数据中学习的目标……………………………………………………………6
1.7 阐明选择标准……………………………………………………………………7
1.8 学习任务的选择…………………………………………………………………8
附注………………………………………………………………………………………9
* 2章 监督学习………………………………………………………13
2.1 有效分类的基本要素……………………………………………………………13
2.2 如何确定假设类别的答案………………………………………………………15
2.3 监督学习的两个核心方法………………………………………………………16
2.3.1 生成算法的关键…………………………………………………………16
2.3.2 理解判别算法……………………………………………………………17
2.4 什么是贝叶斯分类器……………………………………………………………17
误差下界…………………………………………………………………………19
2.5 评估贝叶斯误差的两种简单技巧………………………………………………19
2.5.1 Mahalanobis技巧……………………………………………………19
2.5.2 Bhattacharyya技巧…………………………………………………20
2.6 如何释放朴素贝叶斯分类器的力量……………………………………………21
一个建立直觉的例子……………………………………………………………22
2.7 朴素贝叶斯分类器的R极简建立方法…………………………………………24
2.7.1 一个模拟的例子… …………………………………………………………24
2.7.2 甲状腺数据的分析………………………………………………………28
2.8 如何利用k-近邻算法的价值…………………………………………………33
2.8.1 深化理解的例子…………………………………………………………34
2.8.2 k近邻的R直接方法……………………………………………………37
2.8.3 如何决定k的* 优值……………………………………………………42
2.9 线性判别分析的关键……………………………………………………………42
2.9.1 求解广义特征值问题…………………………………………………44
2.9.2 R判别分析的基本要素…………………………………………………45
2.9.3 检查你想要的模型类型………………………………………………49
2.9.4 不要止步于线性判别分析………………………………………………50
2.10 逻辑回归分类的秘密……………………………………………………………51
建立R逻辑回归分类器的简便方法……………………………………………53
2.11 激励创意和激情的超级好主意…………………………………………………57
附注………………………………………………………………………………………59
第3章 无监督学习……………………………………………………68
3.1 无监督学习简介…………………………………………………………………68
3.2 两种核心方法及其工作原理……………………………………………………69
3.3 无监督学习的应用技术及R实现………………………………………………70
3.4 无监督学习的典型例子,你可以模仿学习……………………………………85
3.4.1 数据(图像)预处理……………………………………………………86
3.4.2 处理图像中的噪声………………………………………………………86
3.4.3 颅骨“剥离”……………………………………………………………87
3.4.4 完 美组合…………………………………………………………………87
附注……………………………………………………………………………………89
第4章 半监督学习……………………………………………………91
4.1 未标记数据的作用………………………………………………………………92
4.2 一致性假设……………………………………………………………………94
4.3 尝试半监督学习的极简方法…………………………………………………94
4.4 自学习算法………………………………………………………………………95
4.5 基于半监督模型的R学习……………………………………………………98
4.6 使用土地分类掌握这种实践说明… ……………………………………………102
附注……………………………………………………………………………………105
第5章 统计学习理论…………………………………………………108
5.1 Vapnik-Chervonenkis泛化界……………………………………………109
5.2 什么是Vapnik-Chervonenkis维…………………………………………110
5.3 结构风险* 小化的关键………………………………………………………113
5.4 实践中使用统计学习理论的* 佳建议………………………………………114
5.5 如何精通支持向量机…………………………………………………………115
5.6 支持向量机的本质……………………………………………………………116
松弛的处理……………………………………………………………………117
5.7 如何建立R支持向量机………………………………………………………118
附注……………………………………………………………………………………120
第6章 模型选择………………………………………………………122
6.1 模型的快速改进………………………………………………………………122
6.2 一个价值500万美元的小错误………………………………………………124
6.3 “天下没有免费午餐”定理之三大关键教训…………………………………125
6.4 什么是偏差和方差权衡………………………………………………………127
6.4.1 可约误差………………………………………………………………128
6.4.2 偏差……………………………………………………………………129
6.4.3 方差……………………………………………………………………130
6.5 你的模型犯过这种错吗?……………………………………………………131
6.6 留出技术的秘密………………………………………………………………132
6.7 有效交叉验证的艺术…………………………………………………………134
6.7.1 k-折交叉验证………………………………………………………134
6.7.2 一个R案例……………………………………………………………135
6.7.3 留一验证………………………………………………………………138
附注……………………………………………………………………………………140
恭喜你!……………………………………………………………………142
机器学习实践指南 基于R语言 电子书 下载 mobi epub pdf txt