这本关于数据分析的优秀图书广受好评,荣获2014年Ziegel奖,还被很多教师选为“数据科学”课程的教材。本书专注于预测建模的实际应用,介绍了从数据预处理到建模再到模型评估和选择的整个过程,以及背后的统计思想,涉及各种回归技术和分类技术。从解决实际问题延伸到模型拟合,以及随之出现的主题,如处理类不平衡、选择预测因子等在实践中经常出现的问题,作者意在为读者提供预测建模过程的指导,并结合开源软件R语言来求解实际问题,详细给出R代码和处理的步骤。R包AppliedPredictiveModeling包含了书中例题和习题使用的数据,以及用于重复书中每一章分析的R代码。
这是一本专注于预测建模的数据分析书,意在为实践者提供预测建模过程的指导,比如如何进行数据预处理、模型调优、预测变量重要性度量、变量选择等。读者可以从中学到许多建模方法以及提高对许多常用的、现代的有效模型的认识,如线性回归、非线性回归和分类模型,涉及树方法、支持向量机等。第10章和第17章分别研究混凝土混合物的抗压强度和作业调度两个案例。
作者重实际应用,轻数学理论,从实际数据出发,结合开源软件R语言来求解实际问题,详细给出R代码和处理的步骤。R包AppliedPredictiveModeling包含书中使用的数据,以及可以用于重复书中每一章分析的R代码,让读者能在一定精度范围内重复本书的结果,并自然地将书中的预测建模方法应用到自己的数据上。章后附有习题,方便读者巩固所学。
这本业界互相推荐的好书,适合所有数据分析人员阅读。
马克斯·库恩(Max Kuhn)
康涅狄格州格罗顿市辉瑞全球研发非临床统计部主任,在制药和诊断行业已有近20年应用预测模型的经验,他还是很多R包的作者。
谢尔·约翰逊(Kjell Johnson)
博士,在药物研发和其他行业有近20年统计咨询和预测建模经验,曾任辉瑞全球研发统计部主任。
关于预测分析和数据建模,网络上有各种各样的图书……根据关联性、流行性、线上排名以及为你的业务增值的能力,我们选出了《应用预测建模》……
— Timothy King Business Intelligence Solutions Review, solutions-review.com
我曾用这本书作为数据科学课程的辅助教材,因为数据科学需要涵盖处理数据、模型评估和机器学习方法等方面的内容,所以我使用了一系列不同的资料。如果下次我还教授数据科学课程,我将只用这本书,因为它包含了这个领域所有方面的内容。
— Louis Luangkesorn lugerpitt.blogspot.com
关于回归和分类模型的预测技术,这部著作提供了非常有用的实践课程……两位作者不仅是建模和预测领域公认的专家,也是R包开发者和统计方法领域公认的专家……对于在应用复杂统计技术时需要直接帮助的学生和实践者,这本书是非常有益的。
— Stan Lipovetsky Technometrics
译者序
前言
第1章导论
1.1预测与解释
1.2预测模型的关键部分
1.3专业术语
1.4实例数据集和典型数据场景
1.5概述
1.6符号
第一部分一般策略
第2章预测建模过程简介
2.1案例分析:预测燃油效能
2.2主题
2.3总结
第3章数据预处理
3.1案例分析:高内涵筛选中的细胞分组
3.2单个预测变量数据变换
3.3多个预测变量数据变换
3.4处理缺失值
3.5移除预测变量
3.6增加预测变量
3.7区间化预测变量
3.8计算
习题
第4章过度拟合与模型调优
4.1过度拟合的问题
4.2模型调优
4.3数据分割
4.4重抽样技术
4.5案例分析:信用评分
4.6选择调优参数值
4.7数据划分建议
4.8不同模型间的选择
4.9计算
习题
第二部分回归模型
第5章衡量回归模型的效果
5.1模型效果的定量度量
5.2方差偏差的权衡
5.3计算
第6章线性回归及其扩展
6.1案例分析:定量构效关系建模
6.2线性回归
6.3偏最小二乘法
6.4惩罚模型
6.5计算
习题
第7章非线性回归模型
7.1神经网络
7.2多元自适应回归样条
7.3支持向量机
7.4K近邻
7.5计算
习题
第8章回归树与基于规则的模型
8.1简单回归树
8.2回归模型树
8.3基于规则的模型
8.4装袋树
8.5随机森林
8.6助推法
8.7Cubist
8.8计算
习题
第9章溶解度模型总结
第10章案例研究:混凝土混合物的抗压强度
10.1模型构建策略
10.2模型性能
10.3优化抗压强度
10.4计算
第三部分分类模型
第11章分类模型的效果度量
11.1类预测
11.2评估预测类
11.3评估类概率
11.4计算
第12章判别分析和其他线性分类模型
12.1案例分析:预测是否成功申请经费
12.2逻辑回归
12.3线性判别分析
12.4偏最小二乘判别分析
12.5惩罚模型
12.6最近收缩质心
12.7计算
习题
第13章非线性分类模型
13.1非线性判别分析
13.2神经网络
13.3灵活判别分析
13.4支持向量机
13.5K近邻
13.6朴素贝叶斯
13.7计算
习题
第14章分类树与基于规则的模型
14.1基本的分类树
14.2基于规则的模型
14.3装袋决策树
14.4随机森林
14.5助推法
14.6C5.0
14.7比较两种分类预测变量编码方式
14.8计算
习题
第15章经费申请模型的总结
第16章对严重类失衡的补救方法
16.1案例分析: 预测房车保险所有权
16.2类失衡的影响
16.3模型调优
16.4选择截点
16.5调整先验概率
16.6不等案例权重
16.7抽样方法
16.8成本敏感度训练
16.9计算
习题
第17章案例研究:作业调度
17.1数据切分和模型策略
17.2结果
17.3计算
第18章衡量预测变量重要性
18.1数值结果变量
18.2分类结果变量
18.3其他方法
18.4计算
习题
第19章特征选择介绍
19.1使用无信息预测变量的结果
19.2减少预测变量个数的方法
19.3绕封法
19.4过滤法
19.5选择偏差
19.6案例分析:预测认知损伤
19.7计算
习题
第20章影响模型表现的因素
20.1第Ⅲ类错误
20.2结果变量的测量误差
20.3预测变量的测量误差
20.4连续变量离散化
20.5模型预测何时是可信的
20.6大样本的影响
20.7计算
习题
附录
附录A各种模型的总结
附录BR语言介绍
附录C值得关注的网站
参考文献
这是一本关于数据分析的书,专注于预测建模的实际应用。“预测建模”一词可能让人联想起诸如机器学习、模式识别和数据挖掘。事实上,这样的联想是很自然的,这些专业名词指代的方法是预测建模整体过程的一部分。但是预测建模所涵盖的范围远大于发现数据模式的工具和技术。应用预测建模定义了这样一个建立模型的过程,我们能理解和量化模型对未来即将看到的数据的预测准确度。本书的核心内容就是其中的整个过程。
本书意在为实践者提供预测建模过程的指导,读者可以从阅读中学到许多(建模)方法以及提高对许多常用的、现代的有效模型的认识。我们会介绍许多统计和数学技术,但在任何情况下我们描述技术细节的动机都是帮助读者理解模型的优缺点,而非(单纯)数理统计知识。我们极力避免复杂的公式,但是有少数例外。关于预测模型的理论知识,推荐这两本书,即Hastie等(2008)和Bishop (2006)。本书的读者需要有一些基本的统计学知识,包括方差、相关性、简单线性回归以及基本的统计假设检验(如p值和检验统计量)。
预测建模的过程本质上具有很强的应用实践性。但我们研究发现,很多文章、出版物不能让读者再现(他们的)建模结果,因为数据不公开,或读者无法使用相应软件,又或软件需付费。Buckheit和Donoho(1995)对传统学术界提出了相似的批评:
一篇发表于科学刊物上关于计算机科学的文章本身不是学术,仅是关于学术的广告。真正的学术是完整的软件开发环境和能够生成那些图的所有指令集。
因此,我们的目标是尽可能地具有实践应用性,让读者能在一定精度范围内重复本书的结果,且可以自然地将书中的预测建模方法应用到他们自己的数据上。再者,对于整个建模过程,我们使用R语言(Ihaka和Gentleman 1996; R Development Core Team 2010),这是一个用于数学和统计计算的免费软件。几乎所有例子中的数据集都可以在相应R包中找到。R包AppliedPredictiveModeling包含了书中使用的很多数据,以及可以用于再现书中每一章分析结果的R代码。
我们选择R作为计算引擎有如下几个原因。首先R是免费的(虽然也有商业版的R),可以在不同的操作系统上使用。其次,它在通用公共许可(General Public License)下发行(免费软件基金2007年6月),该许可阐明程序再次发布的规则。在此构架下,任何人可以任意检查、修改源程序。由于开源特性,很多预测模型已经由R包可以实现。再者R有进行预测建模的大量强大的功能。不熟悉R的读者可以在网上找到大量的入门教程(见附录)。
由于篇幅所限,本书没有涵盖广义加性模型、模型集成、网络模型、时间序列等内容。
本书还有一个配套网站:
http://appliedpredictivemodeling.com/其中含有一些相关内容。
没有如下这些人的指导和帮助不会有本书的问世:Walter H Carter, Jim Garrett,Chris Gennings, Paul Harms, Chris Keefer, William Klinger, Daijin Ko, Rich Moore, David Neuhouser, David Potter, David Pyne, William Rayens, Arnold Stromberg和Thomas Vidmar。我们还要感谢Ross Quinlan对Cubist和 C5��0部分的帮助,他们帮我们修正了这两部分的一些描述。我们还要感谢Springer出版社的Marc Strauss和Hannah Bracken以及审阅者Vini Bonato、Thomas Miller、Ross Quinlan、Eric Siegel、Stan Young和一位匿名审阅者。最后我们要感谢家人的支持:Miranda Kuhn, Stefan Kuhn, Bobby Kuhn, Robert Kuhn, Karen Kuhn 和Mary Ann Kuhn; Warren和Kay Johnson,Valerie和Truman Johnson。
Max KuhnKjell Johnson
拿到这本《应用预测建模》之后,我最直接的感受是它在讲解过程中,应该会非常注重实际操作的细节。我之前尝试阅读过一些关于预测建模的文献,虽然理论讲解很深入,但往往在实际操作层面就变得模糊不清,或者只给出了很概括性的建议。我个人认为,对于一门技术书籍来说,提供清晰、可执行的代码示例,以及详细的步骤指导,是至关重要的。例如,在进行数据可视化时,如何选择合适的图表类型来清晰地呈现数据规律;在构建模型时,如何一步步地进行特征选择和特征工程,并解释为什么要这样做;在模型评估时,如何准确地理解各种评估指标的含义,并根据实际业务需求来选择最合适的评估标准。如果这本书能够在这方面做得出色,我相信它一定会成为我学习和应用预测建模过程中不可多得的宝贵资源,能让我少走弯路,更快地掌握核心技能。
评分哇,拿到这本《应用预测建模》,光看名字就觉得它是一本硬核技术书。我一直对数据分析和机器学习领域充满好奇,但又觉得很多理论性的东西读起来有些枯燥,总是希望有那种能直接上手,解决实际问题的指导。所以,当看到这本书的封面时,我内心就涌起一股期待,希望它能成为我进入这个领域的敲门砖。尤其是我平时接触的很多工作场景,都越来越离不开对未来趋势的预测,无论是市场营销的活动效果预测,还是生产制造的库存需求预测,甚至是金融领域的风险评估,都需要强大的预测能力作为支撑。我理想中的技术书,不仅仅是介绍各种算法的原理,更重要的是能展示这些算法在真实世界中是如何应用的,有哪些坑需要避开,有哪些技巧可以提高效率。这本书的名字就透露出一种“应用”导向,这让我对它充满了信心,相信它能带领我从理论走向实践,让我真正掌握预测建模这项关键技能。我迫切地想翻开它,看看它究竟能为我打开怎样一扇通往数据驱动决策的大门。
评分说实话,我选择这本书,很大程度上是被它“应用”这个词所吸引。我不是一个纯粹的理论研究者,我更希望我的学习能够直接服务于工作,解决实际问题。我曾经在一些项目里遇到过需要对未来趋势进行预测的情况,但往往因为缺乏系统的方法和工具,导致预测结果不够准确,甚至误导了决策。所以,我期望这本《应用预测建模》能够提供一套完整的、实用的预测建模流程,从数据的获取和清洗,到特征工程,再到模型选择、训练、评估和部署,都能有清晰的指导。我希望它能够教会我如何根据不同的业务场景,选择最适合的预测模型,并提供一些实用的技巧和最佳实践。如果书里能包含一些真实案例的分析,那就更好了,这样我就可以看到书中讲解的理论和方法是如何在实际中发挥作用的,也能从中获得很多灵感。
评分拿到这本书,我最先关注的还是它讲解问题的深度和广度。我理解预测建模是一个非常庞大且精深的领域,从基础的统计学模型,到复杂的机器学习算法,再到最新的深度学习应用,都属于它的范畴。我希望这本书能够在一个合理的范围内,覆盖到预测建模中的一些核心和常用的技术。比如,它是否会深入讲解一些关键的模型算法,例如线性回归、逻辑回归、决策树、随机森林、梯度提升树等,并且解释它们的优缺点以及适用场景?它是否会涉及到一些时间序列预测的方法,例如ARIMA、LSTM等?更重要的是,它是否会强调模型的可解释性,以及如何平衡模型的准确性和可解释性?作为一个读者,我期待能够在这本书中,建立起一个比较全面、系统的预测建模知识体系,为我未来在实际工作中应用这些技术打下坚实的基础,避免我只掌握一些孤立的技巧,而缺乏全局的理解。
评分这本书的排版和设计风格倒是挺简洁明了的,封面色彩比较沉稳,给人一种专业、可靠的感觉。拿到书后,我迫不及待地翻阅了一下目录,看到了很多我感兴趣的章节,比如数据预处理、特征工程、模型选择、评估与调优等等,这些都是在实际建模过程中必不可少的环节。我一直觉得,很多时候影响模型效果的关键因素,反而不是模型本身的复杂程度,而是在这些基础的、细节的处理上。比如,数据的清洗是否到位,特征的选择是否恰当,都会直接影响模型的泛化能力。所以,我特别期待这本书能在这些方面给予我深刻的指导,让我不再盲目地尝试各种模型,而是能有条理、有策略地进行预测建模。而且,我注意到书里提到了一些经典的预测模型,比如回归分析、时间序列分析,还有一些更现代的机器学习算法,这让我觉得它既有深度又不失广度,能够满足不同层次读者的需求。
评分很好很不错
评分还没时间看,应该不错
评分主要教的是caret包的使用,比较有帮助
评分還不錯,就是物流太慢了……
评分很好很不错
评分内容可读性好
评分活动时买的,价格便宜,非常好。
评分斯普林格的书,收藏了
评分东西很好,送货很快,很划算
本站所有内容均为互联网搜索引擎提供的公开搜索信息,本站不存储任何数据与内容,任何内容与数据均与本站无关,如有需要请联系相关搜索引擎包括但不限于百度,google,bing,sogou 等
© 2025 book.coffeedeals.club All Rights Reserved. 静流书站 版权所有