编辑推荐
《计算机科学丛书:数据挖掘与R语言》的支持网站给出了案例研究的所有代码、数据集以及R函数包
不要求读者具有R、数据挖掘或统计技术的基础知识
《计算机科学丛书:数据挖掘与R语言》利用大量给出必要步骤、代码和数据的具体案例,详细描述了数据挖掘的主要过程和技术
内容简介
《计算机科学丛书:数据挖掘与R语言》首先简要介绍了R软件的基础知识(安装、R数据结构、R编程、R的输入和输出等)。然后通过四个数据挖掘的实际案例(藻类频率的预测、证券趋势预测和交易系统仿真、交易欺诈预测、微阵列数据分类)介绍数据挖掘技术。这四个案例基本覆盖了常见的数据挖掘技术,从无监督的数据挖掘技术、有监督的数据挖掘技术到半监督的数据挖掘技术。全书以实际问题、解决方案和对解决方案的讨论为主线来组织内容,脉络清晰,并且各章自成体系。读者可以从头至尾逐章学习,也可以根据自己的需要进行学习,找到自己实际问题的解决方案。
《计算机科学丛书:数据挖掘与R语言》不需要读者具备R和数据挖掘的基础知识。不管是R初学者,还是熟练的R用户都能从书中找到对自己有用的内容。读者既可以把本书作为学习如何应用R的一本优秀教材,也可以作为数据挖掘的工具书。
作者简介
Luís Torgo,葡萄牙波尔图大学计算机科学系副教授,现在在LIAAD实验室从事研究工作。他是APPIA会员,同时还是OBEGEF的创办会员。
内页插图
目录
出版者的话
推荐序
中文版序
译者序
前言
致谢
第1章 简介
1.1如何阅读本书
1.2R简介
1.2.1R起步
1.2.2R对象
1.2.3向量
1.2.4向量化
1.2.5因子
1.2.6生成序列
1.2.7数据子集
1.2.8矩阵和数组
1.2.9列表
1.2.10数据框
1.2.11构建新函数
1.2.12对象、类和方法
1.2.13管理R会话
1.3MySQL简介
第2章 预测海藻数量
2.1问题描述与目标
2.2数据说明
2.3数据加载到R
2.4数据可视化和摘要
2.5数据缺失
2.5.1将缺失部分剔除
2.5.2用最高频率值来填补缺失值
2.5.3通过变量的相关关系来填补缺失值
2.5.4通过探索案例之间的相似性来填补缺失值
2.6获取预测模型
2.6.1多元线性回归
2.6.2回归树
2.7模型的评价和选择
2.8预测7类海藻的频率
2.9小结
第3章 预测股票市场收益
3.1问题描述与目标
3.2可用的数据
3.2.1在R中处理与时间有关的数据
3.2.2从CSV文件读取数据
3.2.3从网站上获取数据
3.2.4从MySQL数据库读取数据
3.3定义预测任务
3.3.1预测什么
3.3.2预测变量是什么
3.3.3预测任务
3.3.4模型评价准则
3.4预测模型
3.4.1如何应用训练集数据来建模
3.4.2建模工具
3.5从预测到实践
3.5.1如何应用预测模型
3.5.2与交易相关的评价准则
3.5.3模型集成:仿真交易
3.6模型评价和选择
3.6.1蒙特卡罗估计
3.6.2实验比较
3.6.3结果分析
3.7交易系统
3.7.1评估最终测试数据
3.7.2在线交易系统
3.8小结
第4章 侦测欺诈交易
4.1问题描述与目标
4.2可用的数据
4.2.1加载数据至R
4.2.2探索数据集
4.2.3数据问题
4.3定义数据挖掘任务
4.3.1问题的不同解决方法
4.3.2评价准则
4.3.3实验方法
4.4计算离群值的排序
4.4.1无监督方法
4.4.2有监督方法
4.4.3半监督方法
4.5小结
第5章 微阵列样本分类
5.1问题描述与目标
5.1.1微阵列实验背景简介
5.1.2数据集ALL
5.2可用的数据
5.3基因(特征)选择
5.3.1基于分布特征的简单过滤方法
5.3.2ANOVA过滤
5.3.3用随机森林进行过滤
5.3.4用特征聚类的组合进行过滤
5.4遗传学异常的预测
5.4.1定义预测任务
5.4.2模型评价标准
5.4.3实验过程
5.4.4建模技术
5.4.5模型比较
5.5小结
参考文献
主题索引
数据挖掘术语索引
R函数索引
精彩书摘
注意,数字2(实际上是向量c(2)!)被循环,导致v1的所有元素乘以2。正如我们将看到的,这种循环规则也适用于其他的对象,如数组和矩阵。
1.2.5 因子
因子提供了一个简单而又紧凑的形式来处理分类(名义)数据。因子用水平来表示所有可能的取值。如果数据集有取值个数固定的名义变量,因子就特别有用。下面的章节将要学习的多个图形函数和汇总函数就应用了因子的这种优点。对用户来说,这种使用和显示因子数据的方式显然是易于理解的,而R软件内部以数值编码方式来存储因子值,这将大大提高内存的利用效率。
下面举例说明如何在R中创建因子。假设有一个10个人的性别向量:
>g<—c(“f”,“m”,“m”,“m”,“f”,“m”,“f”,“m”,“f”,“f”)
>g
[1] “f” “m” “m” “m” “f” “m” “f” “m” “f” “f”
你可以把这个向量转换为一个因子:
)g<—factor(g)
>g
[1]f m m m f m f m f f
Levels:f m
注意,得到的不再是一个字符向量。上面提到,实际上这些因子在R内部表示为数值向量@。
在这个例子中,因子有两个水平,‘f’和‘m’,在R内部分别表示为1和2。然而,你不需要关心这个内部表示,因为你可以使用“原始的”字符值,R在显示因子时也使用这种字符方式。因此,出于效率的考虑,R因子的编码转换是用户透明的。
假设有另外5个人,需要把他们的性别信息存储在另一个因子对象中。假设他们都是男性。
前言/序言
【前言】
Data Mining with R:Learning with Case Studies
本书的主要目的是向读者介绍如何用R进行数据挖掘。R是一个可以自由下载的语言,它提供统计计算和绘图环境,其功能和大量的添加包使它成为一款优秀的、多个已有(昂贵)数据挖掘工具的替代软件。
�∠略赝�址:http://www�眗�瞤roject�眔rg。 ��
数据挖掘的一个关键问题是数据量。典型的数据挖掘问题包括一个大的数据库,需要从中提取有用的信息。在本书中,我们用MySQL作为核心数据库管理系统。对多个计算机平台,MySQL也是免费的。这意味着,我们可以不用付任何费用就可以进行“重要的”数据挖掘任务。同时,我们希望说明解决方案质量上并没有任何损失。昂贵的工具并不意味着一定更好!只要你愿意花时间来学习如何应用它们,R和MySQL就是一对很难超越的工具。我们认为这是值得的,希望在读完本书之后,你也相信这点。
�� 下载网址:http://www�眒ysql�眂om。 ��
本书的目的不是介绍数据挖掘的各个方面。许多已有的书籍覆盖了数据挖掘领域。我们用几个案例来向读者介绍R的数据挖掘能力。显然,这几个案例不能代表我们在现实世界中碰到的所有数据挖掘问题。同时,我们给出的解决方案也不是最完全的方案。我们的目的是通过这些实际案例向读者介绍如何用R进行数据挖掘。因此,我们案例分析的目的是展示用R进行信息提取的例子,而不是提供数据挖掘案例的完整分析报告。它们可以作为任何数据挖掘项目的可能思路,或者作为开发数据挖掘项目解决方案的基础。尽管如此,我们尽力尝试覆盖多方面的问题,展示数据大小、不同数据类型、分析目标和进行分析所必需的工具所带来的挑战。然而,这里的实践方式也是有代价的。实际上,作为具体案例研究的一种形式,为了让读者在自己的计算机上执行我们所描述的步骤,我们也做了某些妥协。也就是说,我们不能处理太大的问题,这些问题要求的计算机资源不是每个人都具备的。尽管这样,我们认为本书涵盖的问题也不算小,并对不同的数据类型和维度给出了解决方案。
这里并不要求读者具有R的先验知识。没有学过R和数据挖掘的读者应该可以学习书中的案例。书中的各个案例相互独立,读者可以从书中任何一个案例开始。在第一个简单案例中,给出了一些基本的R知识。这意味着,如果你没有学过R,至少应该从第一个案例开始学习。而且,第1章给出了R和MySQL的简介,它可以帮助你理解后面的章节。我们也没有假设你熟悉数据挖掘和统计技术。在每个案例的必要地方,都对不同的数据挖掘技术进行了介绍。本书的目的不是向读者介绍这些技术的理论细节和全面知识,我们对这些工具的描述包括了它们的基本性质、缺点和分析目标。如果需要进一步了解技术细节,可以参考其他书籍。在某些节的末尾,我们提供了“参考资料”,如果需要,可以参考它们。总之,本书的读者应该是数据分析工具的用户,而不是研究人员或者开发人员。同时,我们希望后者把本书作为进入R和数据挖掘“世界”的一种方式,从而发现本书的用途。
本书有一个免费的R代码集,可以从本书网站下载。其中含有案例研究中的所有代码,这可以帮助你的实践学习。我们强烈建议读者在阅读本书时安装R并实验书中的代码。而且,我们创建了一个名为DMwR的R添加包,它包含本书用到的多个函数和以R格式保存的案例数据集。你应该按照本书的指示,安装并加载该添加包(第1章给出了细节)。
�� 下载网址:http://www�眑iaad�眜p�眕t/~ltorgo/DataMiningWithR/。
《深度解析:智能数据驱动的商业决策》 在信息爆炸的时代,数据已成为企业最宝贵的资产。然而,海量数据的背后隐藏着巨大的价值,也伴随着前所未有的挑战。如何从纷繁复杂的数据洪流中提取洞察,将其转化为驱动商业成功的战略,是每一个现代企业都必须面对的核心议题。 《深度解析:智能数据驱动的商业决策》是一本旨在赋能您驾驭数据力量、做出更明智、更具前瞻性商业决策的权威指南。本书并非仅仅聚焦于某种特定技术或工具,而是致力于构建一个全面、系统化的数据驱动决策框架,帮助读者理解数据在商业运作各个环节的潜能,并掌握将其转化为实际价值的方法。 本书的独特之处在于其高度的实践导向和前瞻性视野。我们深知,理论的海洋固然广阔,但真正能够改变商业格局的是那些能够落地执行的策略和方法。因此,本书内容紧密围绕商业实际需求展开,从战略层面到战术执行,层层递进,力求为读者提供一套可操作、可复制的解决方案。 第一部分:构建数据驱动的商业思维 在踏上数据驱动之旅的起点,我们首先需要革新的是思维模式。本部分将深入探讨: 数据驱动的本质与演进: 剖析数据驱动决策的核心理念,追溯其在商业发展历程中的演变轨迹,理解数据如何从简单的记录工具升华为战略制胜的关键。我们将讨论从描述性统计到预测性分析,再到规范性建议的分析能力跃升,以及这种跃升对企业运营模式带来的颠覆性影响。 智能数据决策的战略意义: 阐释为何在当今竞争激烈的市场环境中,数据驱动已不再是“可选项”,而是“必选项”。我们将分析企业在各个层面,如产品研发、市场营销、客户服务、运营管理、风险控制等方面,如何通过数据洞察实现差异化竞争优势。 数据价值链的构建与优化: 详细解读企业如何系统性地构建从数据采集、清洗、存储、分析到应用的全生命周期价值链。本书将提供一套评估和优化现有数据基础设施的实用方法,确保数据能够高效、安全地流动,并最终服务于商业目标。 数据伦理与合规性: 在享受数据红利的同时,我们必须正视数据安全、隐私保护以及合规性问题。本部分将深入探讨相关法律法规,并提供切实可行的操作指南,帮助企业在合法合规的框架内,最大化数据的使用价值。 第二部分:数据洞察的获取与解读 有了正确的心态和框架,接下来便是掌握获取和解读数据洞察的关键技能。本部分将聚焦于: 商业问题导向的数据分析: 强调分析的起点始终是清晰的商业问题。本书将引导读者学习如何将模糊的商业挑战转化为可执行的数据分析任务,并选择最恰当的分析方法。 主流数据分析方法论详解: 详细介绍支撑智能数据决策的各类分析方法,包括但不限于: 描述性分析: 如何通过可视化和统计手段,清晰呈现现状,识别趋势和模式。例如,通过用户画像分析,描绘目标客户群体的特征。 诊断性分析: 深入挖掘问题根源,理解“为什么会发生”。例如,分析销售额下降的原因,找出是营销活动失效还是产品缺陷。 预测性分析: 利用历史数据和算法,预判未来趋势和结果。例如,预测客户流失的可能性,提前进行挽留。 规范性分析: 基于预测结果,提出最优的行动建议,实现“应该怎么做”。例如,为不同客户群体推荐个性化的产品或服务。 数据可视化:沟通洞察的关键桥梁: 深入讲解数据可视化的原则和技巧,如何选择合适的图表类型,如何设计直观、易懂的可视化界面,将复杂的数据关系转化为清晰的商业洞察,有效地传达给决策者。 解读分析结果的艺术: 分析的最终目标是指导决策。本部分将教授读者如何批判性地审视分析结果,识别潜在偏差,并将其与商业情境相结合,做出有价值的解读。 第三部分:智能数据驱动的商业实践 理论的意义在于指导实践,本部分将把前两部分的内容融会贯通,聚焦于如何在具体的商业场景中落地数据驱动的决策。 营销与销售的智能化升级: 精准营销与客户细分: 如何利用客户数据进行精细化分群,实现个性化的产品推荐、广告投放和沟通策略,大幅提升营销 ROI。 销售预测与机会管理: 基于销售数据和市场趋势,准确预测销售额,识别高潜力销售线索,优化销售流程。 客户生命周期价值(CLV)最大化: 理解并应用 CLV 模型,制定针对性的客户留存和增值策略。 产品开发与创新的数据赋能: 用户行为分析与产品优化: 通过分析用户在产品中的交互数据,发现用户痛点和潜在需求,指导产品迭代和功能改进。 市场趋势预测与新产品机会识别: 利用行业数据、社交媒体信息等,洞察市场趋势,发现尚未被满足的需求,孵化创新产品。 A/B 测试与精益化产品发布: 系统性地进行 A/B 测试,以数据为依据,科学地评估和选择产品方案,降低试错成本。 运营效率的精益化提升: 供应链与物流优化: 基于实时数据,优化库存管理、配送路线,降低运营成本,提升响应速度。 生产制造的智能监控与预测性维护: 通过传感器数据和机器学习,实现生产过程的实时监控,预测设备故障,提前进行维护,避免停机损失。 人力资源管理的优化: 基于员工数据,优化招聘流程,提升培训效果,预测人才流失风险,构建高绩效团队。 风险管理与欺诈检测的智能化: 信用风险评估: 利用多维度数据,构建精准的信用评分模型,有效规避信贷风险。 欺诈行为识别与预防: 通过模式识别和异常检测,实时发现和阻止潜在的欺诈行为,保护企业和客户的利益。 第四部分:数据驱动决策的未来展望 随着人工智能、大数据技术的飞速发展,数据驱动的商业决策正迎来前所未有的机遇。本部分将带领读者展望未来: 人工智能与机器学习在决策中的应用深化: 探索更高级的 AI 模型,如深度学习、强化学习等,如何在更复杂的商业场景中提供更智能的洞察和自动化决策。 自动化决策引擎与实时响应: 讨论如何构建能够实时响应市场变化、自动执行决策的系统,实现“秒级”商业反应。 数据驱动的组织变革与人才培养: 分析在数据驱动转型过程中,组织架构、企业文化以及人才培养所面临的挑战与机遇,以及如何构建数据素养更高的团队。 伦理、治理与可持续发展: 再次强调数据伦理和治理的重要性,并探讨如何在数据驱动的商业模式中融入可持续发展的理念,实现经济效益和社会效益的双赢。 《深度解析:智能数据驱动的商业决策》不仅仅是一本书,更是一张通往未来商业新世界的导航图。无论您是企业管理者、数据分析师、产品经理、营销专家,还是对数据驱动的商业模式充满兴趣的探索者,本书都将为您提供宝贵的知识、实用的工具和开阔的视野。 本书力求通过严谨的逻辑、丰富的案例和易于理解的语言,帮助您: 理解数据在现代商业中的核心价值。 掌握构建和实施数据驱动决策框架的关键步骤。 学习如何从数据中提取有价值的洞察。 将数据洞察转化为切实的商业策略和行动。 在快速变化的商业环境中,保持领先地位,做出更明智、更具竞争力的决策。 翻开本书,您将开启一段探索数据力量、驱动商业革新的精彩旅程。