书 名 精通数据科学 从线性回归到深度学习
ISBN 9787115479105
作 者 唐亘
开 本 16 开
印 张 27
字 数 549 千字
页 数 432 页
装 帧 平装
版 次 1版1次
初版时间 2018年6月
本 印 次 2018年6月
定 价 99.00 元
内容简介本书全面讲解了数据科学的相关知识,从统计分析学到机器学习、深度学习中用到的算法及模型,借鉴经济学视角给出模型的相关解释,深入探讨模型的可用性,并结合大量的实际案例和代码帮助读者学以致用,将具体的应用场景和现有的模型相结合,从而*好地发现模型的潜在应用场景。
本书可作为数据科学家和数据工程师的学习用书,也适合对数据科学有强烈兴趣的初学者使用,同时也可作为高等院校计算机、数学及相关的师生用书和培训学校的教材。
目录1章 数据科学概述 1
1.1 挑战 2
1.1.1 工程实现的挑战 2
1.1.2 模型搭建的挑战 3
1.2 机器学习 5
1.2.1 机器学习与传统编程 5
1.2.2 监督式学习和非监督式学习 8
1.3 统计模型 8
1.4 关于本书 10
2章 Python安装指南与简介:告别空谈 12
2.1 Python简介 13
2.1.1 什么是Python 15
2.1.2 Python在数据科学中的地位 16
2.1.3 不可能绕过的三方库 17
2.2 Python安装 17
2.2.1 Windows下的安装 18
2.2.2 Mac下的安装 21
2.2.3 Linux下的安装 24
2.3 Python上手实践 26
2.3.1 Python shell 26
2.3.2 一个Python程序:Word Count 28
2.3.3 Python编程基础 30
2.3.4 Python的工程结构 34
2.4 本章小结 35
3章 数学基础:恼人但又不可或缺的知识 36
3.1 矩阵和向量空间 37
3.1.1 标量、向量与矩阵 37
3.1.2 特殊矩阵 39
3.1.3 矩阵运算 39
3.1.4 代码实现 42
3.1.5 向量空间 44
3.2 概率:量化随机 46
3.2.1 定义概率:事件和概率空间 47
3.2.2 条件概率:信息的价值 48
3.2.3 随机变量:两种不同的随机 50
3.2.4 正态分布:殊途同归 52
3.2.5 P-value:自信的猜测 53
3.3 微积分 55
3.3.1 导数和积分:位置、速度 55
3.3.2 极限:变化的终点 57
3.3.3 复合函数:链式法则 58
3.3.4 多元函数:偏导数 59
3.3.5 极值与值:优选择 59
3.4 本章小结 61
4章 线性回归:模型之母 62
4.1 一个简单的例子 64
4.1.1 从机器学习的角度看这个问题 66
4.1.2 从统计学的角度看这个问题 69
4.2 上手实践:模型实现 73
4.2.1 机器学习代码实现 74
4.2.2 统计方法代码实现 77
4.3 模型陷阱 82
4.3.1 过度拟合:模型越复杂越好吗 84
4.3.2 模型幻觉之统计学方案:假设检验 87
4.3.3 模型幻觉之机器学习方案:惩罚项 89
4.3.4 比较两种方案 92
4.4 模型持久化 92
4.4.1 模型的生命周期 93
4.4.2 保存模型 93
4.5 本章小结 96
5章 逻辑回归:隐藏因子 97
5.1 二元分类问题:是与否 98
5.1.1 线性回归:为何失效 98
5.1.2 窗口效应:看不见的才是关键 100
5.1.3 逻辑分布:胜者生存 102
5.1.4 参数估计之似然函数:统计学角度 104
5.1.5 参数估计之损失函数:机器学习角度 104
5.1.6 参数估计之终预测:从概率到选择 106
5.1.7 空间变换:非线性到线性 106
5.2 上手实践:模型实现 108
5.2.1 初步分析数据:直观印象 108
5.2.2 搭建模型 113
5.2.3 理解模型结果 116
5.3 评估模型效果:孰优孰劣 118
5.3.1 查准率与查全率 119
5.3.2 ROC曲线与AUC 123
5.4 多元分类问题:越是与否 127
5.4.1 多元逻辑回归:逻辑分布的威力 128
5.4.2 One-vs.-all:从二元到多元 129
5.4.3 模型实现 130
5.5 非均衡数据集 132
5.5.1 准确度悖论 132
5.5.2 一个例子 133
5.5.3 解决方法 135
5.6 本章小结 136
6章 工程实现:计算机是怎么算的 138
6.1 算法思路:模拟滚动 139
6.2 数值求解:梯度下降法 141
6.3 上手实践:代码实现 142
6.3.1 TensorFlow基础 143
6.3.2 定义模型 148
6.3.3 梯度下降 149
6.3.4 分析运行细节 150
6.4 更优化的算法:随机梯度下降法 153
6.4.1 算法细节 153
6.4.2 代码实现 154
6.4.3 两种算法比较 156
6.5 本章小结 158
7章 计量经济学的启示:他山之石 159
7.1 定量与定性:变量的数学运算合理吗 161
7.2 定性变量的处理 162
7.2.1 虚拟变量 162
7.2.2 上手实践:代码实现 164
7.2.3 从定性变量到定量变量 168
7.3 定量变量的处理 170
7.3.1 定量变量转换为定性变量 171
7.3.2 上手实践:代码实现 171
7.3.3 基于卡方检验的方法 173
7.4 显著性 175
7.5 多重共线性:多变量的烦恼 176
7.5.1 多重共线性效应 176
7.5.2 检测多重共线性 180
7.5.3 解决方法 185
7.5.4 虚拟变量陷阱 188
7.6 内生性:变化来自何处 191
7.6.1 来源 192
7.6.2 内生性效应 193
7.6.3 工具变量 195
7.6.4 逻辑回归的内生性 198
7.6.5 模型的联结 200
7.7 本章小结 201
8章 监督式学习: 目标明确 202
8.1 支持向量学习机 203
8.1.1 直观例子 204
8.1.2 用数学理解直观 205
8.1.3 从几何直观到优化问题 207
8.1.4 损失项 209
8.1.5 损失函数与惩罚项 210
8.1.6 Hard margin 与soft margin比较 211
8.1.7 支持向量学习机与逻辑回归:隐藏的假设 213
8.2 核函数 216
8.2.1 空间变换:从非线性到线性 216
8.2.2 拉格朗日对偶 218
8.2.3 支持向量 220
8.2.4 核函数的定义:优化运算 221
8.2.5 常用的核函数 222
8.2.6 Scale variant 225
8.3 决策树 227
8.3.1 决策规则 227
8.3.2 评判标准 229
8.3.3 代码实现 231
8.3.4 决策树预测算法以及模型的联结 231
8.3.5 剪枝 235
8.4 树的集成 238
8.4.1 随机森林 238
8.4.2 Random forest embedding 239
8.4.3 GBTs之梯度提升 241
8.4.4 GBTs之算法细节 242
8.5 本章小结 244
9章 生成式模型:量化信息的价值 246
9.1 贝叶斯框架 248
9.1.1 蒙提霍尔问题 248
9.1.2 条件概率 249
9.1.3 先验概率与后验概率 251
9.1.4 参数估计与预测公式 251
9.1.5 贝叶斯学派与频率学派 252
9.2 朴素贝叶斯 254
9.2.1 特征提取:文字到数字 254
9.2.2 伯努利模型 256
9.2.3 多项式模型 258
9.2.4 TF-IDF 259
9.2.5 文本分类的代码实现 260
9.2.6 模型的联结 265
9.3 判别分析 266
9.3.1 线性判别分析 267
9.3.2 线性判别分析与逻辑回归比较 269
9.3.3 数据降维 270
9.3.4 代码实现 273
9.3.5 二次判别分析 275
9.4 隐马尔可夫模型 276
9.4.1 一个简单的例子 276
9.4.2 马尔可夫链 278
9.4.3 模型架构 279
9.4.4 中文分词:监督式学习 280
9.4.5 中文分词之代码实现 282
9.4.6 股票市场:非监督式学习 284
9.4.7 股票市场之代码实现 286
9.5 本章小结 289
10章 非监督式学习:聚类与降维 290
10.1 K-means 292
10.1.1 模型原理 292
10.1.2 收敛过程 293
10.1.3 如何选择聚类个数 295
10.1.4 应用示例 297
10.2 其他聚类模型 298
10.2.1 混合高斯之模型原理 299
10.2.2 混合高斯之模型实现 300
10.2.3 谱聚类之聚类结果 303
10.2.4 谱聚类之模型原理 304
10.2.5 谱聚类之图片分割 307
10.3 Pipeline 308
10.4 主成分分析 309
10.4.1 模型原理 310
10.4.2 模型实现 312
10.4.3 核函数 313
10.4.4 Kernel PCA的数学原理 315
10.4.5 应用示例 316
10.5 奇异值分解 317
10.5.1 定义 317
10.5.2 截断奇异值分解 317
10.5.3 潜在语义分析 318
10.5.4 大型 320
10.6 本章小结 323
11章 分布式机器学习:集体力量 325
11.1 Spark简介 327
11.1.1 Spark安装 328
11.1.2 从MapReduce到Spark 333
11.1.3 运行Spark 335
11.1.4 Spark DataFrame 336
11.1.5 Spark的运行架构 339
11.2 优化问题的分布式解法 341
11.2.1 分布式机器学习的原理 341
11.2.2 一个简单的例子 342
11.3 大数据模型的两个维度 344
11.3.1 数据量维度 344
11.3.2 模型数量维度 346
11.4 开源工具的另一面 348
11.4.1 一个简单的例子 349
11.4.2 开源工具的阿喀琉斯之踵 351
11.5 本章小结 351
12章 神经网络:模拟人的大脑 353
12.1 神经元 355
12.1.1 神经元模型 355
12.1.2 Sigmoid神经元与二元逻辑回归 356
12.1.3 Softmax函数与多元逻辑回归 358
12.2 神经网络 360
12.2.1 图形表示 360
12.2.2 数学基础 361
12.2.3 分类例子 363
12.2.4 代码实现 365
12.2.5 模型的联结 369
12.3 反向传播算法 370
12.3.1 随机梯度下降法回顾 370
12.3.2 数学推导 371
12.3.3 算法步骤 373
12.4 提高神经网络的学习效率 373
12.4.1 学习的原理 373
12.4.2 激活函数的改进 375
12.4.3 参数初始化 378
12.4.4 不稳定的梯度 380
12.5 本章小结 381
13章 深度学习:继续探索 383
13.1 利用神经网络识别数字 384
13.1.1 搭建模型 384
13.1.2 防止过拟合之惩罚项 386
13.1.3 防止过拟合之dropout 387
13.1.4 代码实现 389
13.2 卷积神经网络 394
13.2.1 模型结构之卷积层 395
13.2.2 模型结构之池化层 397
13.2.3 模型结构之完整结构 399
13.2.4 代码实现 400
13.2.5 结构真的那么重要吗 405
13.3 其他深度学习模型 406
13.3.1 递归神经网络 406
13.3.2 长短期记忆 407
13.3.3 非监督式学习 409
13.4 本章小结 411
最近,我一直在思考如何提升自己的职业竞争力,数据科学无疑是当下最热门的领域之一。我是一名在市场营销岗位上工作了几年的人员,日常工作中主要负责用户画像分析和营销活动效果评估,但感觉自己的分析工具和方法论已经有些陈旧。我一直对机器学习,尤其是能够预测用户行为的模型很感兴趣,但苦于没有系统性的学习路径。很多在线课程要么太基础,要么太偏重理论,很难找到一本能够真正指导我从入门到进阶,并且能够与实际业务结合的书籍。《正版》精通数据科学 从线性回归到深度学习 这个书名,特别是“精通”二字,让我眼前一亮。我希望这本书能为我打开数据科学的大门,并且能够循序渐进地引导我掌握相关的技术。线性回归是我一直想深入了解的部分,因为很多营销指标的分析都离不开它,我希望书中能有非常详细的讲解,包括如何选择合适的变量、如何解释回归系数的含义,以及如何评估模型的拟合优度。此外,我对深度学习在用户行为预测、个性化推荐等方面的应用也非常好奇,希望能通过这本书,初步了解神经网络的基本结构和工作原理,以及它在营销领域可能带来的颠覆性变化。这本书的介绍让我看到了希望,希望它能成为我转型的强大助推器。
评分我是一名对人工智能领域充满热情,但技术背景相对薄弱的爱好者。我平时喜欢阅读一些关于科技发展的文章,对数据科学和机器学习的快速发展感到兴奋,但总是觉得自己在理解上存在障碍,很多概念听起来很高深,难以入门。我希望能够找到一本既有深度又不失易读性的书籍,来系统地学习数据科学的知识。当我看到《正版》精通数据科学 从线性回归到深度学习 这本书时,我立刻被它的内容覆盖范围所吸引。“从线性回归到深度学习”这条线索,对我来说非常清晰明了,它似乎勾勒出了一个完整的学习路径,能够让我从最基础的模型开始,逐步深入到最前沿的技术。《正版》二字也让我觉得这本书的质量和权威性应该有保证。我希望这本书能够用通俗易懂的语言解释复杂的概念,并且提供一些清晰的图示和案例,帮助我理解。特别是对于像线性回归这样的基础模型,我希望能够真正理解其背后的数学原理和统计假设。同时,对于深度学习,我希望能有一个初步的认识,了解它的基本构成,以及它为何能够取得如此大的成功。这本书的出现,让我看到了一个系统学习数据科学的希望,我期待它能够成为我探索人工智能世界的第一本重要读物,并且能够真正帮助我建立起扎实的数据科学基础。
评分刚拿到这本《正版》精通数据科学 从线性回归到深度学习 ,还没来得及深入研读,但光是翻看目录和前几章,就足以让我对它充满期待。我是一名在互联网公司工作的初级数据分析师,日常工作中主要接触一些基础的统计分析和报表制作,但总感觉自己的技术栈不够扎实,在面对更复杂的业务问题时显得捉襟见肘。平时也陆陆续续看过一些零散的数据科学相关的文章和教程,但总觉得不成体系,知识点之间衔接不顺畅,看完后容易遗忘。这次看到这本书的介绍,特别是提到了“从线性回归到深度学习”这样一个完整的知识脉络,这正是我目前最迫切需要的。我希望这本书能帮助我系统地梳理数据科学的核心概念,建立起一套完整的知识体系。特别是关于线性回归的部分,我一直觉得它是数据科学的基石,但实际应用中遇到的各种问题,比如多重共线性、模型诊断等,我希望书中能有详细的讲解和实操指导,让我真正做到“精通”。同时,我对深度学习也充满了好奇,虽然目前我的工作还接触不到,但它无疑是未来的趋势,我希望通过这本书,能对深度学习有一个初步但清晰的认识,为未来的学习打下基础。这本书的装帧和印刷质量也相当不错,纸张手感很好,排版清晰,阅读体验感不错。我期待着接下来的阅读能够带给我质的提升。
评分作为一名在金融行业摸爬滚打了多年的风险管理从业者,我一直深感大数据和人工智能在提升风险预测能力上的巨大潜力。然而,从理论到实践,我始终觉得隔着一层窗户纸。我们团队一直在探索如何利用更先进的数据分析技术来优化我们的信用评分模型和反欺诈系统,但受限于技术背景,我们进展缓慢。偶然间,我看到了《正版》精通数据科学 从线性回归到深度学习 这本书。书名中的“精通”二字,以及“从线性回归到深度学习”这样循序渐进的学习路径,深深吸引了我。我希望这本书能为我提供一个坚实的数据科学理论基础,特别是关于统计建模和机器学习在金融领域的应用。线性回归在风险评估中有着广泛的应用,我希望书中能有更深入的讲解,如何处理金融数据中的非平稳性、如何构建更稳健的回归模型,以及如何解释模型结果以支持业务决策。同时,我也关注着深度学习在金融领域的进展,比如在异常检测、文本分析(如舆情分析)等方面的应用。我希望这本书能够在我有限的业余时间里,帮我快速入门,了解深度学习的基本原理和在金融场景下的潜力,为我们团队的技术转型提供一些思路和方向。这本书的篇幅看起来相当可观,我期待它能够带来系统性的知识,并且语言风格也能够尽量贴近实际应用,而不是过于学术化。
评分这本书的出版,对我这样一名在校的计算机科学专业学生来说,简直就是及时雨。我目前正在进行毕业设计,选题方向是利用机器学习解决某个实际问题,但我在算法的选择和实现上遇到了瓶颈。我之前学习过一些机器学习的入门课程,了解了一些基本概念,但对于如何将这些理论知识转化为实际可用的解决方案,我感到十分迷茫。特别是对于模型的评估和优化,我总是不得其法,花费大量时间在尝试各种参数组合上,却收效甚微。我在网上搜索了很多资料,但很多都过于碎片化,缺乏系统性。当我看到《正版》精通数据科学 从线性回归到深度学习 的书名时,我立刻被它所吸引。“精通”二字给了我很大的信心,而“从线性回归到深度学习”的章节跨度,也正是我需要的。我希望这本书能帮我深入理解各种经典算法的原理,并提供一些实际的应用案例和代码示例,让我能够更好地将其应用到我的毕业设计中。尤其是在模型选择、特征工程、以及如何处理过拟合并进行正则化等方面,我希望能够获得更具指导性的建议。深度学习部分,虽然我目前可能暂时用不上,但作为未来的发展方向,我希望能有所涉猎,对神经网络、卷积神经网络等有一个基本的了解,为将来更深入的学习做好铺垫。收到书后,我迫不及待地翻看了目录,发现内容覆盖面很广,而且逻辑性很强,这让我对接下来的学习充满了期待。
本站所有内容均为互联网搜索引擎提供的公开搜索信息,本站不存储任何数据与内容,任何内容与数据均与本站无关,如有需要请联系相关搜索引擎包括但不限于百度,google,bing,sogou 等
© 2025 book.coffeedeals.club All Rights Reserved. 静流书站 版权所有