正版 Python机器学习基础教程 Andreas python从入门到精通教程编程语言 pdf epub mobi txt 电子书下载 2026

简体网页||繁体网页

☆☆☆☆☆

[德] 安德里亚斯·穆勒著，张亮（hysic）译

图书标签:

Python
机器学习
基础教程
入门
编程
数据分析
算法
Andreas Müller
精通
代码

下载链接在页面底部

facebook linkedin mastodon messenger pinterest reddit telegram twitter viber vkontakte whatsapp 复制链接

想要找书就要到静流书站

book.coffeedeals.club

立刻按 ctrl+D收藏本页

你会得到大惊喜!!

店铺：恒久图书专营店

出版社：人民邮电出版社

ISBN：9787115475619

商品编码：25713609375

包装：平装

开本：16

出版时间：2018-01-01

字数：443

具体描述

商品参数

Python机器学习基础教程
	定价	79.00
	出版社	人民邮电出版社
	版次	第1版
	出版时间	2018年01月
	开本	16开
	作者	[德]安德里亚斯·穆勒（Andreas C. Müller） [美]莎拉·吉多（Sarah Guido）
	装帧	平装
	页数	0
	字数	443
	ISBN编码	9787115475619

内容介绍
本书是机器学习入门书，以Python语言介绍。主要内容包括：机器学习的基本概念及其应用；实践中*常用的机器学习算法以及这些算法的优缺点；在机器学习中待处理数据的呈现方式的重要性，以及应重点关注数据的哪些方面；模型评估和调参的高*方法，重点讲解交叉验证和网格搜索；管道的概念；如何将前面各章的方法应用到文本数据上，还介绍了一些文本特有的处理方法。本书适合机器学习从业者或有志成为机器学习从业者的人阅读。

作者介绍
Andreas C. Mu?ller，scikit-learn库维护者和核心贡献者。现任哥伦比亚大学数据科学研究院讲师，曾任纽约大学数据科学中心助理研究员、亚马*公司计算机视觉应用的机器学习研究员。在波恩大学获得机器学习博士学位。 Sarah Guido，Mashable公司数据科学家，曾担任Bitly公司首*数据科学家。

关联推荐
以机器学习算法实践为重点，使用scikit-learn库从头构建机器学习应用
目录
前言 ix
第1 章　引言 1
1.1　为何选择机器学习 1
1.1.1　机器学习能够解决的问题 2
1.1.2　熟悉任务和数据 4
1.2　为何选择Python 4
1.3　scikit-learn 4
1.4　必要的库和工具 5
1.4.1　Jupyter Notebook 6
1.4.2　NumPy 6
1.4.3　SciPy 6
1.4.4　matplotlib 7
1.4.5　pandas 8
1.4.6　mglearn 9
1.5　Python 2 与Python 3 的对比 9
1.6　本书用到的版本 10
1.7　第*个应用：鸢尾花分类 11
1.7.1　初识数据 12
1.7.2　衡量模型是否成功：训练数据与测试数据 14
1.7.3　要事第*：观察数据 15
1.7.4　构建第*个模型：k 近邻算法 16
1.7.5　做出预测 17
1.7.6　评估模型 18
1.8　小结与展望 19
第2 章　监督学习 21
2.1　分类与回归 21
2.2　泛化、过拟合与欠拟合 22
2.3　监督学习算法 24
2.3.1　一些样本数据集 25
2.3.2　k 近邻 28
2.3.3　线性模型 35
2.3.4　朴素贝叶斯分类器 53
2.3.5　决策树 54
2.3.6　决策树集成 64
2.3.7　核支持向量机 71
2.3.8　神经网络（深度学习） 80
2.4　分类器的不确定度估计 91
2.4.1　决策函数 91
2.4.2　预测概率 94
2.4.3　多分类问题的不确定度 96
2.5　小结与展望 98
第3 章　无监督学习与预处理 100
3.1　无监督学习的类型 100
3.2　无监督学习的挑战 101
3.3　预处理与缩放 101
3.3.1　不同类型的预处理 102
3.3.2　应用数据变换 102
3.3.3　对训练数据和测试数据进行相同的缩放 104
3.3.4　预处理对监督学习的作用 106
3.4　降维、特征提取与流形学习 107
3.4.1　主成分分析 107
3.4.2　非负矩阵分解 120
3.4.3　用t-SNE 进行流形学习 126
3.5　聚类 130
3.5.1　k 均值聚类 130
3.5.2　凝聚聚类 140
3.5.3　DBSCAN 143
3.5.4　聚类算法的对比与评估 147
3.5.5　聚类方法小结 159
3.6　小结与展望 159
第4 章　数据表示与特征工程 161
4.1　分类变量 161
4.1.1　One-Hot 编码（虚拟变量） 162
4.1.2　数字可以编码分类变量 166
4.2　分箱、离散化、线性模型与树 168
4.3　交互特征与多项式特征 171
4.4　单变量非线性变换 178
4.5　自动化特征选择 181
4.5.1　单变量统计 181
4.5.2　基于模型的特征选择 183
4.5.3　迭代特征选择 184
4.6　利用专家知识 185
4.7　小结与展望 192
第5 章　模型评估与改进 193
5.1　交叉验证 194
5.1.1　scikit-learn 中的交叉验证 194
5.1.2　交叉验证的优点 195
5.1.3　分层k 折交叉验证和其他策略 196
5.2　网格搜索 200
5.2.1　简单网格搜索 201
5.2.2　参数过拟合的风险与验证集 202
5.2.3　带交叉验证的网格搜索 203
5.3　评估指标与评分 213
5.3.1　牢记*终目标 213
5.3.2　二分类指标 214
5.3.3　多分类指标 230
5.3.4　回归指标 232
5.3.5　在模型选择中使用评估指标 232
5.4　小结与展望 234
第6 章　算法链与管道 236
6.1　用预处理进行参数选择 237
6.2　构建管道 238
6.3　在网格搜索中使用管道 239
6.4　通用的管道接口 242
6.4.1　用make_pipeline 方便地创建管道 243
6.4.2　访问步骤属性 244
6.4.3　访问网格搜索管道中的属性 244
6.5　网格搜索预处理步骤与模型参数 246
6.6　网格搜索选择使用哪个模型 248
6.7　小结与展望 249
第7 章　处理文本数据 250
7.1　用字符串表示的数据类型 250
7.2　示例应用：电影评论的情感分析 252
7.3　将文本数据表示为词袋 254
7.3.1　将词袋应用于玩具数据集 255
7.3.2　将词袋应用于电影评论 256
7.4　停用词 259
7.5　用tf-idf 缩放数据 260
7.6　研究模型系数 263
7.7　多个单词的词袋（n 元分词） 263
7.8　高*分词、词干提取与词形还原 267
7.9　主题建模与文档聚类 270
7.10　小结与展望 277
第8 章　全书总结 278
8.1　处理机器学习问题 278
8.2　从原型到生产 279
8.3　测试生产系统 280
8.4　构建你自己的估计器 280
8.5　下一步怎么走 281
8.5.1　理论 281
8.5.2　其他机器学习框架和包 281
8.5.3　排序、推荐系统与其他学习类型 282
8.5.4　概率建模、推断与概率编程 282
8.5.5　神经网络 283
8.5.6　推广到更大的数据集 283
8.5.7　磨练你的技术 284
8.6　总结 284
关于作者 285
关于封面 285

现代数据科学的基石：Python赋能的机器学习实践指南在数据爆炸式增长的今天，从海量信息中挖掘有价值的洞见，并将其转化为智能决策，已成为各行各业的迫切需求。机器学习，作为人工智能的核心分支，正是实现这一目标的关键技术。本书旨在为广大读者，无论你是初涉数据科学的门外汉，还是有一定编程基础但希望深入理解机器学习原理及应用的开发者，提供一份全面、实用且易于上手的学习路径。本书的独特之处在于，它将理论深度与实践操作完美结合。我们不仅仅会讲解机器学习算法的数学原理，更会聚焦于如何利用Python这一强大而灵活的编程语言，在真实世界的数据集上实现这些算法。我们将带领读者一步步构建、训练、评估和优化机器学习模型，让你真正掌握将理论知识转化为解决实际问题能力的“硬功夫”。第一部分：打牢基础，启程数据科学之旅在踏入机器学习的奇妙世界之前，扎实的基础知识是必不可少的。本部分将为你铺就坚实的基石，让你能够自信地迎接接下来的挑战。 Python语言速成与进阶：我们将从Python的基础语法开始，涵盖变量、数据类型、控制流（条件语句、循环）、函数、类与对象等核心概念。对于已经掌握Python基础的读者，我们将进一步深入探讨面向对象编程（OOP）在数据科学项目中的应用，以及如何利用Python的强大生态系统来提高开发效率。这包括对列表推导式、生成器、装饰器等高级特性的讲解，让你能够写出更简洁、更高效的代码。数据科学核心库的运用： Python之所以能成为数据科学的首选语言，离不开其强大的第三方库支持。我们将重点介绍NumPy、Pandas、Matplotlib和Seaborn这四个核心库。 NumPy 是数值计算的基础，掌握其多维数组（ndarray）的创建、操作、索引、切片以及各种数学函数，是进行高效数据处理的前提。我们将演示如何使用NumPy进行向量化计算，极大地提升代码执行速度。 Pandas 是数据分析的利器，其核心数据结构DataFrame和Series提供了极其方便的数据读取、清洗、转换、合并、聚合等功能。你将学会如何处理缺失值、异常值，如何进行数据分组和透视，如何进行时间序列分析，以及如何将数据加载和保存为各种格式（CSV、Excel、SQL等）。 Matplotlib 和 Seaborn 是数据可视化的强大工具。我们将从基本的图表类型（折线图、散点图、柱状图、饼图）入手，逐步讲解如何定制图表样式，如何创建复杂的多子图，以及如何利用Seaborn绘制出更具统计意义和美感的图形，帮助你直观地理解数据特征和模型结果。第二部分：深入理解机器学习核心概念与算法有了坚实的Python和数据科学库基础，我们就可以开始探索机器学习的精彩世界了。本部分将系统地介绍机器学习的基本概念，并深入讲解几种最常用、最经典的算法。机器学习概述与分类：我们将首先阐明机器学习的定义、目标以及它在现代科技中的重要性。你将了解到机器学习的两种主要范式：监督学习和无监督学习，并理解它们各自的应用场景。此外，我们还将简要介绍半监督学习和强化学习，让你对机器学习的整体图景有一个宏观的认识。监督学习：预测与分类的艺术线性回归（Linear Regression）：作为最基础的回归算法，我们将详细讲解其模型原理、损失函数（均方误差）、梯度下降优化方法，以及如何使用Scikit-learn库实现线性回归，并解释模型评估指标（如R²分数、均方根误差）。逻辑回归（Logistic Regression）：这是分类问题的入门算法。我们将深入理解Sigmoid函数的作用，以及它如何将线性模型的输出映射到概率值。你将学习如何构建二分类和多分类的逻辑回归模型，并理解AUC、准确率、召回率、F1分数等分类评估指标。支持向量机（Support Vector Machine, SVM）： SVM是一种强大的分类和回归模型。我们将讲解其基本思想——寻找最优超平面，以及核函数（线性核、多项式核、径向基函数核）的作用，让你理解如何处理非线性可分问题。决策树（Decision Tree）：决策树是一种直观易懂的模型，其基于特征分裂的决策过程容易被解释。我们将讲解信息增益、基尼不纯度等分裂准则，并演示如何构建决策树模型，同时也会讨论过拟合问题及其解决办法（如剪枝）。集成学习（Ensemble Learning）：集成学习通过组合多个弱学习器来构建一个强大的模型。我们将重点介绍两种主流的集成方法：随机森林（Random Forest）：基于决策树的Bagging方法，通过构建多个随机的决策树并投票决定最终结果，能够有效降低过拟合。梯度提升（Gradient Boosting）：如XGBoost、LightGBM等，它们通过迭代地拟合残差来不断优化模型，是目前在各种比赛和实际应用中表现优异的算法。我们将介绍其基本原理，并提供使用这些库的实践示例。无监督学习：揭示数据的内在结构 K-Means聚类：这是最常用的聚类算法之一。我们将讲解其迭代优化的过程，以及如何选择合适的K值，并演示如何使用Scikit-learn实现K-Means，理解聚类评估指标（如轮廓系数）。主成分分析（Principal Component Analysis, PCA）： PCA是一种常用的降维技术。我们将解释其在高维数据中寻找最具方差方向（主成分）的原理，以及如何利用PCA降低模型复杂度、提高训练速度，并进行数据可视化。第三部分：构建、评估与优化你的机器学习模型掌握了算法原理后，如何将它们应用到实际项目中，并取得优异的表现，是关键所在。本部分将聚焦于机器学习项目的全生命周期管理。数据预处理与特征工程：真实世界的数据往往是“脏”的。我们将详细讲解各种数据预处理技术，包括：缺失值处理：使用均值、中位数、众数填充，或利用模型进行预测填充。异常值检测与处理：基于统计方法（如Z-score、IQR）或模型（如Isolation Forest）识别和处理异常数据。特征缩放：标准化（Standardization）和归一化（Normalization）的重要性，以及它们在不同算法中的应用。类别特征编码： One-Hot编码、标签编码等方法。特征创建与转换：如何基于现有特征组合、转换或提取新的、更有信息量的特征，这往往是提升模型性能的关键。模型评估与选择：构建模型只是第一步，如何客观地评估模型的性能并选择最优模型，是至关重要的环节。训练集、验证集与测试集：理解数据划分的意义，避免数据泄露。交叉验证（Cross-Validation）： K折交叉验证等方法，提高模型评估的鲁棒性。模型性能指标：针对分类和回归问题，详细介绍并应用各种评估指标（准确率、精确率、召回率、F1分数、ROC曲线、AUC、MSE、RMSE、MAE、R²等）。模型调优与正则化：超参数调优：网格搜索（Grid Search）、随机搜索（Random Search）等方法，寻找最佳的超参数组合。正则化技术： L1正则化（Lasso）和L2正则化（Ridge）的作用，如何防止模型过拟合，提升泛化能力。模型解释性：理解模型为何做出某个预测，对于建立信任和改进模型至关重要。我们将介绍一些模型解释的技术，如特征重要性、SHAP值等。第四部分：实战项目与进阶话题理论结合实践是学习的王道。本部分将通过一系列精心设计的项目，让你将所学知识融会贯通，并为你进一步探索更高级的主题打下基础。典型机器学习应用场景实战：房价预测：利用线性回归、决策树、集成模型预测房屋价格。垃圾邮件检测：使用逻辑回归、朴素贝叶斯、SVM进行文本分类。客户流失预测：构建分类模型预测客户是否会流失。图像识别基础：简要介绍卷积神经网络（CNN）的基本概念，以及如何利用预训练模型进行图像分类。推荐系统入门：介绍基于协同过滤和内容推荐的基本原理。项目开发流程与最佳实践：数据收集与理解。需求分析与模型选择。迭代开发与性能监控。模型部署初步介绍。未来展望与进阶方向：简要介绍深度学习、自然语言处理（NLP）、计算机视觉（CV）等前沿领域，并提供进一步学习的建议和资源。本书的目标是让你不仅能“调用”机器学习模型，更能“理解”它们，并能够根据实际问题选择、设计、实现和优化合适的模型。我们将力求语言通俗易懂，代码清晰可运行，并提供充足的练习和思考题，帮助你巩固所学。无论你的目标是成为数据科学家、机器学习工程师，还是希望将机器学习技术融入到现有工作中，本书都将是你宝贵的起点和坚实的伙伴。让我们一起开启这段激动人心的智能数据探索之旅！

用户评价

评分☆☆☆☆☆

这本书的机器学习算法部分，可以说是我目前看到的最清晰、最有条理的讲解之一了。作者 Andreas 并没有一开始就抛出复杂的数学公式，而是从直观的理解入手，循序渐进地带领读者进入算法的世界。比如，在讲解线性回归的时候，他先是用一个简单的例子说明了“拟合”的概念，然后才逐步引入最小二乘法等原理，并且用 Python 代码实现了整个过程，让我们能够真正地“动手”去理解算法的运行机制。对于逻辑回归、支持向量机、决策树等经典算法，作者同样采用了这种“先理解，后深入”的方式，并且在讲解中融入了模型评估、参数调优等关键概念，这对于我们理解算法的优缺点以及如何选择合适的算法至关重要。我印象最深刻的是关于决策树的剪枝讲解，让我第一次明白了为什么有时候“过度拟合”是需要避免的，以及如何通过一些策略来解决这个问题。这本书的算法讲解，真正做到了“授人以渔”，让我不仅学会了如何使用算法，更重要的是学会了如何去思考算法。

评分☆☆☆☆☆

对于想要将理论知识转化为实际应用的人来说，这本书的价值更是无可估量。 Andreas 在书中不仅仅是介绍了各种机器学习模型，更重要的是详细阐述了如何将这些模型应用到实际问题中。他从数据预处理、特征选择、模型训练、参数调优，到模型评估和部署，整个流程都进行了详尽的介绍。我尤其欣赏书中关于交叉验证的讲解，这让我深刻理解了如何更客观地评估模型的泛化能力，避免过早地做出错误的结论。而且，作者还专门用一个章节讲解了如何使用 scikit-learn 这个强大的机器学习库，这对于我们这些初学者来说，简直是福音！书中对 scikit-learn 中常用类和函数的讲解非常细致，并且提供了大量的实战代码示例，让我能够很快地将书中的理论知识应用到自己的项目中。我尝试着用书中的方法解决了一个小型的分类问题，效果非常好，这给了我巨大的信心。

评分☆☆☆☆☆

这本书真的是我机器学习入门的启蒙！当初抱着试试看的心态买的，没想到内容这么扎实。作者 Andreas 似乎真的非常有耐心，把 Python 的基础知识讲得透彻又易懂，完全照顾到了我这种完全没有编程背景的读者。从最基本的变量、数据类型、控制流，到函数、模块，再到面向对象编程的概念，每一个小知识点都配有清晰的代码示例，并且讲解得非常细致，不会让你觉得“哦，就是这样”，而是真的理解了“为什么是这样”。特别是书中关于列表推导式和生成器的讲解，让我第一次感受到了 Python 语言的优雅和高效，以前觉得很复杂的循环操作，在学习了这些之后，变得简洁明了，简直是打开了新世界的大门。而且，作者在讲解的过程中，会穿插一些小技巧和最佳实践，让你在学习基础知识的同时，就能养成良好的编程习惯，这对后续深入学习机器学习是非常有帮助的。我甚至觉得，即使不学机器学习，光是把这本书当成 Python 入门教程来读，也绝对是物超所值的。它让我对编程不再感到畏惧，反而充满了兴趣，迫不及待地想继续往下学。

评分☆☆☆☆☆

作为一个长期在数据分析领域摸爬滚打的老兵，最近开始接触机器学习，感觉以前积累的很多知识点都需要更新迭代了。这本书的出现，简直是雪中送炭！它不仅仅是理论的堆砌，更重要的是将理论与实践紧密结合，特别是对 NumPy 和 Pandas 的讲解，简直是太到位了！作者 Andreas 并没有像很多教程那样简单地罗列函数，而是深入浅出地讲解了这两个库在处理大规模数据集时是如何工作的，以及如何通过它们来高效地进行数据清洗、特征工程等前置工作。我特别喜欢书中关于向量化操作的解释，这让我深刻理解了为什么 NumPy 会比传统的 Python 循环快那么多。而且，书中还提到了很多实际应用场景下的例子，比如如何用 Pandas 读取不同格式的数据文件，如何进行合并、分组、聚合操作，这些都是我们在日常工作中经常会遇到的痛点，这本书都给出了非常实用的解决方案。我甚至觉得，这本书可以作为我日常工作中解决数据处理问题的“案头书”了，随时翻阅，总能找到灵感和答案。

评分☆☆☆☆☆

不得不说，这本书的作者 Andreas 真的非常有远见，他对机器学习未来的发展趋势有着深刻的洞察。虽然这本书名为“基础教程”，但它涵盖的内容远不止基础。在讲解完经典的机器学习算法之后，作者还对深度学习的一些基本概念进行了介绍，比如神经网络的结构、反向传播算法等。虽然篇幅不长，但足以让我们对深度学习有一个初步的认识，并且为后续深入学习打下基础。我特别喜欢他对于“过拟合”和“欠拟合”的解释，不仅仅停留在概念上，还给出了非常直观的图示和例子，让我们能够很容易地理解这两种现象的本质。而且，作者在讲解的过程中，会不时地引导我们思考“为什么”以及“还有哪些可能性”，这极大地激发了我的学习兴趣和主动性。读完这本书，我感觉自己对机器学习的理解层次上了一个台阶，不再是零散的知识点，而是形成了一个更加系统和完整的知识体系。