包邮PySpark实战指南利用Python和Spark+Apache Spark机器学习 pdf epub mobi txt 电子书下载 2025

简体网页||繁体网页

☆☆☆☆☆

托马兹·卓巴斯著

图书标签:

PySpark
Spark
Python
机器学习
数据分析
大数据
数据挖掘
实战
包邮
Apache Spark

下载链接在页面底部

facebook linkedin mastodon messenger pinterest reddit telegram twitter viber vkontakte whatsapp 复制链接

想要找书就要到静流书站

book.coffeedeals.club

立刻按 ctrl+D收藏本页

你会得到大惊喜!!

店铺：义博图书专营店

出版社：机械工业出版社

ISBN：9787111582380

商品编码：19216467525

具体描述

PySpark实战指南利用Python和Spark构建数据密集型应用并规模

Apache Spark机器学习

9787111582380 9787111562559
PySpark实战指南：利用Python和Spark构建数据密集型应用并规模化部署

基本信息

原书名：Learning PySpark

作者：（美）托马兹·卓巴斯（Tomasz Drabas）（美）丹尼·李（Denny Lee）

译者：栾云杰陈瑶刘旭斌

丛书名：大数据技术丛书

出版社：机械工业出版社

ISBN：9787111582380

定价 49元

出版日期：2017 年11月

开本：16开

版次：1-1

所属分类：计算机

作译者

托马兹·卓巴斯（Tomasz Drabas）工作于微软，是一名数据科学家，现居住在西雅图地区。他拥有过13年的数据分析和数据科学经验：在欧洲、澳大利亚和北美洲三大洲期间，工作领域遍及先进技术、航空、电信、金融和咨询。在澳大利亚期间，托马兹一直致力于运筹学博士学位，重点是航空业中的选择建模和收入管理应用。

在微软，托马兹每天都和大数据打交道，解决机器学习问题，如异常检测、流失预测和使用Spark的模式识别。

托马兹还撰写了《Practical Data Analysis Cookbook》，该书由Packt Publishing于2016年出版。

我要感谢我的家人Rachel、Skye 和Albert，你们是我生命中的挚爱，我很珍惜与你们度过的每一天！谢谢你们永远站在我身边，鼓励我一步步接近我的职业目标。另外，感谢所有的亲人们。

多年来，还有很多人影响了我，我得再写一本书来感谢他们。你们知道，我从心底谢谢你们！

不过，如果不是Czesia Wieruszewska，我不会得到博士学位。还有Krzys Krzysztoszek，你一直相信我！谢谢！

丹尼·李（Denny Lee）是微软Azure DocumentDB团队的席项目经理，该团队致力于为微软发展高效性、重量级的托管文档存储服务。他是一名喜欢实践的分布式系统和数据科学工程师，拥有过18年的互联网级别基础架构、数据平台和预测分析系统的开发经验，这些经验可用于内部部署和云环境。

他在组建新团队以及促进转型、改革方面拥有丰富的经验。在加入Azure DocumentDB团队之前，丹尼曾担任Databricks的技术传播专员，他从Apache Spark 0.5时就一直在使用Apache Spark。他还是Concur数据科学工程的高级总监，曾就职于构建了微软Windows和Azure服务（目前称为HDInsight）的Hadoop的孵化团队。丹尼还拥有俄勒冈州健康和科学大学的生物医学信息硕士学位，并在过去15年中为企业医疗保健客户构建和实施了强大的数据解决方案。

我要感谢我的好妻子Hua-Ping，还有我出色的女儿Isabella和Samantha。是你们让我保持清醒，帮我实现了梦寐以求的愿望！

目录

目录

译者序

序

前言

关于作者

第1章了解Spark 1

1.1 什么是Apache Spark 1

1.2 Spark作业和API 2

1.2.1 执行过程 2

1.2.2 弹性分布式数据集 3

1.2.3 DataFrame 4

1.2.4 Dataset 5

1.2.5 Catalyst优化器 5

1.2.6 钨丝计划 5

1.3 Spark 2.0的架构 6

1.3.1 统一Dataset和DataFrame 7

1.3.2 SparkSession介绍 8

1.3.3 Tungsten Phase 2 8

1.3.4 结构化流 10

1.3.5 连续应用 10

1.4 小结 11

第2章弹性分布式数据集 12

2.1 RDD的内部运行方式 12

2.2 创建RDD 13

2.2.1 Schema 14

2.2.2 从文件读取 14

2.2.3 Lambda表达式 15

2.3 全局作用域和局部作用域 16

2.4 转换 17

2.4.1 .map(...)转换 17

2.4.2 .filter(...)转换 18

2.4.3 .flatMap(...)转换 18

2.4.4 .distinct(...)转换 18

2.4.5 .sample(...)转换 19

2.4.6 .leftOuterJoin(...)转换 19

2.4.7 .repartition(...)转换 20

2.5 操作 20

2.5.1 .take(...)方法 21

2.5.2 .collect(...)方法 21

2.5.3 .reduce(...)方法 21

2.5.4 .count(...)方法 22

2.5.5 .saveAsTextFile(...)方法 22

2.5.6 .foreach(...)方法 23

2.6 小结 23

第3章 DataFrame 24

3.1 Python到RDD之间的通信 24

3.2 Catalyst优化器刷新 25

3.3 利用DataFrame加速PySpark 27

3.4 创建DataFrame 28

3.4.1 生成自己的JSON数据 29

3.4.2 创建一个DataFrame 29

3.4.3 创建一个临时表 30

3.5 简单的DataFrame查询 31

3.5.1 DataFrame API查询 32

3.5.2 SQL查询 32

3.6 RDD的交互操作 33

3.6.1 使用反射来推断模式 33

3.6.2 编程指定模式 34

3.7 利用DataFrame API查询 35

3.7.1 行数 35

3.7.2 运行筛选语句 35

3.8 利用SQL查询 36

3.8.1 行数 36

3.8.2 利用where子句运行筛选语句 36

3.9 DataFrame场景——实时飞行性能 38

3.9.1 准备源数据集 38

3.9.2 连接飞行性能和机场 39

3.9.3 可视化飞行性能数据 40

3.10 Spark数据集（Dataset）API 41

3.11 小结 42

第4章准备数据建模 43

4.1 检查重复数据、未观测数据和异常数据（离群值） 43

4.1.1 重复数据 43

4.1.2 未观测数据 46

4.1.3 离群值 50

4.2 熟悉你的数据 51

4.2.1 描述性统计 52

4.2.2 相关性 54

4.3 可视化 55

4.3.1 直方图 55

4.3.2 特征之间的交互 58

4.4 小结 60

第5章 MLlib介绍 61

5.1 包概述 61

5.2 加载和转换数据 62

5.3 了解你的数据 65

5.3.1 描述性统计 66

5.3.2 相关性 67

5.3.3 统计测试 69

5.4 创建终数据集 70

5.4.1 创建LabeledPoint形式的RDD 70

5.4.2 分隔培训和测试数据 71

5.5 预测婴儿生存机会 71

5.5.1 MLlib中的逻辑回归 71

5.5.2 只选择可预测的特征 72

5.5.3 MLlib中的随机森林 73

5.6 小结 74

第6章 ML包介绍 75

6.1 包的概述 75

6.1.1 转换器 75

6.1.2 评估器 78

6.1.3 管道 80

6.2 使用ML预测婴儿生存几率 80

6.2.1 加载数据 80

6.2.2 创建转换器 81

6.2.3 创建一个评估器 82

6.2.4 创建一个管道 82

6.2.5 拟合模型 83

6.2.6 评估模型的性能 84

6.2.7 保存模型 84

6.3 参调优 85

6.3.1 网格搜索法 85

6.3.2 Train-validation 划分 88

6.4 使用PySpark ML的其他功能 89

6.4.1 特征提取 89

6.4.2 分类 93

6.4.3 聚类 95

6.4.4 回归 98

6.5 小结 99

第7章 GraphFrames 100

7.1 GraphFrames介绍 102

7.2 安装GraphFrames 102

7.2.1 创建库 103

7.3 准备你的航班数据集 105

7.4 构建图形 107

7.5 执行简单查询 108

7.5.1 确定机场和航班的数量 108

7.5.2 确定这个数据集中的长延误时间 108

7.5.3 确定延误和准点/早到航班的数量对比 109

7.5.4 哪一班从西雅图出发的航班有可能出现重大延误 109

7.5.5 西雅图出发到哪个州的航班有可能出现重大延误 110

7.6 理解节点的度 110

7.7 确定大的中转机场 112

7.8 理解Motif 113

7.9 使用PageRank确定机场排名 114

7.10 确定受欢迎的直飞航班 115

7.11 使用广度优先搜索 116

7.12 使用D3将航班可视化 118

7.13 小结 119

第8章 TensorFrames 120

8.1 深度学习是什么 120

8.1.1 神经网络和深度学习的必要性 123

8.1.2 特征工程是什么 125

8.1.3 桥接数据和算法 125

8.2 TensorFlow是什么 127

8.2.1 安装PIP 129

8.2.2 安装TensorFlow 129

8.2.3 使用常量进行矩阵乘法 130

8.2.4 使用placeholder进行矩阵乘法 131

8.2.5 讨论 132

8.3 TensorFrames介绍 133

8.4 TensorFrames快速入门 134

8.4.1 配置和设置 134

8.4.2 使用TensorFlow向已有列添加常量 136

8.4.3 Blockwise reducing操作示例 137

8.5 小结 139

第9章使用Blaze实现混合持久化 141

9.1 安装Blaze 141

9.2 混合持久化 142

9.3 抽象数据 143

9.3.1 使用NumPy 数组 143

9.3.2 使用pandas的DataFrame 145

9.3.3 使用文件 145

9.3.4 使用数据库 147

9.4 数据操作 149

9.4.1 访问列 150

9.4.2 符号转换 150

9.4.3 列的操作 151

9.4.4 降阶数据 152

9.4.5 连接 154

9.5 小结 156

第10章结构化流 157

10.1 什么是Spark Streaming 157

10.2 为什么需要Spark Streaming 159

10.3 Spark Streaming应用程序数据流是什么 160

10.4 使用DStream简化Streaming应用程序 161

10.5 全局聚合快速入门 165

10.6 结构化流介绍 168

10.7 小结 172

第11章打包Spark应用程序 173

11.1 spark-submit命令 173

11.2 以编程方式部署应用程序 176

11.2.1 配置你的SparkSession 176

11.2.2 创建SparkSession 177

11.2.3 模块化代码 177

11.2.4 提交作业 180

11.2.5 监控执行 182

11.3 Databricks作业 184

11.4 小结 186

↑折叠

Apache Spark机器学习平装 – 2017年3月1日
刘永川 (Alex Liu) (作者), 闫龙川 (译者), 高德荃 (译者), 李君婷 (译者)
定价59元
出版社: 机械工业出版社; 第1版 (2017年3月1日)
外文书名: Apache Spark Machine Learning Blueprints
丛书名: 大数据技术丛书
平装: 208页
语种：简体中文
开本: 16
ISBN: 7111562550, 9787111562559
条形码: 9787111562559
商品尺寸: 23.8 x 18.2 x 1.2 cm
商品重量: 381 g
品牌: 机械工业出版社
本书包装了一系列项目“蓝图”，展示了Spark可以帮你解决的一些有趣挑战，读者在将理论知识实践于一些实际项目之前，会了解到如何使用Sparknotebook，以及如何访问、清洗和连接不同的数据集，你将在其中了解Spark机器学习如何帮助你完成从欺诈检测到分析客户流失等各种工作。你还将了解如何使用Spark的并行计算能力构建推荐引擎。
目录
版权信息
译者序
前言
第1章 Spark机器学习简介
1.1 Spark概述和技术优势
1.2 在机器学习中应用Spark计算
1.3 机器学习算法
1.4 MLlib
1.5 Spark RDD和DataFrame
1.6 机器学习工作流和Spark pipeline
1.7 机器学习工作流示例
1.8 Spark notebook简介
1.9 小结
第2章 Spark机器学习的数据准备
2.1 访问和加载数据集
2.2 数据清洗
2.3 一致性匹配
2.4 数据集重组
2.5 数据集连接
2.6 特征提取
2.7 复用性和自动化
2.8 小结
第3章基于Spark的整体视图
3.1 Spark整体视图
3.2 整体视图的方法
3.3 特征准备
3.4 模型估计
3.5 模型评估
3.6 结果解释
3.7 部署
3.8 小结
第4章基于Spark的欺诈检测

第10章基于Spark的电信数据学习
10.1 在Spark平台上使用电信数据
10.2 电信数据机器学习方法
10.3 数据和特征开发
10.4 模型估计
10.5 模型评估
10.6 结果解释
10.7 模型部署
10.8 小结
第11章基于Spark的开放数据建模
11.1 Spark用于开放数据学习
11.2 数据和特征准备
11.3 模型估计
11.4 结果解释
11.5 部署
11.6 小结

《数据分析与机器学习实战：Python与Spark的深度融合》内容简介：在当今数据驱动的时代，企业对高效、大规模数据处理和智能分析的需求日益增长。大数据技术的飞速发展，特别是Apache Spark的崛起，为我们提供了前所未有的强大工具。本书并非仅仅罗列API或堆砌概念，而是致力于提供一套系统、实用的方法论，指导读者如何将Python的灵活性与Spark的分布式计算能力完美结合，从而在真实世界的数据分析和机器学习项目中取得卓越成果。本书的核心在于“实战”，我们坚信只有通过亲手实践，才能真正掌握这些强大的技术。因此，我们精心设计了一系列贴近工业界实际需求的案例，从数据获取、清洗、预处理，到特征工程、模型构建、评估与部署，环环相扣，层层深入。读者将跟随本书的指引，一步步构建起自己的数据分析流水线，并最终实现复杂的机器学习模型。第一部分：Spark入门与数据处理基础在快速迭代的数据分析流程中，第一步往往是获取和准备数据。本部分将带领读者快速熟悉Apache Spark的核心概念，理解其分布式计算的原理，并掌握使用PySpark进行数据处理的基本技能。 1.1 PySpark环境搭建与基础知识：我们将详细介绍如何在各种主流操作系统上搭建PySpark开发环境，包括本地模式、伪分布式模式以及与Hadoop生态系统的集成。读者将学习PySpark的RDD（Resilient Distributed Datasets）和DataFrame API，理解其在分布式环境下的惰性计算和容错机制。我们将通过大量的代码示例，展示如何进行基本的数据操作，如数据加载、过滤、转换、聚合等。 1.2 数据清洗与预处理：真实世界的数据往往是混乱、不完整且格式不统一的。本章将聚焦于数据清洗的关键技术，包括处理缺失值（填充、删除）、异常值检测与处理、数据格式转换、字符串处理、日期时间解析等。读者将学习如何利用PySpark的强大功能，高效地对海量数据进行规范化操作，为后续的分析和建模奠定坚实的基础。 1.3 数据探索性分析（EDA）与可视化：在深入建模之前，充分理解数据的特征和分布至关重要。本章将介绍如何运用PySpark进行描述性统计分析，计算均值、方差、中位数、分位数等统计量，以及如何进行数据分组、交叉分析。同时，我们将结合Python常用的可视化库（如Matplotlib, Seaborn, Plotly），展示如何将Spark计算的结果转化为直观的图表，帮助读者快速发现数据中的模式、趋势和潜在问题。 1.4 Spark SQL与高级数据操作：对于熟悉SQL的读者，Spark SQL将是处理结构化数据的利器。本章将深入讲解Spark SQL的语法，以及如何利用DataFrame API与SQL查询进行无缝集成。读者将学习如何构建复杂查询，进行JOIN、UNION、窗口函数等高级操作，更高效地进行数据提取和转换。第二部分：特征工程与机器学习入门数据处理的成果需要转化为有意义的特征，才能被机器学习模型有效地利用。本部分将详细阐述特征工程的原理和实践，并引导读者进入机器学习的广阔天地。 2.1 特征工程基础：特征工程是决定模型性能的关键环节。本章将从理论层面深入剖析各种特征工程技术，包括：数值特征处理：归一化（Min-Max Scaling）、标准化（Standardization）、对数变换、Box-Cox变换等。类别特征处理： One-Hot Encoding、Label Encoding、Target Encoding等，以及如何根据数据特性选择合适的编码方式。文本特征处理：词袋模型（Bag-of-Words）、TF-IDF（Term Frequency-Inverse Document Frequency）、词嵌入（Word Embeddings）等。日期时间特征提取：从日期时间中提取年、月、日、星期、季度等信息。组合特征与多项式特征：创建新的特征组合，捕捉变量之间的交互关系。 2.2 PySpark MLlib概览： PySpark MLlib是Spark提供的机器学习库，包含了丰富的算法和工具。本章将对MLlib进行全面介绍，包括其ML Pipeline API，它提供了一种统一的方式来构建和管理机器学习工作流。读者将了解MLlib中常见的算法类别，如分类、回归、聚类、推荐等。 2.3 监督学习算法实战：分类算法：我们将重点介绍逻辑回归（Logistic Regression）、决策树（Decision Trees）、随机森林（Random Forests）、梯度提升树（Gradient Boosting Trees，如XGBoost/LightGBM与Spark的集成）等经典分类算法。通过实际数据集，读者将学习如何使用PySpark MLlib构建分类模型，进行模型训练、参数调优，并评估模型的准确率、召回率、F1分数等指标。回归算法：线性回归（Linear Regression）、岭回归（Ridge Regression）、Lasso回归（Lasso Regression）等将是本节的重点。读者将学习如何预测连续数值，例如销售额、股票价格等，并理解模型评估指标如MAE、MSE、R-squared。 2.4 无监督学习算法实战：聚类算法： K-Means、LDA（Latent Dirichlet Allocation）等聚类算法将被详细介绍。读者将学习如何发现数据中的自然分组，例如用户分群、文档主题挖掘等。降维算法： PCA（Principal Component Analysis）等降维技术将帮助读者处理高维数据，提取主要特征，减少模型复杂度，同时避免信息丢失。第三部分：高级主题与部署在掌握了基础和中级技巧后，本部分将进一步探索更复杂的应用场景，并讨论如何将训练好的模型部署到生产环境中。 3.1 推荐系统：针对个性化推荐的需求，本章将介绍基于协同过滤（Collaborative Filtering）和基于内容的推荐（Content-Based Filtering）等主流推荐算法。我们将使用PySpark MLlib实现ALS（Alternating Least Squares）算法，构建一个简单的电影推荐系统。 3.2 时间序列分析：许多业务场景涉及对时间序列数据的分析和预测。本章将介绍ARIMA、SARIMA等经典时间序列模型，以及如何使用Spark进行大规模时间序列数据的处理和建模。 3.3 模型评估与调优：模型的性能直接影响其应用价值。本章将深入探讨交叉验证（Cross-Validation）、网格搜索（Grid Search）、随机搜索（Random Search）等模型调优技术。读者将学习如何选择合适的评估指标，并系统地优化模型参数，以获得最优的模型性能。 3.4 模型部署与生产化：将模型投入实际应用是项目成功的关键。本章将介绍几种常见的模型部署策略，包括： RESTful API：使用Flask、FastAPI等Python框架，将Spark模型包装成可供其他应用调用的API服务。批处理预测：定时运行Spark作业，对新数据进行批量预测，并将结果存入数据库或文件系统。流式预测：结合Spark Streaming或Structured Streaming，实现实时数据输入和实时模型预测。 3.5 性能优化与最佳实践：在处理大规模数据时，性能是不可忽视的因素。本章将分享一系列PySpark性能优化的技巧，包括数据分区、缓存、广播变量、Shuffle调优等。同时，我们将总结一系列开发过程中的最佳实践，帮助读者写出更优雅、更高效、更易于维护的代码。本书特色：案例驱动：所有知识点都通过精心设计的实际案例来讲解，确保读者能够学以致用。循序渐进：从基础概念到高级应用，内容组织逻辑清晰，易于读者理解和掌握。代码丰富：提供大量可执行的Python和PySpark代码示例，方便读者直接复制代码并进行修改。实战导向：强调解决实际问题，帮助读者应对工作中遇到的挑战。前沿技术：融合了Spark最新的功能和机器学习的最新进展。无论您是希望提升数据分析能力的数据科学家、寻求高效处理海量数据的软件工程师，还是希望将机器学习技术应用于业务的决策者，本书都将是您不可或缺的参考指南。通过阅读本书，您将能够自信地驾驭PySpark，将Python的强大与Spark的性能相结合，释放数据的无限价值，在数据驱动的时代乘风破浪。

用户评价

评分☆☆☆☆☆

说实话，我一直对机器学习领域非常感兴趣，但感觉入门的门槛有点高，尤其是在涉及到大数据集的时候，传统的机器学习库就显得有些力不从心了。这本书的名字和内容正好契合了我的需求，将 PySpark 的强大能力与机器学习的深度结合起来，感觉打开了一个全新的视角。我翻看了一下关于模型训练的部分，发现它不仅仅是介绍了各种算法，更重要的是讲解了如何利用 Spark 的分布式计算能力来加速模型的训练过程，这对于处理海量数据是非常关键的。而且，它还提到了模型评估和调优的策略，这些都是机器学习实践中不可或缺的环节。

评分☆☆☆☆☆

我之前在工作中接触过一些大数据处理的需求，但一直觉得 PySpark 方面的资料要么太零散，要么太理论化，很难找到一本能够系统性地讲解实操技巧的书。这本书的出现，简直就是及时雨！我翻阅了一下目录，发现它覆盖了从基础概念到高级应用的各个方面，特别是那些在实际工作中经常会遇到的场景，比如数据清洗、特征工程、模型部署等等，都有非常详尽的讲解。而且，我注意到它在代码示例上也非常注重实用性，很多例子都贴近实际业务场景，这对于我们这种需要快速落地技术的开发者来说，简直是太有帮助了。不用再花费大量时间去猜测和调试，可以直接参考书中的代码，大大提高了工作效率。

评分☆☆☆☆☆

哇，这本书的排版和设计真是太棒了！拿到手的时候就觉得很有分量，纸张的质感也很好，拿在手里感觉很舒服。封面设计简洁大方，没有那种花里胡哨的感觉，一看就是一本认真做学问的书。书的整体尺寸也比较适中，方便携带和阅读。内页的排版也很舒服，字体大小适中，行距也很合理，阅读起来一点都不费眼睛。我尤其喜欢它在一些重要概念和代码示例旁边的标注，非常清晰明了，让我在阅读过程中能够迅速抓住重点。而且，书中的插图和图表也运用得恰到好处，虽然我还没来得及深入学习里面的内容，但仅仅是翻阅，就已经能感受到作者在内容组织和呈现上的用心。这种细节上的打磨，往往是区分一本好书和普通书的关键，让我对后续的学习充满了期待。

评分☆☆☆☆☆

这本书给我的第一印象就是“干货满满”！它没有那些冗余的理论铺垫，而是直奔主题，以实战为主导。我迫不及待地翻阅了几个与我当前工作相关的章节，发现书中提供的案例非常贴合实际需求，而且解决方案都非常具有参考价值。比如，在处理大规模数据集的 ETL（抽取、转换、加载）流程时，书中详细介绍了如何利用 PySpark 来优化性能，这对于提升数据处理效率非常有帮助。此外，书中关于分布式机器学习模型的构建和部署的讲解，也让我茅塞顿开，为我未来在实际项目中应用这些技术提供了清晰的思路和方法。

评分☆☆☆☆☆

作为一个对技术细节有一定追求的读者，我非常看重书籍的严谨性和准确性。这本书在这一方面做得非常出色。我仔细阅读了几个章节，发现它在解释 PySpark 的核心概念时，逻辑清晰，条理分明，而且引用了大量的官方文档和最佳实践。在代码示例部分，每一个函数、每一个参数的解释都非常到位，不会让人产生歧义。而且，我注意到作者在处理一些容易出错的细节问题时，会给出非常明确的提示和解决方案，这对于初学者来说，能够避免走很多弯路。这种对技术细节的精益求精，让我对这本书的内容充满了信任。