基本信息
书名:Spark大数据商业实战三部曲:内核解密|商业案例|性能调优
:299.00元
作者:王家林、段智华、夏阳
出版社:清华大学出版社
出版日期:2018-02-01
ISBN:9787302489627
字数:
页码:
版次:1
装帧:平装-胶订
开本:16开
商品重量:0.4kg
编辑推荐
基于*的Spark2.2.X版本,分为内核解密篇,商业案例篇,性能调优篇,共31章,学习过程中有任何疑问,可加入群,有专业人员答疑解惑。
内容提要
《Spark大数据商业实战三部曲:内核解密|商业案例|性能调优》基于Spark 2.2.X,以Spark商业案例实战和Spark在生产环境下几乎所有类型的性能调优为核心,以Spark内核解密为基石,分为上篇、中篇、下篇,对企业生产环境下的Spark商业案例与性能调优抽丝剥茧地进行剖析。上篇基于Spark源码,从一个动手实战案例入手,循序渐进地全面解析了Spark 2.2新特性及Spark内核源码;中篇选取Spark开发中*有代表的经典学习案例,深入浅出地介绍,在案例中综合应用Spark的大数据技术;下篇性能调优内容基本完全覆盖了Spark在生产环境下的所有调优技术。
目录
上篇 内核解密
第1章 电光石火间体验Spark 2.2开发实战... 2
1.1 通过RDD实战电影点评系统入门及源码阅读... 2
 
 
1.2 通过DataFrame和DataSet实战电影点评系统... 7
 
 
1.3 Spark 2.2源码阅读环境搭建及源码阅读体验... 11
第2章 Spark2.2技术及原理... 14
2.1 Spark 2.2综述... 14
 
 
2.2 Spark 2.2 Core. 16
 
 
 
2.3 Spark 2.2 SQL. 19
 
 
 
2.4 Spark 2.2 Streaming. 21
 
 
2.5 Spark 2.2 MLlib. 27
 
 
2.6 Spark 2.2 GraphX.. 29
第3章 Spark的灵魂:RDD和DataSet 30
3.1 为什么说RDD和DataSet是Spark的灵魂... 30
 
 
3.2 RDD弹性特性七个方面解析... 36
3.3 RDD依赖关系... 43
 
 
3.4 解析Spark中的DAG逻辑视图... 46
 
 
3.5 RDD内部的计算机制... 49
 
 
3.6 Spark RDD容错原理及其四大核心要点解析... 57
 
 
3.7 Spark RDD中Runtime流程解析... 59
 
 
3.8 通过WordCount实战解析Spark RDD内部机制... 70
 
 
3.9 基于DataSet的代码到底是如何一步步转化成为RDD的... 78
第4章 SparkDriver启动内幕剖析... 81
4.1 Spark Driver Program剖析... 81
 
 
 
4.2 DAGScheduler解析... 96
 
 
 
 
 
4.3 TaskScheduler解析... 116
 
 
4.4 SchedulerBackend解析... 132
 
 
 
 
4.5 打通Spark系统运行内幕机制循环流程... 135
4.6 本章总结... 145
第5章 Spark集群启动原理和源码详解... 146
5.1 Master启动原理和源码详解... 146
 
 
 
 
5.2 Worker启动原理和源码详解... 170
 
 
5.3 ExecutorBackend启动原理和源码详解... 178
 
 
 
 
5.4 Executor中任务的执行... 184
 
 
 
 
5.5 Executor执行结果的处理方式... 189
5.6 本章总结... 197
第6章 SparkApplication提交给集群的原理和源码详解... 198
6.1 Spark Application到底是如何提交给集群的... 198
 
 
 
6.2 Spark Application是如何向集群申请资源的... 211
 
 
6.3 从Application提交的角度重新审视Driver 219
 
 
 
6.4 从Application提交的角度重新审视Executor 249
 
 
6.5 Spark 1.6 RPC内幕解密:运行机制、源码详解、Netty与Akka等... 254
6.6 本章总结... 267
第7章Shuffle原理和源码详解... 268
7.1 概述... 268
7.2 Shuffle的框架... 269
 
 
 
 
7.3 Hash Based Shuffle. 281
 
 
 
7.4 Sorted Based Shuffle. 290
 
 
 
7.5 Tungsten Sorted Based Shuffle. 302
 
 
 
7.6 Shuffle与Storage 模块间的交互... 309
 
 
 
 
 
7.7 本章总结... 341
第8章 Job工作原理和源码详解... 342
8.1 Job到底在什么时候产生... 342
 
 
8.2 Stage划分内幕... 345
 
 
8.3 Task全生命周期详解... 346
 
 
8.4 ShuffleMapTask和ResultTask处理结果是如何被Driver管理的... 364
 
 
第9章 Spark中Cache和checkpoint原理和源码详解... 372
9.1 Spark中Cache原理和源码详解... 372
 
 
9.2 Spark中checkpoint原理和源码详解... 381
 
 
第10章 Spark中Broadcast和Accumulator原理和源码详解... 391
10.1 Spark中Broadcast原理和源码详解... 391
 
 
10.2Spark中Accumulator原理和源码详解... 396
 
 
第11章 Spark与大数据其他经典组件整合原理与实战... 399
11.1Spark组件综合应用... 399
11.2 Spark与Alluxio整合原理与实战... 400
 
 
11.3 Spark与Job Server整合原理与实战... 403
 
 
11.4 Spark与Redis整合原理与实战... 406
 
 
中篇 商业案例
第12章 Spark商业案例之大数据电影点评系统应用案例... 412
12.1 通过RDD实现分析电影的用户行为信息... 412
 
 
 
12.2 通过RDD实现电影流行度分析... 431
12.3 通过RDD分析各种类型的喜爱电影TopN及性能优化技巧... 433
12.4 通过RDD分析电影点评系统仿和微信等用户群分析及广播
背后机制解密... 436
12.5 通过RDD分析电影点评系统实现Java和Scala版本的二次排序系统... 439
 
 
 
 
12.6 通过Spark SQL中的SQL语句实现电影点评系统用户行为分析... 447
12.7 通过Spark SQL下的两种不同方式实现口碑佳电影分析... 451
12.8 通过Spark SQL下的两种不同方式实现流行电影分析... 456
12.9 通过DataFrame分析受男性和女性喜爱电影TopN.. 457
12.10 纯粹通过DataFrame分析电影点评系统仿和微信、等用户群... 460
12.11 纯粹通过DataSet对电影点评系统进行流行度和不同年龄阶段兴趣分析等... 462
 
 
(口碑好)的电影TopN.. 464
 
 
电影0. 466
 
用户喜爱电影TopN分析... 467
 
12.12 大数据电影点评系统应用案例涉及的核心知识点原理、源码及案例代码... 470
 
 
 
12.13 本章总结... 496
作者介绍
文摘
序言
这本书真是让我大开眼界!我一直对 Spark 在大数据处理方面的强大能力有所耳闻,但一直缺乏一个系统性的、深入的了解。读完这本书,我感觉自己像是获得了打开大数据世界大门的钥匙。书中的讲解非常细致,从 Spark 的核心架构到各个组件的运作原理,都剖析得鞭辟入里。我尤其喜欢作者用生动的比喻和清晰的图示来解释那些复杂的概念,比如 RDD 的形成、DAG 的构建、Shuffle 的过程等等,这些抽象的概念变得不再令人望而生畏。 更重要的是,书中并没有止步于理论的讲解,而是将这些理论知识巧妙地融入到了一个个真实的商业案例分析中。作者选取了不同行业、不同规模的实际项目,详细展示了 Spark 如何被用来解决实际业务问题,比如精准营销、风控预警、用户画像构建等等。我能看到 Spark 在这些案例中扮演的核心角色,理解了它如何帮助企业提升效率、降低成本、发现新的商业价值。这种“理论+实践”的学习方式,让我能够更直观地感受到 Spark 的强大之处,也激发了我将这些知识应用到我自身工作中的热情。
评分这本书的出版,对于想要深入理解 Spark 技术,并将其应用于实际商业场景的读者来说,无疑是一场及时雨。作者在内核解密部分,将 Spark 复杂的分布式计算原理,以一种逻辑清晰、循序渐进的方式呈现在读者面前。我尤其欣赏作者对 Spark 内部执行流程的细致描绘,比如它如何处理数据分区、如何进行任务调度、以及它在容错方面的机制。这些深入的剖析,让我摆脱了对 Spark 仅停留在“黑盒”的认知,而是能够理解其“为什么”能如此高效地处理海量数据。 更让我印象深刻的是,书中的商业案例部分,并非是简单的理论堆砌,而是真正从企业实际需求出发,展示了 Spark 如何成为解决复杂商业问题的强大引擎。这些案例覆盖了多个行业,分析了 Spark 在其中扮演的关键角色,以及它如何为企业带来切实的业务价值。这种深度结合商业实战的视角,让我看到了 Spark 的真正力量,也为我将来在工作中运用 Spark 提供了宝贵的参考和指导。
评分我是一位在传统 IT 行业摸爬滚打多年的从业者,近些年感受到了大数据浪潮的冲击,并意识到 Spark 作为其中的佼佼者,是必须掌握的核心技能。市面上关于 Spark 的书籍不少,但很多都停留在基础概念的讲解,对于如何将其应用于复杂的商业环境中,以及如何实现性能的极致优化,往往语焉不详。而这本书,恰恰填补了这一空白。 作者在本书中,对 Spark 的底层原理进行了深刻的剖析,让我对 Spark 的运行机制有了更全面的认识。我一直对 Spark 的内存管理和任务调度机制感到好奇,这本书的讲解让我豁然开朗。同时,书中针对不同场景的性能调优方法,更是让我眼前一亮。我曾尝试过一些优化手段,但效果甚微,而这本书提供的系统性调优思路和具体操作方法,让我看到了解决性能瓶颈的希望。这本书的价值,在于它不仅教你“是什么”,更教你“怎么做”,以及“如何做得更好”。
评分我是一名刚接触大数据技术不久的学生,一直对 Spark 这种热门技术感到好奇,但又觉得它的学习曲线陡峭,难以入手。偶然间发现了这本书,抱着试一试的心态开始阅读。令我惊喜的是,书中的讲解非常易懂,作者善于将复杂的概念转化为通俗易懂的语言,并配合大量的图示和代码示例,让我这个新手也能快速跟上节奏。 书中关于 Spark 性能调优的部分,更是让我受益匪浅。我过去常常觉得 Spark 程序运行缓慢,但不知道问题出在哪里。这本书详细讲解了内存溢出、GC 调优、Shuffle 优化等关键技术,并提供了实用的调优策略和工具。我按照书中的方法,对自己的一个 Spark 项目进行了调优,运行速度竟然提升了近一倍!这让我对 Spark 的技术能力有了更深的信心,也让我看到了自己在大数据领域发展的无限可能。
评分作为一名在数据分析领域摸爬滚打多年的老兵,我一直寻求能够真正提升工作效率、解决棘手问题的工具和方法。Spark 的出现无疑是一个里程碑,而这本书则像是为我量身打造的“葵花宝典”。书的前半部分,作者以一种非常务实的方式,剖析了 Spark 的内核,让我对它的内存管理、调度机制、容错策略有了前所未有的清晰认识。我过去常常在工作中遇到性能瓶颈,却不知从何下手,这本书恰恰点亮了我前进的方向。 后面的章节更是让我惊喜连连。作者选取了几个极具代表性的商业案例,并详细拆解了 Spark 在其中的应用过程。我曾尝试过一些大数据框架,但往往难以将理论与实际业务场景完美结合。这本书的案例分析,让我看到了 Spark 在实际业务场景中是如何落地生根,并产生巨大价值的。它不仅仅是教我“怎么用”,更是告诉我“为什么这么用”,以及“如何用得更好”。这本书让我对 Spark 的理解从“工具”提升到了“战略”,为我打开了新的职业发展思路。
本站所有内容均为互联网搜索引擎提供的公开搜索信息,本站不存储任何数据与内容,任何内容与数据均与本站无关,如有需要请联系相关搜索引擎包括但不限于百度,google,bing,sogou 等
© 2025 book.coffeedeals.club All Rights Reserved. 静流书站 版权所有