产品特色
编辑推荐
《Presto技术内幕》由浅入深地详细介绍了Presto 的安装过程、内部运行原理机制、功能特性、性能优化方法,以及在应用过程中常见的问题及解决方案等,同时详细介绍了JD-Presto 版本的许多新功能及其适用的业务场景,这些功能的成功研发,使得JD-Presto 版本不仅仅可用于离线大数据分析计算来提升性能,还可用于多种数据源混合进行实时大数据分析计算,使一些使用其他大数据技术不能解决的业务场景有了一个全新有效的解决方案。
内容简介
Presto是专门为大数据实时查询计算而设计和开发的产品。由于Presto是基于Java语言开发的,因此,对使用者和开发者而言,Presto极易学习、使用并针对特定的业务场景进行改造开发和性能优化。无论是对多数据源支持,还是高性能、易用性、可扩展性等方面, Presto都是大数据实时查询计算产品中的佼佼者。
《Presto技术内幕》按照由浅入深的顺序对Presto进行了全方位的细致讲解,具体内容包括Presto概述、 Presto安装与部署、 Presto RESTful框架解析、提交查询、生成查询执行计划、查询调度、查询执行、队列、System Connector、 Hive Connector、 Kafka Connector、 Connector开发、 Functions开发、 JD-Presto功能改造、 Presto性能调优、 Presto应用场景。
目录
第一部分 基础篇
第 1 章 Presto概述2
1.1 Presto 背景及发展2
1.2 Presto 特点2
1.3 基本概念3
1.3.1 Presto 服务进程3
1.3.2 Presto 模型4
1.3.3 Presto 查询执行模型 5
1.4 Presto 整体架构9
1.4.1 硬件架构9
1.4.2 软件架构9
1.5 小结11
第 2 章 Presto 安装与部署12
2.1 环境说明 12
2.2 准备工作13
2.2.1 建立 SSH 信任关系13
2.2.2 安装 Java 17
2.2.3 安装 Maven 17
2.2.4 安装 Hive 18
2.3 源码编译21
2.3.1 下载源码 21
2.3.2 源码结构说明 22
2.3.3 编译 26
2.4 部署 30
2.4.1 服务部署 30
2.4.2 客户端部署 38
2.4.3 JDBC 使用 40
2.5 小结 42
第二部分 核心设计篇
第 3 章 Presto RESTful 框架解析 44
3.1 Statement 服务接口 44
3.2 Query 服务接口 47
3.3 Stage 服务接口48
3.4 Task 服务接口49
3.5 小结 52
第 4 章 提交查询 53
4.1 提交查询的步骤 53
4.2 源码解析 53
4.3 提交查询的流程 60
4.4 小结 61
第 5 章 生成查询执行计划 62
5.1 基本概念 63
5.1.1 Node 63
5.1.2 Metadata API 67
5.2 词法与语法分析 68
5.2.1 语法规则 69
5.2.2 词法分析 69
5.2.3 语法分析 71
5.3 获取 QueryExecution 72
5.3.1 获取 QueryExecutionFactory 72
5.3.2 创建 QueryExecution 73
5.3.3 启动 QueryExecution 74
5.4 语义分析 77
5.4.1 Statement 分析 77
5.4.2 Relation 分析84
5.4.3 表达式分析 91
5.5 执行计划生成91
5.5.1 执行计划节点 91
5.5.2 SQL 执行计划93
5.5.3 Relation 执行计划95
5.5.4 Query 执行计划 99
5.6 执行计划优化102
5.6.1 ImplementSampleAsFilter 102
5.6.2 CanonicalizeExpressions 102
5.6.3 SimplifyExpressions 102
5.6.4 UnaliasSymbolReferences 103
5.6.5 PruneRedundantProjections 103
5.6.6 SetFlatteningOptimizer 103
5.6.7 LimitPushDown 104
5.6.8 PredicatePushDown 104
5.6.9 MergeProjections 104
5.6.10 ProjectionPushDown 104
5.6.11 IndexJoinOptimizer105
5.6.12 CountConstantOptimizer 105
5.6.13 WindowFilterPushDown 105
5.6.14 HashGenerationOptimizer 105
5.6.15 PruneUnreferencedOutputs 106
5.6.16 MetadataQueryOptimizer 106
5.6.17 SingleDistinctOptimizer 106
5.6.18 BeginTableWrite 106
5.6.19 AddExchanges 107
5.6.20 PickLayout 107
5.7 执行计划分段107
5.7.1 Source 107
5.7.2 Fixed 107
5.7.3 Single 107
5.7.4 Coordinator_only 107
5.8 示例108
5.8.1 Count 执行计划108
5.8.2 Join 执行计划108
5.9 小结110
第 6 章 查询调度 111
6.1 生成调度执行器 111
6.2 查询调度过程 113
6.2.1 NodeManager 114
6.2.2 NodeSelector 115
6.3 小结 118
第 7 章 查询执行 119
7.1 查询执行逻辑 120
7.2 Task 调度120
7.2.1 Source Task 调度120
7.2.2 Fixed Task 调度126
7.2.3 Single Task 调度 128
7.2.4 Coordinator_Only Task 调度 128
7.3 Task 执行129
7.3.1 创建 Task 129
7.3.2 更新 Task 135
7.3.3 运行 Task 140
7.4 小结 147
第 8 章 队列 148
8.1 配置说明 148
8.1.1 queues 队列定义149
8.1.2 rules 规则定义 149
8.2 队列加载 150
8.3 队列匹配 151
8.4 小结 154
第 9 章 System Connector 155
9.1 System Connector 使用155
9.1.1 Information_schema 155
9.1.2 Metadata 157
9.1.3 Runtime 157
9.2 System Connector 实现159
9.2.1 Information_schema 实现160
9.2.2 System Connector 实现163
9.3 小结 168
第 10 章 Hive Connector 169
10.1 与 Hive 的结合 170
10.2 Split 分片管理 175
10.3 数据读取179
10.4 Create Table As Select 的实现 182
10.5 小结186
第 11 章 Kafka Connector 187
11.1 认识 Kafka Connector 187
11.1.1 配置187
11.1.2 配置属性187
11.1.3 内置字段189
11.1.4 表定义文件190
11.1.5 Kafka 中的 key 和 message 191
11.1.6 行解码192
11.1.7 日期和时间解码器194
11.1.8 文本解码器194
11.1.9 数值解码器194
11.2 Kafka 连接器使用教程194
11.2.1 安装 Apache Kafka195
11.2.2 下载数据195
11.2.3 在 Presto 中配置 Kafka topics 197
11.2.4 基本数据查询197
11.2.5 添加表定义文件199
11.2.6 将 message 中所有值映射到不同列200
11.2.7 使用实时数据202
11.3 Kafka Connector 获取数据 207
11.3.1 Split 分片管理207
11.3.2 数据读取209
11.4 小结210
第 12 章 Connector 开发211
12.1 创建 Maven 工程 211
12.2 注册 Plugin 213
12.3 Connector 213
12.4 Metadata 215
12.5 SplitManager 217
12.6 RecordSetProvider 218
12.7 小结 219
第 13 章 Functions 开发220
13.1 Function 注册 220
13.2 窗口函数 225
13.3 聚合函数 229
13.4 小结 232
第三部分 高级篇
第 14 章 JD-Presto 功能改造234
14.1 PDBO 功能开发234
14.1.1 JDBC Split 剖析235
14.1.2 JdbcRecordCursor 剖析 238
14.1.3 分批次读取实现原理 240
14.1.4 动态步长实现原理 243
14.1.5 条件下发 245
14.1.6 PDBO 配置定义 247
14.2 DDL 及 DML 支持 250
14.2.1 Hive 连接器 Insert 功能 250
14.2.2 Hive 连接器 CTAS 动态分区表功能 252
14.3 动态增加、修改、删除 Catalog 254
14.3.1 目的 254
14.3.2 现状 254
14.3.3 实现 255
14.3.4 效果 258
14.4 小结 258
第 15 章 Presto 性能调优259
15.1 合理设计分区 259
15.2 Group By 字句优化 259
15.3 使用模糊聚合函数 259
15.4 合并多条 Like 子句为一条 regexp_like 子句260
15.5 大表放在 Join 子句左边260
15.6 关闭 distributed hash join 261
15.7 使用 ORC 存储 261
15.8 小结 262
第 16 章 Presto 应用场景 263
16.1 ETL 263
16.2 实时数据计算264
16.3 Ad-Hoc 查询266
16.4 实时数据流分析266
16.5 小结268
附录 A 常见问题及解决办法269
A.1 同时访问两个 Hadoop 集群269
A.2 Kafka 集群重启后无法获取数据272
A.3 Task exceeded max memory size 277
A.4 SQL 中 In 子句太长导致栈溢出错误278
A.5 高并发导致大量查询出错279
附录 B Presto 配置参数说明 282
附录 C Presto 执行信息说明289
精彩书摘
1.3.3 Presto 查询执行模型
Presto 在执行 SQL 语句时,将这些 SQL 语句解析为相应的查询,并在分布式集群中执行这些查询。
1. Statement
Statement 语句。其实就是指我们输入的 SQL 语句。 Presto 支持符合 ANSI 标准的 SQL语句。这种语句由子句( Clause)、表达式( Expression)和断言( Predicate)组成。Presto 为什么将语句( Statement)和查询( Query)的概念分开呢?因为在 Presto 中,语句和查询本身就是不同的概念。语句指的是终端用户输入的用文字表示的 SQL 语句;当 Presto 执行输入的 SQL 语句时,会根据 SQL 语句生成查询执行计划,进而生成可以执行的查询( Query),而查询代表的是分布到所有的 Worker 之间执行的实际查询操作。
2. Query
Query 即查询执行。当 Presto 接收一个 SQL 语句并执行时,会解析该 SQL 语句,将其转变成一个查询执行和相关的查询执行计划。一个查询执行代表可以在 Presto 集群中运行的查询,是由运行在各个 Worker 上且各自之间相互关联的阶段( Stage)组成的。
那么 SQL 语句与查询执行之间有什么不同呢?
其实很简单,你可以认为 SQL 语句就是提交给 Presto 的用文字表示的 SQL 执行语句。而查询执行则是为了完成 SQL 语句所表述的查询而实例化的配置信息、组件、查询执行计划和优化信息等。一个查询执行由 Stage、 Task、 Driver、 Split、 Operator 和 DataSource 组成。这些组件之间通过内部联系共同组成了一个查询执行,从而得到 SQL 语句表述的查询,并得到相应的结果集。
3. Stage
Stage 即查询执行阶段。当 Presto 运行 Query 时, Presto 会将一个 Query 拆分成具有层级关系的多个 Stage,一个 Stage 就代表查询执行计划的一部分。例如,当我们执行一个查询,从 Hive 的一张具有 1 亿条记录的表中查询数据并进行聚合操作时, Presto 会创建一个Root Stage(在后面的章节你会知道,该 Stage 就是 Single Stage),该 Stage 聚合其上游 Stage的输出数据,然后将结果输出给 Coordinator,并由 Coordinator 将结果输出给终端用户。Presto 技术内幕。
通常情况下, Stage 之间是树状的层级结构。每个 Query 都有一个 Root Stage。该 Stage用于聚集所有其他 Stage 的输出数据,并将最终的数据反馈给终端用户。需要注意的是,Stage并不会在集群中实际执行,它只是 Coordinator 用于对查询执行计划进行管理和建模的逻辑概念。每个 Stage(除了 Single Stage 和 Source Stage)都会有输入和输出,都会从上游 Stage读取数据,然后将产生结果输出给下游 Stage。需要注意的是: Source Stage 没有上游 Stage,它从 Connector 获取数据。 Single Stage 没有下游 Stage,它的结果直接输出给 Coordinator,并由 Coordinator 输出给终端用户。
Presto 中的 Stage 共分为 4 种,具体介绍如下。
Coordinator_Only:这种类型的 Stage 用于执行 DDL 或者 DML 语句中最终的表结构创建或者更改。
Single:这种类型的 Stage 用于聚合子 Stage 的输出数据,并将最终数据输出给终端用户。
Fixed: 这种类型的 Stage 用于接受其子 Stage 产生的数据并在集群中对这些数据进行分布式的聚合或者分组计算。
Source:这种类型的 Stage 用于直接连接数据源,从数据源读取数据,在读取数据的时候,该阶段也会根据 Presto 对查询执行计划的优化完成相关的断言下发( Predicate PushDown)和条件过滤等。
说明
由于一个 SQL 查询可以被分解为多个前后关联的 Stage,在这里我们约定:按照数据的流向,越靠近数据源的 Stage 越处于上游,越远离数据源的 Stage 越处于下游。
4. Exchange
Exchange 的字面意思就是 “交换”。 Presto 的 Stage 是通过 Exchange 来连接另一个 Stage的。Exchange 用于完成有上下游关系的 Stage 之间的数据交换。在 Presto 中有两种 Exchange:Output Buffer 和 Exchange Client。生产数据的 Stage 通过名为 Output Buffer 的 Exchange 将数据传送给其下游的 Stage(根据数据的流向,分为上下游,你可以将 Presto 中查询执行过程中的数据比喻成一条河流,那么产生数据的 Stage 相对于消费数据的 Stage 来说,就是上游)。消费数据的 Stage 通过名为 Exchange Client 的 Exchange 从上游 Stage 读取数据。如果当前的 Stage 是 Source 类型的 Stage,那么该 Stage 则是直接通过相应的 Connector从数据源读取数据的。而该 Stage 则是通过名为 Source Operator 的 Operator 与 Connector 进行交互的。例如,如果一个 Source Stage 直接从 HDFS 获取数据,那么这种操作不是通过Exchange Client 来完成的,而是通过运行于 Driver 中的 Source Operator 来完成的。
5. Task
从前面的章节我们可以知道, Stage 并不会在 Presto 集群中实际运行,它仅代表针对于一个 SQL 语句查询执行计划中的一部分查询的执行过程,只是用来对查询执行计划进行管理和的各个 Worker 节点上的。
在 Presto 集群中,一个查询执行被分解成具有层级关系的一系列的 Stage,一个 Stage又被拆分为一系列的 Task。每个 Task 处理一个或者多个 Split。每个 Task 都有对应的输入和输出。一个 Stage 被分解为多个 Task,从而可以并行地执行一个 Stage。 Task 也采用了相同的机制:一个 Task 也可以被分解为一个或者多个 Driver,从而并行地执行一个 Task。同的机制:一个 Task 也可以被分解为一个或者多个 Driver,从而并行地执行一个 Task。
说明
由于一个 SQL 查询可以被分解为多个前后关联的 Stage,而每个 Stage 中均含有一个或者多个Ta
Presto技术内幕 电子书 下载 mobi epub pdf txt