Python绝技运用Python成为顶级数据工程师+Python数据分析入门从数据获取到可视化 pdf epub mobi txt 电子书下载 2026

简体网页||繁体网页

☆☆☆☆☆

黄文青零一沈祥壮? 著

图书标签:

Python
数据分析
数据工程
Python绝技
数据可视化
数据获取
入门
编程
技术
实战

下载链接在页面底部

facebook linkedin mastodon messenger pinterest reddit telegram twitter viber vkontakte whatsapp 复制链接

想要找书就要到静流书站

book.coffeedeals.club

立刻按 ctrl+D收藏本页

你会得到大惊喜!!

店铺：蓝墨水图书专营店

出版社：电子工业

ISBN：9787121336546

商品编码：28677382246

具体描述

作译者：黄文青

出版时间：2018-05 千字数：300

版次：01-01 页数：212

开本：16开

装帧：

I S B N ：9787121336546

换版：

所属分类：科技 >> 计算机 >> 计算机科学

纸质书定价：￥79.0

仅仅会Python编程是不够的。想成为一名优秀的数据分析工程师，还需要有全方位、透彻理解问题本质的能力，善于把实际的工作任务拆解成准确的数据问题，并运用相关的知识来解决。本书恰好是从这个角度出发的，它条分缕析地帮助你认识任务的本质，教你从数据的角度来思考、拆解任务，并最终顺利地达成目标。

1 概述 / 1

1.1 何为数据工程师 / 1

1.2 数据分析的流程 / 3

1.3 数据分析的工具 / 11

1.4 大数据的思与辨 / 14

2 关于Python / 17

2.1 为什么是Python / 17

2.2 常用基础库 / 19

2.2.1 Numpy / 19

2.2.2 Pandas / 26

2.2.3 Scipy / 37

2.2.4 Matplotlib / 38

3 基础分析 / 43

3.1 场景分析与建模策略 / 43

3.1.1 统计量 / 43

3.1.2 概率分布 / 48

3.2 实例讲解 / 55

3.2.1 谁的成绩更优秀 / 55

3.2.2 应该库存多少水果 / 57

4 数据挖掘 / 60

4.1 场景分析与建模策略 / 60

4.1.1 分类 / 61

4.1.2 聚类 / 76

4.1.3 回归 / 86

4.1.4 关联规则 / 90

4.2 数据挖掘的重要概念 / 93

4.2.1 数据预处理 / 93

4.2.2 评估与验证 /97

4.2.3 Bagging 与Adaboost / 99

4.2.4 梯度下降与牛顿法 / 102

4.3 实例讲解 /105

4.3.1 信用卡欺诈监测 / 105

4.3.2 员工离职预判 /110

5 深度学习/ 114

5.1 场景分析与建模策略 / 115

5.1.1 感知机 / 115

5.1.2 自编码器 / 119

5.1.3 限制玻尔兹曼机 /123

5.1.4 深度信念神经网络 / 127

5.1.5 卷积神经网络 / 129

5.2 人工智能应用概况 / 137

5.2.1 深度学习的历史 /137

5.2.2 人工智能的杰作 / 140

5.3 实例讲解 / 146

5.3.1 学习识别手写数字 / 146

5.3.2 让机器认识一只猫 / 151

6 大数据分析 / 160

6.1 常用组件介绍 / 160

6.1.1 数据传输 / 165

6.1.3 数据计算 / 174

6.1.4 数据展示 / 180

6.2 大数据处理架构 / 188

6.2.1 Lambda 架构 / 189

6.2.2 Kappa 架构 / 192

6.2.3 ELK 架构 / 193

6.3 项目设计 / 194

参考文献 / 202

版次：1页数：字数：200000印刷时间：2018年03月01日开本：16开纸张：轻型纸包装：平装-胶订是否套装：否国际标准书号ISBN：9787121333590

所属分类：

图书>计算机/网络>程序设计>其他

编辑推荐

本书内容来自笔者在高校授课的内容，主要介绍如何运用 Python 工具获取电商平台的页面数据，并对数据进行清洗和存储。本书简化了 Python 基础部分，保证有足够的篇幅来介绍爬虫和数据清洗的内容。

本书采用的版本是 Python 3.6.2，是笔者写书时的*版本，而且笔者习惯用的操作平台是Windows 系统。

内容简介

本书是一本通过实战教初学者学习采集数据、清洗和组织数据进行分析及可视化的 Python 读物。书中案例均经过实战检验，笔者在实践过程中深感采集数据、清洗和组织数据的重要性，作为一名数据行业的“码农”，数据就是沃土，没有数据，我们将无田可耕。

本书共分 11 章， 6 个核心主题：其一是 Python 基础入门，包括环境配置、基本操作、数据类型、语句和函数；其二是 Python 爬虫的构建，包括网页结构解析、爬虫流程设计、代码优化、效率优化、容错处理、反防爬虫、表单交互和模拟页面点击；其三是 Python 数据库应用，包括 MongoDB、 MySQL 在 Python中的连接与应用；其四是数据清洗和组织，包括 NumPy 数组知识、 pandas 数据的读写、分组变形、缺失值异常值处理、时序数据处理和正则表达式的使用；其五是综合应用案例，帮助读者贯穿爬虫、数据清洗与组织的过程；*后是数据可视化，包括 Matplotlib 和 Pyecharts 两个库的使用，涉及饼图、柱形图、线图、词云图、地图等图形，帮助读者进入可视化的殿堂。

本书以实战为主，适合 Python 初学者及高等院校的相关专业学生，也适合 Python 培训机构作为实验教材使用。

作者简介

零一

原名陈海城，

零一数据学院创始人，

电商数据专家，数据分析师，开发工程师。

从事培训教育、数据分析和人工智能行业。

黄园园，具有十年软件开发经验，全栈工程师，六西格玛黑带，精通Python和机器学习算法，具有丰富的分布式爬虫开发经验；曾在苏州三星电子电脑（SESC）、新加坡电信（NCS）、希捷科技（Seagate Technology）等世界知名企业研发部工作，参与过花旗银行在线支付系统、银行账单自动化审核系统等大型软件开发，曾任杭州沐垚科技CTO。

显示全部信息

第 1 章 Python 基础 /1

1.1 安装 Python 环境 /1

1.1.1 Python 3.6.2 安装与配置 /1

1.1.2 使用 IDE 工具——PyCharm /4

1.1.3 使用 IDE 工具——Anaconda / 4

1.2 Python 操作入门/6

1.2.1 编写第一个 Python 代码/6

1.2.2 Python 基本操作/9

1.2.3 变量/10

1.3 Python 数据类型/10

1.3.1 数字/10

1.3.2 字符串/11

1.3.3 列表/13

1.3.4 元组/14

显示全部信息

前言

Python 是军刀型的开源工具，被广泛应用于 Web 开发、爬虫、数据清洗、自然语言处理、机器学习和人工智能等方面，而且Python 的语法简洁易读，这让许多编程入门者不再望而却步，因此Python 在最近几年非常受欢迎，各行各业的技术人员都开始使用 Python。

本书内容来自笔者在高校授课的内容，主要介绍如何运用 Python 工具获取电商平台的页面数据，并对数据进行清洗和存储。本书简化了Python 基础部分，保证有足够的篇幅来介绍爬虫和数据清洗的内容。

本书采用的版本是Python 3.6.2，是笔者写书时的最新版本，而且笔者习惯用的操作平台是Windows 系统。虽然目前一些高校和开发者在使用 Python 2.7，但是 Python 团队将在 2020 年停止对Python 2.7 的支持更新， Python 2.X 转向 Python 3.X 是大势所趋。

显示全部信息

媒体评论

这本书教大家如何利用Python撰写爬虫程序，清洗和组织数据，解析网页的内容，并将数据储存于数据库中。巨细无遗，帮助大家节省时间，是值得一读的好书！

国立台湾大学资讯工程博士，铭传大学资讯工程学系教授李御玺 (Yue-Shi Lee)

零一兄的这本Python爬虫技术是一个完整大数据应用框架：从数据收集、分析到数据可视化、数据建模。各章节以实际案例为出发点，对大数据分析、爬虫技术应用感兴趣的小伙伴们来说，这本书值得购买。

版次：1页数：字数：印刷时间：2018年03月01日开本：16开纸张：胶版纸包装：平装-胶订是否套装：否国际标准书号ISBN：9787121336539

所属分类：

图书>计算机/网络>程序设计>其他

快速直达

编辑推荐

内容简介

作者简介

前言

媒体评论

下载免费当当读书

编辑推荐

这是一本务实之作，充分体现数据分析流程的各项环节，包含数据的采集、清洗和探索性分析，并通过大家耳熟能说的Python工具加以实操。

内容简介

本书作为数据分析的入门图书，以Python语言为基础，介绍了数据分析的整个流程。本书内容涵盖数据的获取（即网络爬虫程序的设计）、前期数据的清洗和处理、运用机器学习算法进行建模分析，以及使用可视化的方法展示数据及结果。首先，书中不会涉及过于高级的语法，不过还是希望读者有一定的语法基础，这样可以更好地理解本书的内容。其次，本书重点在于应用Python来完成一些数据分析和数据处理的工作，即如何使用Python来完成工作而非专注于Python语言语法等原理的讲解。本书的目的是让初学者不论对数据分析流程本身还是Python语言，都能有一个十分直观的感受，为以后的深入学习打下基础。*后，读者不必须按顺序通读本书，因为各个章节层次比较分明，可以根据兴趣或者需要来自行安排。例如第5章介绍了一些实战的小项目，有趣且难度不大，大家可以在学习前面内容之余来阅读这部分内容。

作者简介

沈祥壮

自学Python两年，以数据分析为主线，系统学习了数据的采集，处理、分析和可视化。在研究统计机器学习理论的同时，使用Python语言实现了部分统计学习算法。研究方向包括数据采集，数据挖掘，统计机器学习及图像处理。

1 准备 1

1.1 开发环境搭建 2

1.1.1 在Ubuntu系统下搭建Python集成开发环境 2

1.1.2 在Windows系统下搭建Python集成开发环境 13

1.1.3 三种安装第三方库的方法 16

1.2 Python基础语法介绍 19

1.2.1 if__name__==＇__main__＇ 20

1.2.2 列表解析式 22

1.2.3 装饰器 23

1.2.4 递归函数 26

1.2.5 面向对象 27

1.3 The Zen of Python 28

参考文献 30

2 数据的获取 31

2.1 爬虫简介 31

2.2 数据抓取实践 33

2.2.1 请求网页数据 33

2.2.2 网页解析 38

2.2.3 数据的存储 46

2.3 爬虫进阶 50

2.3.1 异常处理 50

2.3.2 robots.txt 58

2.3.3 动态UA 60

2.3.4 代理IP 61

2.3.5 编码检测 61

2.3.6 正则表达式入门 63

2.3.7 模拟登录 69

2.3.8 验证码问题 74

2.3.9 动态加载内容的获取 84

2.3.10 多线程与多进程 93

2.4 爬虫总结 101

参考文献 102

3 数据的存取与清洗 103

3.1 数据存取 103

3.1.1 基本文件操作 103

3.1.2 CSV文件的存取 111

3.1.3 JSON文件的存取 116

3.1.4 XLSX文件的存取 121

3.1.5 MySQL数据库文件的存取 137

3.2 NumPy 145

3.2.1 NumPy简介 145

3.2.2 NumPy基本操作 146

3.3 pandas 158

3.3.1 pandas简介 158

3.3.2 Series与DataFrame的使用 159

3.3.3 布尔值数组与函数应用 169

3.4 数据的清洗 174

3.4.1 编码问题 174

3.4.2 缺失值的检测与处理 175

3.4.3 去除异常值 181

3.4.4 去除重复值与冗余信息 183

3.4.5 注意事项 185

参考文献 187

4 数据的分析及可视化 188

4.1 探索性数据分析 189

4.1.1 基本流程 189

4.1.2 数据降维 197

4.2 机器学习入门 199

4.2.1 机器学习简介 200

4.2.2 决策树——机器学习算法的应用 202

4.3 手动实现KNN算法 205

4.3.1 特例——最邻近分类器 205

4.3.2 KNN算法的完整实现 213

4.4 数据可视化 215

4.4.1 高质量作图工具——matplotlib 215

4.4.2 快速作图工具——pandas与matplotlib 223

4.4.3 简捷作图工具——seaborn与matplotlib 226

4.4.4 词云图 230

参考文献 232

5 Python与生活 234

5.1 定制一个新闻提醒服务 234

5.1.1 新闻数据的抓取 235

5.1.2 实现邮件发送功能 237

5.1.3 定时执行及本地日志记录 239

5.2 Python与数学 241

5.2.1 估计π值 242

5.2.2 三门问题 245

5.2.3 解决LP与QP问题（选读） 247

5.3 QQ群聊天记录数据分析 251

参考文献 256

《Python绝技：精通数据工程之道》内容简介在这本深入探讨Python在现代数据工程领域核心应用的权威著作中，您将踏上一段转型之旅，从一名Python学习者蜕变为一名能够驾驭复杂数据挑战的顶尖数据工程师。本书并非泛泛而谈，而是聚焦于Python语言的精妙之处及其在构建、管理和优化大规模数据管道方面的强大力量。它将带您领略Python如何成为数据获取、处理、存储、转换和分析的基石，助您在瞬息万变的数据驱动世界中脱颖而出。第一部分：Python作为数据工程的基石 Python语言的深度解析与优化高效的数据结构与算法：深入剖析Python内置数据结构（列表、元组、字典、集合）的高级用法，以及何时选择最适合的结构以获得最佳性能。我们将探索排序、搜索、图遍历等经典算法的Python实现，并讲解如何运用它们解决实际数据工程问题。面向对象编程（OOP）与设计模式：掌握Python强大的OOP特性，如类、继承、多态，并学习如何利用它们构建可维护、可扩展的数据处理模块。我们将介绍常见的设计模式（如工厂模式、单例模式、观察者模式），并演示如何在数据工程场景下应用它们，以提高代码的优雅性和健壮性。函数式编程范式：探索Python对函数式编程的支持，理解高阶函数、lambda表达式、列表推导式、生成器表达式等概念，并学习如何利用这些工具编写更简洁、更具表现力的数据转换代码，减少副作用，提高可读性。并发与并行处理：深入理解Python的线程、进程和异步编程模型。学习如何利用`threading`、`multiprocessing`和`asyncio`库来处理I/O密集型和CPU密集型任务，充分利用多核处理器，显著提升数据处理的速度和效率。我们将重点讨论GIL（全局解释器锁）的影响以及如何规避它。错误处理与调试技巧：掌握Python全面的异常处理机制，学习如何优雅地捕获和处理各种运行时错误。我们将分享高级调试技术，包括使用`pdb`、日志记录以及性能分析工具，帮助您快速定位和解决复杂问题。 Python在数据获取与集成中的应用 Web Scraping的艺术：掌握使用`BeautifulSoup`、`Scrapy`等库从网页中高效、可靠地提取结构化和非结构化数据的技术。我们将深入探讨爬虫的设计模式、反爬虫策略的应对、以及如何处理动态加载的内容。 API交互的精髓：学习如何使用`requests`库与RESTful API进行交互，处理JSON、XML等数据格式。我们将详细讲解API认证、分页处理、速率限制等实际操作细节，确保您能稳定地从各种数据源获取信息。数据库连接与操作：掌握使用`SQLAlchemy`等ORM（对象关系映射）工具与关系型数据库（如PostgreSQL, MySQL, SQLite）进行无缝连接和数据操作。我们将覆盖SQLAlchemy的查询构建、模型定义、事务管理等高级特性。 NoSQL数据库集成：学习如何使用Python客户端库与MongoDB、Redis等NoSQL数据库进行交互，理解不同NoSQL数据库的适用场景，以及如何在Python中实现数据的存储、查询和更新。数据格式处理：精通CSV、JSON、XML、Parquet、Avro等常见数据格式的读写与转换。我们将介绍`pandas`、`pyarrow`等库在处理这些格式时的性能优化技巧。第二部分：构建强大的数据处理管道使用Pandas进行高效数据清洗与转换 DataFrame的深度掌握：深入理解`pandas` DataFrame的内部机制，学习向量化操作、分组聚合、合并连接（merge, join, concat）等核心功能，以及如何优化大型数据集的操作。数据清洗策略：掌握缺失值处理（填充、删除、插补）、异常值检测与处理、数据类型转换、重复值识别与去除等关键数据清洗技术。复杂数据转换：学习使用`apply`、`map`、`transform`等函数进行灵活的数据转换，构建复杂的数据特征工程流程。时间序列数据处理：掌握`pandas`在时间序列分析中的强大功能，包括日期/时间索引、重采样、滑动窗口操作、以及处理时区等问题。 Apache Spark与PySpark：大数据处理的利器 Spark核心概念：理解Spark的RDD、DataFrame、Dataset等核心抽象，以及Spark如何实现分布式计算。 PySpark API实践：掌握使用PySpark进行大规模数据加载、转换、聚合和机器学习任务。我们将重点讲解DataFrame API，以及其与Pandas的异同。 Spark SQL与流处理：学习如何使用Spark SQL进行结构化数据查询，以及了解Spark Streaming/Structured Streaming在实时数据处理中的应用。性能调优：探讨Spark作业的常见性能瓶颈，学习数据倾斜的处理、缓存策略、Shuffle优化等高级调优技术。数据仓库与数据湖的Python之道 ETL/ELT流程设计：学习如何使用Python orchestrate（编排）端到端的数据提取、转换和加载（ETL）或提取、加载、转换（ELT）流程。数据仓库概念与实践：理解星型模型、雪花模型等数据仓库设计原则，并学习如何在Python中与各种数据仓库（如Amazon Redshift, Google BigQuery, Snowflake）进行交互。数据湖架构与管理：探索数据湖的优势，以及如何使用Python工具（如`PyIceberg`, `Delta Lake`）来管理和查询数据湖中的数据。数据治理与质量：讨论在数据管道中实现数据质量检查、元数据管理和数据血缘追踪的重要性，并介绍相关的Python库和最佳实践。第三部分：走向高级数据工程实践数据可视化与报告生成 Matplotlib与Seaborn的精妙运用：掌握使用`matplotlib`绘制各种静态图表，并学习`seaborn`如何基于`matplotlib`提供更美观、更具统计学意义的可视化。交互式可视化：探索`Plotly`和`Bokeh`等库，创建交互式图表，使数据分析结果更具动态性和探索性。仪表盘构建：学习如何使用`Dash`或`Streamlit`等框架，快速构建数据仪表盘，将数据洞察可视化并方便地分享。报告自动化：演示如何将可视化结果集成到自动生成的报告中，如PDF或HTML格式。数据工程的自动化与部署工作流管理工具：深入了解Airflow、Prefect、Luigi等Python原生的工作流管理系统，学习如何定义、调度和监控复杂的数据管道。容器化与微服务：理解Docker和Kubernetes在部署和管理数据工程服务中的作用，学习如何将Python数据处理任务容器化，实现环境一致性和弹性伸缩。 CI/CD与自动化测试：探讨持续集成/持续部署（CI/CD）的实践，并学习如何为数据工程代码编写单元测试、集成测试，确保代码质量和部署的可靠性。云平台上的数据工程 AWS、Azure、GCP数据服务概览：简要介绍主流云平台（AWS, Azure, GCP）上提供的核心数据服务，如对象存储（S3, Blob Storage, GCS）、托管数据库、数据仓库、大数据处理服务（EMR, HDInsight, Dataproc）等。 Python SDK与云服务集成：学习如何使用各云平台的Python SDK（如`boto3` for AWS, `azure-sdk-for-python` for Azure, `google-cloud-python` for GCP）与云服务进行交互，构建云原生数据解决方案。 Serverless数据处理：探索AWS Lambda, Azure Functions, Google Cloud Functions等Serverless计算服务在构建事件驱动、按需付费的数据处理流程中的应用。目标读者本书面向所有希望在数据工程领域取得成功的Python开发者。无论您是刚开始涉足数据领域的数据分析师、寻求提升技能的Python程序员、还是希望系统掌握数据工程核心技术的学生，本书都将为您提供一套全面、深入且实用的学习路径。通过本书的学习，您将不仅掌握Python在数据工程中的强大应用，更能培养解决复杂数据问题的分析思维和工程实践能力，成为一名真正意义上的顶级数据工程师。

用户评价

评分☆☆☆☆☆

最近在学习数据工程方面的内容，正好看到《Python绝技》这本书，虽然书名听起来有点“玄乎”，但内容却非常扎实。我尤其喜欢它关于数据获取的部分，讲解得非常细致，从基本的网络爬虫到利用API获取数据，再到如何处理各种复杂的数据源，都做了深入的阐述。特别是它介绍了一些我之前没接触过的第三方库，比如Scrapy，用来构建更强大的爬虫框架，还有一些用于处理不同格式数据（如JSON、XML）的技巧，都给我留下了深刻的印象。书中的代码示例也非常清晰，而且是可运行的，这一点对于初学者来说至关重要，可以帮助我们边学边练，快速掌握知识。作者在讲解过程中，也穿插了不少实际项目中的案例，让我们能更直观地理解这些技术在实际工作中的应用场景，以及如何解决遇到的问题。总的来说，这本书在数据获取方面的内容，为我打下了坚实的基础，让我对如何从各种渠道收集原始数据有了更全面的认识，也为后续的数据处理和分析环节做好准备。

评分☆☆☆☆☆

《Python数据分析入门》这本书，是我最近阅读的另一本，它在数据可视化这个环节做得非常出色。我之前接触过一些基本的可视化工具，但总觉得不够深入，很多时候只能做出一些简单的图表。这本书就不一样了，它从基础的Matplotlib讲起，然后深入到更强大的Seaborn，再到交互式可视化的Plotly，一步一步地引导读者掌握各种图表的绘制技巧，以及如何根据不同的数据类型和分析目的选择最合适的图表。最让我惊喜的是，它还讲解了如何利用可视化来发现数据中的模式和洞察，比如通过散点图来观察变量之间的关系，通过箱线图来比较不同组的数据分布，甚至是如何制作一些地图可视化，这些都极大地拓展了我对数据可视化的认知。而且，书中的案例非常丰富，涵盖了金融、医疗、社交媒体等多个领域，让我能够看到不同场景下数据的呈现方式，以及可视化在其中扮演的关键角色。读完这本书，我感觉自己对数据的理解能力又上了一个台阶，能够更加自信地将分析结果通过图表清晰地传达给他人。

评分☆☆☆☆☆

在数据工程的学习过程中，很多时候会遇到一些“疑难杂症”，需要一些更高级、更灵活的Python技巧来解决。《Python绝技》这本书的“绝技”部分，恰恰满足了我的需求。它并没有直接给出某个具体工具的使用方法，而是从Python语言本身的高级特性入手，比如迭代器、生成器、装饰器、元类等等，详细地讲解了这些概念的原理以及在数据处理中的妙用。我之前对这些概念只是有所耳闻，但一直没有深入理解，这本书的讲解让我茅塞顿开。特别是它演示了如何利用生成器来处理大规模数据集，避免内存溢出，以及如何使用装饰器来优雅地实现日志记录、性能监控等功能，这些都给我带来了巨大的启发。它还分享了一些关于代码优化的技巧，如何写出更高效、更易于维护的Python代码，这一点对于构建稳定可靠的数据工程系统至关重要。这本书的内容更侧重于“内功”的修炼，帮助我从更深的层次理解Python，从而能够更好地解决实际问题，提升编程效率。

评分☆☆☆☆☆

我一直认为，学习编程不仅仅是掌握语法和API，更重要的是培养解决问题的思维方式。《Python绝技》这本书在这一点上做得非常出色。它并没有局限于某个特定领域，而是从更宏观的角度，探讨如何运用Python的强大功能来解决各种复杂的数据问题。它分享了一些通用的设计模式和算法思想，比如如何利用Python的面向对象特性来构建可扩展的数据处理管道，如何运用函数式编程的思想来编写更简洁的数据转换逻辑，以及如何设计高效的数据结构来优化性能。书中还有不少关于并发和并行处理的介绍，这对于处理海量数据至关重要。我学会了如何利用多线程和多进程来加速数据处理任务，以及一些更高级的并发模型。这本书让我看到了Python在数据科学和工程领域的无限可能性，它不仅仅是一本技术手册，更像是一位经验丰富的老友，在指引我如何成为一名更优秀、更具创新精神的Python数据工程师。

评分☆☆☆☆☆

《Python数据分析入门》这本书，在数据获取到可视化的整个流程中，都有着非常详尽的介绍。我尤其看重它在数据预处理方面的讲解。数据清洗是数据分析中最耗时也最关键的环节，往往需要花费大量的时间来处理缺失值、异常值、重复值，以及进行数据格式的转换和标准化。《Python数据分析入门》在这方面提供了非常实用的方法和工具。它详细介绍了如何使用Pandas库来高效地进行数据清洗，比如如何识别和填充缺失值，如何检测和处理异常数据点，如何进行数据类型转换，以及如何进行数据的分组和聚合。书中还提供了不少关于特征工程的初步介绍，比如如何创建新的特征，如何对现有特征进行编码等，这对于提升模型的性能非常有帮助。我之前在处理真实数据时，常常因为数据质量不高而头疼，这本书提供了一套系统化的解决方案，让我能够更有条理地进行数据预处理，为后续的分析奠定坚实的基础。