书 名Python 3网络爬虫开发实战
系列书名图灵原创
执行编辑关于本书的内容有任何问题,请联系 王军花
书 号978-7-115-48034-7
定 价99.00 元
页 数608
印刷方式单色
开 本16开
出版状态正在排版
本书介绍了如何利用Python 3开发网络爬虫,书中首先介绍了环境配置和基础知识,然后讨论了urllib、requests、正则表达式、Beautiful Soup、XPath、pyquery、数据存储、Ajax数据爬取等内容,接着通过多个案例介绍了不同场景下如何实现数据爬取,最后介绍了pyspider框架、Scrapy框架和分布式爬虫。
本书适合Python程序员阅读。
本书特色
1.本书详细介绍了爬虫的关键技术,涵盖面广,实用性强。
2.本书作者崔庆才,北京航空航天大学硕士,北京钉趣网络公司技术总监,其个人博客为cuiqingcai.com,其上爬虫文章的浏览量总计已过百万。
目录
正在加工……
作者介绍
崔庆才,北京航空航天大学硕士,静觅博客(https://cuiqingcai.com/)博主,爬虫博文访问量已过百万,喜欢钻研,热爱生活,乐于分享。
基本信息
定价:¥49.00
作者:唐松 陈智铨
I S B N :978-7-111-57841-3条码书号:9787111578413上架日期:2017/9/5出版日期:2017/9/5版 次:1-1出 版 社:机械工业出版社丛 书 名: 页 数:244
内容简介
本书将介绍如何使用Python编写网络爬虫程序获取互联网上的大数据。本书包括三部分内容:基础部分、进阶部分和项目实践。基础部分(第1~6章)主要介绍爬虫的三个步骤(获取网页、解析网页和存储数据),并通过诸多示例的讲解,让读者从基础内容开始系统性地学习爬虫技术,并在实践中提升Python爬虫水平。进阶部分(第7~12章)包括多线程的并发和并行爬虫、分布式爬虫、更换IP等,帮助读者进一步提升爬虫水平。项目实践部分(第13~16章)使用本书介绍的爬虫技术对几个真实的网站进行抓取,让读者能在读完本书后根据自己的需求写出爬虫程序。无论是否有编程基础,只要是对爬虫技术感兴趣的读者,本书就能带领读者从入门到进阶,再到实战,一步步了解爬虫,终写出自己的爬虫程序。
第1章网络爬虫入门
1.1为什么要学网络爬虫
1.1.1 网络爬虫能带来什么好处
1.1.2能从网络上爬取什么数据
1.1.3应不应该学爬虫
1.2网络爬虫是否合法
1.2.1 Robots协议
1.2.2 网络爬虫的约束
1.3网络爬虫的基本议题
1.3.1 Python爬虫的流程
1.3.2三个流程的技术实现
2章编写一个网络爬虫
2.1搭建Python平台
2.1.1 Python的安装
2.1.2使用pip安装第三方库
2.1.3使用编译器Jupyter编程
2.2 Python使用入门
2.2.1基本命令
2.2.2数据类型
2.2.3条件语句和循环语句
2.2.4函数
2.2.5面向对象编程
2.3编写一个简单的爬虫
第3章静态网页抓取
第4章动态网页抓取
第5章解析网页
第6章数据存储
第7章提升爬虫的速度
第8章反爬虫问题
第9章解决中文乱码
第10章登录与验证码处理
第11章服务器采集
第12章分布式爬虫
第13章爬虫实践一:维基百科
第14章爬虫实践二:知乎Live
第15章爬虫实践三:百度地图API
第16章爬虫实践四:餐厅点评
..
Python 3爬虫、数据清洗与可视化实战
作 译 者:零一,韩要宾,黄园园
出版时间:2018-03 千 字 数:200
版 次:01-01 页 数:212
开 本:16开
装 帧:
I S B N :9787121333590
换 版:
所属分类:科技 >> 计算机 >> 计算机科学
纸质书定价:¥49.0
1 章 Python 基础 ..................................................................................... 1
1.1 安装Python 环境.............................................................................................................. 1
1.1.1 Python 3.6.2 安装与配置 .......................................................................................... 1
1.1.2 使用IDE 工具——PyCharm .................................................................................... 4
1.1.3 使用IDE 工具——Anaconda ................................................................................... 4
1.2 Python 操作入门 .............................................................................................................. 6
1.2.1 编写一个Python 代码 .......................................................................................... 6
1.2.2 Python 基本操作 ....................................................................................................... 9
1.2.3 变量 .......................................................................................................................... 10
1.3 Python 数据类型 ............................................................................................................ 10
1.3.1 数字 .......................................................................................................................... 10
1.3.2 字符串 .......................................................................................................................11
1.3.3 列表 .......................................................................................................................... 13
1.3.4 元组 .......................................................................................................................... 14
1.3.5 集合 .......................................................................................................................... 15
1.3.6 字典 .......................................................................................................................... 15
1.4 Python 语句与函数 ......................................................................................................... 16
1.4.1 条件语句 .................................................................................................................. 16
1.4.2 循环语句 .................................................................................................................. 16
1.4.3 函数 .......................................................................................................................... 17
2 章 写一个简单的爬虫 .......................................................................... 18
2.1 关于爬虫的合法性 ......................................................................................................... 18
2.2 了解网页 ......................................................................................................................... 20
2.2.1 认识网页结构 .......................................................................................................... 21
2.2.2 写一个简单的HTML ............................................................................................. 21
2.3 使用requests 库请求网站 .............................................................................................. 23
Python 3 爬虫、数据清洗与可视化实战
2.3.1 安装requests 库 ....................................................................................................... 23
2.3.2 爬虫的基本原理 ...................................................................................................... 25
2.3.3 使用GET 方式抓取数据 ........................................................................................ 26
2.3.4 使用POST 方式抓取数据 ...................................................................................... 27
2.4 使用Beautiful Soup 解析网页 ....................................................................................... 30
2.5 清洗和组织数据 ............................................................................................................. 34
2.6 爬虫攻防战 ..................................................................................................................... 35
3 章 用API 爬取天气预报数据 ............................................................... 38
3.1 注册免费API 和阅读技术文档 ..................................................................................... 38
3.2 获取API 数据 ................................................................................................................ 40
3.3 存储数据到MongoDB ................................................................................................... 45
3.3.1 下载并安装MongoDB ............................................................................................ 45
3.3.2 在PyCharm 中安装Mongo Plugin ......................................................................... 46
3.3.3 将数据存入MongoDB ............................................................................................ 49
3.4 MongoDB 数据库查询 ................................................................................................... 52
4 章 大型爬虫案例:抓取某电商网站的商品数据 ................................... 55
4.1 观察页面特征和解析数据 ............................................................................................. 55
4.2 工作流程分析 ................................................................................................................. 64
4.3 构建类目树 ..................................................................................................................... 65
4.4 获取产品列表 ................................................................................................................. 68
4.5 代码优化 ......................................................................................................................... 70
4.6 爬虫效率优化 ................................................................................................................. 74
4.7 容错处理 ......................................................................................................................... 77
5 章 Scrapy 爬虫 ................................................................................... 78
5.1 Scrapy 简介 ..................................................................................................................... 78
5.2 Scrapy 安装 ..................................................................................................................... 79
5.3 案例:用Scrapy 抓取股票行情 .................................................................................... 80
6 章 Selenium爬虫 ................................................................................ 88
6.1 Selenium 简介 ................................................................................................................. 88
6.2 案例:用Selenium 抓取电商网站数据 ........................................................................ 90
7 章 数据库连接和查询 ........................................................................ 100
7.1 使用PyMySQL ............................................................................................................ 100
7.1.1 连接数据库 ............................................................................................................ 100
7.1.2 案例:某电商网站女装行业TOP100 销量数据 ................................................. 102
7.2 使用SQLAlchemy ........................................................................................................ 104
7.2.1 SQLAlchemy 基本介绍 ......................................................................................... 104
7.2.2 SQLAlchemy 基本语法 ......................................................................................... 105
7.3 MongoDB ...................................................................................................................... 107
7.3.1 MongoDB 基本语法 .............................................................................................. 107
7.3.2 案例:在某电商网站搜索“连衣裙”的商品数据 ............................................ 107
8 章 NumPy ......................................................................................... 109
8.1 NumPy 简介 .................................................................................................................. 109
8.2 一维数组 ........................................................................................................................110
8.2.1 数组与列表的异同 .................................................................................................110
8.2.2 数组的创建 ............................................................................................................. 111
8.3 多维数组 ........................................................................................................................ 111
8.3.1 多维数组的高效性能 .............................................................................................112
8.3.2 多维数组的索引与切片 .........................................................................................113
8.3.3 多维数组的属性 .....................................................................................................113
8.4 数组的运算 ....................................................................................................................115
9 章 pandas 数据清洗 .......................................................................... 117
9.1 数据读写、选择、整理和描述 ....................................................................................117
9.1.1 从CSV 中读取数据 ...............................................................................................119
9.1.2 向CSV 写入数据 .................................................................................................. 120
9.1.3 数据选择 ................................................................................................................ 120
9.1.4 数据整理 ................................................................................................................ 122
9.1.5 数据描述 ................................................................................................................ 123
9.2 数据分组、分割、合并和变形 ................................................................................... 124
9.2.1 数据分组 ................................................................................................................ 124
9.2.2 数据分割 ................................................................................................................ 127
9.2.3 数据合并 ................................................................................................................ 128
9.2.4 数据变形 ................................................................................................................ 134
9.2.5 案例:旅游数据的分析与变形 ............................................................................ 136
Python 3 爬虫、数据清洗与可视化实战
9.3 缺失值、异常值和重复值处理 ................................................................................... 140
9.3.1 缺失值处理 ............................................................................................................ 140
9.3.2 检测和过滤异常值 ................................................................................................ 144
9.3.3 移除重复数据 ........................................................................................................ 147
9.3.4 案例:旅游数据的值检查与处理 ........................................................................ 149
9.4 时序数据处理 ............................................................................................................... 152
9.4.1 日期/时间数据转换 ............................................................................................... 152
9.4.2 时序数据基础操作 ................................................................................................ 153
9.4.3 案例:天气数据分析与处理 ................................................................................ 155
9.5 数据类型转换 ............................................................................................................... 158
9.6 正则表达式 ................................................................................................................... 160
9.6.1 元字符与限定符 .................................................................................................... 161
9.6.2 案例:用正则表达式提取网页文本信息 ............................................................ 162
10 章 综合应用实例 ............................................................................. 164
10.1 按给用户推荐旅游产品 ................................................................................. 164
10.1.1 数据采集 .............................................................................................................. 165
10.1.2 数据清洗、建模 .................................................................................................. 169
10.2 通过热力图分析为用户提供出行建议 ..................................................................... 172
10.2.1 某旅游网站热门景点爬虫代码(qunaer_sights.py) ....................................... 175
10.2.2 提取CSV 文件中经纬度和销量信息 ................................................................ 178
10.2.3 创建景点门票销量热力地图HTML 文件 ......................................................... 179
11 章 数据可视化 ................................................................................. 182
11.1 matplotlib .................................................................................................................... 183
11.1.1 画出各省份平均价格、各省份平均成交量柱状图 .......................................... 183
11.1.2 画出各省份平均成交量折线图、柱状图、箱形图和饼图 .............................. 184
11.1.3 画出价格与成交量的散点图 .............................................................................. 185
11.2 pyecharts ...................................................................................................................... 186
11.2.1 Echarts 简介 ......................................................................................................... 186
11.2.2 pyecharts 简介 ..................................................................................................... 187
11.2.3 初识pyecharts,玫瑰相送 .................................................................................. 187
11.2.4 pyecharts 基本语法 .............................................................................................. 188
11.2.5 基于商业分析的pyecharts 图表绘制 ................................................................. 190
11.2.6 使用pyecharts 绘制其他图表 ............................................................................. 199
11.2.7 pyecharts 和Jupyter ............................................................................................. 203
我一直认为,学习一门技术最好的方式就是通过实际的项目来驱动。这套书的《Python网络爬虫从入门到实践教程书》恰恰抓住了这一点。它为我提供了一个清晰的学习路径,从最基本的爬虫概念到Scrapy框架的应用,每一步都伴随着实际的代码示例和项目练习。我特别欣赏书中对于Scrapy框架的讲解,它详细介绍了Scrapy的架构、Item、Spider、Pipeline等核心组件,并提供了一个完整的Scrapy项目案例,让我能够快速上手并理解其工作流程。通过完成书中的项目,我不仅掌握了爬虫的基本原理和常用库,还学会了如何组织和管理一个爬虫项目,这对于我未来的学习和工作都非常有帮助。不过,如果这本书能够增加一些关于爬虫伦理和法律法规的讨论,以及在大型项目管理方面的一些指导,将会使它更加全面。
评分《Python网络爬虫从入门到实践教程书》这本书给了我一种“循序渐进,厚积薄发”的学习体验。它不像有些教程那样上来就讲高深的理论,而是以项目驱动的方式,带领读者一步步完成实际的爬虫项目。从最简单的静态网页信息提取,到稍微复杂一点的登录、验证码识别,再到Ajax数据的抓取,每一个小项目都设置得非常合理,让我在实践中巩固知识。我觉得它最出彩的地方在于,将理论知识巧妙地融入到项目实践中,比如在某个项目中讲解到了正则表达式的运用,在另一个项目中又讲解了如何利用Scrapy框架进行高效爬取。这种“学以致用”的学习方式,让我觉得学习过程既有趣又高效。当然,这本书的侧重点可能更偏向于入门和实践,对于一些深度优化的技术,比如多线程/多进程爬虫的实现细节,或者更复杂的反爬策略,可能需要参考其他更专业的书籍。
评分这套书中的《爬虫 数据清洗与可视化实战》简直是我处理爬取数据的“救星”。我之前爬取了一些数据,但面对一堆杂乱无章的文本和数字,完全不知道如何下手进行分析。这本书提供了非常系统的解决方案。它从 Pandas 库的基础操作讲起,比如DataFrame的创建、索引、选择、切片,然后逐步深入到数据清洗的各个环节:缺失值处理(填补、删除)、异常值检测与处理、重复数据去除、数据类型转换等等。书中提供了大量的实际案例,例如对电商评论、招聘信息、新闻资讯等不同类型数据的清洗过程,让我能够看到不同场景下数据问题的应对方法。最让我兴奋的是,它还详细介绍了 Matplotlib 和 Seaborn 等可视化库的运用,如何根据数据的特点绘制出各种统计图表,比如散点图、折线图、柱状图、热力图等,让数据分析的结果一目了然。虽然数据清洗的步骤和方法多种多样,这本书已经涵盖了绝大多数常用技巧,但如果能增加更多关于机器学习模型在数据清洗和特征工程中的应用,或许能让这本书的价值更上一层楼。
评分作为一个对数据分析和可视化有着浓厚兴趣的读者,我发现这套书中的《爬虫 数据清洗与可视化实战》提供了非常全面的视角。它不仅仅是简单地介绍 Pandas 的API,而是真正地展示了数据清洗在实际工作中的重要性,以及如何通过可视化来探索和理解数据。我尤其喜欢书中关于数据探索性分析(EDA)的部分,它展示了如何通过各种图表来发现数据中的模式、趋势和相关性,为后续的建模或决策提供依据。例如,书中通过对某个数据集进行绘制,直观地展示了不同类别之间的差异,以及某个变量随时间的变化趋势,这些信息是我在原始数据中很难直接获取的。虽然书中提供了丰富的可视化示例,但对于一些更高级的可视化技巧,例如交互式可视化(如 Plotly、Bokeh)以及一些专业领域的定制化图表,如果能有所涉及,将会更加完善。
评分这本书绝对是 Python 网络爬虫领域的“宝藏”!我之前一直对爬虫技术很好奇,但又觉得门槛很高,不知道从何下手。机缘巧合下,我入手了这套书,简直是打开了新世界的大门。第一卷,也就是《Python 3网络爬虫开发实战》,就像一位耐心细致的老师,从最基础的环境搭建、HTTP协议的原理讲起,到Requests库的运用,再到BeautifulSoup和XPath的选择器,每一个概念都解释得非常透彻,而且代码示例也很清晰,跟着敲一遍就能理解。让我印象深刻的是,书中并没有止步于简单的抓取,而是深入讲解了如何处理动态加载的网页,比如使用Selenium进行浏览器自动化操作,这对于应对现代网站的复杂性至关重要。更棒的是,它还涉及了分布式爬虫的概念,虽然只是初步介绍,但已经让我看到了扩展爬虫能力的巨大潜力。虽然这本书的内容丰富,但我感觉它在某些进阶主题上,比如反爬机制的深度破解和大规模数据存储的优化方面,还可以有更详尽的探讨。
本站所有内容均为互联网搜索引擎提供的公开搜索信息,本站不存储任何数据与内容,任何内容与数据均与本站无关,如有需要请联系相关搜索引擎包括但不限于百度,google,bing,sogou 等
© 2025 book.coffeedeals.club All Rights Reserved. 静流书站 版权所有