作 译 者:零一,韩要宾,黄园园
出版时间:2018-03 千 字 数:200
版 次:01-01 页 数:212
开 本:16开
装 帧:
I S B N :9787121333590
换 版:
所属分类:科技 >> 计算机 >> 计算机科学
纸质书定价:¥49.0
本书内容来自笔者在浙江某高校授课内容,主要介绍运用Python工具获取电商平台的页面数据,并对数据做清洗和存储。本书简化了Python基础部分,保证有足够的篇幅来介绍爬虫和数据清洗的内容,对于Python基础,建议新手可以选购对应的基础书籍配合本书一起学习。
第1 章 Python 基础 ..................................................................................... 1
1.1 安装Python 环境.............................................................................................................. 1
1.1.1 Python 3.6.2 安装与配置 .......................................................................................... 1
1.1.2 使用IDE 工具——PyCharm .................................................................................... 4
1.1.3 使用IDE 工具——Anaconda ................................................................................... 4
1.2 Python 操作入门 .............................................................................................................. 6
1.2.1 编写第一个Python 代码 .......................................................................................... 6
1.2.2 Python 基本操作 ....................................................................................................... 9
1.2.3 变量 .......................................................................................................................... 10
1.3 Python 数据类型 ............................................................................................................ 10
1.3.1 数字 .......................................................................................................................... 10
1.3.2 字符串 .......................................................................................................................11
1.3.3 列表 .......................................................................................................................... 13
1.3.4 元组 .......................................................................................................................... 14
1.3.5 集合 .......................................................................................................................... 15
1.3.6 字典 .......................................................................................................................... 15
1.4 Python 语句与函数 ......................................................................................................... 16
1.4.1 条件语句 .................................................................................................................. 16
1.4.2 循环语句 .................................................................................................................. 16
1.4.3 函数 .......................................................................................................................... 17
第2 章 写一个简单的爬虫 .......................................................................... 18
2.1 关于爬虫的合法性 ......................................................................................................... 18
2.2 了解网页 ......................................................................................................................... 20
2.2.1 认识网页结构 .......................................................................................................... 21
2.2.2 写一个简单的HTML ............................................................................................. 21
2.3 使用requests 库请求网站 .............................................................................................. 23
Python 3 爬虫、数据清洗与可视化实战
2.3.1 安装requests 库 ....................................................................................................... 23
2.3.2 爬虫的基本原理 ...................................................................................................... 25
2.3.3 使用GET 方式抓取数据 ........................................................................................ 26
2.3.4 使用POST 方式抓取数据 ...................................................................................... 27
2.4 使用Beautiful Soup 解析网页 ....................................................................................... 30
2.5 清洗和组织数据 ............................................................................................................. 34
2.6 爬虫攻防战 ..................................................................................................................... 35
第3 章 用API 爬取天气预报数据 ............................................................... 38
3.1 注册免费API 和阅读技术文档 ..................................................................................... 38
3.2 获取API 数据 ................................................................................................................ 40
3.3 存储数据到MongoDB ................................................................................................... 45
3.3.1 下载并安装MongoDB ............................................................................................ 45
3.3.2 在PyCharm 中安装Mongo Plugin ......................................................................... 46
3.3.3 将数据存入MongoDB ............................................................................................ 49
3.4 MongoDB 数据库查询 ................................................................................................... 52
第4 章 大型爬虫案例:抓取某电商网站的商品数据 ................................... 55
4.1 观察页面特征和解析数据 ............................................................................................. 55
4.2 工作流程分析 ................................................................................................................. 64
4.3 构建类目树 ..................................................................................................................... 65
4.4 获取产品列表 ................................................................................................................. 68
4.5 代码优化 ......................................................................................................................... 70
4.6 爬虫效率优化 ................................................................................................................. 74
4.7 容错处理 ......................................................................................................................... 77
第5 章 Scrapy 爬虫 ................................................................................... 78
5.1 Scrapy 简介 ..................................................................................................................... 78
5.2 Scrapy 安装 ..................................................................................................................... 79
5.3 案例:用Scrapy 抓取股票行情 .................................................................................... 80
第6 章 Selenium爬虫 ................................................................................ 88
6.1 Selenium 简介 ................................................................................................................. 88
6.2 案例:用Selenium 抓取电商网站数据 ........................................................................ 90
第7 章 数据库连接和查询 ........................................................................ 100
7.1 使用PyMySQL ............................................................................................................ 100
7.1.1 连接数据库 ............................................................................................................ 100
7.1.2 案例:某电商网站女装行业TOP100 销量数据 ................................................. 102
7.2 使用SQLAlchemy ........................................................................................................ 104
7.2.1 SQLAlchemy 基本介绍 ......................................................................................... 104
7.2.2 SQLAlchemy 基本语法 ......................................................................................... 105
7.3 MongoDB ...................................................................................................................... 107
7.3.1 MongoDB 基本语法 .............................................................................................. 107
7.3.2 案例:在某电商网站搜索“连衣裙”的商品数据 ............................................ 107
第8 章 NumPy ......................................................................................... 109
8.1 NumPy 简介 .................................................................................................................. 109
8.2 一维数组 ........................................................................................................................110
8.2.1 数组与列表的异同 .................................................................................................110
............
出版信息
书 名Python 3网络爬虫开发实战
系列书名图灵原创
执行编辑关于本书的内容有任何问题,请联系 王军花
书 号978-7-115-48034-7
页 数608
印刷方式单色
开 本16开
出版状态正在排版
定价99.00
本书特色
1.本书详细介绍了爬虫的关键技术,涵盖面广,实用性强。
2.本书作者崔庆才,北京航空航天大学硕士,北京钉趣网络公司技术总监,其个人博客为cuiqingcai.com,其上爬虫文章的浏览量总计已过百万。
目录
本书介绍了如何利用Python 3开发网络爬虫,书中首先介绍了环境配置和基础知识,然后讨论了urllib、requests、正则表达式、Beautiful Soup、XPath、pyquery、数据存储、Ajax数据爬取等内容,接着通过多个案例介绍了不同场景下如何实现数据爬取,最后介绍了pyspider框架、Scrapy框架和分布式爬虫。
本书适合Python程序员阅读。
我对《包邮Python 3爬虫 数据清洗与可视化实战+Python3网络爬虫开发实战》这本书的期待,主要集中在它如何将爬虫技术与数据处理分析这两个看似独立的领域有机结合起来。我发现很多关于爬虫的书籍,在数据处理和可视化部分往往一带而过,而专门讲解数据分析的书籍又很少涉及数据的来源和抓取。这本书的标题恰好点明了我的需求。我尤其想深入了解书中所提到的“数据清洗”环节,因为在实际的爬虫项目中,获取到的原始数据往往存在大量的噪音和错误,如何高效地去除这些问题,进行数据标准化、格式统一、缺失值填充等操作,是决定项目成败的关键。我相信书中会提供很多实用的技巧和代码示例,帮助我掌握Pandas等数据处理库的精髓。同时,我也对“可视化”部分充满好奇,希望能够学习到如何利用Python的强大可视化工具,例如Matplotlib、Seaborn,将清洗后的数据转化为直观、易于理解的图表,从而更好地揭示数据中的规律和趋势。这本书的“实战”特点,也让我相信它会包含丰富的项目案例,能够让我学以致用,真正提升自己的数据处理和分析能力。
评分刚拿到这本《包邮Python 3爬虫 数据清洗与可视化实战+Python3网络爬虫开发实战》,第一感觉就是厚实,满满的干货!虽然之前也看过一些关于Python爬虫的书,但很多都停留在基础概念的讲解,真正涉及到实战的往往又显得零散,不成体系。这本书的出版,简直是给像我这样想深入掌握爬虫技能的读者送来了一份及时雨。我特别期待书中关于“数据清洗”和“可视化”的部分,因为这才是爬虫项目的价值所在。光能抓取数据还不够,如何有效地处理、分析并最终以直观的方式呈现出来,才是体现技术功力的关键。我希望这本书能够详细地介绍各种数据清洗的常见问题,比如缺失值、异常值、重复值等,并给出Python中行之有效的处理方法,比如利用pandas库的强大功能。同时,在数据可视化方面,我也非常渴望学习到如何运用matplotlib、seaborn甚至更高级的库,将爬取到的数据转化为有说服力的图表,比如折线图、柱状图、散点图、热力图等,并能根据不同的数据类型和分析目的选择最合适的图表形式。这本书的厚度也让我感到安心,相信它能够覆盖到从入门到进阶的方方面面,解答我学习过程中可能遇到的各种疑问,让我真正成为一个能够独立完成爬虫项目的数据从业者。
评分我一直对网络爬虫技术充满兴趣,但总是感觉缺少一本能够系统引导我的教材。市面上的爬虫书籍良莠不齐,有些过于理论化,实践性不强,而有些则过于碎片化,难以形成完整的知识体系。这本书《包邮Python 3爬虫 数据清洗与可视化实战+Python3网络爬虫开发实战》的出现,正好弥补了这一空白。我尤其看重它在“数据清洗”和“可视化”这两个环节的深入探讨。很多时候,爬虫项目中最耗时、最考验功力的部分恰恰是数据的预处理和分析。如果不能有效地清洗和可视化数据,即使抓取了海量数据,也难以从中挖掘出有价值的信息。我希望书中能够详细讲解如何使用Python的强大库,例如pandas和numpy,来处理各种不规范的数据格式,进行数据去重、填充缺失值、数据类型转换等操作。同时,我也迫切希望学习到如何利用matplotlib、seaborn等库,将清洗后的数据转化为各种精美的图表,比如趋势图、分布图、关系图等,从而更直观地理解数据背后的规律。这本书的“实战”二字,让我对它充满了期待,我相信它能够带领我一步步掌握从数据抓取到数据分析的全过程,真正做到学以致用,解决实际问题。
评分这本书《包邮Python 3爬虫 数据清洗与可视化实战+Python3网络爬虫开发实战》吸引我的地方在于它对“数据清洗”和“可视化”的重视。我之前也接触过一些爬虫相关的资料,但总感觉它们在数据处理和分析方面不够深入,抓取回来的数据往往需要花费大量时间和精力去整理,才能进行下一步的分析。我希望这本书能够在这方面提供更系统、更全面的指导。具体来说,我非常期待学习如何使用Python的强大工具,例如Pandas库,来高效地处理各种数据问题,比如去除重复项、填充缺失值、进行数据类型转换、以及如何对数据进行有效的筛选和聚合。在数据可视化方面,我也希望能通过这本书学习到如何运用Matplotlib、Seaborn等库,将数据转化为直观、有说服力的图表,比如折线图、柱状图、散点图等,以便更好地理解数据的分布、趋势和关系。这本书的“实战”导向,也让我对它充满了信心,相信它能够提供丰富的代码示例和项目案例,帮助我快速掌握爬虫、数据清洗和可视化的完整流程,从而能够独立完成一些实际的数据分析项目。
评分拿到《包邮Python 3爬虫 数据清洗与可视化实战+Python3网络爬虫开发实战》这本书,我最先被它的内容定位所吸引。作为一名Python初学者,我一直想学习爬虫,但又担心直接上手会遇到很多难以理解的概念和晦涩的代码。这本书的结构似乎很合理,将“爬虫开发”与“数据清洗与可视化”紧密结合,这正是我目前最需要的。我希望能在这本书里学到如何用Python进行网络请求,理解HTTP协议的基本原理,掌握Requests库的各种用法,以及如何解析HTML、XML等网页结构。更重要的是,我非常期待关于“数据清洗”和“可视化”的章节。我知道,抓取到的原始数据往往是杂乱无章的,需要经过大量的清洗工作才能变得可用。我希望书中能详细介绍如何使用Pandas库来处理缺失值、异常值、重复值,以及如何进行数据转换和合并。在可视化方面,我也想学习如何利用Matplotlib和Seaborn库,将数据转化为清晰、美观的图表,以便更好地理解和展示分析结果。这本书的“实战”导向,让我相信它能提供大量的代码示例和项目案例,帮助我快速掌握技能,并能在自己的项目中得到应用。
本站所有内容均为互联网搜索引擎提供的公开搜索信息,本站不存储任何数据与内容,任何内容与数据均与本站无关,如有需要请联系相关搜索引擎包括但不限于百度,google,bing,sogou 等
© 2025 book.coffeedeals.club All Rights Reserved. 静流书站 版权所有