作 译 者:零一,韩要宾,黄园园
出版时间:2018-03 千 字 数:200
版 次:01-01 页 数:212
开 本:16开
装 帧:
I S B N :9787121333590
换 版:
所属分类:科技 >> 计算机 >> 计算机科学
纸质书定价:¥49.0
本书内容来自笔者在浙江某高校授课内容,主要介绍运用Python工具获取电商平台的页面数据,并对数据做清洗和存储。本书简化了Python基础部分,保证有足够的篇幅来介绍爬虫和数据清洗的内容,对于Python基础,建议新手可以选购对应的基础书籍配合本书一起学习。
第1 章 Python 基础 ..................................................................................... 1
1.1 安装Python 环境.............................................................................................................. 1
1.1.1 Python 3.6.2 安装与配置 .......................................................................................... 1
1.1.2 使用IDE 工具——PyCharm .................................................................................... 4
1.1.3 使用IDE 工具——Anaconda ................................................................................... 4
1.2 Python 操作入门 .............................................................................................................. 6
1.2.1 编写第一个Python 代码 .......................................................................................... 6
1.2.2 Python 基本操作 ....................................................................................................... 9
1.2.3 变量 .......................................................................................................................... 10
1.3 Python 数据类型 ............................................................................................................ 10
1.3.1 数字 .......................................................................................................................... 10
1.3.2 字符串 .......................................................................................................................11
1.3.3 列表 .......................................................................................................................... 13
1.3.4 元组 .......................................................................................................................... 14
1.3.5 集合 .......................................................................................................................... 15
1.3.6 字典 .......................................................................................................................... 15
1.4 Python 语句与函数 ......................................................................................................... 16
1.4.1 条件语句 .................................................................................................................. 16
1.4.2 循环语句 .................................................................................................................. 16
1.4.3 函数 .......................................................................................................................... 17
第2 章 写一个简单的爬虫 .......................................................................... 18
2.1 关于爬虫的合法性 ......................................................................................................... 18
2.2 了解网页 ......................................................................................................................... 20
2.2.1 认识网页结构 .......................................................................................................... 21
2.2.2 写一个简单的HTML ............................................................................................. 21
2.3 使用requests 库请求网站 .............................................................................................. 23
Python 3 爬虫、数据清洗与可视化实战
2.3.1 安装requests 库 ....................................................................................................... 23
2.3.2 爬虫的基本原理 ...................................................................................................... 25
2.3.3 使用GET 方式抓取数据 ........................................................................................ 26
2.3.4 使用POST 方式抓取数据 ...................................................................................... 27
2.4 使用Beautiful Soup 解析网页 ....................................................................................... 30
2.5 清洗和组织数据 ............................................................................................................. 34
2.6 爬虫攻防战 ..................................................................................................................... 35
第3 章 用API 爬取天气预报数据 ............................................................... 38
3.1 注册免费API 和阅读技术文档 ..................................................................................... 38
3.2 获取API 数据 ................................................................................................................ 40
3.3 存储数据到MongoDB ................................................................................................... 45
3.3.1 下载并安装MongoDB ............................................................................................ 45
3.3.2 在PyCharm 中安装Mongo Plugin ......................................................................... 46
3.3.3 将数据存入MongoDB ............................................................................................ 49
3.4 MongoDB 数据库查询 ................................................................................................... 52
第4 章 大型爬虫案例:抓取某电商网站的商品数据 ................................... 55
4.1 观察页面特征和解析数据 ............................................................................................. 55
...................
书 名Python 3网络爬虫开发实战
系列书名图灵原创
执行编辑关于本书的内容有任何问题,请联系 王军花
书 号978-7-115-48034-7
页 数608
印刷方式单色
开 本16开
出版状态正在排版
定价99.00
本书特色
1.本书详细介绍了爬虫的关键技术,涵盖面广,实用性强。
2.本书作者崔庆才,北京航空航天大学硕士,北京钉趣网络公司技术总监,其个人博客为cuiqingcai.com,其上爬虫文章的浏览量总计已过百万。
目录
本书介绍了如何利用Python 3开发网络爬虫,书中首先介绍了环境配置和基础知识,然后讨论了urllib、requests、正则表达式、Beautiful Soup、XPath、pyquery、数据存储、Ajax数据爬取等内容,接着通过多个案例介绍了不同场景下如何实现数据爬取,最后介绍了pyspider框架、Scrapy框架和分布式爬虫。
本书适合Python程序员阅读。
| 作 译 者: | |||||||||
| |||||||||
| 所属分类: >> >> 数据库 | |||||||||
| 纸质书定价:¥59.0 |
本书作为数据分析的入门图书,以Python语言为基础,介绍了数据分析的整个流程。本书内容涵盖数据的获取(即网络爬虫程序的设计)、前期数据的清洗和处理、运用机器学习算法进行建模分析,以及使用可视化的方法展示数据及结果。首先,书中不会涉及过于高级的语法,不过还是希望读者有一定的语法基础,这样可以更好地理解本书的内容。其次,本书重点在于应用Python来完成一些数据分析和数据处理的工作,即如何使用Python来完成工作而非专注于Python语言语法等原理的讲解。本书的目的是让初学者不论对数据分析流程本身还是Python语言,都能有一个十分直观的感受,为以后的深入学习打下基础。最后,读者不必须按顺序通读本书,因为各个章节层次比较分明,可以根据兴趣或者需要来自行安排。例如第5章介绍了一些实战的小项目,有趣且难度不大,大家可以在学习前面内容之余来阅读这部分内容。
1 准备 1
1.1 开发环境搭建 2
1.1.1 在Ubuntu系统下搭建Python集成开发环境 2
1.1.2 在Windows系统下搭建Python集成开发环境 13
1.1.3 三种安装第三方库的方法 16
1.2 Python基础语法介绍 19
1.2.1 if__name__=='__main__' 20
1.2.2 列表解析式 22
1.2.3 装饰器 23
1.2.4 递归函数 26
1.2.5 面向对象 27
1.3 The Zen of Python 28
参考文献 30
2 数据的获取 31
2.1 爬虫简介 31
2.2 数据抓取实践 33
2.2.1 请求网页数据 33
2.2.2 网页解析 38
2.2.3 数据的存储 46
2.3 爬虫进阶 50
2.3.1 异常处理 50
2.3.2 robots.txt 58
2.3.3 动态UA 60
2.3.4 代理IP 61
2.3.5 编码检测 61
2.3.6 正则表达式入门 63
2.3.7 模拟登录 69
2.3.8 验证码问题 74
2.3.9 动态加载内容的获取 84
2.3.10 多线程与多进程 93
2.4 爬虫总结 101
参考文献 102
3 数据的存取与清洗 103
3.1 数据存取 103
3.1.1 基本文件操作 103
3.1.2 CSV文件的存取 111
3.1.3 JSON文件的存取 116
3.1.4 XLSX文件的存取 121
3.1.5 MySQL数据库文件的存取 137
3.2 NumPy 145
3.2.1 NumPy简介 145
3.2.2 NumPy基本操作 146
3.3 pandas 158
3.3.1 pandas简介 158
3.3.2 Series与DataFrame的使用 159
3.3.3 布尔值数组与函数应用 169
3.4 数据的清洗 174
3.4.1 编码问题 174
3.4.2 缺失值的检测与处理 175
3.4.3 去除异常值 181
3.4.4 去除重复值与冗余信息 183
3.4.5 注意事项 185
参考文献 187
4 数据的分析及可视化 188
4.1 探索性数据分析 189
4.1.1 基本流程 189
4.1.2 数据降维 197
4.2 机器学习入门 199
4.2.1 机器学习简介 200
4.2.2 决策树——机器学习算法的应用 202
4.3 手动实现KNN算法 205
4.3.1 特例——最邻近分类器 205
4.3.2 KNN算法的完整实现 213
4.4 数据可视化 215
4.4.1 高质量作图工具——matplotlib 215
4.4.2 快速作图工具——pandas与matplotlib 223
4.4.3 简捷作图工具——seaborn与matplotlib 226
4.4.4 词云图 230
参考文献 232
5 Python与生活 234
5.1 定制一个新闻提醒服务 234
5.1.1 新闻数据的抓取 235
5.1.2 实现邮件发送功能 237
5.1.3 定时执行及本地日志记录 239
5.2 Python与数学 241
5.2.1 估计π值 242
5.2.2 三门问题 245
5.2.3 解决LP与QP问题(选读) 247
5.3 QQ群聊天记录数据分析 251
参考文献 256
总的来说,这套书的组合拳效果非常显著,从爬虫的构建,到数据的处理和可视化,再到数据分析的入门,构成了一个完整且连贯的学习路径。对于想要进入数据领域,或者希望提升自己数据处理能力的读者来说,这套书的价值是毋庸置疑的。我之前在网上看过很多碎片化的学习资料,但总觉得不够系统,容易遗漏重要知识点。而这套书就恰恰弥补了这一不足,它提供了一个由浅入深、循序渐进的学习体系。我能够清晰地看到,从零开始,如何一步步地掌握一门核心的数据技能。更重要的是,这些书中的内容都紧跟技术发展的步伐,使用的都是当前主流的工具和库,确保了学习内容的实用性和前沿性。对于我这样一个希望在数据领域有所发展的职场人士来说,这套书无疑是一笔宝贵的财富,它为我打开了通往更广阔职业前景的大门。
评分《数据分析入门》这本书,简直就是我学习数据分析的“启蒙之光”!在此之前,我对数据分析的认知仅限于一些零散的概念,感觉无从下手。这本书以非常平易近人的语言,解释了数据分析的基本流程、常用的统计学概念以及一些基础的分析方法。从数据的收集、整理、探索性数据分析(EDA)到结果的解释,这本书都给了我一个清晰的框架。作者并没有一开始就堆砌复杂的数学公式,而是通过大量的图示和生活中的例子,让我理解数据分析的核心思想。让我印象深刻的是,书中讲解了如何运用Excel和Python进行基本的数据统计和分析,这对于刚接触数据分析的人来说非常友好,能够快速建立起信心。而且,这本书非常注重培养读者的分析思维,教我如何提出有价值的问题,如何设计合理的分析方案,以及如何从数据中得出有意义的结论。读完这本书,我感觉自己不再害怕面对数据,而是能够带着好奇心和逻辑去探索数据背后的故事,为后续更深入的学习打下了坚实的基础。
评分这套书中的《Python3爬虫数据清洗与可视化实战》更是让我眼前一亮。之前的爬虫学习,我总觉得爬下来的数据杂乱无章,处理起来非常头疼,有时候宁可手动去整理。这本书彻底解决了我的困扰!它系统地介绍了Pandas库在数据清洗方面的强大功能,从缺失值处理、异常值检测到数据类型转换、重复值去除,讲解得逻辑清晰,步骤分明。作者还提供了大量真实数据集作为练习,让我能够边学边练,快速掌握这些核心技能。更重要的是,这本书并没有止步于数据清洗,而是将目光投向了数据可视化。Matplotlib和Seaborn的运用,让我能够将枯燥的数据变成生动形象的图表,直观地展现数据的规律和趋势。我学会了如何制作折线图、柱状图、散点图,甚至是一些更复杂的图表,比如热力图和箱线图。这些可视化技巧不仅让我的数据分析报告更加专业,也让我能够更快地从数据中挖掘出有价值的信息。这本书的实操性同样非常高,很多案例都涉及到了实际业务场景,让我能直接套用到自己的项目中,大大提高了工作效率。
评分这套书的出版质量也着实让我感到惊喜。书本的纸张触感很好,印刷清晰,字体大小适中,长时间阅读也不会感到疲劳。排版也很合理,代码示例和文字解释分工明确,阅读体验非常流畅。而且,书中大量的图表和示意图都设计得非常用心,能够有效地辅助理解。我特别喜欢书中对代码的注释,详细解释了每一行代码的作用,这对于初学者来说简直是福音,让我能够轻松地理解代码的逻辑。此外,作者在讲解过程中,会穿插一些行业内的经验分享和建议,让我不仅学到技术,还能了解到实际应用中的注意事项和最佳实践。这种“干货满满”的内容,远超出了我对一般技术书籍的预期。我觉得这套书不仅仅是知识的传递,更是一种学习方法的引导,让我能够更有效地吸收和掌握新的知识。每次翻开这本书,都能感受到作者的认真和专业,这让我对学习充满了动力。
评分最近熬夜看完了这套书,感觉真是捡到宝了!作为一个完全零基础的爬虫小白,我之前尝试过一些零散的教程,但总是学得云里雾里,要不就是实操起来困难重重。这套书简直就是为我量身定做的!《包邮Python3网络爬虫开发实战》这本书,从最基础的Python环境搭建、requests库的使用到BeautifulSoup、Scrapy框架的精髓,讲解得那叫一个细致入微。每一个代码例子都配有清晰的解释,而且作者非常贴心地考虑到了初学者可能会遇到的各种坑,并且给出了解决方案。最让我惊喜的是,书中的案例都非常贴近实际应用,比如爬取新闻资讯、商品信息、招聘网站数据等等,让我觉得爬虫技术不再是高高在上的概念,而是可以解决实际问题的工具。而且,这本书的实战性极强,几乎每学到一个新知识点,后面都会有相应的练习或者项目来巩固,让我能够在动手实践中不断提升。读完这本书,我感觉自己已经掌握了构建一个简单爬虫的基本技能,甚至能够独立完成一些小型的爬取任务,这让我非常有成就感!
本站所有内容均为互联网搜索引擎提供的公开搜索信息,本站不存储任何数据与内容,任何内容与数据均与本站无关,如有需要请联系相关搜索引擎包括但不限于百度,google,bing,sogou 等
© 2025 book.coffeedeals.club All Rights Reserved. 静流书站 版权所有