Python数据处理(影印版 英文版)

Python数据处理(影印版 英文版) pdf epub mobi txt 电子书 下载 2025

[美] 杰奎琳·卡兹奥,凯瑟琳·嘉穆 著
图书标签:
  • Python
  • 数据处理
  • 英文版
  • 影印版
  • 编程
  • 计算机科学
  • 数据分析
  • 机器学习
  • 技术
  • 专业书籍
想要找书就要到 静流书站
立刻按 ctrl+D收藏本页
你会得到大惊喜!!
出版社: 东南大学出版社
ISBN:9787564170035
版次:1
商品编码:12052873
包装:平装
开本:16开
出版时间:2017-02-01
用纸:胶版纸
页数:488
字数:622000
正文语种:英文

具体描述

内容简介

  《Python数据处理(影印版 英文版)》向非程序员展示了如何处理本质上太杂乱或难以下手的信息。你不需要了解Pvthon编程语言基础知识就可以开始了。
  通过循序渐进的练习,你将学习如何有效地获取、清理、分析和呈现数据。你还将了解如何将数据处理自动化,安排文件编辑和清理任务,处理*大的数据集,以及使用所获取的数据讲述引人注目的故事。
  快速学习基本的Python语法、数据类型和语言概念使用机器可读和人类可用的数据抓取网站和API以查找大量有用的信息清理和格式化数据以消除数据集里的重复和错误数据了解何时标准化数据以及何时测试和编写脚本进行数据清理使用新的Python库和技术探索并分析数据集使用Python解决方案自动化整个数据处理过程

目录

Preface
1. Introduction to Python
Why Python
Getting Started with Python
Which Python Version
Setting Up Python on Your Machine
Test Driving Python
Install pip
Install a Code Editor
Optional: Install IPython
Summary

2. Python Basics
Basic Data Types
Strings
Integers and Floats
Data Containers
Variables
Lists
Dictionaries
What Can the Various Data Types Do?
String Methods: Things Strings Can Do
Numerical Methods: Things Numbers Can Do
List Methods: Things Lists Can Do
Dictionary Methods: Things Dictionaries Can Do
Helpful Tools: type, dir, and help
type
dir
help
Putting It All Together
What Does It All Mean?
Summary

3. Data Meant to Be Read by Machines
CSV Data
How to Import CSV Data
Saving the Code to a File; Running from Command Line
JSON Data
How to Import ]SON Data
XML Data
How to Import XML Data
Summary

4. Working with Excel Files
Installing Python Packages
Parsing Excel Files
Getting Started with Parsing
Summary

5. PDFs and Problem Solving in Python
Avoid Using PDFs!
Programmatic Approaches to PDF Parsing
Opening and Reading Using slate
Converting PDF to Text
Parsing PDFs Using pdfminer
Learning How to Solve Problems
Exercise: Use Table Extraction, Try a Different Library
Exercise: Clean the Data Manually
Exercise: Try Another Tool
Uncommon File Types
Summary

6. Acquiring and Storing Data
Not All Data Is Created Equal
Fact Checking
Readability, Cleanliness, and Longevity
Where to Find Data
Using a Telephone
US Government Data
Government and Civic Open Data Worldwide
Organization and Non-Government Organization (NGO) Data
Education and University Data
Medical and Scientific Data
Crowdsourced Data and APIs
Case Studies: Example Data Investigation
Ebola Crisis
Train Safety
Football Salaries
Child Labor
Storing Your Data: When, Why, and How?
Databases: A Brief Introduction
Relational Databases: MySQL and PostgreSQL
Non-Relational Databases: NoSQL
Setting Up Your Local Database with Python
When to Use a Simple File
Cloud-Storage and Python
Local Storage and Python
Alternative Data Storage
Summary

7. Data Cleanup: Investigation, Matching, and Formatting
Why Clean Data?
Data Cleanup Basics
Identifying Values for Data Cleanup
Formatting Data
Finding Outliers and Bad Data
Finding Duplicates
Fuzzy Matching
RegEx Matching
What to Do with Duplicate Records
Summary

8. Data Cleanup: Standardizing and Scripting
Normalizing and Standardizing Your Data
Saving Your Data
Determining What Data Cleanup Is Right for Your Project
Scripting Your Cleanup
Testing with New Data
Summary

9. Data Exploration and Analysis
Exploring Your Data
Importing Data
Exploring Table Functions
Joining Numerous Datasets
Identifying Correlations
Identifying Outliers
Creating Groupings
Further Exploration
Analyzing Your Data
Separating and Focusing Your Data
What Is Your Data Saying?
Drawing Conclusions
Documenting Your Conclusions
Summary

10. Presenting Your Data
Avoiding Storytelling Pitfalls
How Will You Tell the Story?
Know Your Audience
Visualizing Your Data
Charts
Time-Related Data
Maps
Interactives
Words
Images, Video, and Illustrations
Presentation Tools
Publishing Your Data
Using Available Sites
Open Source Platforms: Starting a New Site
Jupyter (Formerly Known as IPython Notebooks)
Summary

11. Web Scraping: Acquiring and Storing Data from the Web
What to Scrape and How
Analyzing a Web Page
Inspection: Markup Structure
Network/Timeline: How the Page Loads
Console: Interacting with JavaScript
In-Depth Analysis of a Page
Getting Pages: How to Request on the Internet
Reading a Web Page with Beautiful Soup
Reading a Web Page with LXML
A Case for XPath
Summary

12. Advanced Web Scraping: Screen Scrapers and Spiders
Browser-Based Parsing
Screen Reading with Selenium
Screen Reading with Ghost.Py
Spidering the Web
Building a Spider with Scrapy
Crawling Whole Websites with Scrapy
Networks: How the Internet Works and Why It's Breaking Your Script
The Changing Web (or Why Your Script Broke)
A (Few) Word(s) of Caution
Summary

13. APIs
API Features
REST Versus Streaming APIs
Rate Limits
Tiered Data Volumes
API Keys and Tokens
A Simple Data Pull from Twitter's REST API
Advanced Data Collection from Twitter's REST API
Advanced Data Collection from Twitter's Streaming API
Summary

14. Automation and Scaling
Why Automate?
Steps to Automate
What Could Go Wrong?
Where to Automate
Special Tools for Automation
Using Local Files, argv, and Config Files
Using the Cloud for Data Processing
Using Parallel Processing
Using Distributed Processing
Simple Automation
CronJobs
Web Interfaces
Jupyter Notebooks
Large-Scale Automation
Celery: Queue-Based Automation
Ansible: Operations Automation
Monitoring Your Automation
Python Logging
Adding Automated Messaging
Uploading and Other Reporting
Logging and Monitoring as a Service
No System Is Foolproof
Summary

15. Conclusion
Duties of a Data Wrangler
Beyond Data Wrangling
Become a Better Data Analyst
Become a Better Developer
Become a Better Visual Storyteller
Become a Better Systems Architect
Where Do You Go from Here?
A. Comparison of Languages Mentioned
B. Python Resources for Beginners
C. Learning the Command Line
D. Advanced Python Setup
E. Python Gotchas
F. IPython Hints
G. Using Amazon Web Services
Index
探索Python数据世界的奥秘:从基础到实战的全面指南 在当今数据驱动的时代,掌握有效的数据处理与分析能力已成为个人和组织成功的关键。无论您是希望从海量信息中挖掘价值的商业分析师,还是致力于构建智能算法的开发者,亦或是追求数据驱动洞察的研究人员,Python都已成为您不可或缺的利器。本书旨在为您提供一个全面而深入的Python数据处理学习旅程,从核心概念的建立,到实际应用场景的演练,助您成为一名自信而高效的数据处理专家。 第一部分:Python数据处理基石的构建 我们将从Python语言本身出发,为您打下坚实的基础。这意味着您无需具备深厚的编程背景,本书将引导您逐步掌握Python的语法、数据结构以及面向对象编程的核心思想。我们将重点关注那些与数据处理息息相关的Python特性,例如: 强大的内置数据类型: 深入理解整数、浮点数、字符串、列表、元组、字典和集合等,并学习如何高效地创建、操作和组合它们,这是处理结构化和非结构化数据的基石。 控制流与函数: 掌握条件语句(if-elif-else)、循环(for, while)以及如何编写和使用函数,以实现代码的模块化和重用,提升数据处理的效率和可读性。 面向对象编程(OOP)基础: 了解类、对象、继承、封装和多态等概念,这将帮助您更好地理解和利用Python强大的数据处理库,并构建更具扩展性的数据解决方案。 模块与包的导入与使用: 学习如何利用Python丰富的第三方库来扩展其功能,我们将介绍如何查找、安装和导入常用的数据处理模块,为后续的学习奠定基础。 在此基础上,我们将引入Python在数据科学领域最核心、最强大的两个库:NumPy 和 Pandas。 NumPy:数值计算的基石 N维数组(ndarray): NumPy的核心是其强大的ndarray对象,它提供了高效的多维数组存储和操作能力。您将学习如何创建、索引、切片和重塑数组,以及进行各种数学运算,包括元素级运算、线性代数运算、随机数生成等。 向量化操作: 了解NumPy的向量化特性,如何利用它来避免显式的Python循环,从而大幅提升计算速度,这是处理大规模数据集的关键。 广播(Broadcasting): 掌握NumPy的广播机制,如何让不同形状的数组之间进行运算,极大地简化了代码的编写。 应用场景: 通过实际示例,您将看到NumPy如何在科学计算、图像处理、机器学习预处理等领域发挥巨大作用。 Pandas:数据分析的瑞士军刀 Series和DataFrame: Pandas提供了两个核心数据结构:Series(一维带标签数组)和DataFrame(二维表格型数据结构)。您将深入理解它们的创建、索引、选择、过滤、排序和对齐等操作。 数据读取与写入: 学习如何方便地从各种数据源(如CSV, Excel, SQL数据库, JSON)读取数据,以及将处理后的数据写入到这些格式中。 数据清洗与预处理: 这是数据分析中最耗时但至关重要的环节。本书将详细介绍如何处理缺失值(NaN)、重复值、异常值,如何进行数据类型转换、字符串处理、数据合并与连接(merge, join, concat),以及如何进行数据分组与聚合(groupby, agg)。 数据重塑与透视: 学习如何使用pivot_table、melt等功能来重塑和整理数据,使其更适合分析和可视化。 时间序列数据处理: Pandas对时间序列数据提供了强大的支持,您将学习如何处理日期和时间索引、进行时间重采样、窗口计算等。 应用场景: 通过一系列贴近实际的数据分析任务,如销售数据分析、用户行为分析、金融数据分析等,您将亲身体验Pandas在解决真实世界问题中的强大能力。 第二部分:数据可视化:让数据“说话” 理解数据不仅仅是进行数值计算,更在于能够清晰地传达数据的洞察。本书将引导您掌握Python中强大的数据可视化工具,将抽象的数据转化为直观的图表。 Matplotlib:基础而灵活的绘图库 基本图表类型: 学习创建折线图、散点图、柱状图、饼图、直方图等,掌握如何自定义图表的标题、坐标轴标签、图例、颜色、线型等。 多子图布局: 如何在同一个画布上绘制多个图表,以进行多维度的数据对比。 高级绘图: 探索更复杂的图表类型,如箱线图(boxplot)、热力图(heatmap)等。 Seaborn:美观且高级的统计图表库 基于Matplotlib的封装: Seaborn在Matplotlib的基础上提供了更简洁的接口和更美观的默认样式。 丰富的统计图表: 学习如何创建诸如分布图(distplot)、分类散点图(stripplot)、箱线图(boxplot)、小提琴图(violinplot)、回归图(regplot)、热力图(heatmap)等,这些图表能直观地展示变量之间的关系和数据分布。 风格与主题: 如何调整Seaborn的风格和主题,以创建更具专业性和吸引力的图表。 多变量可视化: 探索如何利用Seaborn的 FacetGrid 等功能来绘制多变量之间的关系图。 通过学习这部分内容,您将能够自信地将数据分析的结果以最清晰、最易懂的方式呈现出来,无论是用于报告、演示还是内部沟通,都能起到事半功倍的效果。 第三部分:进阶主题与实战案例 在掌握了Python数据处理的核心工具和可视化技术后,我们将进一步深入,探索更高级的主题,并将所学知识应用于更复杂的实战场景。 数据挖掘与统计分析基础: 相关性分析: 如何计算和解释变量之间的相关性。 假设检验入门: 了解统计学中常用的假设检验方法,用于判断数据中观察到的差异是否具有统计学意义。 聚类分析入门: 学习如何使用K-Means等算法对数据进行分组。 回归分析入门: 了解如何建立模型来预测变量之间的关系。 文本数据处理(NLP基础): 文本清洗: 如何处理标点符号、停用词、分词等。 词袋模型(Bag-of-Words)和TF-IDF: 如何将文本转化为数值特征。 简单的文本分类任务: 演示如何利用Python库进行情感分析或主题识别。 数据爬虫入门(可选,视内容深度): Requests库: 学习如何发送HTTP请求获取网页内容。 Beautiful Soup库: 学习如何解析HTML和XML文档,提取所需数据。 贯穿全书的实战项目: 本书将穿插一系列精心设计的实战案例,涵盖不同行业和领域的数据处理挑战。例如: 电商用户行为分析: 分析用户的购买历史、浏览行为,挖掘用户偏好,提升用户体验。 金融市场数据分析: 对股票价格、交易量等进行分析,识别趋势,辅助投资决策。 社交媒体数据分析: 分析用户发帖、评论等数据,了解舆情,识别热门话题。 医疗健康数据分析: 对病人数据进行分析,辅助诊断,优化治疗方案。 这些案例将引导您将之前学到的知识融会贯通,解决真实世界中的数据难题。您将学习如何定义问题、收集数据、进行探索性数据分析(EDA)、构建模型(如果适用)、评估结果,并最终得出有价值的结论。 本书的特色与优势: 循序渐进的教学设计: 从最基础的Python概念讲起,逐步深入到高级数据处理技术,确保不同水平的学习者都能找到适合自己的节奏。 丰富的代码示例: 提供大量可运行的代码片段和完整的实战项目,让您边学边练,巩固知识。 注重实际应用: 所有的技术讲解都紧密结合实际应用场景,让您学到的知识能够直接转化为解决问题的能力。 清晰的逻辑结构: 书籍内容组织条理清晰,章节之间衔接自然,帮助您建立完整的知识体系。 培养解决问题的思维: 除了传授技术,本书更注重培养您独立分析和解决数据问题的能力。 无论您是初学者还是希望提升数据处理技能的专业人士,本书都将是您踏上Python数据处理之旅的理想伴侣。通过这本书的学习,您将不仅掌握强大的工具,更能培养出对数据敏感的洞察力,从而在日益复杂的数据世界中游刃有余,发现机遇,创造价值。

用户评价

评分

我是一名在学术界从事数据分析的科研人员,经常需要处理各种复杂的研究数据。这本书的内容在我的研究工作中起到了关键作用。它对于如何高效地加载、清洗和转换不同来源的数据提供了非常详细的指导。我尤其欣赏书中关于数据聚合和分组的讲解,它提供了多种灵活的方式来计算汇总统计量,并能够根据不同的分组条件进行分析,这对于探索性数据分析和特征工程至关重要。书中的可视化部分也十分出色,它不仅介绍了 Matplotlib 和 Seaborn 等常用库的基础用法,还提供了一些高级技巧,例如如何创建交互式图表和自定义图表样式,这对于撰写科研论文和展示研究成果非常有帮助。此外,书中对数据文件的读写格式也进行了广泛的介绍,包括 CSV、Excel、JSON,甚至还有一些数据库的接口,这让我能够轻松地处理来自不同平台的数据。这本书的知识深度和广度都令人赞叹,无疑是我近年来阅读过的最富有成效的关于数据处理的书籍之一。

评分

作为一名从其他编程语言转向 Python 的数据科学家,这本书为我提供了一个非常扎实的 Python 数据处理基础。过去我习惯于使用 R 或 SQL 进行数据处理,而 Python 的生态系统对我来说是全新的。这本书的优点在于,它并没有假设读者对 Python 有深入的了解,而是从 Python 的基本语法和数据结构开始,然后逐步过渡到 Pandas、NumPy 等核心库。对于我这样有编程背景的人来说,这种循序渐进的方式非常有效,能够快速地将我的已有知识迁移到 Python 环境中。书中对 Pandas DataFrame 的讲解尤其细致,包括各种索引方式、数据对齐、多级索引的处理,这些都是我在实际工作中经常遇到的痛点。此外,书中还包含了一些关于数据可视化和机器学习预处理的内容,这对我来说是锦上添花。整体而言,这本书是一本非常实用的工具书,我会在未来的工作中经常翻阅,作为重要的参考资料。

评分

这本书的编排方式给我留下了深刻的印象。它并非按照传统的“概念-示例”模式,而是更加注重“问题-解决方案”的教学方式。书中会先抛出一个实际的数据处理场景,然后逐步引导读者通过 Python 代码来解决这个问题。这种方式让我觉得非常有代入感,能够清晰地看到数据处理在现实世界中的应用。我特别喜欢书中关于数据清洗的部分,它涵盖了缺失值处理、异常值检测、重复值去除等多种常见问题,并且提供了多种不同的处理策略。此外,关于文本数据处理的章节也让我受益匪浅,学习了如何使用正则表达式、NLTK 等库来提取和分析文本信息。书中的代码风格严谨,注释清晰,便于读者理解和模仿。而且,作者在讲解的过程中,还会适时地引用一些数据科学领域的最佳实践,这对于培养良好的编程习惯非常有帮助。总的来说,这是一本能够真正帮助读者解决实际数据处理问题的实用指南。

评分

我必须说,这本书绝对是数据分析师的“宝藏”。我是一名有几年工作经验的数据分析师,一直在寻找能够深化我对数据处理理解的书籍,这本书恰好满足了我的需求。它并没有停留在基础操作层面,而是深入探讨了更高级的数据转换技术,例如复杂的聚合函数、窗口函数的使用,以及如何利用 Python 的强大库来处理非结构化数据。我尤其对书中关于性能优化的章节印象深刻,它讲解了如何避免常见的性能陷阱,以及如何利用 NumPy 和 Cython 等工具来加速计算。这对我日常工作中处理海量数据非常有帮助。这本书的逻辑结构非常清晰,每一章都建立在前一章的基础上,让你能够系统地构建自己的数据处理知识体系。作者在讲解过程中,不仅给出了代码示例,还详细解释了每个代码片段背后的原理和设计思路,这对于理解“为什么”比“怎么做”更重要。读完这本书,我感觉自己对数据处理的掌握程度又提升了一个层次,能够更自信地应对各种复杂的数据挑战。

评分

这本书的内容简直是打开了我对Python数据处理的全新视角!作为一名初学者,我一直觉得数据处理是个庞大而复杂的领域,但这本书以一种非常易于理解的方式,循序渐进地引导我进入了这个世界。它不仅仅是简单地罗列函数和语法,而是通过大量生动的实际案例,让我体会到数据处理的魅力。从数据清洗、转换到可视化,每一个步骤都讲解得淋漓尽致。我特别喜欢它在讲解 Pandas 时,不仅介绍了常用的 DataFrame 和 Series 操作,还深入剖析了索引、合并、分组等核心概念,并且提供了很多优化技巧。读这本书的时候,我常常会跟着作者的例子一步一步地在自己的环境中敲代码,每一次都能有所收获。书中的配图和图表也起到了画龙点睛的作用,将抽象的数据概念形象化,帮助我更好地理解。而且,这本书的英文写作风格非常清晰流畅,即使有些专业术语,结合上下文也能很好地理解。感觉就像是在和一位经验丰富、乐于分享的朋友一起学习,没有压力,只有满满的成就感。

评分

告诉你什么叫做 pythonic 。

评分

英文原版,进阶必读。快递很快

评分

python入门教程,挺合适的,买别人看的。自己也可以温故而知新

评分

非入门基础书,需要有python基础才适合

评分

英文原版,进阶必读。快递很快

评分

没去注意看就买了英文版,正好锻炼锻炼英文的吧,毕竟这本书也是一本经典。

评分

非入门基础书,需要有python基础才适合

评分

订单号59491621309包装人员极不负责任,把箱子装不下的燕窝硬挤进去,导致礼品变形严重。送人的搞成这样还得换货真的很麻烦。

评分

塑封包装,全新未拆封。

相关图书

本站所有内容均为互联网搜索引擎提供的公开搜索信息,本站不存储任何数据与内容,任何内容与数据均与本站无关,如有需要请联系相关搜索引擎包括但不限于百度google,bing,sogou

© 2025 book.coffeedeals.club All Rights Reserved. 静流书站 版权所有