数据科学:R语言实现(影印版 英文版) [R for Data Science]

数据科学:R语言实现(影印版 英文版) [R for Data Science] pdf epub mobi txt 电子书 下载 2025

Hadley,Wickham,Garrett,Grolemund 著
图书标签:
  • 数据科学
  • R语言
  • 统计分析
  • 数据处理
  • 数据可视化
  • tidyverse
  • RStudio
  • 编程
  • 机器学习
  • 数据挖掘
想要找书就要到 静流书站
立刻按 ctrl+D收藏本页
你会得到大惊喜!!
出版社: 东南大学出版社
ISBN:9787564173531
版次:1
商品编码:12245094
包装:平装
外文名称:R for Data Science
开本:16开
出版时间:2017-10-01
用纸:胶版纸
页数:492
字数:566000
正文语种:英文

具体描述

编辑推荐

学习如何利用R语言洞察、知晓、理解原始数据。本书介绍了R、RStudio以及tidyverse,后者是一组相互配合工作的R包,能够使数据科学更快速、流畅、富有乐趣。本书旨在帮助你尽快地上手数据科学相关的工作,并不要求读者先前具备编程经验。
作者Hadley Wickham和Garrett Grolemund将一步步指导你对数据进行导入、提炼、探索以及建模并发布成果。除了处理数据所需的基本工具,你还将会对数据科学的周期拥有一个完整的、宏观的理解。

内容简介

  学习如何利用R语言洞察、知晓、理解原始数据。
  《数据科学:R语言实现(影印版 英文版)》介绍了R、RStudio以及tidyverse,后者是一组相互配合工作的R包,能够使数据科学快速、流畅、富有乐趣。
  《数据科学:R语言实现(影印版 英文版)》旨在帮助你尽快地上手数据科学相关的工作,并不要求读者具备编程经验。
  《数据科学:R语言实现(影印版 英文版)》Hadley Wickham和Garrett Grolernund将一步步指导你对数据进行导入、提炼、探索以及建模并发布成果。除了处理数据所需的基本工具,你还将会对数据科学的周期拥有一个完整的、宏观的理解。

作者简介

Hadley Wickham是RStudio的首席科学家以及R基金会成员。他构建了一套使数据科学变得更加快捷、富有乐趣的工具。可以通过其个人网站了解更多的信息:http://hadley.nz。

Garrett Grolemund是一名统计学家、教师以及RStudio的硕士生导师。他还是《Hands-On Programming with R 》(O'Reilly)一书的作者。Garrett的很多授课视频可以在oreilly.com/safari上找到。

内页插图

精彩书评

“Hadley Wickham是数据科学领域的一位传奇人物,他创造出了一套之前无人想到过的进行数据分析的全新方法。他这本和Garrett Grolemund合著的新书用代码展示了这种新奇的方法,本书可谓是数据分析方面的圣经。” —— Roger D.Peng (约翰?霍普金斯大学布隆博格公共卫生学院生物统计学教授)

目录

Preface

Part I. Explore
1. Data Visualization with ggplot2
Introduction
First Steps
Aesthetic Mappings
Common Problems
Facets
Geometric Objects
Statistical Transformations
Position Adjustments
Coordinate Systems
The Layered Grammar of Graphics
2. Workflow: Basics
Coding Basics
What's in a Name?
Calling Functions
3. Data Transformation with dplyr
Introduction
Filter Rows with filter()
Arrange Rows with arrange()
Select Columns with select()
Add New Variables with mutate()
Grouped Summaries with summarize()
Grouped Mutates (and Filters)
4. W0rkfl0w: Scripts
Running Code
RStudio Diagnostics
5. Exploratory Data Analysis
Introduction
Questions
Variation
Missing Values
Covariation
Patterns and Models
ggplot2 Calls
Learning More
6. Workflow: Projects
What Is Real?
Where Does Your Analysis Live?
Paths and Directories
RStudio Projects
Summary

Part II. Wrangle
7. Tibbles with tibble
Introduction
Creating Tibbles
Tibbles Versus data.frame
Interacting with Older Code
8. Data Import with readr
Introduction
Getting Started
Parsing a Vector
Parsing a File
Writing to a File
Other Types of Data
9. Tidy Data with tidyr
Introduction
Tidy Data
Spreading and Gathering
Separating and Pull
Missing Values
Case Study
Nontidy Data
10. Relational Data with dplyr
Introduction
nycflightsl3
Keys
Mutating loins
Filtering loins
loin Problems
Set Operations
11. Strings with stringr
Introduction
String Basics
Matching Patterns with Regular Expressions
Tools
Other Types of Pattern
Other Uses of Regular Expressions
stringi
12. Factors with forcats
Introduction
Creating Factors
General Social Survey
Modifying Factor Order
Modifying Factor Levels
13. Dates and Times with lubridate
Introduction
Creating Date/Times
Date-Time Components
Time Spans
Time Zones

Part III. Program
14. Pipeswith magrittr
Introduction
Piping Alternatives
When Not to Use the Pipe
Other Tools from magrittr
15. Functions
Introduction
When Should You Write a Function?
Functions Are for Humans and Computers
Conditional Execution
Function Arguments
Return Values
Environment
16. Vectors
Introduction
Vector Basics
Important Types of Atomic Vector
Using Atomic Vectors
Recursive Vectors (Lists)
Attributes
Augmented Vectors
17. Iteration with purrr
Introduction
For Loops
For Loop Variations
For Loops Versus Functionals
The Map Functions
Dealing with Failure
Mapping over Multiple Arguments
Walk
Other Patterns of For Loops

Part IV. Model
18. Model Basics with modelr
Introduction
A Simple Model
Visualizing Models
Formulas and Model Families
Missing Values
Other Model Families
19. Model Building
Introduction
Why Are Low-Quality Diamonds More Expensive?
What Affects the Number of Daily Flights?
Learning More About Models
20. Many Models with purrr and broom
Introduction
gapminder
List-Columns
Creating List-Columns
Simplifying List-Columns
Making Tidy Data with broom

Part V. Communicate
21. R Markdown
Introduction
R Markdown Basics
Text Formatting with Markdown
Code Chunks
Troubleshooting
YAML Header
Learning More
22. Graphics for Communication with ggplot2
Introduction
Label
Annotations
Scales
Zooming
Themes
Saving Your Plots
Learning More
23. R Markdown Formats
Introduction
Output Options
Documents
Notebooks
Presentations
Dashboards
Interactivity
Websites
Other Formats
Learning More
24. R Markdown Workflow
Index


探索数据科学的魅力:用R语言解锁洞察 在这个信息爆炸的时代,数据已经成为驱动决策、革新商业模式乃至塑造未来的核心力量。理解和驾驭数据,从中提炼出有价值的洞察,已成为各行各业不可或缺的关键技能。而R语言,凭借其强大的统计分析能力、丰富的可视化工具以及活跃的社区支持,早已成为数据科学领域的首选语言之一。本书《数据科学:R语言实现(影印版 英文版) [R for Data Science]》将引导您深入探索数据科学的各个环节,并以R语言为利器,一步步解锁数据的潜能。 本书并非简单地罗列R语言的语法,而是将数据科学的整个工作流程贯穿其中。您将学习如何从原始数据出发,经历清洗、转换、探索、建模,直至最终的交流与部署,每一个环节都将通过生动的案例和清晰的代码示例进行讲解。无论您是初涉数据科学的新手,还是希望深化R语言在数据分析中应用的专业人士,本书都将为您提供一套系统而实用的指南。 数据获取与整理:打好坚实基础 任何数据科学项目都始于数据的获取。本书将带您了解多种数据源,包括本地文件(如CSV、Excel)、数据库以及网络API。您将学习如何使用R语言高效地读取和导入这些数据,并掌握处理不同数据格式的技巧。 然而,现实世界的数据往往是混乱不堪的。缺失值、异常值、重复记录、格式不一致等问题层出不穷。本书将详细介绍数据清洗和转换的常用方法。您将学会如何识别和处理缺失值(例如,使用均值、中位数填充,或删除含有缺失值的记录),如何检测和纠正异常值,如何合并、拆分和重塑数据集,以及如何对数据类型进行转换。这些看似基础但至关重要的步骤,将直接影响后续分析的准确性和可靠性。 探索性数据分析(EDA):发现隐藏的模式 一旦数据得以整理,探索性数据分析(EDA)就显得尤为重要。EDA的目的是通过可视化和统计摘要来理解数据的结构、分布和变量之间的关系,从而提出有价值的假设。本书将重点介绍如何利用R语言强大的可视化库,如`ggplot2`,来创建各种精美的图表。 您将学习如何使用直方图和密度图来理解单个变量的分布,如何使用箱线图来比较不同分组的差异,如何使用散点图来揭示两个变量之间的关系,以及如何使用热力图和相关矩阵来展示多个变量之间的相关性。除了可视化,本书还将引导您计算描述性统计量,如均值、中位数、标准差、分位数等,以量化数据的特征。通过EDA,您将能够初步了解数据,发现潜在的趋势、模式和异常,为后续的建模工作提供重要线索。 特征工程:为模型注入智慧 特征工程是数据科学中一个极具创造性的环节,它指的是根据业务理解和数据特性,对原始特征进行转换、组合或创建新特征,以提高模型的性能。本书将介绍一些常用的特征工程技术。 您将学习如何对分类变量进行编码(如独热编码、标签编码),如何对数值变量进行缩放和归一化,如何创建多项式特征,如何从日期或文本数据中提取有意义的特征,以及如何进行特征选择,去除冗余或不相关的特征。有效的特征工程能够显著提升模型的预测能力,甚至比选择复杂的模型更为重要。 模型构建与评估:量化数据中的规律 掌握了数据的基础处理和探索,下一步就是利用统计和机器学习模型来发现数据中的深层规律。本书将涵盖多种经典的数据科学模型。 您将学习如何使用线性回归模型来预测连续变量,如何使用逻辑回归模型来处理分类问题,如何构建决策树和随机森林来捕捉非线性关系,以及如何进行聚类分析来发现数据中的自然分组。在模型构建过程中,本书将详细解释模型的原理,并演示如何在R语言中实现这些模型。 仅仅构建模型是不够的,评估模型的性能同样关键。本书将介绍常用的模型评估指标,如准确率、精确率、召回率、F1分数、AUC等,并讲解如何使用交叉验证等技术来获得更可靠的模型评估结果。您还将学习如何调整模型参数,以优化模型的性能。 模型解释与沟通:传递洞察的力量 数据科学的最终价值在于将数据中的洞察转化为可操作的建议,并有效地与他人沟通。本书将强调模型解释和结果呈现的重要性。 您将学习如何利用各种技术来解释模型的预测结果,例如,理解线性回归模型中系数的含义,或者利用SHAP值等方法来解释复杂模型的预测。此外,本书还将指导您如何将分析结果和模型预测以清晰、简洁、具有说服力的方式呈现给非技术背景的受众。这可能包括创建交互式报告、制作具有洞察力的可视化图表,以及撰写专业的分析报告。 R语言生态系统:工具箱的延伸 R语言的强大之处不仅在于其核心功能,更在于其庞大且活跃的社区所贡献的丰富包(packages)。本书将贯穿使用一系列高质量的R包,这些包极大地简化和增强了数据科学的各项任务。 您将熟悉用于数据处理和操纵的`dplyr`和`tidyr`,用于数据可视化的`ggplot2`,用于数据导入导出的`readr`和`readxl`,以及用于统计建模和机器学习的`caret`、`randomForest`、`glmnet`等。本书的每一个示例都将充分利用这些工具,帮助您构建一个高效、现代化的R语言数据科学工作流程。 从实践中学习:案例驱动的学习路径 本书采用案例驱动的学习方法,通过一系列真实世界的数据集和应用场景,将抽象的概念转化为具体的实践。从对客户流失的预测,到对产品销售趋势的分析,再到对用户行为的探索,每一个案例都旨在帮助您将所学的知识融会贯通,并理解它们在实际业务中的应用价值。 您将有机会动手实践,亲身体验数据科学项目的全生命周期。通过解决这些实际问题,您将不仅掌握R语言的编程技巧,更能培养独立思考和解决复杂数据问题的能力。 本书适合谁? 希望入门数据科学的学生和研究人员:本书提供了一个全面而系统的入门路径,帮助您快速掌握数据科学的核心概念和R语言的应用。 希望提升R语言在数据分析中应用水平的分析师和工程师:本书将帮助您更深入地理解R语言在数据科学工作流中的应用,并掌握更高级的技术和工具。 对数据驱动决策感兴趣的商业人士:本书将使您能够更好地理解数据分析的流程和结果,从而做出更明智的商业决策。 任何对利用数据解决问题充满热情的人:本书将为您打开一扇通往数据科学世界的大门,激发您探索数据、发现洞察的潜能。 结语 《数据科学:R语言实现(影印版 英文版) [R for Data Science]》不仅仅是一本技术书籍,它更是一次关于如何运用数据洞察来驱动变革的探索之旅。通过掌握R语言,您将获得一把强大的钥匙,能够开启数据中蕴藏的无限可能。现在,让我们一起踏上这段激动人心的旅程,用R语言,让数据说话!

用户评价

评分

书的厚度让人感觉内容很充实,不过分冗长,每一页都有其实用价值。作为一本参考书,它非常耐读,可以经常翻阅,回顾关键概念和技巧。对我来说,它更像是一个可靠的伙伴,在我遇到数据处理的难题时,总能提供及时的帮助和清晰的指引。

评分

我发现这本书的内容组织非常注重实践性,很多例子都是贴近真实工作场景的,这对我解决实际问题帮助很大。它不只是停留在理论层面,而是手把手地教你如何操作,如何构建模型,如何解释结果。这种“干货”满满的感觉,让学习过程充满了成就感。

评分

这本书的排版布局很合理,章节划分清晰,从基础概念到高级应用都有涉及。我特别喜欢它在代码示例上的处理方式,不仅仅是给出代码,还配有详细的解释,让我这个初学者也能很容易跟上思路。很多时候,一本好的技术书,光有内容是不够的,排版和讲解的逻辑性才是王道,这本书在这方面做得相当到位。

评分

这本书的封面设计挺吸引人的,尤其是那个简洁的蓝色调,感觉很专业。我当初就是被这个封面吸引才决定买的。拿到书的时候,感觉纸张质量不错,印刷也很清晰,这对于一本技术类的书籍来说非常重要,毕竟阅读体验直接影响学习效率。

评分

虽然是影印版,但整体阅读起来没有太大障碍,英文原文的表达方式非常地道,对于希望提升英文技术阅读能力的人来说,也是一个不错的辅助工具。有时候,直接阅读原汁原味的英文材料,能更好地理解作者的本意,而不是依赖翻译带来的理解偏差。对于那些想在数据科学领域深入发展的人来说,这是个加分项。

评分

本书写的很好,读这本书发现一些之前不太理解的地方,而且解释很好。

评分

很好的一本工具书,之前在图书馆看过,这一次买来收藏

评分

确实是一本机器学习领域的名著,非常经典!

评分

大神的新作品,介绍数据科学与R编程,注定成为经典的一本书!

评分

实在是很不错的书,五星推荐

评分

不错,质量还可以,很清晰。慢慢看

评分

纸质挺好的,希望自己能够坚持看完吧

评分

很多大牛推荐的一本书,好好看看

评分

在京东买书成了固定模式,质量好,送货快。

相关图书

本站所有内容均为互联网搜索引擎提供的公开搜索信息,本站不存储任何数据与内容,任何内容与数据均与本站无关,如有需要请联系相关搜索引擎包括但不限于百度google,bing,sogou

© 2025 book.coffeedeals.club All Rights Reserved. 静流书站 版权所有