数据科学原理（影印版英文版） pdf epub mobi txt 电子书下载 2026

简体网页||繁体网页

☆☆☆☆☆

[美] 思南·约茨德米尔著

图书标签:

数据科学
统计学
机器学习
数据分析
算法
英文教材
影印版
高等教育
计算机科学
理论基础

下载链接在页面底部

facebook linkedin mastodon messenger pinterest reddit telegram twitter viber vkontakte whatsapp 复制链接

想要找书就要到静流书站

book.coffeedeals.club

立刻按 ctrl+D收藏本页

你会得到大惊喜!!

出版社：东南大学出版社

ISBN：9787564173647

版次：1

商品编码：12253804

包装：平装

开本：16开

出版时间：2017-10-01

用纸：胶版纸

页数：369

正文语种：英文

具体描述

内容简介

　　《数据科学原理（影印版英文版）》旨在帮助你将数学、编程和商业分析这三者融会贯通。有了《数据科学原理（影印版英文版）》，在面对复杂的问题时，无论是抽象和原始的数据统计，还是可实施的理念，你都会充满自信。
　　我们采用了一种独特的方法来建立起数学和计算机科学之间的桥梁，你会在这次令人兴奋的学习之旅中成长为一名数据科学家。从清洗和准备数据开始，然后到给出有效的数据挖掘策略和技术，你会经历数据科学的整个流程，建立起数据科学的各个组成部分是如何相互协作的宏观概念，学习基本的数学和统计学知识以及一些目前由数据科学家和分析师用到的伪代码。除此之外，你还将掌握机器学习，了解一些有用的统计模型，这些模型能够帮助你控制和处理*密集的数据集，学会如何创建出能股表达数据意图的可视化方法。

Preface
Chapter 1： How to Sound Like a Data Scientist
What is data science?
Basic terminology
Why data science?
Example - Sigma Technologies
The data science Venn diagram
The math
Example - spawner-recruit models
Computer programming
Why Python?
Python practices
Example of basic Python
Domain knowledge
Some more terminology
Data science case studies
Case study - automating government paper pushing
Fire all humans， right?
Case study - marketing dollars
Case study - what's in a job description?
Summary

Chapter 2： Types of Data
Flavors of data
Why look at these distinctions?
Structured versus unstructured data
Example of data preprocessing
Word/phrase counts
Presence of certain special characters
Relative length of text
Picking out topics
Quantitative versus qualitative data
Example - coffee shop data
Example - world alcohol consumption data
Digging deeper
The road thus far
The four levels of data
The nominal level
Mathematical operations allowed
Measures of center
What data is like at the nominal level
The ordinal level
Examples
Mathematical operations allowed
Measures of center
Quick recap and check
The interval level
Example
Mathematical operations allowed
Measures of center
Measures of variation
The ratio level
Examples
Measures of center
Problems with the ratio level
Data is in the eye of the beholder
Summary

Chapter 3： The Five Steps of Data Science
Introduction to Data Science
Overview of the five steps
Ask an interesting question
Obtain the data
Explore the data
Model the data
Communicate and visualize the results
Explore the data
Basic questions for data exploration
Dataset 1 - Yelp
Dataframes
Series
Exploration tips for qualitative data
Dataset 2 - titanic
Summary

Chapter 4： Basic Mathematics
Mathematics as a discipline
Basic symbols and terminology
Vectors and matrices
Quick exercises
Answers
Arithmetic symbols
Summation
Proportional
Dot product
Graphs
Logarithms/exponents
Set theory
Linear algebra
Matrix multiplication
How to multiply matrices
Summary

Chapter 5： Impossible or Improbable - A Gentle Introduction to Probability
Basic definitions
Probability
Bayesian versus Frequentist
Frequentist approach
The law of large numbers
Compound events
Conditional probability
The rules of probability
The addition rule
Mutual exclusivity
The multiplication rule
Independence
Complementary events
A bit deeper
Summary

Chapter 6： Advanced Probability
Collectively exhaustive events
Bayesian ideas revisited
Bayes theorem
More applications of Bayes theorem
Example - Titanic
Example - medical studies
Random variables
Discrete random variables
Types of discrete random variables
Summary

Chapter 7： Basic Statistics
What are statistics?
How do we obtain and sample data?
Obtaining data
Observational
Experimental
Sampling data
Probability sampling
Random sampling
Unequal probability sampling
How do we measure statistics?
Measures of center
Measures of variation
Definition
Example - employee salaries
Measures of relative standing
The insightful part - correlations in data
The Empirical rule
Summary

Chapter 8： Advanced Statistics
Point estimates
Sampling distributions
Confidence intervals
Hypothesis tests
Conducting a hypothesis test
One sample t-tests
Example of a one sample t-tests
Assumptions of the one sample t-tests
Type I and type II errors
Hypothesis test for categorical variables
Chi-square goodness of fit test
Chi-square test for association/independence
Summary

Chapter 9： Communicating Data
Why does communication matter?
Identifying effective and ineffective visualizations
Scatter plots
Line graphs
Bar charts
Histograms
Box plots
When graphs and statistics lie
Correlation versus causation
Simpson's paradox
If correlation doesn't imply causation， then what does?
Verbal communication
It's about telling a story
On the more formal side of things
The whylhowlwhat strategy of presenting
Summary

Chapter 10： How to Tell If Your Toaster Is Learning - Machine Learning Essentials
What is machine learning?
Machine learning isn't perfect
How does machine learning work?
Types of machine learning
Supervised learning
It's not only about predictions
Types of supervised learning
Data is in the eyes of the beholder
Unsupervised learning
Reinforcement learning
Overview of the types of machine learning
How does statistical modeling fit into all of this?
Linear regression
Adding more predictors
Regression metrics
Logistic regression
Probability， odds， and log odds
The math of logistic regression
Dummy variables
Summary

Chapter 11： Predictions Don't Grow on Trees - or Do They?
Na'fve Bayes classification
Decision trees
How does a computer build a regression tree?
How does a computer fit a classification tree?
Unsupervised learning
When to use unsupervised learning
K-means clustering
Illustrative example - data points
Illustrative example - beer！
Choosing an optimal number for K and cluster validation
The Silhouette Coefficient
Feature extraction and principal component analysis
Summary

Chapter 12： Beyond the Essentials
The bias variance tradeoff
Error due to bias
Error due to variance
Two extreme cases of bias/variance tradeoff
Underfitting
Overfitting
How bias/variance play into error functions
K folds cross-validation
Grid searching
Visualizing training error versus cross-validation error
Ensembling techniques
Random forests
Comparing Random forests with decision trees
Neural networks
Basic structure
Summary

Chapter 13： Case Studies
Case study 1 - predicting stock prices based on social media
Text sentiment analysis
Exploratory data analysis
Regression route
Classification route
Going beyond with this example
Case study 2 - why do some people cheat on their spouses?
Case study 3 - using tensorflow
Tensorflow and neural networks
Summary
Index

《数据科学原理》（影印版英文原版）导读这本《数据科学原理》（影印版英文原版）并非一本简单的技术手册，而是一次深入探索数据科学核心思想与实践的旅程。它以其前瞻性的视角、严谨的学术态度以及丰富的案例，为读者构建起理解和运用数据科学的坚实框架。本书精选自英文原版，保留了原汁原味的学术精髓和前沿理念，致力于帮助读者掌握驾驭海量数据、解锁数据价值的必备知识和技能。本书定位与核心价值：本书的核心在于“原理”。它不拘泥于某一种特定工具或语言的教学，而是着力于阐述数据科学领域 foundational principles——那些驱动着数据收集、处理、分析、建模、评估及最终应用的底层逻辑和方法论。这种对原理的聚焦，使得本书具有极强的普适性和生命力，能够让读者在技术日新月异的浪潮中，依然能够抓住核心，灵活迁移和学习新的技术。对于正在进入数据科学领域的新手而言，本书提供了清晰的入门路径，帮助他们理解数据科学的整体图景，避免在零散的技术碎片中迷失方向。对于已有一定基础的从业者，本书则提供了深入反思和系统梳理的机会，帮助他们查漏补缺，提升对数据科学本质的理解，从而在复杂问题中做出更优决策。内容深度与广度：本书的内容覆盖了数据科学的整个生命周期，从数据产生伊始，到最终的洞察输出，无一不包。数据理解与获取：书中会引导读者深入理解不同类型数据的来源、特性以及潜在的质量问题。它不仅仅是教你如何“下载”数据，而是教你如何“理解”数据，如何从数据的表象下挖掘其内在的含义和潜在的偏差。这包括对结构化、半结构化和非结构化数据的深入剖析，以及在数据采集过程中需要考虑的伦理、隐私和法律问题。读者将学会如何识别数据噪声、缺失值，以及如何设计有效的数据采集策略。数据清洗与预处理：这是数据科学中最耗时但又至关重要的环节。本书会详细讲解各种数据清洗和预处理技术，例如异常值检测与处理、缺失值填充、数据类型转换、特征编码（如独热编码、标签编码）、数据标准化与归一化等。书中还会探讨不同预处理方法对后续模型性能的影响，引导读者在实践中做出明智的选择。探索性数据分析 (EDA)： EDA 是理解数据、发现模式、形成假设的关键步骤。本书将带领读者掌握各种统计和可视化技术，用于深入探索数据的分布、变量之间的关系、趋势和模式。从直方图、散点图、箱线图到更复杂的降维可视化技术（如 PCA、t-SNE），读者将学会如何通过可视化直观地理解数据，并从中提取有价值的见解，为后续建模提供依据。特征工程：特征工程是提升模型性能的艺术与科学。本书会深入讲解如何基于对业务的理解和数据本身的特性，创造出更具信息量、更能捕捉问题本质的新特征。这包括组合特征、多项式特征、交互特征、以及如何利用领域知识进行特征构建。本书会强调特征工程的迭代性和实验性，鼓励读者不断尝试和优化。模型选择与构建：书中会系统介绍数据科学中常用的各种建模技术，涵盖监督学习、无监督学习、半监督学习等。从经典的线性模型、逻辑回归、决策树、支持向量机 (SVM) 到更现代的集成方法（如随机森林、梯度提升），以及深度学习的基础模型，本书会对其背后的数学原理、适用场景、优缺点进行深入剖析。它会引导读者理解不同模型的假设和工作机制，帮助他们根据具体问题选择最合适的模型。模型评估与调优：构建模型只是第一步，如何科学地评估模型性能并进行优化至关重要。本书会详细介绍各种评估指标，如准确率、精确率、召回率、F1分数、ROC曲线、AUC值、均方误差 (MSE)、R²值等，并解释它们在不同场景下的适用性。同时，书中还会深入讲解模型调优技术，如交叉验证、网格搜索、随机搜索以及正则化等，帮助读者避免过拟合和欠拟合，构建出泛化能力强的模型。模型部署与应用：理论上的模型再完美，如果不能落地应用也缺乏价值。本书也会触及模型部署的实践考量，包括如何将训练好的模型集成到生产环境，如何进行模型监控与维护，以及如何考虑性能、可扩展性和实时性等问题。虽然本书不会深入到具体的 MLOps 工具链，但会提供关于模型在实际业务中产生价值的全局视角。伦理与偏见：在数据科学日益深入人心的今天，伦理问题和算法偏见不容忽视。本书会专题探讨数据科学中的伦理挑战，包括数据隐私保护、算法的公平性、透明度以及决策的问责制。它会引导读者思考如何识别和缓解模型中的偏见，以及如何在实践中做出负责任的数据科学决策。语言风格与阅读体验：影印版英文原版的最大魅力在于其原汁原味的学术表达。本书的语言严谨、精确，但并不晦涩难懂。作者会以清晰的逻辑链条，引导读者一步步理解复杂的概念。书中可能会穿插一些数学公式来严谨地定义模型或算法，但这些公式并非为了炫技，而是为了更精确地阐释原理。对于非数学专业背景的读者，书中通常会提供直观的解释和类比，帮助他们理解背后的思想。英文原版的阅读体验，还能让读者接触到最前沿的学术表达方式，理解该领域在国际上的普遍认知和术语体系。这对于希望在数据科学领域进行深度研究或参与国际项目的人士尤为重要。本书适合的读者群体：计算机科学、统计学、数学等相关专业的学生：为他们打下坚实的数据科学理论基础，为未来的专业发展提供有力支撑。有志于转行数据科学领域的专业人士：提供系统性的知识框架，帮助他们快速掌握核心技能，应对转型的挑战。已经在数据分析、机器学习等领域工作的从业者：帮助他们深化理解，拓展视野，解决更复杂的问题，提升职业竞争力。对数据驱动决策感兴趣的企业管理者和业务决策者：让他们理解数据科学的潜力，更好地与技术团队沟通，并指导业务发展。任何对数据科学充满好奇，希望系统学习这一前沿领域的人士。结语：《数据科学原理》（影印版英文原版）是一本值得反复研读的宝贵资源。它不仅仅教授“如何做”，更重要的是引导读者理解“为何这样做”。通过深入学习本书，您将能够以一种更加深刻和有洞察力的方式去理解和运用数据，真正释放数据的巨大能量，在瞬息万变的数字时代中，把握先机，引领创新。这本实体书籍，承载着知识的重量，也象征着探索未知的决心。它将成为您数据科学学习道路上不可或缺的良师益友。

用户评价

评分☆☆☆☆☆

这本《数据科学原理（影印版英文版）》的出版，确实为我们这些渴望深入理解数据科学核心概念的读者提供了一扇宝贵的窗口。我从它崭新的封面和清晰的排版就能感受到作者在内容组织上的用心。书中的每一个章节都像一块精心打磨的宝石，循序渐进地展现了数据科学的宏大图景。从基础的统计学原理，到复杂的机器学习算法，再到实际的数据可视化技术，作者都以一种非常严谨且易于理解的方式进行了阐述。我特别欣赏书中对理论知识的深度挖掘，它不仅仅停留在概念的介绍，而是深入到算法的数学基础，以及各种模型背后的逻辑推导。这对于我这种希望从根本上掌握数据科学的人来说，无疑是极大的帮助。虽然是影印版，但纸张的质量和印刷的清晰度都相当不错，阅读体验很流畅，没有丝毫的折扣。这本书的出现，让我对如何系统性地学习和实践数据科学有了更清晰的规划，相信它会成为我书架上不可或缺的参考书。

评分☆☆☆☆☆

初次拿到这本书，我就被它厚实的体积和密集的文字所震撼，但随之而来的是一种强烈的求知欲。我一直对数据科学的魅力充满好奇，但市面上很多书籍要么过于浅显，要么过于理论化，难以找到一个平衡点。《数据科学原理（影印版英文版）》恰恰填补了这个空白。书中大量生动的案例分析，将抽象的数学模型和算法转化为了直观的应用场景。例如，在讲解回归分析时，作者并没有简单罗列公式，而是通过一个具体的商业问题，一步步引导读者如何选择合适的模型，如何评估模型的效果，以及如何从模型结果中提取有价值的商业洞察。这种“问题驱动”的学习方式，极大地激发了我的学习兴趣，也让我体会到数据科学在解决实际问题中的强大力量。更重要的是，书中对于模型评估指标的详尽解释，以及对过拟合、欠拟合等常见问题的深刻剖析，都让我受益匪浅。

评分☆☆☆☆☆

当我翻开《数据科学原理（影印版英文版）》时，我立刻被其严谨的学术风格和深厚的理论功底所吸引。这本书并非一本简单的入门指南，而是对数据科学各个分支领域进行系统性、深入性探讨的力作。它不仅仅是告诉“怎么做”，更深入地解释了“为什么这么做”。书中对统计学基础的铺垫非常扎实，例如概率论、假设检验等内容，为后续的机器学习算法打下了坚实的基础。我特别喜欢其中关于因果推断的章节，它帮助我理解了如何从相关性中区分因果性，这在很多复杂的分析场景中至关重要。虽然书中涉及的数学公式和统计概念可能对初学者构成一定的挑战，但其清晰的逻辑结构和详实的推导过程，让我在克服困难的同时，也获得了巨大的知识提升。这本书更像是数据科学领域的“百科全书”，能够满足不同层次读者的学习需求。

评分☆☆☆☆☆

作为一名在数据领域摸爬滚打多年的从业者，我深知理论与实践相结合的重要性。《数据科学原理（影印版英文版）》这本书，恰恰是连接这两者的绝佳桥梁。它所涵盖的内容广度令人惊叹，从数据采集、清洗、探索性分析，到模型构建、评估、部署，几乎囊括了数据科学项目的全流程。我尤其对书中关于特征工程和模型选择的章节印象深刻。作者用非常专业的语言，但又不失通俗易懂的方式，阐述了如何从原始数据中提取有意义的特征，以及如何根据具体业务需求选择最适合的模型。书中提供的各种模型（如决策树、支持向量机、神经网络等）的优缺点比较，以及适用场景分析，都为我日常工作中进行模型选型提供了宝贵的参考。这本书的英文原版，也让我有机会直接接触到最前沿的数据科学术语和表达方式，对于提升我的专业英文水平也有很大帮助。

评分☆☆☆☆☆

我一直觉得，要真正掌握一门学科，就必须从其最根本的原理出发。《数据科学原理（影印版英文版）》正是这样一本致力于揭示数据科学“底层逻辑”的书籍。它不像市面上那些充斥着代码和工具的“速成”书籍，而是专注于讲解数据科学的核心概念、算法原理以及背后的数学理论。这本书让我对数据的本质有了更深刻的认识，对各种机器学习模型的内在机制有了更清晰的理解。例如，在解释神经网络时，作者不仅介绍了多层感知机的结构，还深入探讨了反向传播算法的原理，以及激活函数的作用。这种深入剖析的态度，让我能够更灵活地运用这些工具，而不是仅仅停留在“调用API”的层面。这本书的英文版本，让我能够直接接触到原汁原味的研究成果，对于我深入理解数据科学的未来发展趋势也大有裨益。