Python数据科学导论

Python数据科学导论 pdf epub mobi txt 电子书 下载 2025

[美] 戴维·谢伦(Davy Cielen),亚诺 D.B.梅斯曼(Arno D.B.Meysman) 著,刘义 译
图书标签:
  • Python
  • 数据科学
  • 数据分析
  • 机器学习
  • Pandas
  • NumPy
  • Matplotlib
  • 统计学
  • 数据可视化
  • 编程入门
想要找书就要到 静流书站
立刻按 ctrl+D收藏本页
你会得到大惊喜!!
出版社: 机械工业出版社
ISBN:9787111578260
版次:1
商品编码:12173375
品牌:机工出版
包装:平装
丛书名: 数据科学与工程技术丛书
开本:16开
出版时间:2017-09-01
用纸:胶版纸
页数:222

具体描述

内容简介

本书涵盖的主题非常广泛,介绍了数据科学方方面面的知识,每一章都侧重于介绍数据科学的某一方面,为读者以后的深入学习打下基础。具体内容包括:第1、2章系统介绍大数据科学的背景知识及框架结构;第3~5章介绍机器学习相关知识;第6~9章介绍几个比较有趣的数据科学主题。本书是学习数据科学知识的入门教材,在深入学习本书的实例前,需要掌握SQL、Python及HTML5的入门知识,了解统计学和机器学习相关知识。

目录

译者序
前言
关于本书
关于作者
关于封面插图
第1章 大数据世界中的数据科学1
1.1 数据科学和大数据的好处和用途2
1.2 数据种类3
1.2.1 结构化数据3
1.2.2 非结构化数据3
1.2.3 自然语言数据4
1.2.4 计算机数据4
1.2.5 图类数据5
1.2.6 音频、视频和图像数据5
1.2.7 流数据6
1.3 数据科学过程6
1.3.1 设置研究目标6
1.3.2 检索数据6
1.3.3 数据准备7
1.3.4 数据探索7
1.3.5 数据建模7
1.3.6 展示与自动化7
1.4 大数据生态系统与数据科学7
1.4.1 分布式文件系统7
1.4.2 分布式编程框架9
1.4.3 数据集成框架9
1.4.4 机器学习框架9
1.4.5 NoSQL数据库10
1.4.6 调度工具10
1.4.7 基准测试工具10
1.4.8 系统部署11
1.4.9 服务开发11
1.4.10 安全11
1.5 Hadoop工作示例介绍11
1.6 本章小结16
第2章 数据科学过程17
2.1 数据科学过程概述17
2.2 步骤1:定义研究目标并创立项目章程19
2.2.1 了解研究的目标和背景20
2.2.2 创立项目章程20
2.3 步骤2:检索数据20
2.3.1 从存储在公司内部的数据开始21
2.3.2 不要害怕去购买数据21
2.3.3 检查数据质量以预防问题发生22
2.4 步骤3:数据的清洗、整合以及转换22
2.4.1 数据清洗22
2.4.2 尽可能早地修正错误27
2.4.3 从不同的数据源整合数据28
2.4.4 数据转换30
2.5 步骤4:探索性数据分析32
2.6 步骤5:构建模型35
2.6.1 模型与变量的选择35
2.6.2 模型执行36
2.6.3 模型诊断与模型比较39
2.7 步骤6:展示结果并在其上搭建应用程序40
2.8 本章小结40
第3章 机器学习42
3.1 什么是机器学习,为什么需要关注它42
3.1.1 机器学习在数据科学中的应用43
3.1.2 机器学习在数据科学过程中的使用43
3.1.3 Python工具在机器学习中的应用44
3.2 建模过程45
3.2.1 特征工程以及模型选取46
3.2.2 模型的训练47
3.2.3 模型的验证47
3.2.4 预测新的观测值48
3.3 机器学习的类型48
3.3.1 有监督学习48
3.3.2 无监督学习53
3.4 半监督学习60
3.5 本章小结61
第4章 单机上处理大数据63
4.1 大数据处理过程中遇到的难题63
4.2 处理巨量数据的通用技术64
4.2.1 选择合适的算法65
4.2.2 选择合适的数据结构71
4.2.3 选择合适的工具73
4.3 处理大数据集的通用编程技巧75
4.3.1 不必重复发明轮子75
4.3.2 充分利用硬件76
4.3.3 减少计算需求76
4.4 案例研究1:预测恶意URL77
4.4.1 步骤1:确立研究目标77
4.4.2 步骤2:获取URL数据77
4.4.3 步骤4:数据探索78
4.4.4 步骤5:建模79
4.5 案例研究2:在数据库中建立一个推荐系统80
4.5.1 所需的工具及技术80
4.5.2 步骤1:研究问题82
4.5.3 步骤3:数据准备82
4.5.4 步骤5:建模86
4.5.5 步骤6:展示与自动化86
4.6 本章小结88
第5章 大数据世界的第一步89
5.1 数据分布存储和框架处理89
5.1.1 Hadoop:存储和处理大数据集的框架90
5.1.2 Spark:取代MapReduce以获得更好的性能92
5.2 案例研究:借贷的风险评估93
5.2.1 步骤1:研究目标94
5.2.2 步骤2:数据检索95
5.2.3 步骤3:数据准备98
5.2.4 步骤4(数据探索)和步骤6(报告形成)101
5.3 本章小结111
第6章 了解NoSQL112
6.1 NoSQL简介114
6.1.1 ACID:关系型数据库核心原则114
6.1.2 CAP理论:多节点数据库的问题115
6.1.3 NoSQL数据库的BASE原则116
6.1.4 NoSQL数据库的种类117
6.2 案例研究:这是什么疾病123
6.2.1 步骤1:设置研究目标124
6.2.2 步骤2和步骤3:数据检索与数据准备124
6.2.3 步骤4:数据探索131
6.2.4 再回到步骤3:为描述疾病概况做数据准备137
6.2.5 再回到步骤4:为描述疾病概况做数据探索140
6.2.6 步骤6:展示与自动化140
6.3 本章小结141
第7章 图数据库的兴起143
7.1 互联数据及图数据库概述143
7.2 图数据库Neo4j概述146
7.3 数据互联案例:食谱推荐引擎152
7.3.1 步骤1:设置研究目标153
7.3.2 步骤2:数据检索154
7.3.3 步骤3:数据准备155
7.3.4 步骤4:数据探索157
7.3.5 步骤5:数据建模159
7.3.6 步骤6:数据展示162
7.4 本章小结162
第8章 文本挖掘和文本分析164
8.1 现实世界中的文本挖掘165
8.2 文本挖掘技术169
8.2.1 词袋169
8.2.2 词干提取和词形还原170
8.2.3 决策树分类器171
8.3 案例研究:Reddit帖子分类173
8.3.1 自然语言工具包173
8.3.2 数据科学过程综述及第1步:研究目标175
8.3.3 第2步:数据检索175
8.3.4 第3步:数据准备178
8.3.5 步骤4:数据探索180
8.3.6 再回到步骤3:数据准备的调整182
8.3.7 步骤5:数据分析185
8.3.8 步骤6:展示与自动化188
8.4 本章小结189
第9章 面向终端用户的数据可视化191
9.1 数据可视化选项192
9.2 Crossfilter—JavaScript MapReduce库194
9.2.1 安装195
9.2.2 利用Crossfilter筛选药品数据集198
9.3 用dc.js创建一个交互式控制面板201
9.4 控制面板开发工具205
......

前言/序言

  本书传递的知识永存我们心中。人类之所以为人类,人类之所以是现在的样子,数据科学技术功不可没。这本书不仅介绍计算机驱动的数据科学相关知识,还将教给读者洞察连接的能力,以及如何以事实为依据演绎出结论,如何从过去的经历中汲取经验。人类比地球上的任何其他生物更依赖于大脑。人类的生存依赖于人脑,人类在大自然中的位置完全取决于人脑的特性。古往今来,这一战略解决了人类所面临的所有问题,在不久的将来,人类也不太可能改变它。
  当谈到原始计算时,人类的大脑只能引领我们走到目前的境地。现在,我们每天都接收到海量的数据,人脑分析已经无法跟上大数据时代信息所包含的潜在内容,我们已掌握的知识更难以满足人类的好奇心。因此,我们利用机器为我们做一部分工作,比如:模式识别,创建连接,以及为人类的众多问题探寻答案。
  对知识永无止境的探索是人类的基因,依赖计算机为人类完成一些力所能及的工作是我们的使命。
  致谢非常感谢Manning出版社所有参与本书制作的人员,在你们的帮助下本书得以顺利出版。
  感谢Ravishankar Rajagopalan对本书的书稿做了全面细致的技术校对,感谢Jona-than Thoms和 Michael Roberts给了许多专业的建议。另外感谢众多的评审人员,他们在本书的制作过程中提供了许多极有价值的意见反馈,他们是:Alvin Raj, Arthur Zubarev, Bill Martschenko, Craig Smith, Filip Pravica, Hamideh Iraj, Heather Campbell, Hector Cuesta, Ian Stirk, Jeff Smith, Joel Kotarski, Jonathan Sharley, J鰎n Dinkla, Marius Butuc, Matt R. Cole, Matthew Heck, Meredith Godar, Rob Agle, Scott Chaussee, Steve Rogers。
  首先,我想感谢我的妻子Filipa,她给了我灵感和动力,让我得以战胜所有的困难。感谢她在我的职业生涯和创作这本书的过程中,始终陪伴在我身边。感谢她担负起家庭的重担,当我不在的时候独自照顾我们的小女儿,让我有了充裕的时间去追求我的目标并实现抱负。谨以此书向我的妻子致敬,非常感谢她为我们的小家庭所做的无私奉献。
  同时,我想感谢我的女儿Eva以及我未出生的儿子,他们给了我极大的欢乐并让我笑口常开。他们活泼有趣、充满爱心,是上帝送给我的最好的礼物,也是我所期望的最完美的小孩,和他们在一起总是充满了乐趣。
  特别要感谢我的父母,谢谢他们对我长期以来的支持。他们无尽的爱和鼓励让我从容完成了这本书,实现了人生的一个阶段目标,并继续我人生新的旅程。
  同时,真诚地感谢同我一起共事的小伙伴们,谢谢大家齐心协力,一起攻坚了一个又一个难题。特别要感谢Mo和Arno,他们给了我最有力的支持和很好的建议。非常感激大家在本书的创作过程中付出的时间和精力,你们棒极了!没有你们,我可能都不会写这本书。
  最后,真诚地感谢每一位支持我、理解我的朋友们。我常常忙得没有空闲时间,谢谢你们的关爱和一如既往的支持,让我能够专心创作并完成这本书。
  Davy Cielen非常感谢我的家庭和我的朋友们,他们在我完成本书的过程中,给了我一如既往的支持和鼓励。外面的新鲜事物很多,能在家完成这本书的创作真的很不容易,谢谢大家!特别要感谢我的父母,我的兄弟Jago,还有我亲爱的女朋友Delphine。不管我有什么疯狂的想法和离奇的举动,你们一直坚守在我身边,不离不弃。
  同时,谢谢我的教母,还有我的教父,他正在与癌症作斗争,但他们的积极乐观让生活充满了希望。
  还要感谢我的朋友们,他们给我买啤酒。也谢谢我女朋友Delphine的父母,她的兄弟Karel和未过门的妻子Tess,谢谢你们的热情款待和美味佳肴。
  大家为了美好的生活而努力奋斗着。
  最后并且是最重要的一点,我想谢谢本书的合著者也是我的铁哥们Mo,以及本书的另一位合著者Davy,谢谢你们深刻的洞察和独特见解。为了成为一名企业家和数据科学家,我们每天共享跌宕起伏的人生,这是一段多么精彩的旅程,我相信我们的未来会更精彩。
  Arno D. B. Meysman首先最重要的一点是我要感谢我的未婚妻Muhuba,谢谢她的爱、理解、关心和包容。最后,感谢Davy和Arno,和他们一起度过了很多开心时光并让我们的创业梦想成真。他们坚持不懈的奉献是我完成本书至关重要的资源。
  Mohamed Ali


《Python数据科学入门:从零构建数据驱动洞察》 简介 在这个数据爆炸的时代,理解和利用数据已成为各行各业的核心竞争力。无论您是初涉数据科学领域的学生,还是希望在工作中拥抱数据分析的专业人士,亦或是对商业决策背后的数据逻辑充满好奇的探索者,本书都将为您提供一条清晰、实用的学习路径。 《Python数据科学入门:从零构建数据驱动洞察》是一本旨在帮助读者掌握数据科学核心概念与实践技能的指南。本书并非局限于理论的堆砌,而是着力于通过生动详实的案例和代码示例,引导您一步步走进数据分析的殿堂,亲手实现从原始数据到有价值洞察的转化。我们相信,数据科学并非遥不可及的象牙塔,而是可以通过系统学习和勤于实践触手可及的工具。 本书的编写宗旨是“理解与实践并重”,我们深入浅出地讲解数据科学的理论基础,更重要的是,通过Python这一强大而灵活的工具,让您能够在真实的场景中动手实践,解决实际问题。Python因其简洁的语法、丰富的库生态以及活跃的社区支持,已成为数据科学领域事实上的标准语言。本书将全面涵盖使用Python进行数据科学工作的关键库,如NumPy、Pandas、Matplotlib、Seaborn以及Scikit-learn等,为您构建坚实的技术基石。 本书特色与价值 1. 系统性与完整性: 本书涵盖了数据科学的完整生命周期,从数据的获取、清洗、预处理,到探索性数据分析(EDA)、数据可视化,再到机器学习模型的构建、评估和部署。我们力求为读者提供一个全面的知识框架,避免学习过程中的碎片化。 2. 实战导向与案例驱动: 理论知识的学习固然重要,但脱离实际的应用将难以深化理解。本书精选了多个来自不同领域的真实世界数据集,贯穿全书的案例分析将带领读者运用所学知识解决实际问题,例如:分析用户行为以优化产品推荐,预测股票价格以辅助投资决策,识别欺诈交易以保障金融安全,或者探究疾病传播规律以助力公共卫生。每一个案例都将伴随详尽的代码实现和结果解读,让您在解决问题的过程中体会数据科学的魅力。 3. 循序渐进的学习曲线: 本书的设计充分考虑了读者的不同背景。对于零基础的读者,我们将从Python基础语法和常用数据结构讲起,逐步引导您熟悉编程环境和工具。对于已有一定编程经验但初涉数据科学的读者,本书将重点放在数据科学特有的概念和技术上,帮助您快速弥补知识盲点。每一个章节的学习都建立在前一章的基础上,确保学习的连贯性和可消化性。 4. 核心Python库的深度解析: NumPy: 作为科学计算的基础,NumPy提供了高效的多维数组对象和大量的数学函数。本书将深入讲解NumPy数组的创建、操作、索引、切片以及广播机制,为您打下数值计算的坚实基础。 Pandas: Pandas是数据处理和分析的利器,其DataFrame和Series数据结构能够轻松处理表格型数据。您将学会如何使用Pandas进行数据的读取、清洗、转换、合并、分组以及聚合等操作,掌握数据预处理的各项关键技巧。 Matplotlib与Seaborn: 数据可视化是数据科学中不可或缺的一环。本书将详细介绍Matplotlib的基础绘图功能,并重点讲解Seaborn如何利用Matplotlib构建更具统计学意义和视觉吸引力的图表,例如散点图、折线图、柱状图、箱线图、热力图等,帮助您有效地传达数据中的信息。 Scikit-learn: Scikit-learn是Python中最受欢迎的机器学习库之一,提供了丰富的监督学习和无监督学习算法。本书将带领您了解监督学习(如线性回归、逻辑回归、决策树、支持向量机、K近邻等)和无监督学习(如K-Means聚类、主成分分析PCA等)的基本原理,并演示如何使用Scikit-learn实现模型的训练、预测和评估,包括交叉验证、模型选择等重要概念。 5. 清晰的代码示例与实践指导: 本书中的所有代码示例都经过精心设计和测试,确保其准确性和可执行性。我们鼓励读者积极动手实践,亲自运行代码,修改参数,观察结果。此外,书中还提供了大量的练习题和挑战,帮助您巩固所学知识,并培养独立解决问题的能力。 6. 赋能数据驱动决策: 学习本书的最终目标是赋予您独立分析数据、挖掘信息并支持决策的能力。无论您是希望提升工作效率,还是寻求职业发展的新机遇,掌握本书中的技能都将为您打开一扇通往更广阔领域的大门。 内容概览 本书将从以下几个核心模块展开: 第一部分:数据科学基础与Python入门 数据科学概览: 什么是数据科学?它的重要性体现在哪些方面?数据科学的典型工作流程是什么? Python基础: 变量、数据类型、运算符、控制流(条件语句、循环)、函数、数据结构(列表、元组、字典、集合)等。 开发环境搭建: Anaconda发行版的安装与使用,Jupyter Notebook/Lab的使用。 第二部分:数据处理与分析利器 NumPy精通: NumPy数组的创建与操作,索引与切片,向量化计算,广播机制,常用数学函数。 Pandas数据处理: Series与DataFrame的创建与基本操作,数据的读取与写入(CSV, Excel等),缺失值处理,重复值处理,数据筛选与排序,条件选择。 数据转换与合并: 数据合并(merge, join, concat),数据分组(groupby),数据聚合(agg, transform),数据透视表。 第三部分:数据可视化——让数据“说话” Matplotlib入门: 基本图表类型(线图、散点图、柱状图、饼图),图表元素的自定义(标题、轴标签、图例),子图的使用。 Seaborn进阶: 探索性数据分析(EDA)可视化,统计图表(箱线图、小提琴图、分布图),分类图表,回归图,关系图,多变量可视化(热力图)。 第四部分:机器学习入门与实践 机器学习基础概念: 监督学习、无监督学习、模型训练、模型评估、特征工程。 监督学习算法: 回归: 线性回归、多项式回归。 分类: 逻辑回归、K近邻(KNN)、决策树、支持向量机(SVM)。 无监督学习算法: 聚类: K-Means聚类。 降维: 主成分分析(PCA)。 模型评估与选择: 准确率、精确率、召回率、F1分数,ROC曲线,交叉验证,网格搜索。 第五部分:案例分析与进阶话题 综合案例实战: 结合前面所学知识,通过多个真实数据集进行端到端的项目演示,例如: 用户行为分析: 分析电商用户购买行为,构建推荐系统初步模型。 房价预测: 利用公开数据预测房屋价格。 文本情感分析: 对用户评论进行情感倾向分析。 数据科学项目流程: 从问题定义到最终交付的完整流程回顾。 展望: 数据科学的未来发展方向,深度学习、大数据工具等。 目标读者 对数据科学感兴趣,希望系统学习相关理论与实践的在校学生。 希望提升数据分析能力,运用数据解决实际业务问题的职场人士,如市场营销、产品经理、运营、金融分析师等。 寻求职业转型,希望进入数据科学领域发展的技术爱好者。 任何希望通过数据洞察驱动决策,理解数据价值的个人。 学习本书,您将获得: 扎实的数据科学理论基础。 精通Python数据科学核心库的实战技能。 独立完成数据分析和建模项目的能力。 用数据驱动业务决策的信心。 拿起这本书,开启您的数据科学之旅吧!让我们一起探索数据的无限可能,用知识和工具赋能您的洞察力,在数据的海洋中扬帆远航。

用户评价

评分

拿到这本书时,我抱着试试看的心态,毕竟之前接触过一些比较枯燥的数据科学书籍。然而,这本书的叙事风格让我眼前一亮。它没有那种刻板的教学感,反而像是在与一位热情洋溢的朋友交流。作者善于用生动有趣的语言来解释复杂的概念,比如在讲解数据挖掘中的一些算法时,他会用一些生活化的比喻,让我瞬间就能抓住精髓。书中的案例也选取得非常贴近实际,让我能够清晰地看到数据科学在商业、金融、甚至日常生活中的应用场景,这极大地激发了我学习的动力。我尤其喜欢它关于数据可视化部分的讲解,不仅仅是展示如何绘制图表,更重要的是教会我们如何通过图表来讲述数据背后的故事,如何从中提炼出有价值的洞察。读完这本书,我不再觉得数据科学是一个遥远而抽象的领域,而是充满了无限可能性的实践学科。

评分

这本书确实是一本非常扎实的入门读物。它的结构安排非常合理,从基础的Python数据类型和控制流,到NumPy、Pandas等核心库的应用,再到更高级的数据可视化和机器学习初步,整个学习路径清晰而流畅。作者在讲解每个知识点时,都提供了大量详细的代码示例,并且对每一行代码的作用都做了细致的解释,这对于初学者来说至<bos>重要。我特别欣赏它在讲解Pandas时,循序渐进地介绍了DataFrame和Series的各种操作,包括数据读取、数据筛选、数据聚合、数据透视等等,让我能够逐步掌握处理表格型数据的高级技巧。书中还涉及了一些统计学的基本概念,并将其与Python的实现相结合,这对于理解数据分析的底层逻辑非常有帮助。虽然这本书的篇幅不小,但内容充实,很少有冗余的部分,每一页都充满了干货。

评分

我必须要说,这本书的深度和广度都超出了我的预期。原本以为只是简单介绍一些基础概念,没想到它居然能涵盖到机器学习的入门级知识,这对我来说简直是意外的惊喜。作者在介绍Scikit-learn时,并没有止步于调用模型,而是深入浅出地讲解了模型评估、参数调优等核心思想,让我对“为什么”和“如何做”有了更清晰的认识。特别是关于交叉验证和过拟合的讨论,真的让我茅塞顿开,解决了困扰我许久的难题。而且,书中对各种可视化库,如Matplotlib和Seaborn的介绍,也足够详尽,能够帮助我将分析结果以最直观、最美观的方式呈现出来。我最欣赏的是,作者始终强调实践的重要性,每一章的最后都有对应的练习题,难度循序渐进,能够有效地巩固所学知识。虽然有些章节确实需要花一些时间和精力去消化,但我认为这是值得的,因为这本书为我打开了通往更广阔数据科学世界的大门。

评分

作为一个对数据分析略有了解的人,我一直希望能找到一本能够系统性地梳理数据科学知识体系的书籍。这本书恰恰满足了我的需求。它在理论讲解和实践操作之间找到了绝佳的平衡点。在讲解每一个算法或技术时,作者不仅会给出代码实现,还会深入剖析其背后的数学原理和适用场景,这让我在知其然的同时,也知其所以然。我尤其印象深刻的是关于时间序列分析的章节,作者详细介绍了ARIMA模型等方法,并给出了实际应用案例,让我能够更好地理解和处理具有时间依赖性的数据。此外,书中对如何选择合适的模型、如何进行模型评估和优化等方面的讨论,也非常有价值,能够帮助我提升实际解决问题的能力。总的来说,这本书不仅是一本技术手册,更是一本思想启蒙的书籍,它帮助我建立起了一个完整的数据科学认知框架。

评分

这本书真是一场知识的盛宴!从最基础的Python语法开始,作者就以一种非常平易近人的方式引导读者入门,即便我之前对编程几乎一窍不通,也能轻松跟上节奏。数据科学这个概念听起来似乎很高深,但这本书把它拆解成了一个个可理解、可操作的步骤。我特别喜欢它在介绍Numpy和Pandas时,不仅仅是罗列函数和语法,而是通过大量的实际案例,比如如何处理缺失值、如何进行数据筛选和合并,让我直观地理解了这些工具的强大之处。它就像一位经验丰富的导师,在你迷茫时及时伸出援手,在你取得小小的成就时给予鼓励。书中穿插的图表和代码示例都非常清晰,我常常一边看一边跟着敲代码,感觉自己仿佛置身于一个数据科学实验室,亲手操纵着数据,解决着一个个有趣的问题。读完关于数据清洗的部分,我甚至觉得日常生活中那些繁琐的数据整理工作也变得有趣起来了。这本书让我第一次真正体会到,原来数据科学并非遥不可及,而是触手可及的。

相关图书

本站所有内容均为互联网搜索引擎提供的公开搜索信息,本站不存储任何数据与内容,任何内容与数据均与本站无关,如有需要请联系相关搜索引擎包括但不限于百度google,bing,sogou

© 2025 book.coffeedeals.club All Rights Reserved. 静流书站 版权所有