产品特色
内容简介
《大数据时代下的统计学》是一本讨论时下热门话题——大数据的书,生动活泼地阐释了晦涩艰深的统计学原理,条理清晰地告诉读者如何从数据中获取智慧。
《大数据时代下的统计学》分为8章,第1章概述了大数据时代统计学面临的机遇和挑战。第2、3章讲述了统计学在思想方法及数据表述上和大数据处理方法的异同;第4章介绍了对统计学影响深远的正态分布;第5章探讨了大数据时代统计推断是否失效;第6章重点从统计学视角讲述了大数据时代热门的变量间的“相关性”问题;第7章以一种比较开放的态度讨论统计学中一些有意思又实用的话题;第8章探讨大数据能够给企业、用户及整个产业和社会带来什么价值。
拥有《大数据时代下的统计学》,不仅可以使读者感受数字的美感和哲学的智慧,还能够使读者掌握思辨的洞察力。更重要的是,拥有《大数据时代下的统计学》就相当于拥有了一种武器,数据驱动的思维模式将会使读者在生活、工作中受益匪浅。
作者简介
杨轶莘,瑞典厄勒布鲁大学商学院统计学博士毕业,北京诺贝伦思教育咨询有限公司高级咨询师,旗下商学院CN网站联合创始人和网站知识分享类微信节目《杨博夜话》制作人和主持人。
目录
第1章 大数据时代下的统计学 1
1.1 统计学――天使还是恶魔 1
【知识点】统计学的定义 1
1.2 概率――上帝的指引 3
【案例1】硬币的指引 3
【案例2】赌徒的错觉 3
【知识点1】随机性 4
【知识点2】概率 4
1.3 小概率事件必然不会发生的事件 6
【案例】挑战者号航天飞机(STS Challenger)失事 6
【知识点】“必然会发生”和“必然不会发生”的事件 6
1.4 你真的了解数据吗 7
【案例】淘宝的客户评价体系 8
【知识点】数据的类型 8
1.5 数据来自哪里 10
【案例】大数据,大偏差――谷歌的流感预测模型真的靠谱吗 10
【知识点1】二手数据 11
【知识点2】相关关系和因果关系 11
第2章 样本魅影 14
2.1 样本――窥一斑而见全豹,观滴水而知沧海 15
【案例1】客户满意度调查 15
【案例2】救护车垄断业务调查 16
【知识点】随机样本,方便样本和自愿回应样本 17
2.2 抽样――尝一勺锅里的靓汤 18
【案例1】红豆和绿豆 18
【案例2】“捉放法”估算鱼苗成活率 19
【案例3】被解雇的市场调研部员工 20
【知识点1】简单随机抽样 21
【知识点2】抽样中存在的错误风险 22
【知识点3】访问员 23
2.3 不回应误差――沉默不是金 24
【案例】不回应的影响有多大 24
【知识点1】不回应(Nonresponse) 24
【知识点2】如何降低不回应率 25
2.4 措辞的艺术――僧推/敲月下门 26
【案例1】娱乐圈话题:锋菲恋 26
【案例2】几字之差对于民众支持率的影响 27
【案例3】双重否定的疑惑 28
【知识点1】响应误差(Response Error) 29
【知识点2】有效性(Validity)和可靠性(Reliability) 29
2.5 大数据时代,当“样本”已成往事 31
【案例】Farecast,美国创业梦 31
【知识点】大数据的4V特征 32
第3章 描述数据 34
3.1 均值――可能会说谎的天平 34
【案例1】中关村创业者平均39岁 34
【案例2】令人啼笑皆非的统计局数据 35
【知识点】均值计算 36
3.2 寻找中位数――排序,数到中间 37
【案例1】腾讯笔试题:大数据量寻找中位数 37
【案例2】淘宝卖家评分体系 38
【知识点1】求取中位数 39
【知识点2】四分位数 40
3.3 标准差、标准误,傻傻分不清楚 42
【案例1】均值-方差证券资产组合理论 42
【案例2】语文成绩调研 42
【知识点1】标准差(Standard Deviation) 43
【知识点2】标准误(Standard Error) 43
3.4 图形替数据说话――“剩女”和相亲市场 46
【案例】“剩女”和潜力巨大的相亲市场 46
【知识点1】饼状图(Pie Chart) 48
【知识点2】条状图(Bar Chart) 49
【知识点3】散点图(Scatter Plot) 50
3.5 数据可视化――“云想衣裳花想容” 51
【案例】谁在开网店 51
【知识点1】什么是数据可视化 54
【知识点2】数据可视化主要应用领域 55
【知识点3】数据可视化的工具 55
第4章 正态女神 57
4.1 期望――量化你的预期 58
【案例1】掷骰子和伯努利试验 58
【案例2】赌场就是概率场 59
【知识点1】概率分布 60
【知识点2】期望(Expectation) 61
【知识点3】方差 62
4.2 大数定律――为什么十赌九输 63
【案例1】澳门风云 63
【案例2】谁会是被骗的大傻瓜 64
【知识点】大数定律 65
4.3 正态分布――大道至简,大美天成 65
【案例1】高尔顿钉板 65
【案例2】女博士嫁人难,谁之过 67
【知识点】正态分布 68
4.4 中心极限定理 70
【案例】肯家和麦家的博弈 70
【知识点】中心极限定理 70
第5章 统计推断 74
5.1 点估计――统计学家比间谍干得漂亮 75
【案例1】二战中的德军坦克数 75
【案例2】首家新鲜咖啡速递服务企业 76
【知识点1】样本统计量和总体参数 77
【知识点2】点估计 77
5.2 置信区间――责善切戒尽言 79
【案例】美国盖洛普公司的民意调查 79
【知识点1】置信水平 79
【知识点2】置信区间 80
5.3 两类错误:有罪被判罪和罪被判有罪哪个更严重 81
【案例1】法律中的人文精神 81
【案例2】抗击埃博拉要避免两类错误 82
【知识点1】零假设和备择假设 84
【知识点2】两类错误 84
5.4 假设检验――“凑巧”可以拒绝吗 85
【案例1】奶茶情缘 85
【案例2】咖啡新鲜吗 87
【知识点1】显著性水平 88
【知识点2】p值 88
【知识点3】统计显著 88
【知识点4】统计显著 vs. 实际显著 89
【知识点5】假设检验 vs. 置信区间 89
【知识点6】单侧检验 vs. 双侧检验 90
5.5 p值――打开潘多拉魔盒的钥匙 92
【案例】金榜题名望、少年得志梦断 92
【知识点1】p值的历史和思想 93
【知识点2】p值误用 94
第6章 变量间的关系 96
6.1 卡方分析――细腻的眼神里岂容得半粒沙 97
【案例1】仙道迟到事件发生率分析 97
【案例2】性别和文化程度是相互独立的吗 98
【知识点1】卡方分布 99
【知识点2】卡方检验 100
6.2 相关性分析――早起的鸟儿有虫吃 102
【案例1】早起的鸟儿有虫吃 102
【案例2】化妆品销售额与广告费的关系分析 103
【知识点1】相关关系 104
【知识点2】相关分析 105
【知识点3】相关表、相关图和相关系数 106
【知识点4】相关系数t统计量 107
6.3 ANOVA――地域,我们没有什么不同 107
【案例】地域歧视问题 107
【知识点1】方差分析 108
【知识点2】方差分析统计模型 109
【知识点3】离差平方和及其分解 110
【知识点4】均方 111
【知识点5】AMOVA F统计量 112
【知识点6】方差分析表 113
6.4 回归分析――对不起,其实我也想长高 117
【案例1】子女身高遗传学的发现 117
【案例2】身高地区差异分析 117
【知识点1】回归分析 119
【知识点2】随机误差项 119
【知识点3】最小二乘法 120
【知识点4】回归分析T检验 121
【知识点5】回归分析F检验 122
【知识点6】拟合优度R2 123
第7章 统计杂谈 124
7.1 为什么对回归情有独钟 124
【回归和电影】 126
【回归和手游】 128
7.2 调查问卷中的分类变量 132
【疼痛】 133
【Rank-Invariant】 134
【Svensson Method】 135
【工作环境和员工满意度】 136
7.3 条件概率和更多的信息 138
【生男生女的问题】 139
【门后的世界:到底是谁错了】 140
7.4 极大似然估计――看起来最像 142
【白狐,iphone 6 plus和房价】 143
7.5 R you happy 145
【名门闺秀SAS】 145
【国民初恋SPSS】 146
【小家碧玉Stata、Minitab、Excel】 147
【清新萝莉R】 148
7.6 贝叶斯 149
【起源】 150
【定义】 150
【自拍杆和蓝牙耳机】 152
7.7 来自星星的统计陷阱 155
【被黑的统计机构】 155
【统计局的奈】 157
【王老吉状告加多宝】 158
第8章 大数据,在水一方 161
8.1 洛阳纸贵――大数据思维 161
【案例1】罩杯和败家程度 166
【案例2】外滩踩踏悲剧 167
【案例3】大数据和途牛网 169
8.2 大数据驱动运营 171
【案例】DataEye,数据驱动手游运营 175
8.3 商业智能――决策者的锦囊 177
【案例】广告业的商业智能 178
8.4 市场智能――商业智能的衍生智慧 179
8.5 消费智能――当数据成为一种服务 182
精彩书摘
《大数据时代下的统计学》:
样本统计量是样本数据的函数。函数可以被理解为方程,通过这个方程浓缩了样本中所有数据的信息。比如,样本是100个学生的成绩,样本统计量是这100个学生的成绩均值。均值是由100个样本观测值通过均值公式计算得到的。但是,样本均值只是一个值而已,它浓缩了样本的信息,但所含的信息量却不如那100个观测值那样多、那样具体。但是,我们又离不开像均值这样的统计量,因为我们不可能随时随地打开一个Excel表格去查看那些冗长而杂乱的原始样本数据。
点估计是参数估计的重要组成部分。点估计的常见方法有矩估计和极大似然估计,而德军坦克的例子中用的是最小方差无偏估计。
衡量一个点估计量的好坏有很多标准,其中比较常见的标准有:无偏性、有效性和一致性。
由于抽样具有随机性。每次抽取的样本一般不会相同,由样本求的点估计的值也不尽相同。那么,要确定一个点估计的好坏,单凭某一次抽取的样本是不具有说服力的,必须通过很多次抽取的样本来衡量。因此,一个自然而然的衡量标准就是,在大量重复的抽样中,所得到的点估计值平均起来应该和总体参数一样。更正式一点的说法是,点估计的期望值应该等于总体参数的值。这就是所谓的无偏性(Unbiasedness)。
有效性是指,对同一总体参数,如果有两个无偏估计量,那么其中标准差更小的估计量更有效(Effectiveness)。因为一个无偏的估计量并不意味着它就非常接近被估计的参数,它还必须和总体参数的离散程度比较小。回顾一下之前章节提到的射击靶心的4张图,无偏却不有效的情况就是,射中的点集中在靶心周围一个直径较大的圆内。如果把靶心看作总体参数,这样的估计量距离靶心太离散了。
……
前言/序言
不知不觉中,人们进入了一个数据为王的时代。大数据的字眼以一种迅雷不及掩耳之势进入人们的视野,更加强调了数据在这个时代的重要性。不管人们愿意或者不愿意,都在诚惶诚恐地拥抱着这个所谓的大数据时代。大数据的火热也带火了另外一个看上去有点神秘、有点距离感的学科:统计学。
为什么编写本书
笔者作为一个在校园里学了11年统计学的资深学院派,深深地被这门学科打动:它有着数学的美感,充满了哲学的智慧,并且透露出思辨的洞察力。你可以把它看作一种工具,或者一种武器。有了它,你可以事半功倍地直击事物本质的规律。
笔者很想把这门学科分享给有兴趣的人。这就是编写这本书的初衷。
统计学本身就是大数据时代的一门重要学科。随着大数据逐渐走进公众的视野,统计学也必然会迎来更多的关注。这就意味着,越来越多的非统计学专业人士会了解统计学、应用统计学。人们也必然需要更多的统计学读物。
据笔者观察,市场统计学的教材大多像教科书,充斥着枯燥的公式和深奥的理论。当然,也有一些幽默风趣、深入浅出的入门书籍,如查尔斯·韦兰的《赤裸裸的统计学》(Naked Statistics),但也因为是外国作品编译的问题,在语言和写作方式上很难符合东方人的阅读习惯。
这本书讨论大数据,讨论统计学,更讨论二者之间千丝万缕的联系。大数据时代将迎来技术的变革,以及工作方式和思维模式的变革。大数据时代也挑战着传统统计学的思维和研究模式。统计学这门学科是将要面临江河日下的被取代的危机,还是迎来一个破茧而出的春天?本书试着抛砖引玉地给出一部分答案。
大数据时代,对于统计学来说,是最好的时代,也是最坏的时代。统计学,必须与时俱进,勇敢地接受大数据时代的挑战和变革,才会走得更长远。而大数据,没有了统计学思维的辅助、修正和补充,当热潮退去,也只能在这个浮躁的时代中渐渐被人们遗忘。
本书特点
本书从当下热门话题大数据切入,引入与之息息相关的统计学。深入浅出地讲述了在“数据为王”的时代下,统计学作为分析、解读数据的学科,如何为商业、社会、生活等领域提供决策支持。
热门性——业界和学术界热议的词“大数据”对大多数人来说仍是“犹抱琵琶半遮面”。
经典性——久经时间考验的统计学理论仍是实践中数据处理的重要依据。
洞察性——站在统计学哲学的思想高度对时下热门话题进行分析思考。
前瞻性——下一个时代是数据的时代。无论什么行业,未来都是数据生意。
本书和市面上很多书籍相比,有两点最具特色:
本书将统计学和大数据结合在一起,探讨两者的差异和相关性。
本书行文按照【案例】+【知识点】+【分析】的结构,清晰明了。应用的案例也都和人们的生活息息相关,更符合国人阅读习惯,更具代入感和认同感。
本书内容
本书共分为8章,各章内容如下。
第1章 大数据时代下的统计学,讲解了统计学的基本原理、应用领域及数据的获取方法。
第2章 样本魅影,重点介绍了统计学最核心的思想,即用样本信息推论总体,并和大数据的推论思想进行比较,强调二者在实践中结合使用的重要性。
第3章 描述数据,告诉读者面临大量数据的时候,如何迅速提炼出有用信息,以一种直接、感性的方式勾勒出隐藏在冷冰冰的数据背后的内涵。
第4章 正态女神,隆重推出了统计学最经典、最重要、最具代表性的一个分布——正态分布,详细介绍了关于正态分布的理论、应用和相关的知识点。
第5章 统计推断,讲述了统计推断是用样本来估计总体的,是一种具有科学依据的合理猜测,尽管它不可能百分百准确,却对人们认知事物有着不可估量的作用。
第6章 变量间的关系,从大数据思维的其中一个角度切入,即强调事物的相关关系而非因果关系,重点讲述了究竟什么是相关关系,它的统计学内涵、方法及应用。
第7章 统计杂谈,以一种漫谈的方式,深入浅出地讲解了统计学一些热门应用的理论。特别强调了这些理论在实践中的误用,并告诉读者正确的使用方法和解读方法。
第8章 大数据,在水一方,探讨了大数据巨大的商业价值,除此之外还强调如何从大数据中获取洞察力和决策力。
关于作者
本书由杨轶莘主笔编写,其中第6章由王辉撰写。
杨轶莘:瑞典厄勒布鲁大学商学院统计学博士毕业,北京诺贝伦思教育咨询有限公司高级咨询师,旗下商学院CN网站联合创始人和网站知识分享类微信节目《杨博夜话》制作人和主持人。
王辉:北京大学汇丰商学院金融学(数量金融方向)研究生。善于统计综合评价方法的应用、金融计量学、经济计量分析领域的研究。2013—2014年,主持项目《社区养老现状和需求研究》,获第四届全国大学生市场调查分析大赛一等奖和第三届海峡两岸市场调查分析大赛二等奖。2014—2015年,参与朱喜安教授的国家社科基金课题《综合评价方法的优良标准研究》。
《洞悉海量:信息洪流中的洞察之道》 在这个数据以前所未有的速度爆炸式增长的时代,“大数据”早已不是一个陌生的词汇,它渗透到我们生活的方方面面,从精准的个性化推荐到深远的社会趋势预测,无处不在。然而,海量的数据本身并不能直接转化为有价值的见解。如同浩瀚的海洋,数据中蕴藏着无数宝藏,但只有掌握了正确的航海图和捕捞工具,我们才能从中汲取精华。本书《洞悉海量:信息洪流中的洞察之道》便旨在为你铺就这条通往数据智慧的道路,引领你穿越信息的迷雾,寻找到那些隐藏在数字洪流中的规律与真相。 本书并非一本枯燥的理论教科书,而是一本注重实践、启迪思维的指南。我们深知,在当今快速变化的商业环境和科研领域,仅仅懂得统计学的抽象公式已远远不够。你需要的是一种能够真正驾驭数据、从中提炼 actionable insights(可操作性见解)的能力。这本书将从“为什么”和“如何做”两个维度,为你系统地阐述如何有效理解和利用海量数据。 第一部分:重塑认知——大数据时代的洞察基石 我们将首先从宏观层面,为你描绘大数据时代的图景。在这里,你将理解: 数据的演变与价值的重塑:从传统的结构化数据到如今无处不在的非结构化、半结构化数据,数据形态的巨大变化如何催生了新的商业模式和科研范式。我们将探讨数据的来源、类型以及它们所承载的潜在价值,让你深刻认识到数据不再是冰冷的数字,而是反映现实世界动态的宝贵资产。 洞察力才是核心竞争力:理解“大数据”的真正含义,并非仅仅拥有庞大的数据集,而是从中挖掘出人类智慧难以察觉的模式、趋势和异常。我们将深入探讨“洞察力”在现代社会中的核心地位,以及如何培养这种从海量数据中发现关键信息的能力。 从感知到预测——数据驱动的思维模式:传统的数据分析往往停留在“发生了什么”(描述性分析)和“为什么发生”(诊断性分析)的层面。本书将着重引导你进入“将要发生什么”(预测性分析)和“如何实现目标”(指导性分析)的境界,让你学会利用数据来指导决策,甚至塑造未来。 伦理与责任——在数据洪流中坚守的准则:随着数据应用的深入,数据隐私、算法偏见、信息安全等问题日益凸显。本书将为你提供关于数据伦理和负责任的数据应用的深刻见解,帮助你在追求数据价值的同时,也能切实履行社会责任。 第二部分:武装头脑——洞悉海量的实用工具与方法 在构建了坚实的认知基础后,我们将为你揭示那些能够将原始数据转化为深度洞察的实用工具和方法。这部分内容将兼顾理论的严谨性和操作的便捷性,让你能够快速上手,并学以致用。 数据理解与探索性数据分析(EDA)的艺术:在进行任何深入分析之前,理解你的数据至关重要。我们将介绍一系列有效的EDA技术,包括数据清洗、缺失值处理、异常值检测、可视化探索等。你将学习如何通过各种图表(如直方图、散点图、箱线图、热力图等)直观地揭示数据的分布特征、变量之间的关系以及潜在的模式,为后续建模打下坚实基础。 统计学原理的重塑与应用:虽然本书并非纯粹的统计学教科书,但统计学原理无疑是洞悉海量的基石。我们将以一种更贴近实际应用的方式,重新审视那些核心的统计学概念,例如: 抽样与推断:在面对海量数据时,并非所有数据都需要被详细分析。我们将介绍如何进行有效的抽样,以及如何利用样本数据对总体进行准确的推断,让你在节省资源的同时,获得可靠的结论。 假设检验与关联分析:如何判断观察到的现象是真实存在的模式,还是仅仅是随机波动?我们将深入讲解各种假设检验方法,让你能够科学地验证你的猜想。同时,你将学习如何量化变量之间的关联程度,理解它们之间的相互作用。 回归分析与模型构建:学习如何构建能够解释变量之间关系、并能进行预测的统计模型。我们将介绍线性回归、逻辑回归等经典模型,并探讨如何评估模型的优劣,以及如何解释模型的输出结果,让你能够构建出具有实际指导意义的预测模型。 机器学习入门与数据挖掘的魅力:当传统统计方法不足以应对日益复杂的模式时,机器学习技术便显现出其强大的力量。我们将为你介绍一些核心的机器学习算法,例如: 分类算法:如何将数据点划分到不同的类别?我们将探讨决策树、支持向量机(SVM)、K近邻(KNN)等算法,并讲解它们在实际场景中的应用,如客户分类、垃圾邮件过滤等。 聚类算法:如何发现数据中的自然分组?我们将介绍K-means、DBSCAN等聚类算法,并展示它们在市场细分、异常检测等方面的应用。 降维技术:当数据维度过高时,如何保留关键信息并降低复杂性?我们将介绍主成分分析(PCA)等降维技术,帮助你更有效地处理高维数据。 数据可视化——让数据“说话”的语言:再深邃的分析,如果不能被清晰地传达,其价值也将大打折扣。本书将着重强调数据可视化在沟通洞察力中的关键作用。你将学习如何选择最适合的图表类型来表达你的发现,如何设计清晰、有吸引力的可视化作品,以及如何利用交互式可视化工具来增强数据的探索性。我们将介绍一些主流的可视化工具和库,让你能够将你的分析成果以最直观的方式呈现出来。 工具与实践——驾驭数据的利器:理论的学习离不开实际的工具。本书将穿插介绍一些在数据科学领域广泛应用的工具和编程语言,例如Python(及其丰富的科学计算库如NumPy, Pandas, Matplotlib, Seaborn, Scikit-learn)和R语言。我们将提供代码示例和实践指导,让你能够亲自动手,在真实的数据集上练习所学到的方法。 第三部分:超越已知——从数据洞察到战略决策 掌握了工具和方法,我们最终的目的是将数据洞察转化为驱动进步的战略决策。 问题导向的数据分析:成功的分析始于明确的问题。我们将引导你学会如何从业务或研究的实际需求出发,转化为可衡量、可分析的数据问题,确保你的分析工作始终聚焦于解决实际挑战。 结果解读与叙事:理解分析结果仅仅是第一步,更重要的是如何将这些结果用清晰、有说服力的方式传达给非技术背景的决策者。本书将指导你如何构建数据故事,用逻辑严密的叙事来解释你的发现,并提出可行的建议。 持续学习与适应:大数据领域发展迅猛,新的技术和方法层出不穷。本书将为你建立一个持续学习的框架,教你如何保持对新知识的敏感度,并不断更新你的技能,以适应未来的挑战。 《洞悉海量:信息洪流中的洞察之道》是一本为你量身打造的指南,它将帮助你: 建立对数据的全新认知:从被动接受数据的角色,转变为主动挖掘数据价值的引领者。 掌握实用的数据分析技能:从数据清洗、探索,到建模、预测,让你能够独立完成数据分析的全过程。 提升决策的科学性与精准度:学会用数据说话,让你的每一个决策都更有依据,更有效。 在信息爆炸的时代保持竞争力:无论你身处哪个行业,掌握数据洞察力都将是你不可或缺的核心竞争力。 无论你是希望在商业战场上获得先机,在科研领域取得突破,还是仅仅想更深入地理解我们所处的这个数据驱动的世界,《洞悉海量:信息洪流中的洞察之道》都将是你不可或缺的伙伴。让我们一起踏上这段充满探索与发现的旅程,解锁数据背后的无限可能。