发表于2024-12-15
统计学关我什么事 pdf epub mobi txt 电子书 下载
1.日本销量突破10万册的畅销书!国内统计学通俗读物都有很好的销量。
2.微软和谷歌早就在用、大量互联网企业正在用的贝叶斯统计工具。
3.发明了用画图代替计算的“面积图”法,学习统计学竟然可以完全不需要公式,仅靠简单的四则运算就能学会。
4.从垃圾邮件的筛选、潜在顾客分析,到二胎性别概率、中奖概率分析一个个生动的案例让读者像看故事一样轻松理解统计学原理。
5.什么人适合阅读本书?(1)对数据分析感兴趣的人;(2)对统计学感兴趣的人;(3)希望看懂财经新闻的人;(4)希望不被大量是似而非信息忽悠的人。
6.作者小岛宽之大学时的专业和统计学完全无关,后凭借兴趣到东京大学深造。本着让统计学“更生动、更直观、更好懂”的理念创作了一系列的统计学通俗读物,本本畅销。
本书抛开让人难以理解的“贝叶斯公式”,用“面积图”做直观形象的解读。只要会做四则运算,就能快速入门,进而在一个个生活场景中,领会贝叶斯统计学的精髓。贝叶斯统计学的优势在于“在数据少的情况下也可以进行推测”,贝叶斯统计学的统计过程和人脑的决策过程是很相似的,在人工智能时代有着广泛的商业应用。微软操作系统、谷歌的自动翻译系统等都引入了贝叶斯统计技术。如果能够熟练掌握贝叶斯统计,个人也能够更好地做决策,可以说与好的生活息息相关。
小岛宽之
日本帝京大学经济学系副教授,经济学博士,知名数学随笔作家。1958年出生于东京,毕业于东京大学理学院数学系,东京大学经济学研究所博士课程修毕。著有《几率的思考方式》《方便运用!几率的思考》《世界第1简单微积分》《从零开始学习微积分》以及《专为文科设计的数学教室》等多部作品。
概率是生活的指南。
——古罗马著名政治家、哲学家西塞罗
如果你对数据拷打足够的时间,它一定会招供。
——诺贝尔经济学奖得主罗纳德·科斯
我一直坚信,未来十年*受欢迎的职业是统计。
——谷歌首席经济学家哈尔·范里安博士
统计学是大数据时代常用的分析手段,没有统计学的一整套工具,数据也只不过是一段无用的信息罢了。微软的21世纪战略正是贝叶斯统计战略。
——微软前董事长比尔·盖茨关于微软基本方针的演讲
贝叶斯统计的优势在于,“在数据少的情况下也可以进行推测,数据越多,推测结果越准确”的性质,以及“对所获的信息可作出瞬时反应,自动升级推测”的学习功能。了解了这一点之后,就完全可以理解为什么贝叶斯统计是*适合应用于高端商业的技术了。
——本书作者日本帝京大学经济学系副教授小岛宽之
小岛宽之教授以浅显的文字,深入浅出的方式,结合生活中的实际现象,向我们描绘了统计学的原理、方法与应用。难能可贵的是,学习本书几乎不用概率的知识,也完全不需要微积分和高等数学的基础,让零基础读者一看就懂,一学就会!
——清华大学经济管理学院管理科学与工程系副教授肖勇波
第0讲?只要会做四则运算,便可掌握贝叶斯统计学 001
本书的特点
快速学习!
理解贝叶斯统计学的精髓
第1部
第1讲?信息增加导致概率变化 002
“贝叶斯推理”的基本方法
小结014/练习题015
第2讲?贝叶斯推理的结果,有时与直觉大相径庭① 016
使用客观数据时的注意事项
小结025/练习题026
第3讲?根据主观数字也可以进行推理 027
疑惑时分的“理由不充分原理”
小结036/练习题037
第4讲?运用“概率的概率”,拓宽推理范围 038
小结050/练习题051
专栏 贝叶斯是何许人也?052
第5讲?从推算过程开始,逐渐明确的
贝叶斯推理的特征 053
小结058/练习题059
第6讲?明快而严格,但其使用场合受到限制的
内曼-皮尔逊式推理 060
小结064/练习题064
第7讲?通过少量信息得出切实结论的贝叶斯推理 065
与内曼-皮尔逊式推理的差异
小结072/练习题073
第8讲?贝叶斯推理的基础:极大似然原理 074
贝叶斯统计学与内曼-皮尔逊统计学的衔接点
小结079/练习题080
第9讲?贝叶斯推理的结果,有时与直觉大相径庭② 081
蒂霍尔问题与三个囚犯的问题
小结094/练习题094
专栏 关于“幸运”的两条法则095
第10讲 掌握多条信息时的推理① 096
运用“独立试验的概率乘法公式”
小结103/练习题103
第11讲 掌握多条信息时的推理② 104
以垃圾邮件过滤器为例
小结113/练习题114
第12讲 在贝叶斯推理中可以依次使用信息 115
“序贯理性”
小结123/练习题124
第13讲 每获得一条信息,贝叶斯推理就变得更精确一些 125
小结136/练习题137
专栏 帮助贝叶斯复兴的学者们138
完全自学!
从“概率论”到“正态分布”
第2部
第14讲 “概率”与“面积”的性质相同 140
概率论的基础
小结150/练习题150
第15讲 在获得信息之后,概率的表示方法 151
“条件概率”的基本性质
小结162/练习题163
第16讲 “概率分布图”帮助我们进行更加通用的推理 164
小结174/练习题175
第17讲 “贝塔分布”的性质由两个数字决定 176
小结185/练习题185
第18讲 决定概率分布性质的“期待值” 186
小结199/练习题199
专栏 何为“主观概率”?200
第19讲 在“贝塔分布”中使用概率分布图进行高级推理 201
小结213/练习题214
第20讲 在抛硬币或天体观测时观察到的“正态分布” 215
小结223/练习题224
第21讲 在“正态分布”中使用概率分布图进行高级推理 225
小结235/练习题236
补讲 贝塔分布的积分计算237
结语 239
参考文献 242
练习题参考答案 245
第1讲 信息增加导致概率变化
“贝叶斯推理”的基本方法
1-1? 通过贝叶斯推理来辨别“买东西的人”和“随便逛逛的人”
本讲将通过一个商业案例,为大家介绍经典的贝叶斯推理方法。
商店里的售货员最关心的问题莫过于“这位顾客究竟是来买东西的,还是随便逛逛而已”。真正来买东西的顾客,一般而言,比起四处逛逛看看,更倾向于在最短时间内找到自己需要的商品。另一类顾客则是这样的:一时不急着买,而是先随便问问价格,为以后购买做个参考。对待前者,作为售货员,理应为其介绍需要的商品并让其买下;而对待后者,如果同样花费时间为其推荐商品,顾客不但不会购买,反而会感到厌烦,结果适得其反。
所以对于店员来说,通过顾客的行为来揣测他们的真实想法,是一项重要的本领。很多店员可以做到:通过直觉来判断顾客属于哪一类,而这正是身为一名店员的重要工作技巧。在此,我们将这种“基于直觉的的判断”数值化,从而使它可以通过计算获得。把方法编成手册,教给新店员,这就像在互联网上能够实现自动判断的AI(人工智能)一样,是一项意义非凡的工作。
下文将具体介绍“将店员的判断方法数值化”的方法,该方法恰巧适用贝叶斯统计学。进而言之,通过该事例,我们也可以弄懂贝叶斯统计学的概念。下文将分节进行解说。
1-2?第一步:通过经验设定“先验概率”
假设一个场景:面前有一位顾客,此时你需要做的是,推测该顾客究竟是“来买东西的人”,还是“随便逛逛的人”。只有作出正确的判断,才能采取正确的接待方法。
推算的第一步:将两种顾客(来买东西的顾客、随便逛逛的顾客)的比例进行数值分配。这句话的意思是:假设面前的这位顾客一定属于两种中的一种,以此为前提,该顾客为第一种或第二种的可能性分别为多少?将这个可能性用数值表示出来。
在贝叶斯统计学中,这种“某种类别的概率(比例)”有一个专有名词,叫做“先验概率”。“事前”的含义是:在获得某项信息之前。此处的“信息”是指:附加的状况,比如顾客忽然过来询问。通过“过来询问”这一信息,可以对顾客类别的推算进行修改,而“先验概率”是指,在“过来询问”或“不过来询问”的情况发生之前进行的概率判断。
通常,“先验概率”可通过经验来判断。在特殊情况下,即使没有类似经验,也可以进行判断,这部分特殊事例将在第3讲进行解说,此处暂且不做讨论。
根据自己的经验,每5位顾客中就有1位是“来买东西的”,也就是说,这一部分顾客占全体的20%(0.2),那么剩下“随便逛逛”部分的比例便为80%(0.8)。这两个数字,便是两类顾客的“先验概率”。
在这个事例中,在观察面前顾客的行为之前,判断“该顾客是属于概率0.2的买东西的人,还是概率0.8的随便逛逛的人”,这个过程被称为“某一类别的先验分布”,如图表1-1所示。
图表1-1?先验分布:分割长方形
图表1-1中的大长方形被分割为两部分,两部分的面积所占比例分别为0.2和0.8,这正是分割时的诀窍。本书将在后面逐渐阐明:“面积”的概念在贝叶斯概率的计算中,起着重要的作用。
以上图示的方法为本书独创。希望各位读者将这幅图牢记于心,这样有助于在头脑中勾勒出贝叶斯统计学方法的大致雏形。
该图可以理解为:将整体分为两种不同的情况。这意味着,自己所处的环境为A或B中的一个,A情况下的顾客为“来买东西的人”,B情况下的顾客为“随便逛逛的人”,但不知道究竟是A还是B。只是先在头脑中构筑一个大致的印象。哲学上将这种见解称为“可能世界”,在进行逻辑推算或概率推算时,采用这种“划分互不相同的可能性”的思维方法,有利于整理思路。
在这里将长方形的面积设定为0.1和0.4,两部分的比例依然为1:4,这与设定为0.2和0.8时的比例相同。那么,为何要将面积设置为0.2和0.8呢?这是因为,用数值来计算概率的情况下,需要在多种可能性中,选取“将各部分概率相加,总和为1”的那一种,这种情况被称为“标准化条件”。
1-3?第二步:设置发生“向店员询问”事件的条件概率
在这一步,我们要做的是:为“来买东西的人”和“随便逛逛的人”这两类顾客分别设定“向店员询问”的概率。如果没有相关经验和数据作为支撑,这项工作是无法完成的。上一节讲到,即使没有相关经验,也可以设定先验概率。但此处的“各个分类的行动概率”,必须是基于一定的经验、实证、实验的数值。
图表1-2中的数值,是为了计算简便而设定的,并非真实数据。
图表1-2?关于“向店员询问”这一行为的条件概率
从图表1-2中可以看出,“来买东西的”顾客向店员询问的概率是0.9,而“随便逛逛的”顾客向店员询问的概率只有0.3。
需要注意的是:图表1-2从横向来看,0.9+0.1=1,0.3+0.7=1,两行都满足标准化条件;而纵向来看,0.9+0.3≠1,也就是说并不满足标准化条件。具体分析一下:横向的一行,表示某一类别的顾客可能采取的两种行动。比如第一行数字,表示“来买东西的人”向店员“询问”或“不询问”这两种行为,顾客有可能询问,也有可能不询问,最终采取的行动一定是其中之一,没有第三种可能性。而纵向来看,第一列数字表示,“来买东西的人”向店员询问的概率为0.9,“随便逛逛的人”向店员询问的概率为0.3,两个数字相加之和并不等于1。这是因为,对象范围包含了两个不同类别的顾客,并且也没有涵盖所有的行动。
图表1-2中的数字,表示“某一特定类别采取各种行动的概率”,这在高等数学中被称为“条件概率”。?用“原因”的概念来解释,即“在原因明确的情况下,某一类别采取各项行动的结果概率”(第15讲中将介绍:如何用符号来表示条件概率)。
将两个类别的顾客,进一步按照“询问”和“不询问”的条件来分类,那么前文所述的两个大类别又可以细分为四个小类别,分别是:“来买东西的人询问店员”“随便逛逛的人询问店员”“来买东西的人不询问店员”“随便逛逛的人不询问店员”,如图表1-3所示。
只要会做四则运算,
便可掌握贝叶斯统计学
本书的特点
0-1? 从零基础达到应用水平
本书是“贝叶斯统计学”的超级入门书。“超级”的含义:
? 从零基础开始学习
? 抛开繁琐的符号和计算过程,学习运用贝叶斯统计
? 不只是随便说说,而是毫无保留地传授知识
对贝叶斯统计学感兴趣的人不在少数。然而此前的教科书,导入部分编写浅显,中途却难度骤增,这使很多读者大受挫折。这是因为在尚未理解贝叶斯统计的本质时,就被灌输了一大堆概率符号,使得理解起来更为困难。
为了不再重蹈这样的覆辙,本书编写之时做了一些功课,具体会在下节进行说明:
0-2?仅使用面积图和简单算术
贝叶斯统计的基础是概率公式——“贝叶斯公式”,它立足于“条件概率”的发展事项。“贝叶斯公式”是高等数学中很难理解的一个概念,原因有二:第一,公式复杂而不够直观;第二,条件概率在某种程度上属于“不可靠的”概念,对于思维缜密的人来说总觉得“哪里有些奇怪”。
事实上,上述第二点在贝叶斯统计中是至关重要的。因为正是这份“不可靠”,才是贝叶斯统计的本质,它与便利性息息相关。后面我们会讲到,贝叶斯统计在20世纪初曾因为其“不可靠”而遭到批判,一度被斥于统计学之外。但由于贝叶斯统计的“不可靠”与“便利性”为表里一致的关系,“正因为不可靠才得以运用”。在一部分学者对于这种“便利性”的关注下,贝叶斯统计于20世纪后半期恢复了其应有的地位。在21世纪的今天,贝叶斯统计已经成为了统计学的主流。
笔者着重考虑了这两点,在编写过程中也有所侧重,并做了如下功课。
功课1将不出现“贝叶斯公式”(极少一部分除外)的方针贯彻到底
以“通过面积图进行图解”的方针作为贝叶斯公式的替代。从本质上来讲,二者是相同的,然而对于大多数读者而言,图解的方式更加直观且易于理解。同时,通过“面积图”可以更清晰地看出“贝叶斯公式”的“不可靠”和“便利性”究竟体现在哪里。
功课2只需简单算术的计算水平即可
这意味着,只需要会做四则运算就可以掌握了,连开方和文字式计算都不需要。而且这其中的四则运算,即使是不擅长手算的人也可以借助计算器轻而易举地完成。
当然,在本书末尾会出现“β分布”“正态分布”这些有难度的概念。因为如果不介绍这些概念,是无法达到前文所述“毫无保留的传授”程度的。全面理解这些概念,需要用到大学的微分积分知识,这对于许多读者来说是很大的负担。因此在本书中也只能作一些相对简单的解说。
这也就是说,本书的方针——向读者灌输仅通过四则运算就能掌握的公式。这也是本书编写时所做的功课之一。在这个意义上,本书并非“充分齐全”的教材。然而如果想要“充分理解”贝叶斯统计学的人,不妨在读过本书之后再试着挑战一下专业书籍。本书的目的是抛开繁琐的数学概念,将“贝叶斯统计学隐藏的本质”剖析呈现出来。
0-3?比尔·盖茨也在关注它!贝叶斯统计在商业活动中的应用
随着因特网的普及和同步技术的发展,贝叶斯统计开始运用于商业领域。通过互联网可以实现自动收集顾客的购买和检索记录,从而推测顾客的类别。在这一点上,贝叶斯统计学完胜传统意义上的统计学。
如今,许多互联网企业都在实际应用贝叶斯统计。其中,微软由于很早就开始在商业活动中运用贝叶斯统计学而闻名。Windows的操作系统帮助功能中就导入了贝叶斯统计。此外,在网上搜索“小孩病症”的时候,优先显示可靠结果的软件也已经开发出来。微软的前董事长比尔·盖茨在1996年曾在报纸内容中称,微软之所以在激烈的市场竞争中胜出,正是由于采用了贝叶斯统计。比尔·盖茨还在2001年关于基本方针的演讲中称,微软的21世纪战略正是贝叶斯统计战略,公开表示,已经在全世界范围内挖到了许多贝叶斯统计研究人才。该发言引起了很大关注。
谷歌搜索引擎的自动翻译系统中也引入了贝叶斯统计技术。
当然,贝叶斯统计技术在IT企业之外的各个领域也有着广泛应用。例如,消除传真图像中的杂音就运用了贝叶斯统计技术。此外,医疗领域的“自动诊断系统”等也需要用到贝叶斯统计。
通过阅读本书可以得知,贝叶斯统计的优势在于,“在数据少的情况下也可以进行推测,数据越多,推测结果越准确”,以及“对所获的信息可作出瞬时反应,自动升级推测”的学习功能。了解了这一点之后,就完全可以理解为什么贝叶斯统计是非常适合应用于高端商业的技术了。
从事商业活动的人,如果能够熟练使用贝叶斯统计,那是再好不过的。本书中的案例和解说,为这一类人群提供了很好的参考。
0-4?贝叶斯统计依存于人的心理
在0-2节中有提到,“贝叶斯统计在某种程度上是不可靠的”。究其原因,是由于贝叶斯统计中所涉及的概率是“主观的”。换言之,通过贝叶斯统计得到的概率并非客观的数值,而是依存于人的心理的主观数值。在从这个意义上讲,贝叶斯统计具备了一定的“思想”。也正是因此,注重客观性的科学界为贝叶斯统计打上了“假冒伪劣”的烙印,并导致它一度消亡。
统计学关我什么事 pdf epub mobi txt 电子书 下载