内容简介
《统计模型:理论和实践(原书第2版)》是一本优秀的统计模型教材,着重讲解线性模型的应用问题,包括广义最小二乘和两步最小二乘模型,以及二分变量的probit及logit模型的应用。《统计模型:理论和实践(原书第2版)》还包括关于研究设计、二分变量回归及矩阵代数的背景知识。此外,《统计模型:理论和实践(原书第2版)》附有大量的练习,并且其中多数练习题在书后都有答案,便于读者学习、巩固和提高。
《统计模型:理论和实践(原书第2版)》适合作为统计专业高年级本科生和低年级研究生线性模型课程的教材,同时也适合作为相关领域研究人员的参考书。
作者简介
弗里曼(David A.Freedman),(1 938-2008)是加州大学伯克利分校的统计学教授。他是杰出的数理统计学家,其研究范围包括鞅不等式分析、Markov过程、抽样、自助法等。他是美国科学院院士。在2003年,他获得了美国科学院授予的John J.Carty科学进步奖,以表彰他对统计理论和实践做出的贡献。
内页插图
精彩书评
“统计的第二门课是严肃的、正确的和有趣的。本书讲授了回归、因果建模、最大似然和自助法。分析现实数据的每个人都应该阅读本书,并且我们也很荣幸现在能有第2版。”
——Persi Diaconis,斯坦福火学数学与统计学教授
“在本书中,作者解释了因果建模中主要使用的统计方法,通过有趣的实例,清晰而生动地描述了复杂的统计思想。初学者和实践者都将从本书中获益。”
——Alan Krueger,普林斯顿大学经济与公共政策学教授
“回归方法经常应用于观测数据,目的是获得因果结论。在什么环境下这是合理的?分析背后的假定是什么?本书回答了这些问题。对于不仅仅使用回归来总结数据的任何人。本书都是必读的。本书的写作风格非常好,对于社会科学中相关研究论文的讨论极具洞察力。对于从事统计建模或者讲授回归的每个人,我强烈推荐此书。”
——Aad van der Vaart,阿姆斯特丹自由火学统计学教授
“本书是该学科的一个现代导论,讨论了图形模型和联立方程等主题。书中有许多富有启发性的练习和计算机实验。特别有价值的是关于应用统计中主要‘哲人石’的关键评论。这是一本鼓舞人心而又易读的书,无论是老师还是学生都会从中受益。”
——Gesine Reinert,牛津大学统计学教授
目录
译者序
引言
第2版序
前言
第1章 观测研究和实验1
1.1 引言1
1.2 HIP试验2
1.3 关于霍乱的研究4
1.4 Yule关于贫困原因的研究6
1.5 札记9
第2章 回归线12
2.1 引言12
2.2 回归线12
2.3 胡克定律14
2.4 复杂性15
2.5 比较简单回归和多元回归17
2.6 札记19
第3章 矩阵代数20
3.1 引言20
3.2 行列式及逆21
3.3 随机向量24
3.4 正定矩阵25
3.5 正态分布27
3.6 关于矩阵代数的书28
第4章 多元回归29
4.1 引言29
4.2 标准误差32
4.3 多元回归中被解释的方差35
4.4 如果假定不满足,OLS将会如何37
4.5 供讨论的问题37
4.6 札记41
第5章 多元回归:特别主题42
5.1 引言42
5.2 OLS是BLUE42
5.3 广义最小二乘43
5.4 GLS的例子44
5.5 如果假定不满足,GLS将会如何46
5.6 正态理论46
5.7 F检验49
5.8 数据窥视51
5.9 供讨论的问题52
5.10 札记54
第6章 路径模型56
6.1 分层56
6.2 再看胡克定律59
6.3 麦卡锡时代的政治回归60
6.4 用回归对因果关系做推断62
6.5 路径图的响应方案64
6.6 哑变量70
6.7 供讨论的问题71
6.8 札记75
第7章 最大似然78
7.1 引言78
7.2 probit模型82
7.3 logit模型86
7.4 天主教学校的效应88
7.5 供讨论的问题96
7.6 札记101
第8章 自助法105
8.1 引言105
8.2 为能源需求模型做自助法112
8.3 札记117
第9章 联立方程119
9.1 引言119
9.2 工具变量122
9.3 估计黄油模型124
9.4 什么是两步125
9.5 社会科学例子:教育和生育126
9.6 协变量129
9.7 线性概率模型130
9.8 关于IVLS更多的讨论132
9.9 供讨论的问题134
9.10 札记139
第10章 统计建模中的问题141
10.1 引言141
10.2 批评的文献143
10.3 响应方案146
10.4 评估第7~9章的模型147
10.5 总结147
参考文献148
部分练习答案163
计算机实验204
附录 MATLAB代码样本216
参考论文220
精彩书摘
在观测研究中,对象把自己安排到不同的组中。研究人员仅仅观测发生了什么。例如,吸烟效应的研究必须是观测性的。然而,这里仍然使用处理一控制这一术语。研究人员通过比较属于处理组(也称为暴露组(exposed group))的吸烟者及属于控制组的非吸烟者来确定吸烟的效应。这些行话有些令人迷惑,因为“控制”这个词有两个意思:
(1)控制是没有得到处理的对象。
(2)控制试验是研究人员决定谁将在处理组的研究。
和非吸烟者比较,吸烟者结果很糟糕。心脏病、肺癌等疾病在吸烟者中要更加常见。在吸烟和疾病之间有很强的关联(association)。如果香烟造成疾病,这就解释了这个关联,即吸烟者死亡率高是因为香烟有害。一般来说,关联是因果关系的情况证据(circumstance evi-dence)。然而,证明是不完全的。可能会有某种隐藏的混杂因素,使得人们又吸烟又得病。如果是这样,没有必要停止研究:这不会改变隐藏的因素。关联和因果关系不同。
前言/序言
读这本书是一种完完全全的享受。自从伯克利加利福尼亚大学统计系郁彬教授在2008年向我推荐这本书之后,我一开始期望的是一本数学味很强的标准回归分析教材。后来,完全出乎意外,这本书竟然是我多年来企图寻找却又不可得的涉及回归分析甚至统计领域核心问题的一本以不寻常的清楚明白方式写的传奇式的读物。 一眼就可以看出该书是出自大家的手笔。在应用统计于科学、医学和社会科学等领域方面,几十年来,本书作者David Freedman都一直被誉为统计的良心。该书是他在研究生命最旺盛的时期写的,代表了当代应用回归教科书的最高水平。作者不仅在伯克利,而且在世界许多高校都使用该教材讲过回归。多年的应用经验和教学实践使得该书内容丰富,语言平易近人,易教易学。该书的实际例子和练习题是精心挑选的,对掌握该书的内容不可或缺。
通常的回归或统计模型教材,无论标以理论或是应用的标签,往往对模型附加了很多假定,但又从来不解释如果这些假定不满足,则会发生什么问题或灾难。这本书不但不回避这些一般教师避之唯恐不及的关于模型的设置和假定等敏感问题,而且专门对各个领域最著名的、最有影响的文章的模型设置及各种假定进行认真的剖析。读这本书对于教师、学生,特别是实际工作者皆是一种心灵的震撼。我相信,任何有心人读了这本书之后,都会在未来涉及回归的课题上倍加小心,避免发生各种根本意想不到的错误。这本书会使许多人受益不浅,功德无量。
我对这本书的翻译是在2009年David Freedman去世之后,当时还不知道他在去世前已经定稿了修订版。因此,我先翻译了初版,后来又翻译了这一版。我恐怕是本书最忠实的中国读者之一。我希望那些在中国大学教本科生或者研究生回归模型课程的教师,能够以本书作为教材或者主要参考书,使得学生能够直接受益于国际一流统计大师的经验与智慧。
《统计模型:理论与实践》 一、 经典著作,理论与实践的融合 《统计模型:理论与实践》(原书第2版)是一部在统计学领域享有盛誉的经典著作,它以其严谨的理论基础和详实的实践指导而闻名。本书深入浅出地介绍了统计模型的核心概念、原理与方法,并着重强调了这些理论在实际数据分析中的应用。原书第二版在前一版的基础上进行了修订和完善,内容更为充实,紧跟统计学发展的最新动态。 本书的作者凭借其深厚的学术功底和丰富的教学经验,将抽象的统计理论转化为易于理解的语言。书中不仅梳理了统计模型的发展脉络,更系统地阐述了从基础的线性模型到复杂的非线性模型、广义线性模型、混合效应模型以及时间序列模型等一系列重要的统计建模技术。每一类模型都伴随着详尽的数学推导和清晰的逻辑讲解,确保读者能够真正掌握其背后的数学原理。 然而,《统计模型:理论与实践》并非仅仅是一本理论书籍。其卓越之处在于,它始终将理论与实践紧密相连。书中穿插了大量的真实世界案例和数据分析示例,涵盖了经济学、社会学、生物学、医学、工程学等多个学科领域。这些案例的选取极具代表性,能够帮助读者理解如何在实际问题中选择、构建、评估和解释统计模型。作者通过这些实践环节,引导读者掌握数据探索、模型拟合、参数估计、假设检验、模型诊断以及结果解读等完整的统计分析流程。 二、 内容精要:构建严谨的统计模型体系 本书的内容体系构建得非常完善,从最基本的统计概念出发,逐步深入到更复杂的统计建模技术。以下是对书中关键内容模块的梳理: 1. 统计建模基础: 本书开篇即对统计建模的哲学和基本思想进行了阐述。它解释了为何需要统计模型,模型在数据分析中的作用,以及如何区分统计模型和确定性模型。在此基础上,引入了概率论和数理统计的基本概念,如概率分布、随机变量、期望、方差、协方差等,这些都是构建和理解统计模型的基石。作者还强调了模型假设的重要性,以及在实践中如何检验这些假设。 2. 线性模型: 线性模型是统计建模中最基础也是最广泛应用的模型之一。本书花费了相当大的篇幅详细讲解了简单线性回归和多元线性回归。内容包括: 模型构建: 如何根据问题设定线性模型,选择解释变量和响应变量。 参数估计: 详细介绍了最小二乘法(OLS)的原理和推导,解释了其优良的统计性质(如无偏性、最小方差性)。 模型假设与检验: 深入探讨了线性模型的关键假设,如线性关系、误差独立性、误差同方差性(正态性、独立性、同方差性、无相关性)。本书提供了多种方法来检验这些假设,包括残差图分析、统计检验(如Durbin-Watson检验、Breusch-Pagan检验)等,并指导读者如何在假设不满足时进行处理(如数据转换、使用稳健回归)。 模型推断: 讲解了如何进行系数的置信区间估计和假设检验(如t检验、F检验),以及如何解释回归系数的含义。 模型选择与评估: 介绍了信息准则(如AIC、BIC)、调整R平方等指标在模型选择中的应用,以及如何进行模型诊断和预测。 3. 广义线性模型(GLMs): 对于响应变量不服从正态分布或方差与均值相关的计数、比例等类型的数据,广义线性模型提供了强大的建模工具。本书对GLMs进行了系统性的介绍,包括: 概念框架: 阐述了GLMs的三个组成部分:随机成分(指数族分布)、系统部分(线性预测器)、连接函数。 常见GLMs: 详细讲解了逻辑回归(用于二分类响应变量)、泊松回归(用于计数响应变量)、Gamma回归(用于非负连续响应变量)等。 模型拟合与推断: 介绍了最大似然估计(MLE)在GLMs中的应用,以及如何进行模型参数的推断(如Wald检验、似然比检验)。 模型诊断: 讨论了GLMs的特有诊断方法,如残差分析(Pearson残差、Deviance残差)和离群点检测。 4. 混合效应模型(Mixed-Effects Models): 当数据中存在分组结构或嵌套结构时,例如重复测量数据、面板数据或多层次数据,混合效应模型能够有效地处理数据中的相关性。本书对混合效应模型进行了深入讲解,内容包括: 随机效应与固定效应: 区分了固定效应和随机效应,解释了随机效应在建模数据内部相关性方面的作用。 模型构建: 介绍了随机截距模型、随机斜率模型以及它们的组合。 模型拟合与推断: 讲解了最大似然估计(ML)和受限最大似然估计(REML)等估计方法,以及如何进行模型参数的推断。 模型选择与诊断: 讨论了如何选择合适的随机效应结构,以及如何诊断模型。 5. 时间序列模型: 对于具有时间依赖性的数据,时间序列模型是必不可少的工具。本书对经典的时间序列模型进行了介绍,包括: 平稳性: 讲解了时间序列的平稳性概念及其检验方法。 ARIMA模型: 详细介绍了自回归(AR)、移动平均(MA)、自回归移动平均(ARMA)以及季节性ARIMA(SARIMA)模型的原理、识别、估计和诊断。 模型应用: 讲解了如何利用时间序列模型进行预测,并讨论了模型的局限性。 6. 其他重要模型与主题: 除了上述核心模型外,本书还可能涵盖了其他重要的统计建模主题,例如: 非线性回归: 适用于变量之间存在非线性关系的情况。 生存分析: 用于分析事件发生的时间,如病人生存时间。 贝叶斯统计建模: 提供了另一种建模框架和推断方法。 模型评估与比较: 更加全面的模型性能评估方法。 多重共线性与变量选择: 处理解释变量之间高度相关的情况。 缺失数据处理: 应对数据不完整的问题。 三、 实践导向,赋能数据分析能力 《统计模型:理论与实践》并非仅仅是理论的堆砌,其最显著的特点在于其强烈的实践导向。本书中的案例分析贯穿始终,从模型的建立到结果的解释,都提供了详实的指导。 真实数据驱动: 书中的案例取材于真实的科研和实际应用场景,使读者能够接触到真实世界数据的复杂性和多样性。这有助于读者理解在真实数据分析中可能遇到的各种挑战,并学习如何应对。 软件应用结合: 虽然本书侧重于理论,但它也暗示或直接指导读者如何将这些理论应用于实际数据分析软件中。作者通常会给出使用主流统计软件(如R、SAS、SPSS等)进行模型拟合、结果输出和图表绘制的示例,让读者能够将书本知识转化为实际操作能力。 模型解释与沟通: 统计模型不仅仅是数学公式的组合,其最终目的是从数据中提取有意义的信息并进行有效的沟通。本书强调了如何清晰地解释模型结果,包括回归系数的实际含义、统计显著性的意义、预测的置信区间等,以及如何将复杂的统计概念转化为非专业人士能够理解的语言。 批判性思维的培养: 作者鼓励读者具备批判性思维。这包括质疑模型的假设是否成立、评估模型的拟合优度是否足够、理解模型结果的局限性,以及避免过度拟合或模型滥用。 四、 读者群体与价值 《统计模型:理论与实践》适合广泛的读者群体: 统计学专业学生: 作为统计学专业本科生和研究生教材,它能够为学生提供扎实的理论基础和丰富的实践经验。 应用领域研究人员: 无论是在生物医学、经济金融、社会科学还是工程技术领域,任何需要进行数据分析和建模的研究人员,都能从本书中获益良多。本书能够帮助他们选择和应用合适的统计模型来解决具体的研究问题。 数据科学家和分析师: 对于希望深化统计建模技能的数据专业人士,本书提供了系统性的理论框架和实践指导,能够帮助他们提升数据洞察和模型构建能力。 对统计学感兴趣的读者: 对于希望系统学习统计建模原理和方法的读者,本书也是一本不可多得的经典教材。 总而言之,《统计模型:理论与实践》是一部兼具深度与广度、理论与实践的优秀著作。它不仅为读者提供了理解和应用各种统计模型所需的知识体系,更重要的是,它培养了读者在实际数据分析中独立思考、科学建模和准确解释结果的能力。通过研读本书,读者将能够构建起一个严谨而实用的统计模型分析框架,从而在数据驱动的时代中游刃有余。