编辑推荐
适读人群 :大学生,大学教师 本书是在美国大学中广泛使用的教材,已经再版至第5版,不仅深受广大师生的欢迎,而且有很大的影响,已逐步成为经典。
由于篇幅较大,股起英文影印版分为上、下两册。本书深入地介绍了“应用线性统计模型”这门课程中几乎所有的关键知识,但是读起来并不艰深晦涩。书中用深入浅出的方式来讲解相关概念,同时配有大量的例题、习题以及实际案例帮助学生理解知识点。同时在帮助学生独立地解决实际问题方面,本书给人留下很深刻的印象。
本书图文并茂,许多例子和习题都是经过精心挑选的,来源于生活和工程实践,丰富的数据也都取材于实际案例。因此,本书不仅适用于统计专业,也可作为商业、计量经济学等专业的参考书。
本书叙述比较详尽,内容比国内教材丰富,篇幅较大,因此作为教材时刻适当选取主要内容讲授,其余可作为学生自学使用。
内容简介
本书分为三部分:第1部分简单线性回归,内容涉及单个预测变量的线性回归、利用回归和相关分析做推断、诊断和修正测度、回归分析的联合推断和其他论题以及简单线性回归分析的矩阵法等内容;第2部分多重线性回归、内容涉及多重回归Ⅰ,多重回归Ⅱ,定量和定性预测变量的回归模型、构建回归模型Ⅰ、构建回归模型Ⅱ、构建回归模型Ⅲ、时序数据中的自相关等内容;第3部分非线性回归,内容涉及非线性回归的引入和神经网络、Logistic回归、泊松回归和广义线性模型等内容。本书篇幅适中,例子涉及各个应用领域,在介绍统计思想方面比较突出,数据丰富。
本书适用于高等院校统计学专业和理工科各专业本科生和研究生作为教材使用。
内页插图
目录
Contents
preface
PART ONE
SIMPLE LINEAR REGRESSION 1
Chapter 1
Linear Regression with One Predictor
Variable 2
1.1 Relations between Variables 2
Functional Relation between Two
Variables 2
Statistical Relation between Two Variables 3
1.2 Regression Models and Their Uses 5
Historical Origins 5
Basic Concepts 5
Construction of Regression Models 7
Uses of Regression Analysis 8
Regression and Causality 8
Use of Computers 9
1.3 Simple Linear Regression Model
with Distribution of Error Terms
Unspecified 9
Formal Statement of Model 9
Important Features of Model 9
Meaning of Regression Parameters 11
Alternative Versions of Regression Model 12
1.4 Data for Regression Analysis 12
Observational Data 12
Experimental Data 13
Completely Randomized Design 13
1.5 Overview of Steps in Regression
Analysis 13
1.6 Estimation of Regression Function 15
Method of Least Squares 15
Point Estimation of Mean Response 21
Residuals 22
Properties of Fitted Regression Line 23
1.7 Estimation of Error Terms Variance ?2 24
Point Estimator of ?2 24
1.8 Normal Error Regression Model 26
Model 26
Estimation of Parameters by Method
of Maximum Likelihood 27
Cited References 33
Problems 33
Exercises 37
Projects 38
Chapter 2
Inferences in Regression and Correlation
Analysis 40
2.1 Inferences Concerning ?1 40
Sampling Distribution of b1 41
Sampling Distribution of (b1 -?1)/s{b1} 44
Confidence Interval for ?1 45
Tests Concerning ?1 47
2.2 Inferences Concerning ?0 48
Sampling Distribution of b0 48
Sampling Distribution of (b0 -?0)/s{b0} 49
Confidence Interval for ?0 49
2.3 Some Considerations on Making Inferences
Concerning ?0 and ?1 50
Effects of Departures from Normality 50
Interpretation of Confidence Coefficient
and Risks of Errors 50
Spacing of the X Levels 50
Power of Tests 50
2.4 Interval Estimation of E{Yh} 52
Sampling Distribution of ?Y
h 52
Sampling Distribution of
( ?Y
h - E{Yh})/s{ ?Y
h} 54
Confidence Interval for E{Yh} 54
2.5 Prediction of New Observation 55
Prediction Interval for Yh(new) when
Parameters Known 56
Prediction Interval for Yh(new) when
Parameters Unknown 57
Prediction of Mean of m New Observations
for Given Xh 60
2.6 Confidence Band for Regression Line 61
2.7 Analysis of Variance Approach
to Regression Analysis 63
Partitioning of Total Sum of Squares 63
Breakdown of Degrees of Freedom 66
x
Contents xi
Mean Squares 66
Analysis of Variance Table 67
Expected Mean Squares 68
F Test of ?1 = 0 versus ?1 _= 0 69
2.8 General Linear Test Approach 72
Full Model 72
Reduced Model 72
Test Statistic 73
Summary 73
2.9 Descriptive Measures of Linear Association
between X and Y 74
Coefficient of Determination 74
Limitations of R2 75
Coefficient of Correlation 76
2.10 Considerations in Applying Regression
Analysis 77
2.11 Normal Correlation Models 78
Distinction between Regression and
Correlation Model 78
Bivariate Normal Distribution 78
Conditional Inferences 80
Inferences on Correlation Coefficients 83
Spearman Rank Correlation Coefficient 87
Cited References 89
Problems 89
Exercises 97
Projects 98
Chapter 3
Diagnostics and Remedial Measures 100
3.1 Diagnostics for Predictor Variable 100
3.2 Residuals 102
Properties of Residuals 102
Semistudentized Residuals 103
Departures from Model to Be Studied by
Residuals 103
3.3 Diagnostics for Residuals 103
Nonlinearity of Regression Function 104
Nonconstancy of Error Variance 107
Presence of Outliers 108
Nonindependence of Error Terms 108
Nonnormality of Error Terms 110
Omission of Important Predictor
Variables 112
Some Final Comments 114
3.4 Overview of Tests Involving
Residuals 114
Tests for Randomness 114
Tests for Constancy of Variance 115
Tests for Outliers 115
Tests for Normality 115
3.5 Correlation Test for Normality 115
3.6 Tests for Constancy of Error
Variance 116
Brown-Forsythe Test 116
Breusch-Pagan Test 118
3.7 F Test for Lack of Fit 119
Assumptions 119
Notation 121
Full Model 121
Reduced Model 123
Test Statistic 123
ANOVA Table 124
3.8 Overview of Remedial Measures 127
Nonlinearity of Regression
Function 128
Nonconstancy of Error Variance 128
Nonindependence of Error Terms 128
Nonnormality of Error Terms 128
Omission of Important Predictor
Variables 129
Outlying Observations 129
3.9 Transformations 129
Transformations for Nonlinear
Relation Only 129
Transformations for Nonnormality
and Unequal Error Variances 132
Box-Cox Transformations 134
3.10 Exploration of Shape of Regression
Function 137
Lowess Method 138
Use of Smoothed Curves to Confirm Fitted
Regression Function 139
3.11 Case Example—Plutonium
Measurement 141
Cited References 146
Problems 146
Exercises 151
Projects 152
Case Studies 153
xii Contents
Chapter 4
Simultaneous Inferences and Other
Topics in Regression Analysis 154
4.1 Joint Estimation of ?0 and ?1 154
Need for Joint Estimation 154
Bonferroni Joint Confidence Intervals 155
4.2 Simultaneous Estimation of Mean
Responses 157
Working-Hotelling Procedure 158
Bonferroni Procedure 159
4.3 Simultaneous Prediction Intervals
for New Observations 160
4.4 Regression through Origin 161
Model 161
Inferences 161
Important Cautions for Using Regression
through Origin 164
4.5 Effects of Measurement Errors 165
Measurement Errors in Y 165
Measurement Errors in X 165
Berkson Model 167
4.6 Inverse Predictions 168
4.7 Choice of X Levels 170
Cited References 172
Problems 172
Exercises 175
Projects 175
Chapter 5
Matrix Approach to Simple
Linear Regression Analysis 176
5.1 Matrices 176
Definition of Matrix 176
Square Matrix 178
Vector 178
Transpose 178
Equality of Matrices 179
5.2 Matrix Addition and Subtraction 180
5.3 Matrix Multiplication 182
Multiplication of a Matrix by a Scalar 182
Multiplication of a Matrix by a Matrix 182
5.4 Special Types of Matrices 185
Symmetric Matrix 185
Diagonal Matrix 185
Vector and Matrix with All Elements
Unity 187
Zero Vector 187
5.5 Linear Dependence and Rank
of Matrix 188
Linear Dependence 188
Rank of Matrix 188
5.6 Inverse of a Matrix 189
Finding the Inverse 190
Uses of Inverse Matrix 192
5.7 Some Basic Results for Matrices 193
5.8 Random Vectors and Matrices 193
......
前言/序言
英文影印版序
本书是在美国大学中广泛使用的教材,已经再版至第5版,不仅深受广大师生的欢迎,而且有很大的影响,已逐步成为经典。
由于篇幅较大,股起英文影印版分为上、下两册。本书深入地介绍了“应用线性统计模型”这门课程中几乎所有的关键知识,但是读起来并不艰深晦涩。书中用深入浅出的方式来讲解相关概念,同时配有大量的例题、习题以及实际案例帮助学生理解知识点。同时在帮助学生独立地解决实际问题方面,本书给人留下很深刻的印象。
本书图文并茂,许多例子和习题都是经过精心挑选的,来源于生活和工程实践,丰富的数据也都取材于实际案例。因此,本书不仅适用于统计专业,也可作为商业、计量经济学等专业的参考书。
本书叙述比较详尽,内容比国内教材丰富,篇幅较大,因此作为教材时刻适当选取主要内容讲授,其余可作为学生自学使用。
现代统计推断的基石:经典线性模型的深度解析与实践 图书名称:现代统计推断:线性模型与广义线性模型精要(第X版) 导读: 本书旨在为统计学、数据科学、工程学、经济学及相关领域的学习者和研究人员提供一个全面、深入且严谨的线性模型理论基础与实际应用指南。不同于侧重于特定软件操作或初级概念介绍的入门读物,本教材聚焦于构建和理解线性模型的统计学原理、推断方法以及在复杂数据环境下的适用性与局限性。全书结构紧凑,逻辑严密,力求在理论深度与实际操作能力之间找到最佳平衡点。 第一部分:线性模型的数学基础与核心假设 本部分从概率论与数理统计的视角出发,为后续的建模工作奠定坚实的数学基础。 第一章:回顾与预备知识 本章首先对多元随机变量、向量空间、矩阵分解(如奇异值分解SVD)以及最小二乘法的基本几何意义进行回顾。重点强调了在线性模型中,我们如何通过矩阵运算来表达和求解参数估计问题。引入了高斯-马尔可夫定理的前提条件,为理解最优线性无偏估计(BLUE)奠定基础。此外,对统计推断中的基本概念,如点估计、区间估计和假设检验的框架进行了详细阐述。 第二章:经典线性模型(CLM)的构建与估计 深入剖析标准线性回归模型 $mathbf{Y} = mathbf{X}oldsymbol{eta} + oldsymbol{epsilon}$ 的结构。详细介绍了误差项 $oldsymbol{epsilon}$ 的核心假设(零均值、同方差性、独立性与正态性)。重点讲解了普通最小二乘法(OLS)的推导过程,证明其作为BLUE的性质。本章将矩阵代数转化为直观的统计概念,例如,讨论了投影矩阵 $mathbf{P} = mathbf{X}(mathbf{X}^Tmathbf{X})^{-1}mathbf{X}^T$ 如何将响应变量投影到预测变量空间中,并解释了残差的几何意义。此外,对模型系数估计量的抽样分布、方差-协方差矩阵的估计进行了详尽的分析。 第三章:线性模型的推断与模型诊断 推断是线性模型的核心价值所在。本章详细介绍了基于t检验和F检验的参数显著性检验。特别关注联合假设检验(涉及多个系数)的推导和应用,如检验变量组的显著性。模型诊断部分是区分理论理解与实际应用的关键。本章不仅介绍经典的残差分析(标准化残差、学生化残差),还深入探讨了影响度量,如库克距离(Cook's Distance)和杠杆值(Leverage),用以识别对估计结果影响过大的观测点。引入了DFITS和DFBETAS统计量,以评估移除特定数据点对模型拟合和系数估计的影响。 第二部分:模型扩展与复杂结构处理 本部分将研究当经典假设被违反,或数据结构更为复杂时,线性模型的扩展形式。 第四章:异方差性与自相关性 当误差项的方差不恒定时(异方差性),OLS估计量仍然无偏且一致,但不再是最有效的估计量,且标准误的估计会产生偏差。本章详细介绍了广义最小二乘法(GLS)的理论框架,并讨论了在无法明确知晓异方差结构时如何使用稳健标准误(如White/Huber-White估计)进行修正,以保证推断的有效性。对于时间序列数据中常见的误差项自相关问题,本章阐述了Durbin-Watson 检验,并介绍了修正自相关影响的迭代估计方法。 第五章:方差分量模型与随机效应 本章转向混合效应模型(Mixed-Effects Models)的先驱——方差分量模型。这对于处理分组数据(如面板数据、重复测量)至关重要。讨论了如何通过最大似然法或限制性最大似然法(REML)来估计不可观测的随机效应的方差和协方差。区分了随机截距模型和随机斜率模型,并解释了其在处理数据层次结构上的优势。 第六章:多重共线性与模型选择 多重共线性是实践中常见的问题。本章深入分析了多重共线性的后果(系数估计值波动大、标准误膨胀),并探讨了如何通过方差膨胀因子(VIF)进行诊断。相较于简单地移除变量,本章更侧重于介绍岭回归(Ridge Regression)和套索回归(Lasso Regression)作为处理高相关性变量的正则化方法。详细推导了L2和L1惩罚项的原理及其对模型系数收缩和变量选择的影响,为现代高维数据分析提供了桥梁。 第三部分:非正态响应变量与广义线性模型(GLM) 当响应变量不再服从正态分布时,经典线性模型的适用范围受到限制。本部分引入了广义线性模型的统一框架。 第七章:广义线性模型(GLM)的统一框架 GLM通过三个核心组成部分实现了模型的扩展:随机分量(响应变量的分布)、线性预测因子和联接函数(Link Function)。本章系统回顾了指数族分布(包括正态、泊松、二项、Gamma分布)的特性。重点讲解了如何选择合适的联接函数(如Logit, Probit, Log),并阐述了为什么在线性模型框架下必须使用最大似然估计(MLE)而非OLS进行参数估计。 第八章:Logistic回归与泊松回归 本章应用GLM框架分析最常见的两种非正态响应:二元结果和计数数据。 对于Logistic回归,详细分析了对数几率(Log-Odds)的解释,以及如何从模型系数推导出优势比(Odds Ratios)。讨论了拟合优度检验(如Deviance检验)和对过度离散的处理。 对于泊松回归,探讨了其在事件计数数据中的应用,并详细分析了何时需要引入对数线性模型来处理过度离散问题,以及如何使用负二项分布模型进行修正。 第九章:模型评估、预测与稳健性 本章总结了模型构建流程的后半部分。强调了模型选择的原则(如AIC/BIC准则的权衡),以及区分模型拟合优度与模型预测能力的区别。介绍交叉验证技术(Hold-out, K-Fold)在线性模型校准中的应用。最后,探讨了在GLM框架下,如何利用残差结构(如Pearson残差、偏差残差)进行诊断,并讨论了模型设定误差(Misspecification)对推断结果的潜在影响。 结论: 本书结构严谨,内容详实,不仅覆盖了经典最小二乘法的理论深度,还为读者提供了处理现代复杂数据结构——如异方差性、高维共线性及非正态响应——所需的统计工具和理论支撑。它要求读者具备扎实的线性代数和概率统计背景,旨在培养读者独立构建、批判性评估和有效应用统计模型的能力。