缺失数据的灵活填补方法(英文影印注释版)

缺失数据的灵活填补方法(英文影印注释版) pdf epub mobi txt 电子书 下载 2025

Stef,van,Buuren 著,刘俊 译
图书标签:
  • 缺失数据
  • 数据填补
  • 统计学
  • 数据分析
  • 机器学习
  • 英文
  • 影印版
  • 注释
  • 数据预处理
  • 方法论
想要找书就要到 静流书站
立刻按 ctrl+D收藏本页
你会得到大惊喜!!
出版社: 机械工业出版社
ISBN:9787111584162
版次:1
商品编码:12316227
品牌:机工出版
包装:平装
丛书名: 国外实用统计丛书
开本:16开
出版时间:2018-03-01
用纸:胶版纸
页数:316

具体描述

内容简介

本书共分为三大部分:Ⅰ基础篇、Ⅱ案例研究、Ⅲ延伸。这其中包含10个章节,作者结合众多实验中的例子,探讨如何解决缺失数据的问题,此类问题广泛存在于各个领域之中。书中算法结合统计软件来实现,主要内容包括多元缺失填补、单变量数据缺失、多变量缺失数据、数据填补实践、填补数据分析、测量、选择、结论等。深入地讨论了解决这类问题的方法,并分析了每种方法的适用范围和有缺点。本书可作为高等院校统计学专业的本科高年级学生以及研究生用书,也可作为与统计学专业相关的科研人员的参考书。

目录

序(译) iii
前言(译) iv
关于作者 xxiv
符号描述 xxv
算法索引 xxvii
第I 部分 基础篇 1
1 概述 3
1.1 数据缺失问题 3
1.1.1 现行的方法 3
1.1.2 关于缺失数据的观点变化 5
1.2 关于MCAR、MAR 和MNAR 的概念 6
1.3 并不总奏效的简单方法 8
1.3.1 个案剔除法 8
1.3.2 成对剔除法 9
1.3.3 均值替代法 10
1.3.4 回归替代法 11
1.3.5 随机回归替代法 13
1.3.6 LOCF 和BOFC 方法 14
1.3.7 示性变量法 15
1.3.8 小结 15
1.4 多元数据填补简述 16
1.4.1 步骤 16
1.4.2 采用多元填补的原因 17
1.4.3 案例 18
1.5 本书的目的 20
1.6 本书未涵盖的内容 20
1.6.1 预防方法 21
1.6.2 权重程序 21
1.6.3 基于似然的处理方法 22
1.7 本书的结构 23
1.8 练习 23
2 多元填补 25
3单变量缺失数据53
4多变量缺失数据95
5数据填补实践123
6填补数据分析153
第II部分案例分析169
第III部分延伸247
附求A软件263
A.1 R263
A.2 S-Plus265
A.3 Stata265
A.4 SAS266
A.5 SPSS266
A.6其他软件266
参考文件269
作者索11 299
主题索引307

前言/序言

我们时常被缺失数据的情况所困扰。统计分析中由缺失数据所带来的问题长期被掩盖,现在这种情况正在慢慢结束。近十年间,处理缺失数据的技术迅速得到补充和发展。本书主要介绍一种方法:多重插补。
多重插补是统计科学领域重要的思想之一。这种技术简便、巧妙而且强大。说它简便是因为它填补了由似是而非的数据造成的漏洞,说它巧妙是因为未知数据的不确定性被数据本身所标记,说它强大是因为它可以解决那些被掩饰的数据缺失问题。
在近二十年的时间里,我已经将多重插补应用到了更广泛的研究领域中。我相信多重插补进入统计学主流的时机已经成熟。当今计算机和软件技术已能够充分满足计算的需要。我们所欠缺的是关于介绍这些基本思想及这些思想该如何应用的书。我希望这本书能够弥补这个欠缺。
本书正文的阅读要求读者通晓统计学基础概念和多元统计方法。本书特别为如下两类读者而设计:
* 社会和健康科学领域的(生物)统计学家、流行病学家等;* 不称呼自己为统计学家,但拥有必要的技能来理解规则并使用一些统计方法的独立的研究者。
在编写本书的时候,我尽量避免数学和技术上的细节,出现公式的地方往往辅之以图表,并用可视化的陈述来解释该公式。我希望读者朋友们可以较少去关注理论基础,而更多去抓住宏观的总体上的思路。偏技术的内容在本书中标记了黑色桃心,这在第一次阅读时可以暂时跳过。
我在乌得勒支大学采用了本书中的一些章节来教授研究生插补技术的课程,主要的基础内容体现在1~4 章,大约要花费十个小时来讲授这些材料,中间留出时间可以让学生们完成书中的练习题。
本书采用了大量唐纳德·鲁宾(Donald Rubin)的理念,他是多元插补这个学科的奠基人之一。我非常有幸在很多场合与他见面、讨论和工作。他富于逻辑的设想和貌似简单的想法是我的灵感的极佳的来源。同时要感谢杨·范·瑞吉克沃塞勒(Jan van Rijckevorsel),通过他我认识了鲁宾。他还在TNO 营造了科学研究的氛围,在那里我们能够很愉快地完成缺失数据的插补工作。
很多人对本书的完成做出了贡献。感谢TNO 的Nico van Meeteren 和Michael Holewijn 给了我极大的信任和支持。感谢乌得勒支大学的Peter vander Heijden 的支持。感谢Rob Calver 和Chapman & Hall/CRC 的工作人员的帮助和建议。许多人对本书的全部或者部分稿件提出了建议,他们分别是Hendriek Boshuizen,Elise Dusseldorp,Karin Groothuis-Oudshoorn,MichaelHermanussen,Martijn Heymans,Nicholas Horton,Shahab Jolani,GerkoVink,Ian White 和2011 春季班的硕士研究生们。他们的建议对于发现和排除书中的错误起到了很有价值的作用,同时我也对剩下的错误感到抱歉。
本书的主要部分是在一个为期六个月的旅行中完成的。其中有四个月在克鲁克,瑞典的一个只有八间小房子的村子。感谢Frank van denNieuwenhuijzen 和Ynske de Koning 非常热情地把他们的房子给我用。那里的设备非常完美,没有雪崩,没有琐碎的麻烦。另外两个月我在德国阿尔滕霍夫的Michael Hermanussen 和Beate Lohse-Hermanussen 的住宅里,我感谢他们的和善、创造力和聪慧,那是一段无比美好的时光。
最后,感谢我的家人,尤其是我深爱的妻子Eveline,感谢他们温暖的、一如既往的支持,支持我花费大量的时间——晚上、周末,来完成这本书。
Eveline 喜欢告诉别人我正在完成“一本没人能看懂的书”来与我开玩笑。
我有时甚至怀疑她说的是正确的,至少有99% 的人是看不懂的。那么,亲爱的读者,我真心希望你将属于那剩下的1%。
作者:史蒂夫·范·布伦v
《数据修复的艺术:填补空白,重塑价值》 在信息爆炸的时代,数据已成为驱动决策、技术创新和商业增长的基石。然而,数据的收集、存储和处理过程并非总是完美无瑕,数据缺失是普遍存在的挑战,它如同沉默的暗礁,可能歪曲分析结果,削弱模型性能,甚至导致错误的商业判断。本书《数据修复的艺术:填补空白,重塑价值》旨在揭示一套全面而灵活的数据填补策略,帮助读者理解并掌握应对数据缺失问题的精髓,将“缺失”转化为“洞察”,将“不完整”转化为“完整”,最终释放数据的真正价值。 本书并非仅仅罗列一种或几种填补技术,而是构建了一个完整的理论框架和实践体系。我们从理解数据缺失的本质入手,深入探讨不同类型缺失(如完全随机缺失MAR、缺失完全随机MCAR、非随机缺失MNAR)的产生原因及其对后续分析可能造成的偏差。只有深刻理解了缺失的根源,我们才能有的放矢地选择最适合的填补方法,而非盲目套用。 随后,本书将带领读者踏上一段探索数据填补方法的旅程。我们将从最基础、最直观的方法开始,例如: 均值/中位数/众数填补: 这是最简单的填补方式,对于数据量大且缺失比例较低的情况,或许能起到一定的初步作用。但本书将深入剖析其局限性,例如可能压缩数据变异性,低估标准误,并强调其仅适用于非常简单的场景。 固定值填补: 针对特定业务逻辑或领域知识,可能需要将缺失值替换为预设的特定数值(如0,或表示“未知”的编码)。我们将讨论如何合理确定这些固定值,并评估其潜在影响。 然而,数据世界的复杂性远超这些简单方法所能捕捉。因此,本书的重点将放在更具鲁棒性和灵活性的高级填补技术上,这些技术能够更好地保留数据的结构和信息: 回归填补: 利用其他变量的信息来预测缺失值。我们将详细介绍如何构建回归模型,包括线性回归、多项式回归,以及在考虑变量间复杂关系时的正则化回归。本书将引导读者理解模型选择、特征工程以及如何评估回归填补的效果。 K近邻(KNN)填补: 基于数据点之间的相似性进行填补。我们将深入讲解KNN算法的原理,如何选择合适的距离度量,如何确定K值,以及在处理高维数据时的挑战与优化策略。KNN填补的优势在于它不依赖于模型假设,能够捕捉局部的数据结构。 多重填补(Multiple Imputation, MI): 这是本书的核心内容之一,也是现代数据分析中处理缺失数据最受推崇的方法之一。多重填补的核心思想是:数据缺失是随机的,因此我们不只生成一组填补值,而是生成多组,每组填补值都基于一个不同的填补模型。这意味着我们对数据的“未知”程度有了更真实的反映。本书将详细介绍MI的三个核心步骤: 1. 生成完整的、填补过的数据集: 介绍常用的填补模型,如MICE(Multivariate Imputation by Chained Equations,多变量链式方程填补),并深入分析不同模型选择的考量。我们将演示如何构建链式方程,迭代地填补缺失值,并解释其背后的统计学原理。 2. 对每个填补数据集进行分析: 演示如何在每个填补的数据集上独立运行所需的分析(如回归、分类等)。 3. 合并分析结果: 这是MI最关键且最具技术性的环节。我们将详细讲解如何根据Rubin's Rules(鲁宾法则)合并来自各个填补数据集的估计量和标准误,从而得到一个最终的、考虑了填补不确定性的分析结果。本书将通过大量实例,帮助读者掌握MI的实施细节,理解其理论基础,并认识到其在提高分析效率和准确性方面的巨大优势。 基于模型的填补方法: 决策树和随机森林填补: 探讨如何利用决策树和随机森林的集成学习能力来预测缺失值,尤其是在非线性关系显著的数据集中。我们将讨论如何构建填补模型,以及如何处理分类和连续型缺失值的填补。 基于深度学习的填补方法: 随着深度学习的飞速发展,本书也将触及一些前沿的深度学习技术在数据填补中的应用,例如使用自编码器(Autoencoders)或生成对抗网络(GANs)来学习数据的分布并生成合理的填补值。我们将概述这些方法的原理,以及它们在处理大规模、高维度数据时的潜力。 特定领域的数据填补: 很多时候,数据的缺失并非完全随机,而是与特定的领域知识紧密相关。本书将强调领域知识在数据填补中的重要性。我们将讨论如何结合业务逻辑、专家经验,甚至利用时间序列的自相关性(如ARIMA模型)来进行更精准的填补。例如,在金融领域,我们可能需要考虑历史价格趋势;在医疗领域,病人的病史和家族史可能提供宝贵线索。 除了介绍各种填补方法,本书还将重点关注填补策略的制定和效果评估。我们不会鼓励读者仅仅选择一种方法,而是强调根据具体的数据特点、分析目标和计算资源来灵活组合不同的填补策略。 填补策略的选择框架: 本书将提供一个决策框架,帮助读者系统地评估以下因素: 数据本身的特性: 数据量、变量类型、变量间的相关性、缺失的模式和比例。 分析目标: 是要进行描述性统计、预测建模、因果推断,还是其他类型的分析?不同的分析目标对填补质量有不同的要求。 计算资源和时间限制: 某些高级填补方法可能计算成本较高。 对结果不确定性的容忍度: 多重填补尤其适合需要量化不确定性的场景。 填补效果的评估: 填补的目的是为了更好地进行后续分析,因此评估填补效果至关重要。本书将介绍多种评估方法: 可视化检查: 通过箱线图、散点图、密度图等,直观地比较填补前后数据的分布和关系。 统计检验: 使用t检验、卡方检验等,检查填补前后变量分布的差异是否显著。 模型性能评估: 在填补后的数据上构建模型,并与原始数据(如果可能)或使用其他填补方法得到的结果进行比较,评估模型在预测精度、泛化能力等方面的差异。 敏感性分析: 评估填补方法的变化对最终分析结果的影响程度。 本书的另一大亮点在于其实践导向。我们将通过大量的实际案例,演示如何利用Python(如Pandas、Scikit-learn、Impyute、Statsmodels等库)和R等流行的数据科学工具来实现各种填补方法。每一个案例都将包含详细的代码解释,帮助读者将理论知识转化为可执行的操作。从数据加载、缺失值识别,到模型选择、参数调优,再到结果的解释和可视化,我们将一步步引领读者完成完整的填补流程。 此外,本书还将探讨一些进阶话题,例如: 处理时间序列数据的缺失: 专门讨论适用于时间序列数据的填补技术,如滞后值填补、插值法(线性、样条插值)、以及基于时间序列模型的填补。 处理文本数据或图像数据的缺失: 简要介绍在非结构化数据中处理缺失信息的一些思路和方法。 缺失值与异常值的关系: 探讨缺失值是否可能与异常值同时出现,以及如何协同处理。 《数据修复的艺术:填补空白,重塑价值》的目标是成为一本数据科学工作者、统计学家、研究人员以及任何需要处理和分析数据的专业人士的案头必备指南。它不仅传授技术,更培养一种严谨、灵活、批判性的数据思维。我们相信,通过掌握本书中的方法和理念,读者将能够更自信地应对数据挑战,从看似“损坏”的数据中挖掘出宝贵的见解,为各自的领域带来更准确、更可靠的分析结果。数据缺失不再是无法逾越的障碍,而是通往更深层洞察的起点。

用户评价

评分

这本书的排版和装帧设计确实让人眼前一亮,作为一本专业领域的图书,它在视觉呈现上并没有流于刻板。封面的设计很巧妙,采用了一种抽象的数据流动的视觉语言,隐约传达了“填补”和“连接”的主题,尽管具体内容我还没有深入研读,但仅凭外观,就已经感受到作者在图书呈现上的用心。纸张的质感也相当不错,拿在手里沉甸甸的,感觉很扎实,这对于一本需要反复翻阅的工具书来说至关重要。内文的字体选择和行距处理也体现了对读者阅读体验的关注,行文的疏密得当,长时间阅读下来眼睛也不会感到过于疲劳。当然,作为一本强调“灵活”的著作,我非常期待它在内容上能提供多样化的视角和实用的案例,而不是局限于某种固定的模型或理论。从目前的初步印象来看,这本书在物理层面上已经为读者建立了一个非常舒适的知识探索平台。

评分

我个人对这本书最感兴趣的部分,是它标题中强调的“灵活填补方法”这一概念。在许多实际的数据分析场景中,数据缺失往往是非随机的,且形式多样,单一的插补技术往往会引入难以察觉的偏差。因此,我非常期待看到书中是如何定义和实现这种“灵活性”的。它是否涵盖了基于机器学习的预测模型,还是更侧重于贝叶斯框架下的多重插补?或者,它是否提供了一个决策树或流程图,指导使用者根据缺失数据的类型和程度来选择最合适的策略?如果书中能提供详尽的条件判断和每种方法的优缺点对比,那将是极其宝贵的资源。毕竟,在数据科学领域,“一把万能钥匙”是不存在的,真正的价值在于选择“正确的钥匙”。

评分

从一名长期与数据打交道的工程师角度来看,一本好的方法论书籍,其价值很大程度上体现在其代码示例和可复现性上。虽然我还没有打开正文,但我强烈希望这本书中的方法论不仅仅是停留在数学公式的推导,而是能够有清晰的、可执行的示例代码作为支撑。如果是影印版,我希望注释部分能对代码的实现细节做充分的解释,指出不同编程语言或库的差异,甚至可以讨论在处理超大规模数据集时,这些灵活方法的计算效率问题。一个好的作者会预见到读者的实践困惑,并在注释中提前给出“避坑指南”。如果它能提供一个统一的框架来管理不同插补方法的实验和比较,那这本书的实用价值将大大提升。

评分

这本书的出版时机也显得非常关键。在当前大数据和人工智能蓬勃发展的背景下,数据清洗和预处理环节的重要性日益凸显,而缺失值处理正是其中的核心难点。我希望作者能够在新兴的领域,比如时间序列数据、高维稀疏数据,或者半结构化数据中遇到的缺失问题上,提供一些前瞻性的见解。评价一本书的深度,往往要看它是否能超越经典的平均值/中位数替代法,进入到更复杂的因果推断和信息论的范畴。这本书的英文影印注释版定位,似乎也意味着它可能收录了最新的国际研究成果,为国内的读者架起了一座直接与前沿学术对话的桥梁。我期待它能为我们在处理那些“棘手”的数据集时,提供真正具有创新性的解决方案。

评分

这本书的章节结构似乎经过了深思熟虑,从目录的梳理来看,它似乎采取了一种由浅入深、循序渐进的构建方式。我注意到它划分了基础理论、主流方法论、以及高级应用与挑战这几个主要部分,这暗示着它不仅仅停留在对现有技术的罗列,更可能深入探讨了缺失数据背后的统计学和现实世界建模的复杂性。这种结构能很好地引导初学者建立起稳固的知识框架,同时也能让有经验的研究人员快速定位到他们感兴趣的前沿课题。特别是“影印注释版”的标注,让我对收录的文献资料和细节解释抱有很高的期望,希望它能带来原汁原味的学术深度,而不是经过过度简化的二手解读。我猜想,作者一定花费了大量精力来平衡学术的严谨性和实践的可操作性。

相关图书

本站所有内容均为互联网搜索引擎提供的公开搜索信息,本站不存储任何数据与内容,任何内容与数据均与本站无关,如有需要请联系相关搜索引擎包括但不限于百度google,bing,sogou

© 2025 book.coffeedeals.club All Rights Reserved. 静流书站 版权所有