内容简介
R语言近年来成为统计分析的受欢迎软件之一,已广泛用于生态、金融、统计、互联网、医疗和农林牧渔等行业,并涉及大数据、生物信息学以及人工智能等领域。
《R与ASRme1-R统计学/国家林业局普通高等教育“十三五”规划教材》主要面向农林业试验数据,系统介绍了R与ASReml—R的统计应用,全书共分11章,具体包括R语言简介、基础语法、数据创建、数据管理、基础统计、高级统计、试验设计、基础绘图、高级绘图、遗传评估和程序包开发。
《R与ASRme1-R统计学/国家林业局普通高等教育“十三五”规划教材》内容新颖,覆盖面广,应用性强,而且章节合理、结构清晰、行文规范,适用于林学类、植物生产类、生物科学类、草学类、医学类等专业本科生的统计分析教材,也可供相关专业的研究生和科研工作者参考使用。
作者简介
林元震,男,福建仙游人,1979年5月生,博士,副教授,硕士生导师。九三学社社员,澳洲联邦科工组织PlantIndustry访问学者,瑞典农业大学UPSC访问学者,广东省本科高校林学类专业教学指导委员会秘书,广州市林业中级职称评审专家,华南农业大学林木遗传育种教研室主任,华南农业大学青年骨干教师,广东省千百十工程第五批校级培养对象,,Plant Biochem,Plant Growth Regulation,Aquaculture Research,《华南农业大学学报》等期刊审稿人。研究方向为林木分子育种、林业统计分析及生物信息学。近五年来,主持和参与了国家自然科学基金、国家林业行业公益项目、广东省林业科技创新项目等20余项,在Forest EcolManage、Biotech Letters、JPBB等国内外核心期刊上发表了10余篇学术论文,其中,SCI收录5篇,出版国家教材1部,并获广东省精品教材;获得国家发明专利授权3项;2016年获第六届梁希青年论文奖三等奖。
张卫华,女,河北定兴人,1977年5月生,博士,教授级高工,硕士生导师,中共党员。加拿大木材纤维中心访问学者、瑞典农业大学UPSC访问学者。广州市林业中级职称评审专家,广东省农村科技特派员和广东农村信息直通车工程信息员。广东省林业科学研究院森林培育研究所所长。《核农学报》《林业与环境科学》等期刊审稿人。研究方向为林木遗传育种,林木组织培养。先后主持国家“十二五”科技支撑计划子课题、国家公益性行业专项子专题、国家林业局“948”项目、广东省科技创新、中央财政推广项目、广东省科技厅项目、国家外专局项目等合计9项,主要参加国家林业公益性行业专项、国家科技支撑、省林业局项目20余项。获广东省科学技术二等奖2项、广东省农业技术推广二等奖1项、广东省农业技术推广一等奖1项,广东省林业局鉴定成果3项,国家林业局认定成果4项,授权发明专利2项,认定良种5个,颁布地方标准1项,发表科技论文42篇。
郭海男,陕西府谷人,1978年8月生,硕士,高级工程师。荷兰瓦赫宁根大学访问学者。供职于水利部水土保持植物开发管理中心(高原圣果沙棘制品有限公司)。主要从事水土保持植被建设和生态工程、水土保持植物开发与推广、沙棘良种培育与种植、沙棘产品加工开发与科研、植物生理、生化、生物技术与基因技术研究、矿区生态修复等相关工作。大连民族大学外聘硕士生导师,全国水土保持青年科技奖获得者。主持或参与40多项国家、省部级、欧盟和联合国科研项目。参编专著5本,主笔编写中英文沙棘培训教材10本,公开发表论文50多篇。
内页插图
目录
Preface
序
前言
第1章 R简介
1.1 R语言
1.2 R的特点
1.3 R的资源
1.4 R的安装与运行
1.4.1 R软件的安装、启动与关闭
1.4.2 R程序包的安装与使用
1.5 RStudio的安装与运行
1.6 R与RStudio的更新
1.6.1 R的更新
1.6.2 RStudio的更新
1.7 R的学习方法
第2章 基础语法
2.1 对象与变量
2.1.1 变量的创建与删除
2.1.2 变量的重命名
2.2 运算符
2.3 表达式
2.4 特殊值
2.4.1 缺失值
2.4.2 NaN
2.4.3 Inf和-Inf
2.4.4 NULL
2.5 控制结构
2.5.1 条件语句
2.5.2 循环语句
2.6 自编函数
第3章 数据创建
3.1 数据的创建
3.1.1 向量
3.1.2 数组
3.1.3 矩阵
3.1.4 数据框
3.1.5 列表
3.1.6 因子
3.1.7 字符串
3.1.8 日期
3.2 对象的模式和属性
3.2.1 固有属性
3.2.2 属性的获取
3.2.3 对象的类别
3.3 数据的输入
3.3.1 键盘输入
3.3.2 使用scan( )函数
3.3.3 使用read.table( )函数
3.3.4 使用read.csv( )函数
3.3.5 导入Excel数据
3.3.6 导入SAS数据
3.3.7 导入SPSS数据
3.3.8 其他方式导入
3.4 数据的存储
第4章 数据管理
4.1 数据转换
4.2 数据排序
4.3 数据合并
4.3.1 列合并
4.3.2 行合并
4.4 子集提取
4.4.1 根据位置选取子集
4.4.2 根据列名选取子集
……
第5章 基础统计
第6章 高级统计
第7章 试验设计
第8章 基础绘图
第9章 高级绘图
第10章 遗传评估
第11章 程序包开发
参考文献
索引
网络资源
前言/序言
近些年国内R语言会议的参加人数变化即可看出R语言在国内日趋热门,2012年约为400人,2013年约为600人,2014年约为1400人,2015年达到4200人,据统计2016年参会人员将突破l万人,俨然是国内规模较大的专题会议之一。R语言会议地点也从最早的北京,到上海、深圳、广州,慢慢拓展到各省会城市。R语言现已渗透在国内的生态、金融、统计、互联网、医疗和农林牧渔等行业,且在大数据、生物信息学以及人工智能等领域大展身手。正如笔者在《R与ASReml-R统计分析教程》前言中所写的“R语言在数据挖掘和可视化应用领域的快速崛起意味着R语言已经为大数据时代做好准备”,从R语言在国内的应用领域来看,已然得到佐证。
大约3年以前,笔者组织编写了农林领域第一部有关R与ASReml-R软件的“十二五”规划教材-《R与ASReml-R统计分析教程》,该教材在业界内获得一定的好评。但正如R语言的迅猛发展一样,该教材的匹配的章节不够齐全、部分内容亟需更新,加之近年来比较热门的基因组选择,上述原因正是编写本书的动力所在。
与笔者编写的第一部农林领域教材一样,对阅读本书的读者,没有统计编程或R语言背景的要求,当然读者如有R语言基础知识将会更好地理解、掌握本书的知识点。本书结构已完全不同于《R与ASReml-R统计分析教程》教材,在本书中,总共包含11章,且每章都附有思考题。
本书的第1-3章介绍R语言、基础语法和数据创建,让读者对R语言有一些直观的概念,了解R及其语法的特点,熟悉R中数据类型及其创建,这些对于后续的数据管理、统计分析以及图形绘制等操作是必需的。
第4章介绍了数据管理的各种操作,包括数据转换、排序、合并、重构、分段、汇总、查重以及子集提前,重点介绍了数据综合处理包dplyr包和data.table包的用法。熟练掌握数据管理的各种操作对于统计分析和图形绘制非常重要。.第5、6章较全面介绍了R的基础统计和高级统计,其中基础统计包括描述性统计、频数表分析、方差分析、协方差分析、t检验、卡方检验、线性回归、相关分析和通径分析,高级统计包括广义线性模型、生长模型、生存分析、主成分分析、因子分析、聚类分析、判别分析、功效分析、重抽样和综合评价分析。
第7章专门介绍了R的试验设计和数据分析,设计类型包括完全随机设计、随机区组设计、平衡不完全区组设计、拉丁方设计、正交设计、裂区设计、巢式设计、析因设计、循环设计、格子设计、α设计和条区设计,并介绍了各种设计的基本概念、R出设计表以及数据分析的过程。
第8章介绍了R的基础绘图,包括条形图、直方图、散点图、热图、散点图矩阵等常见图形,并介绍了绘图参数的设置,以及数学公式、文本的添加。此外,还展示了交互图形的绘制。
第9章重点演示了R包lattcie和ggplot2的高级绘图,其中lattcie包绘图包括基础语法、单变量绘图、双变量绘图、多变量绘图以及高级绘图参数的设置,ggplot2包绘图包括基础语法、各种图形绘制以及高级绘图参数的设置。本章节是R绘图优势和强大功能的展现。
第10章介绍了R包在遗传评估上的应用,重点介绍了MCMCglmm包和ASReml-R包。尤其是ASReml-R包,作为商业软件包,已广泛应用于农林牧渔、生态等各行业。在本章节中,特别演示了ASReml-R包在单性状模型、双性状模型、模型比较、阈性状模型、泊松分布型模型、协变量模型以及批量分析的基础用法,也拓展了遗传参数评估(遗传力、育种值、遗传相关与遗传增益)的各种类型,包括子代测定、无性系测定、空间分析(规则与不规则)、多地点GxE分析、多年份分析、多交配分析、多世代分析以及基因组选择。本章节对于动植物遗传试验的数据分析具有较重要的参考价值。
第11章介绍了windows系统下的R包开发,包括所需软件、函数编写及R包制作,并专门演示了笔者自编程序包AAfun的一些功能。本章的目的是让读者了解R包的开发流程,希望有更多的R读者加入到程序包的开发中,更好、更快地促进R在各领域中的应用。
附录部分给出了索引、网络资源,便于读者进一步查询或学习R语言的相关知识。与之前那部教材一样,本书继续秉着R开源免费的精神,将本书中所有的数据、代码和彩图存放于网盘http://yzhlin-asreml.ys168.com/,供读者免费下载、自由使用。
最后,笔者要衷心感谢美国北卡罗来纳州立大学的FikretIsik教授,Isik教授是国际知名的遗传统计学家,感谢他百忙之中欣然为本书作序。此外,也要特别感谢瑞典农业大学的合作导师HarryWu教授以及ASReml的软件开发者Arthur Gilmour,他们对于我在R与ASReml-R的学习路程上起着不可磨灭的推动作用。
本书由广东省高水平大学经费(4400-216202)资助出版,特此谢忱!
由于编者的知识水平有限,书中难免会有疏漏和不足,恳请广大读者批评指正。如对本书有任何建议或意见,请发送邮件到yzhlinscau@163.com。
《R与ASReml-R统计学》书籍简介 一、 本书概述 本书是一部深入浅出的统计学著作,聚焦于R语言及其强大的统计分析包ASReml-R在现代统计建模中的应用。全书旨在为读者提供一个扎实的统计学理论基础,并着重于如何运用R语言和ASReml-R工具解决实际统计问题,尤其是在农业、林业、生物统计等领域具有广泛的指导意义。本书是国家林业局“十三五”规划教材,体现了其在行业内的权威性和实用性。 二、 目标读者 本书的目标读者涵盖了广泛的人群: 高等院校学生: 特别是农林经济管理、植物保护、林学、园林、草业科学、动物科学、统计学、生物技术等相关专业的本科生、硕士研究生和博士研究生。他们将本书作为学习统计建模、数据分析方法的重要参考。 科研人员: 从事农业、林业、生物学、生态学、遗传育种、环境科学等领域的研究者,需要运用统计方法处理实验数据,建立模型,解释研究结果。 数据分析从业者: 那些希望扩展统计分析技能,掌握更高级建模技术(如混合效应模型)以应对复杂数据结构的分析师。 相关行业技术人员: 在企业、政府部门从事数据管理、质量控制、市场分析等工作,需要进行统计推断和预测的专业人士。 三、 本书特色与内容深度 本书的独特性在于其将统计学理论与R/ASReml-R的实际操作紧密结合,强调理论的理解与方法的应用并重。 1. 统计学基础的扎实构建: 本书并非简单罗列R命令,而是从统计学的基本概念出发,循序渐进地引导读者理解统计思维。内容包括: 数据描述与可视化: 介绍常用的统计量(均值、方差、标准差、分位数等)以及R中绘制各类统计图(直方图、箱线图、散点图、QQ图等)的方法,帮助读者初步探索数据特征。 概率论基础: 讲解概率的基本概念、随机变量、常见的概率分布(正态分布、二项分布、泊松分布等)及其在统计推断中的作用。 统计推断: 深入探讨参数估计(点估计、区间估计)和假设检验(t检验、卡方检验、F检验等),教授读者如何根据样本数据对总体进行推断。 回归分析: 详细讲解线性回归模型,包括模型建立、参数估计、假设检验、模型诊断(残差分析、共线性诊断)以及预测。在此基础上,会引入非线性回归和广义线性模型,为更复杂的建模打下基础。 2. ASReml-R的精深应用: ASReml-R是专门为处理复杂实验设计和统计模型而设计的强大软件。本书对其核心功能进行系统性讲解,内容详实,覆盖面广: 混合效应模型(Mixed Effects Models): 这是ASReml-R的标志性功能。本书将详细阐述混合效应模型的原理,包括固定效应(Fixed Effects)和随机效应(Random Effects)的概念,以及它们在分析不同类型数据(如重复测量数据、分层数据、空间相关数据)时的意义。 方差分量估计(Variance Component Estimation): 重点介绍如何使用ASReml-R估计模型的方差分量,并对其结果进行解释。 模型选择与拟合: 教授读者如何根据实际需求构建不同结构的混合效应模型,以及如何利用信息准则(如AIC、BIC)和似然比检验来选择最优模型。 BLUP(Best Linear Unbiased Prediction)/BLUPF(Best Linear Unbiased Prediction of Fixed effects): 深入讲解BLUP和BLUPF在方差组分模型中的应用,这在育种和实验设计中至关重要,用于估计非观测量(如基因型效应)。 处理复杂数据结构: 重点解决在农业、林业等领域常见的复杂数据问题,例如: 重复测量设计(Repeated Measures Design): 分析同一对象在不同时间点或处理下的观测值。 空间相关性(Spatial Correlation): 处理实验单元在空间上的位置关系对观测值的影响,建立空间协方差模型。 遗传模型(Genetic Models): 在育种研究中,应用ASReml-R构建动物模型或植物模型,考虑亲缘关系矩阵(Kinship Matrix)和育种值估计。 多环境试验(Multi-environment Trials, MET): 分析作物在不同地点、不同年份试验下的表现,研究基因型与环境互作(GxE)。 ASReml-R语法与流程: 提供详细的ASReml-R命令语法、输入文件格式要求以及分析流程指导,帮助读者高效地运用该软件。 3. R语言的集成运用: 本书不仅仅是ASReml-R的教程,更是将R语言强大的数据处理、可视化和模型构建能力与ASReml-R的专业建模功能相结合: 数据预处理与整理: 使用R中的tidyverse等包对原始数据进行清洗、转换、合并等操作,为ASReml-R分析做好准备。 模型结果的可视化与解读: 利用R中的ggplot2等绘图包,将ASReml-R的分析结果(如残差图、预测值图、效应图)以直观的方式呈现,帮助读者更好地理解模型。 模型的诊断与优化: R语言提供的丰富工具箱有助于对ASReml-R构建的模型进行进一步的诊断和验证。 四、 理论与实践的平衡 本书的写作遵循“理论先行,实践跟进”的原则。每一项统计概念或ASReml-R的功能介绍,都会辅以清晰的数学推导或原理阐述。紧随其后,则通过精心设计的案例,展示如何在R环境中运用ASReml-R实现这些统计分析。这些案例来源于实际的农业、林业研究课题,具有高度的代表性和实践指导意义,能够帮助读者将所学知识融会贯通,触类旁通。 五、 章节结构概览(非具体内容,仅为结构提示) 本书的章节安排旨在构建一个逻辑清晰的学习路径: 第一部分:统计学基础回顾与R语言入门 引言:统计学在科研中的重要性,R语言及其生态系统介绍。 数据管理与可视化:R数据结构,数据读取、清洗、转换,基本图表绘制。 描述性统计:均值、方差、分布等概念及R实现。 概率分布与抽样:常见概率分布,中心极限定理。 参数估计与置信区间。 假设检验:基本原理,t检验,卡方检验,ANOVA。 第二部分:回归分析模型 简单线性回归:模型建立,参数估计,假设检验。 多元线性回归:模型扩展,变量选择。 模型诊断与改进:残差分析,多重共线性,异方差性。 广义线性模型:泊松回归,逻辑回归。 第三部分:ASReml-R及其在复杂模型中的应用 ASReml-R简介与安装。 混合效应模型入门:固定效应与随机效应。 ASReml-R语法核心:数据导入,模型定义(`~`,`$`,`!!`等),方差结构。 方差分量估计与模型比较:`wald`检验,`lrt`检验,AIC, BIC。 BLUP与BLUPF:在育种和预测中的应用。 处理重复测量数据。 处理空间相关性数据。 遗传模型与动物/植物模型。 多环境试验(MET)分析。 ASReml-R高级功能与案例。 第四部分:综合应用与进阶 常见研究设计的统计分析实践。 结果解释与报告撰写。 (可能包含)其他高级统计主题或ASReml-R的扩展应用。 六、 结语 《R与ASReml-R统计学》不仅是一本教科书,更是一本面向实践的工具书。它致力于帮助读者掌握当前统计分析领域前沿的工具和方法,提升解决复杂数据问题的能力。通过本书的学习,读者将能够更加自信地驾驭R语言和ASReml-R,在各自的研究和工作中取得更大的成就。本书内容严谨、体系完整,兼具理论深度与实践指导性,是统计学学习者和研究者的宝贵资源。