具体描述
内容简介
如果说21世纪是生物学世纪,生物信息学应该是支撑生物学世纪的核心科技之一。而大数据科学和人工智能技术正在将生物信息学推向生命科学和信息科学的前沿。《生物信息学计算技术和软件导论》分为生物信息学基础篇和生物信息组学技术篇两大部分。生物信息学基础篇从新兴领域切入,介绍生物信息学的计算科学及进化生物学基础(如网络科学与大数据技术、深度学习、计算智能、高维数据分析、马尔可夫链蒙特卡洛法,隐马尔可夫模型,贝叶斯统计、医学生态学、DNA计算、进化树与溯祖树分析、种群遗传学等)。生物信息组学技术篇除经典内容(基因组、转录组、蛋白质组)外,还包括新的三代基因测序算法和软件(作者团队研发的DBG2OLC和SPARC)、微生物群系(Microbiome)和宏基因组学(Metagenomics)、非编码RNA、新药发现、代谢组学(Metabolomics)等热点内容。 目录
目录
生物信息学基础篇
第1章 生物信息学一些前沿领域简介 3
1.1 生物信息大数据 3
1.2 复杂网络分析概论 11
1.3 复杂网络分析实例:以微生物群系医学生态网络为例 15
1.4 深度学习、计算智能与人工智能 21
1.5 医学生态学 25
1.6 DNA计算机-生物学对计算机科学的回馈 30
第2章 系统发育树与溯祖分析 38
2.1 树的概念 38
2.2 主要的建树方法 39
2.3 模型选择 50
2.4 贝叶斯方法 54
2.5 溯祖理论 60
2.6 物种树估计 64
第3章 群体遗传学数据分析软件简介 70
3.1 多功能软件比较 70
3.2 理论模型与分析方法的实现方式 72
3.3 软件运行方式与编程语言 79
3.4 总结与展望 79
第4章 生物信息学中重要统计计算方法和模型 85
4.1 计算机模拟技术 85
4.2 马尔可夫蒙特卡罗法 93
4.3 隐马尔可夫模型 98
4.4 贝叶斯统计 105
4.5 统计学习 114
4.6 高斯图模型 120
生物信息组学技术篇
第5章 第三代基因测序组装算法和软件技术 129
5.1 第三代基因测序及组装技术简介 129
5.2 第三代基因组装算法及软件简介:以DBG20LC和SPARC为例 132
5.3 三代基因组装算法和软件比较 139
5.4 DBG20LC和SPARC软件使用简介 140
第6章 基因组第二代测序数据的生物信息学分析 145
6.1 基因测序技术简介 145
6.2 基因组装技术 149
6.3 外显子基因突变检测 154
6.4 单细胞测序数据的基因组装 156
第7章 转录组数据的生物信息学分析 160
7.1 转录组技术的发展 160
7.2 RNA-seq数据的质量控制 163
7.3 基于参考基因组的转录组分析 164
7.4 无参考基因组的转录组的从头拼装及拼装质量评估 170
第8章 非编码RNA研究常用数据库及软件 175
8.1 非编码RNA概述 175
8.2 非编码RNA常用数据库 179
8.3 非编码RNA研究常用软件 184
第9章 蛋白质组学研究常用软件简介 210
9.1 蛋白质组学简介 210
9.2 计算蛋白质组学的应用 215
9.3 计算蛋白质组学算法与数据库 230
第10章 新药物发现中的生物信息学软件简介 236
10.1 大型药物设计平台 237
10.2 分子视图软件 238
10.3 化学结构编辑程序 242
10.4 分子对接与虚拟筛选软件 245
10.5 配体构象搜索软件 250
10.6 药效团模拟软件 251
10.7 分子动力学模拟软件 254
10.8 在线药物设计资源列表 255
10.9 小结 257
第11章 宏基因组学概述及生物信息学分析 260
11.1 宏基因组学技术简介 260
11.2 宏基因组学研究流程 261
Chapter 12 Bioinformatics for Metabolomics:An Introduction 277
Abstract 277
12.1 Introduction to Metabolomics 277
12.2 Technologies for Metabolomics 280
12.3 Data Formats for Metabolomics 285
12.4 Databases for Metabolomics 287
12.5 General Principles for Metabolomic Data Analysis 292
12.6 From Spectra to Metabolite Lists:Bioinformatics for Metabolite Identification 293
12.7 From Metabolite Lists to Significant Metabolites:Multivariate Statistics 300
12.8 From Significant Metabolites to Pathways:Bioinformatics for Metabolite Interpretation 306
12.9 Conclusion 310
《生物信息学计算技术与软件导论》是一本深入探讨生命科学数据分析核心方法的著作。本书旨在为读者提供一个全面而系统的视角,理解如何利用计算工具和软件来解决生物学中的复杂问题。 核心内容概述 本书围绕生物信息学计算技术这一主题,系统性地介绍了生命科学领域中常用的计算方法、算法以及与之配套的软件工具。其内容涵盖了从基础的数据处理到高级的分析模型,力求让读者掌握分析大规模生物数据的能力。 第一部分:生物信息学基础与数据处理 在生物信息学领域,数据的质量和有效性是后续分析的基石。本部分首先介绍了生物信息学产生的背景,即“后基因组时代”海量数据的涌现,以及这些数据在理解生命过程中的重要性。接着,本书将详细阐述各种生物数据库的结构、访问方式和数据标准,例如NCBI(美国国家生物技术信息中心)和EBI(欧洲生物信息学研究所)提供的GenBank、EMBL、UniProt、PDB等核心数据库。读者将学习如何有效地检索、下载和管理这些宝贵的资源,理解序列数据(DNA、RNA、蛋白质)、结构数据、表达数据等不同类型数据的特点及其存储格式(如FASTA、FASTQ、GenBank格式、PDB格式等)。 数据预处理是任何计算分析不可或缺的环节。本书将深入讲解序列比对技术,包括全局比对(Needleman-Wunsch算法)和局部比对(Smith-Waterman算法)的基本原理,以及它们在查找同源序列、基因家族分析等方面的应用。同时,会详细介绍常用的序列比对软件,如BLAST(Basic Local Alignment Search Tool)系列及其变种(PSI-BLAST, DELTA-BLAST等),解释其算法效率和参数调优策略。此外,本书还会涉及序列质量评估、低质量序列过滤、去除嵌合序列、以及数据格式转换等实践性操作,为后续更复杂的分析奠定基础。 第二部分:基因组与转录组分析 基因组学和转录组学是现代生物学研究的两个重要分支,它们产生的数据量巨大且复杂。本部分将聚焦于基因组数据的处理和分析。首先,本书会介绍基因组测序技术的演进,从二代测序(Illumina)到三代测序(PacBio, Oxford Nanopore)的原理和特点,以及它们在基因组组装方面带来的挑战和机遇。随后,将详细讲解基因组组装的算法,包括De Bruijn图方法和Overlap-Layout-Consensus(OLC)方法,并介绍市场上主流的基因组组装软件(如SPAdes, Velvet, Canu等)的优缺点及适用场景。 基因组组装完成后,基因注释是理解基因组功能信息的核心步骤。本书将深入解析基因预测的各种算法,包括基于统计模型(如隐马尔可夫模型HMM)和机器学习的方法,以及如何利用已知的功能基因数据库(如GO, KEGG)和保守序列区域进行辅助注释。读者将学习如何使用基因注释软件(如Prokka, Augustus, SNAP等)来鉴定基因的边界、外显子-内含子结构,并预测其编码的蛋白质序列。 在转录组学方面,本书将重点介绍RNA测序(RNA-Seq)数据的分析流程。从原始 reads 的质量控制、接头去除,到 reads 的比对(使用STAR, HISAT2等比对器)和定量(如FPKM, TPM等指标的计算,使用featureCounts, Salmon, Kallisto等工具),再到差异表达基因的鉴定(使用DESeq2, edgeR等软件包)。本书还将探讨不同实验设计下(如配对样本、多组实验)的差异表达分析策略,以及如何对差异表达基因进行富集分析(GO富集,KEGG通路富集),挖掘其潜在的生物学功能。 第三部分:蛋白质组学与结构生物信息学 蛋白质是生命活动的主要执行者,蛋白质组学和结构生物信息学为我们提供了深入理解蛋白质功能和相互作用的手段。本部分将涵盖蛋白质序列和结构的分析。首先,本书会介绍蛋白质序列数据库(如UniProtKB/Swiss-Prot)及其信息内容,以及如何进行蛋白质序列的比对和同源性搜索。接着,将深入讲解蛋白质二级结构、三级结构和四级结构的预测方法,包括基于同源建模(Homology Modeling)、从头预测(Ab initio Prediction)和机器学习方法(如AlphaFold2)。 蛋白质结构的解析是理解其功能的关键。本书将介绍常用的蛋白质结构可视化软件(如PyMOL, VMD, ChimeraX)以及如何分析蛋白质的二级结构(alpha-helix, beta-sheet)、三维空间构象、氨基酸残基的互作,并解释如何利用PDB(Protein Data Bank)数据库中的结构信息进行分子对接(Molecular Docking)模拟,预测小分子与蛋白质的结合模式和亲和力,这对于药物设计具有重要意义。 蛋白质相互作用网络的分析也是现代生物学研究的热点。本书将介绍蛋白质-蛋白质相互作用(PPI)网络的构建方法,包括基于实验证据(如酵母双杂交Y2H, co-immunoprecipitation Co-IP)和计算预测的方法。读者将学习如何利用PPI网络分析软件(如Cytoscape)来可视化和分析网络拓扑结构,识别关键的蛋白质节点和通路,从而揭示复杂的生物学功能模块。 第四部分:系统生物学与高级计算方法 系统生物学旨在从整体上理解生物系统,而高级计算方法是实现这一目标的重要支撑。本部分将介绍一些更复杂的生物信息学分析技术。首先,本书会探讨机器学习在生物信息学中的应用,包括监督学习(如分类、回归,用于预测蛋白质功能、药物靶点)和无监督学习(如聚类,用于基因表达模式的发现、物种分类)。读者将学习如何选择合适的机器学习算法,以及如何使用Python(Scikit-learn)或R等编程语言实现这些模型。 此外,本书还将介绍生物信息学中的统计学方法,例如假设检验、方差分析(ANOVA)、多重检验校正(如Bonferroni, FDR)等,这些方法对于解释实验结果、识别显著的生物学信号至关重要。 在生物网络分析方面,本书会进一步拓展,介绍代谢通路分析、信号转导通路分析,以及如何利用生物信息学工具来推断和模拟这些复杂网络。最后,本书将对一些前沿的生物信息学计算技术进行展望,例如单细胞测序数据分析、宏基因组学数据分析、以及人工智能在生物信息学领域的最新进展,引导读者关注该领域的未来发展方向。 适用读者与学习目标 本书适合生物学、医学、药学、计算机科学以及相关领域的学生、研究人员和从业者。无论您是刚刚接触生物信息学的新手,还是希望深化相关计算技能的专业人士,都能从本书中获益。通过学习本书,读者将能够: 理解生物信息学数据的基本类型、结构和获取途径。 掌握常用的序列比对、基因组组装、基因注释和差异表达分析等核心计算方法。 熟悉主流的生物信息学软件和工具的使用。 初步掌握蛋白质结构分析和相互作用网络构建的基本原理。 了解机器学习和统计学在生物信息学研究中的应用。 具备独立进行基本生物信息学数据分析的能力,并能够解读分析结果。 为进一步深入学习更高级的生物信息学专题打下坚实的基础。 总结 《生物信息学计算技术与软件导论》并非一本罗列软件功能的手册,而是一本深入剖析计算方法背后原理,并将其与实际生物学问题相结合的指南。本书通过理论讲解与案例分析的结合,旨在培养读者解决生物学研究中数据分析挑战的综合能力,为推动生命科学的创新发展贡献力量。