内容简介
《生物计算:生物序列的分析方法与应用》介绍生物计算中的几种主要方法,如序列比对、系统发育分析、蛋白质序列的语义分析与结构预测、基因识别与生物芯片的数据分析等,给出它们的基本问题与有关的方法及应用。全书由三部分组成。一部分介绍这些问题的由来与主要内容,给出它们的基本原理、计算与分析方法及应用意义,同时介绍一些国际上较为通用的软件包。第二部分是生物学备忘录,介绍有关生物学的基础知识。第三部分是数学备忘录,介绍与这些生物计算有关的数学理论与方法。
《生物计算:生物序列的分析方法与应用》可作为数学、生物、医学、化学等专业的本科生或研究生教材,其中一部分内容可作为各专业的公共部分,而第二、三部分内容可供各专业适当选用。
内页插图
目录
《数学与现代科学技术丛书》序
前言
第一部分 基本方法
第1章 生物序列突变与比对分析
1.1 生物序列突变与比对问题
1.1.1 生物序列的类型与结构
1.1.2 生物序列突变与比对问题的意义与应用
1.1.3 生物序列比对的原理与方法
1.2 二重序列比对的有关算法
1.2.1 关于动态规划算法的一些说明
1.2.2 动态规划算法
1.2.3 统计判决算法的基本思想
1.2.4 BLAST软件的使用
1.3 多重序列的比对问题
1.3.1 MSA的意义与概况
1.3.2 MSA的定义与优化准则
1.4 MSA算法与计算
1.4.1 MSA算法的基本概念
1.4.2 MSA的算法步骤
1.4.3 ClustalW软件的使用
1.4.4 关于MSA的几点说明
1.4.5 几个多重序列比对应用例子
1.5 SPA算法的原理与计算
1.5.1 SPA算法的基本原理
1.5.2 SPA算法的基本步骤
1.5.3 SPA算法源码
1.5.4 SPA算法的有关问题讨论
1.5.5 SPA算法的一个实例计算
习题与思考
第2章 系统发育分析
2.1 分子系统发育分析的基本概念
2.2 基于距离的方法
2.2.1 非加权分组平均法
2.2.2 邻接法
2.3 基于特征的方法
2.4 极大似然和Bayes方法
2.4.1 进化的概率论模型
2.4.2 构建进化树的极大似然方法
2.4.3 构建进化树的Bayes方法
2.5 构建进化树软件简介
习题与思考
第3章 蛋白质一级结构的语义分析
3.1 蛋白质一级结构的信息与统计分析法
3.1.1 蛋白质一级结构的语义分析简介
3.1.2 信息、统计分析法的要素与要点
3.1.3 局部词的定义与判定
3.1.4 蛋白质一级结构的语义分析
3.2 蛋白质序列语义结构的组合分析法
3.2.1 关于组合图论的有关记号
3.2.2 数据库的复杂度
3.2.3 数据库的关键词与核心词
3.2.4 关于组合分析的若干应用问题
习题与思考
第4章 蛋白质结构预测
4.1 蛋白质二级结构预测
4.1.1 蛋白质二级结构预测的评价体系
4.1.2 Chou-Fasman方法
4.1.3 GOR方法
4.1.4 FHD方法
4.2 蛋白质空间结构预测
4.2.1 同源序列搜索
4.2.2 折叠识别方法
4.2.3 从头预测方法
4.3 蛋白质结构预测软件简介
4.3.1 PHD软件使用简介
4.3.2 使用nnpredict.软件预测蛋白质二级结构
4.3.3 PSIPRED软件使用简介
习题与思考
第5章 基因识别
5.1 绪论
5.1.1 原核基因识别
5.1.2 真核基因识别
5.1.3 常用模式基因组简介
5.2 基因序列特征分析
5.2.1 内含子与外显子
5.2.2 CpG岛
5.2.3 密码子使用偏性
5.3 开放阅读框识别
5.3.1 开放阅读框特性
5.3.2 开放阅读框识别原理
5.3.3 开放阅读框识别软件使用
5.4 Markov模型基因识别方法
5.4.1 隐Markov模型
5.4.2 GENSCAN隐Markov模型方法和原理
5.4.3 GENSCAN软件使用
5.4.4 基因识别方法评价
5.5 其他基因识别方法简介
5.5.1 神经网络方法
5.5.2 z曲线方法
习题与思考
第6章 基因表达数据分析
6.1 基因表达序列标签数据分析简介
6.1.1 基因表达序列标签的概念
6.1.2 基因表达序列标签数据的获取
6.1.3 基因表达序列标签数据聚类分析
6.1.4 基因表达序列标签的应用
6.2 基因芯片数据的获取
6.2.1 基本概念
6.2.2 基因芯片实验过程
6.2.3 基因芯片数据获取
6.2.4 基因芯片数据内容
6.3 基因芯片数据分析
6.3.1 基因表达谱芯片数据标准化
6.3.2 基因表达谱芯片数据散点图分析
6.3.3 基因表达差异显著性分析
6.4 基因芯片数据聚类分析
6.4.1 基本概念
6.4.2 特征描述
6.4.3 分层聚类方法
6.4.4 模糊聚类方法
6.5 其他基因芯片数据分析方法简介
6.5.1 支持向量机方法
6.5.2 K均值聚类
6.5.3 自组织映射图聚类
6.6 基因芯片数据分析软件简介
习题与思考
第二部分 生物学备忘录
第7章 核酸与DNA
7.1 细胞与染色体
7.1.1 细胞
7.1.2 染色体概念
7.1.3 染色体特征
7.2 核酸分子与DNA结构
7.2.1 核酸分子
7.2.2 DNA分子结构
7.3 RNA结构与分类
7.3.1 RNA结构
7.3.2 RNA分类
第8章 氨基酸与蛋白质
8.1 氨基酸
8.1.1 氨基酸组成
8.1.2 氨基酸符号表示
8.1.3 氨基酸分类
8.2 肽链
……
第9章 基因与基因组
第10章 生物信息数据库
第三部分 数学备忘录
第11章 智能计算理论与算法
第12章 概率、信息与统计
第13章 随机过程
参考文献
索引
精彩书摘
(2)重复序列与基因交叉问题。由人类基因组与各种不同类型生物体基因组的测定发现,在同一生物体(尤其是在高等生物体)的基因组中,存在大量基因的重复与交叉问题。所谓重复序列,就是在同一基因组中一些DNA片段重复出现,这些片段有长有短,较长的片段长达数百万,有的片段虽短,但可能重复出现数百万次。这种重复不是简单一致定义下的相同,而是在一定相似率定义下的重复,因此必须通过序列的比对才能发现并确定这些重复序列。
基因的交叉就是同一基因在基因组中往往由多条不同的DNA片段组成,在生物学中称这些组成基因的不同片段为外显子,中间间隔部分称为内含子,在基因编码成蛋白质时,内含子被切除,部分外显子排列的次序会发生重叠或颠倒,生物学中称这种现象为基因交叉,这种交叉结构的分析同样需要序列的比对计算。
前言/序言
生物计算中的理论、方法与应用越来越被生物、医学及其他医务工作者所需要与关注,特别是在人类基因组计划实施以来,该学科的发展与研究更凸显出重要的作用。基因、基因组、蛋白质、蛋白质组等生物学信息的数据采集、储存与分析及其生物学意义,是生物计算乃至生物、医学与医药的重点研究内容之一。因此在国内外的许多医科院校均被作为重要课程,与生物信息学和生物计算相关内容的课程不仅是研究生的必修课程或选修课程,也是多个专业本科生的专业必修课程或选修课程。我们先后用了近三年的时间,在开展教学和研究工作的同时编写了本书,目的是为生物学和医学相关专业的本科生与研究生提供一本既通俗易懂,同时又可深入了解相关内容的教材,为该学科的建设与发展服务。
自2004年以来,本人有幸多次参加南开大学数学科学学院沈世镒教授主持的“生物信息学”讨论班。在讨论与学习过程中,不仅掌握了一些解决生物序列分析与计算的具体算法,更重要的是学到了解决生物序列分析的一些新方法和新思想。如生物序列的多种比对算法、数据结构中的语义分析及其在蛋白质结构分析中的应用等。这些方法从不同角度对生物计算中的有关问题进行研究与探讨,并在许多方面得到了很好的应用。在学习过程中,与南开大学数学科学学院胡刚、王奎博士等合作,对生物计算中的算法以及相关软件包的使用等问题有了更深入与确切的理解,使本书得以顺利完成。我们希望能将该领域中的主要内容与方法介绍给读者。
“生物计算”与“生物信息学”在本质上无大的区别,国内外的许多院校均把它们看作同一领域的学科。在本书中,我们把“生物计算”看作较偏重于原理与方法,同时注重它们的实现与应用,在介绍国外先进与常用算法的同时,增加了相应软件包的使用与分析等内容。
好的,以下是一本关于生物信息学和计算生物学中核心主题的图书简介,旨在涵盖与您提供的书名主题相近但又不完全重叠的领域。 --- 图书名称:《计算生物学:从基因组到蛋白质结构解析》 简介: 在分子生物学、遗传学以及系统生物学飞速发展的今天,数据的爆炸性增长已成为科研前沿的显著特征。理解和解读这些复杂、高维的数据,需要强大的计算工具和理论框架。《计算生物学:从基因组到蛋白质结构解析》旨在为研究生、科研人员及资深从业者提供一套系统而深入的指南,聚焦于现代生物信息学领域中那些至关重要的计算方法论,尤其关注基因组学数据的处理、蛋白质结构预测与功能分析,以及代谢网络建模等核心议题。 本书摒弃了对基础生物学概念的冗余介绍,直接切入计算挑战和解决方案。全书内容组织严谨,兼顾理论深度与实践指导,力求构建一座连接生物学问题与计算科学工具的坚实桥梁。 第一部分:基因组测序与组装的高级计算策略 现代高通量测序技术(如Illumina、PacBio和Oxford Nanopore)产生了海量的短读长和长读长序列数据。本部分详细阐述了从原始数据质量控制到完整基因组组装的复杂计算流程。 1. 序列质量评估与预处理: 探讨了Phred质量值的统计学意义、错误模型的识别以及高效的过滤算法(如基于K-mer的方法)。重点分析了如何处理不同测序平台产生的系统性误差,包括碱基错误率、插入缺失(Indel)和嵌合序列的识别与校正。 2. 从头组装(De Novo Assembly)的拓扑学基础: 深入解析了基于De Bruijn图和Overlapping Layout Consensus (OLC) 两种主要组装策略的数学原理。着重讨论了图论在处理重复序列、解决组装歧义性中的核心作用。书中详细比较了A-Bruijn、MEGAHIT等现代组装器的内部机制,并提供了优化参数以应对复杂基因组(如多倍体和高度重复区域)的实操经验。 3. 基因组精细化与结构变异检测: 组装完成后,如何通过比对和纠错技术(Polishing)提高准确性是关键。本章涵盖了基于参考序列的重比对技术,以及利用多种数据类型(如光学图谱、Hi-C数据)辅助识别大片段的结构变异(如拷贝数变异、倒位和易位)。我们将详细介绍Paired-end和Mate-pair信息在解析复杂结构变异边界方面的计算优势。 第二部分:蛋白质结构预测与功能推断的计算前沿 蛋白质是生命活动的执行者,其三维结构决定了其功能。本部分聚焦于从序列到结构和功能的计算转化过程,反映了该领域近年来最引人注目的突破。 1. 序列比对与同源性搜索的进阶: 超越基础的BLAST,本书详细考察了隐马尔可夫模型(HMMs)在构建蛋白质家族数据库(如Pfam)中的应用。讨论了PSI-BLAST和JackHMMER等迭代比对算法的统计学稳健性,以及在低同源性序列中提取生物学信号的技巧。 2. 蛋白质结构预测的深度学习革命: 深度学习,尤其是AlphaFold2及其后续模型的出现,彻底改变了结构生物学。本章深入剖析了这些模型的核心架构——如Attention机制和几何深度学习的应用。我们将解析如何利用共进化信息(Co-evolutionary signals)来推断残基间的空间距离约束,并探讨如何评估预测模型的置信度(如pLDDT分数)及其局限性。 3. 结构比较、动力学模拟与功能注释: 预测出的结构需要通过比较来理解其生物学意义。本节讲解了结构比对算法(如TM-score和RMSD的局限性),以及分子动力学(MD)模拟在探索蛋白质柔性和构象变化中的作用。同时,本书也介绍了基于结构域(Domain)和拓扑图的自动化功能注释流程。 第三部分:系统生物学中的网络建模与数据整合 生物系统并非孤立组件的简单集合,而是相互作用的复杂网络。本部分侧重于如何利用计算方法对这些交互网络进行建模、分析和推断。 1. 代谢网络(Metabolic Network)的拓扑分析: 介绍如何构建和表示生化反应网络,并深入讲解约束性基础代谢模型(FBA)的原理。重点讨论了如何通过优化方法预测细胞的最大生长率,以及如何利用FBA进行基因敲除或环境扰动下的系统响应分析。 2. 蛋白质-蛋白质相互作用网络(PPI Network)的挖掘: 讲解了大规模PPI数据的整合,包括从实验数据(酵母双杂交、Pull-down)和计算预测(文本挖掘)中提取可靠交互信息的方法。本章强调了网络拓扑分析工具(如中心性指标、模块检测算法)在识别关键调控蛋白和信号通路中的实际应用。 3. 多组学数据的整合分析框架: 现代系统研究往往涉及基因组学、转录组学、蛋白质组学等多层次数据。本书提出了一种通用的计算框架,用于校准、规范化和集成这些异构数据源。讨论了基于稀疏主成分分析(Sparse PCA)和多视图学习(Multi-view Learning)方法,以期揭示跨层级的生物学关联。 结语 《计算生物学:从基因组到蛋白质结构解析》是一本面向深度应用和方法论探索的参考书。它要求读者具备一定的编程基础(如Python或R)以及对离散数学和线性代数的基本理解。通过对这些前沿计算工具的透彻解析,本书旨在培养读者独立解决复杂生物学问题的能力,推动计算方法在生命科学研究中的创新应用。