内容简介
《现代生物技术前沿:生物信息学》力求人各个重要的角度反映生物信息学今天的面貌:比较全面地介绍了生物信息学的若干个主要分支,并特别介绍了与人类基因组研究相关的生物信息学的一些较新的成果;着重介绍了数据库和数据库的查询、序列的同源比较及其在生物进化研究中的应用;以生物芯片中的生物信息学问题为例,介绍与基因表达相关的生物信息学问题;还介绍了蛋白质结构研究中的生物信息学问题,以及与分子设计和药物设计相关的生物信息学技术。
内页插图
目录
丛书序Ⅰ
丛书序Ⅱ
前言
第一章 生物信息学:导论
一、什么是生物信息学?
二、生物信息学的研究现状与发展趋势
三、生物信息学的生物学内涵
(一)基因与基因组的信息学
(二)基因表达的信息学:大规模基因功能表达谱的分析
(三)生物大分子的三维结构信息:蛋白质结构模拟与分子设计
(四)代谢和疾病发生途径的信息
四、生物信息学的信息学内涵
(一)生物信息数据库
(二)分析工具的发展
五、生物信息学的应用与发展研究
(一)与疾病相关的基因信息及相关算法和软件开发
(二)建立与动、植物良种繁育相关的基因组数据库,发展分子标记辅助育种技术
(三)研究与发展药物设计软件和基于生物信息的分子生物学技术
六、生物信息学研究和发展中的交叉学科和大科学特点
(一)实验生物学家和计算生物学家
(二)三种科学文化的融合
(三)跨越整个生命科学的大科学
第二章 分子生物信息数据库
一、分子生物信息数据库简介
(一)基因组计划和数据库
(二)分子生物信息数据库种类
二、基因组数据库
(一)GDB
(二)AceDB
三、序列数据库
(一)核酸序列数据库
(二)EMBL和GenBank数据库格式
(三)常用蛋白质序列数据库
(四)其他蛋白质序列数据库
四、结构数据库
(一)蛋白质结构数据库PDB
(二)蛋白质结构分类数据库SCOP和CATH
五、二次数据库
(一)基因组信息二次数据库
(二)蛋白质序列二次数据库
(三)蛋白质结构二次数据库
第三章 数据库查询和数据库搜索
一、简介
二、数据库查询系统Entrez
(一)Entrez系统使用方法
(二)Entrez系统的特点
三、数据库查询系统SRS
(一)SRS系统使用方法
(二)SRS系统的特点
四、数据库搜索简介
(一)核苷酸碱基和氨基酸残基代码表
(二)相似性和同源性
(三)局部相似性和整体相似性
(四)相似性计分矩阵
五、数据库搜索工具BLAST
(一)程序简介
(二)BLAST程序运行实例
第四章 序列的同源比较及分子系统学和分子进化分析
一、简介
二、相似序列的获得
(一)BLAST
(二)与BLAST相关的一些知识
(三)获得同源序列的其他方法
三、多序列比对
四、系统发育分析
(一)系统树的构建方法
(二)常用的系统树构建程序
(三)一些需要注意的问题
(四)COG数据库
五、其他分子标记在生物系统学中的应用
(一)RFLP(restriction fragment length polymorphism)标记
(二)PCR扩增片段长度的多样性
(三)SNP标记
(四)同工酶
第五章 生物信息学与基因芯片
一、概述
(一)基因芯片简介
(二)基因芯片对于生物分子信息检测的作用和意义
(三)基因芯片研究和应用中所涉及到的生物信息学问题
一、基因芯片设计及优化
(一)基因芯片设计的一般性原则
(二)DNA变异检测型芯片与基因表达型芯片的设计
(三)cDNA芯片与寡核苷酸芯片的设计
(四)寡核苷酸探针的优化设计
(五)基因芯片的优化
二、基于芯片的序列分析
(一)测定未知序列
(二)直接检测目标序列
(三)DNA序列突变检测分析
(四)SNP分析
四、基于芯片的基因功能分析
(一)基因表达分析
(二)高密度基因表达芯片
(三)基因表达图谱
(四)寻找基因功能
五、基因芯片检测结果的分析
(一)荧光检测图像处理
(二)检测结果分析
(三)检测结果可靠性分析
八、基因芯片信息的管理和利用
(一)基因芯片信息管理
(二)数据集成和交叉索引
(三)数据的可比性和归一化问题
(四)基因芯片信息的利用
七、基于基因芯片的数据挖掘及可视化
(一)数据挖掘
(二)基因芯片的多元数据结构
(三)数据相似程度的量化与距离矩阵
(四)聚类分析
(五)聚类分析结果的树图表示
(六)基因芯片数据的可视化和与数据库的链接
八、基因转录调控网络分析
(一)布尔网络模型
(二)线性组合模型
(三)加权矩阵模型
(四)互信息关联网络
第六章 蛋白质结构预测的原理与方法
一、引言
二、影响蛋白质折叠的因素
三、蛋白质结构分析及蛋白质结构数据库
(一)有关氨基酸残基的信息
(二)周期性的二级结构
(三)非同期性的二级结构
(四)残基间的相互作用及埋藏
(五)超二级结构
(六)蛋白质结构数据库
(七)蛋白质结构域的折叠模式与蛋白质结构分类数据库
(八)蛋白质的进化
四、二级结构预测
(一)二级结构预测概况
(二)Chou-Fasman方法
(三)COR方法
(四)最近邻居方法
(五)神经网络方法
(六)基于多重序列比对的二级结构预测
(七)二级结构预测的准确度
(八)二级结构在线预测(onlineprediction)
五、三级结构预测
(一)同源蛋白质结构预测
(二)蛋白质折叠类型识别
(三)蛋白质结构从头预测
六、蛋白质结构预测发展趋势
第七章 生物信息学与药物设计
一当代生物医药研究所面临的困难
二、现代生物学给生物医药带来的发展契机
三、基因组学、蛋白质组学和生物信息学在药物研究中的应用
(一)选择药物作用靶标的标准
(二)候选药物作用靶标的发现
(三)靶标有效性的验证
(四)药物作用机制的研究
(五)药物的药代动力学及毒理性质的研究
四、计算机辅助药物设计
(一)间接药物设计
(二)直接药物设计
(三)药物设计实例
五、未来药物研究方法展望
(一)人类基因组和生物信息学的发展,将为药物设计研究开辟更广阔的空间
(二)超级计算机的发展将为复杂生物体系的理论计算和药物设计创造有利的条件
(三)计算机辅助药物设计与组合化学技术相结合将显示巨大威力
(四)基于结构的药物设计将向基于作用机制的药物设计方向发展
前言/序言
生物信息学(bioinformatics)是一门新兴的交叉学科。它所研究的材料是生物学的数据,而它进行研究所采用的方法,则是从各种计算技术衍生出来的。在历史上,生物信息学也曾经被称为“计算生物学”。随着基因组研究的日益深入,生物学数据积累出现了前所未有的飞跃。首先,数据增长的速度之快,已经只有计算机芯片计算能力的增长能与之相匹配(Moore定律,每18个月翻一番的指数增长);其次,数据的本质出现了从生理生化数据向遗传信息飞跃以及进一步向遗传与结构功能相互关系信息的飞跃。因此,基因组研究启动以来的十年,是生物学研究真正从往日的以描述、定性研究为主的“经典”模式中脱胎,逐步进入以机制、定量研究为主的“信息生物学”模式的十年,是生物信息学技术不断发展的十年。
我国生物信息学的研究和应用最早应追溯到分子生物学时代和计算机时代之前在生物统计方面进行的工作,譬如群体遗传学方面的工作。虽然这方面的工作具有极大的发展潜力,但是,没有分子生物学提供遗传学研究的工具,没有现代的计算机和计算技术提供数据处理的平台,这些工作只能停留在理论模建的阶段。“文化大革命”之后,随着分子生物学特别是蛋白质晶体结构解析能力的提高和蛋白质工程技术的发展和应用,在国家“863”计划等高科技计划的支持下,以蛋白质分子结构的计算及模拟为代表的“计算生物学”技术在我国有了一定的发展。进入20世纪90年代后期,随着基因组研究在我国的蓬勃发展,我国科学工作者不失时机地开始发展基因组信息技术。应该说,在过去的五年中(第九个五年计划期间),我国基因组信息技术的发展,特别是普及的速度是前所未有的。本书的出版,从一个侧面反映了我国科学家在这方面努力的成果。
生物信息学不仅是一门新兴的学科,随着基因组研究的发展,它又是一门覆盖面极广的综合性学科。本书力求从各个重要的角度反映生物信息学今天的面貌。第一章导论,除比较全面地介绍了生物信息学的各个分支外,强调了与人类基因组研究相关的生物信息学的一些较新的成果。第二、三章着重介绍了数据库和数据库的查询,这是生物信息学和生物信息技术的基础。第四章着重介绍序列的同源比较及其在生物进化研究中的应用,这是今天的实验生物学家运用最为普遍的生物信息技术。第五章以生物芯片中的生物信息学问题为例,介绍与基因表达相关的生物信息学问题,可以预见,随着大规模基因表达谱和蛋白质组研究的发展,这一内容将获得更为厂泛的关注。第六章介绍蛋白质结构研究中的生物信息学问题,这些问题对于研究生物分子的结构与功能关系的读者一定是有吸引力的。第七章介绍与分子设计和药物设计相关的生物信息学技术,这一点可能是今后生物信息学应用研究中最为吸引人的部分之一,也是我国今后生物信息学发展的一个重要方面。
遗憾的是,生物信息学的许多重要组成部分未能在本书中得到反映,这固然与本人的能力有限有关,也与我们的一些科学家工作繁忙,无暇顾及写作有关。好在本书只是旨在对生物信息学作一般性的介绍,读者如果通过阅读本书,感觉到生物信息学的重要,并对生物信息学研究的入门有一定的认识,本书的作者们也就感到是完成了任务。
本书的作者们都是在科研第一线从事生物信息学或与生物信息学相关研究的科学家。我对于他们在百忙中完成这一写作任务表示深切的感谢!由于时间限制,我们写作和编辑中难免有错误或问题,希望得到同行们的批评和指正。
我国生物学家正在积极参与基因组的各个层次上的研究工作,他们对发展生物信息学研究、应用生物信息技术具有强烈的需求。另一方面,我国又有特别优秀的物理学和数学基础,我国已经有一批物理学家和数学家积极地投入了生物信息学的研究。因此,生物信息学的研究在我国有望取得突破性成果,这对于增强我国在基础研究领域的实力,在某些方面占据国际领先地位是十分重要的。生物信息学成果的应用也会产生巨大的社会效益和经济效益,为实现我国的社会发展、人民幸福、国家富强贡献力量。本书作者们愿与读者们一起努力,为开创生物信息学发展的大好局面而继续努力。
现代生物技术前沿:生物信息学 作者: [此处留空,或填写作者名] 出版社: [此处留空,或填写出版社名] ISBN: [此处留空,或填写ISBN] --- 内容提要 本书旨在为读者提供一个全面而深入的视角,探讨在不涉及现代生物技术前沿的生物信息学领域的知识体系与发展脉络。我们将聚焦于生物学数据处理、分析和诠释的经典方法论,这些方法构成了现代生物信息学发展的基础,但其核心内容并不直接指向当前最尖端的生物技术应用(如基因编辑、合成生物学、单细胞组学深度集成分析等)。 本书将结构化地梳理和阐述支撑整个生物信息学领域的计算生物学基础、序列分析的经典算法、结构生物学的早期模型构建,以及基因组学的宏观描述方法。我们致力于在不触及当前“前沿”技术热点的前提下,深入剖析这些学科的理论根基、历史演进和基础工具箱。 --- 第一部分:计算生物学与生物信息学基础 本部分奠定了理解生物信息学所需的数学、统计学和计算机科学基础,着重于这些基础在处理生物数据(尤其是早期DNA/蛋白质序列数据)时的应用,而非依赖于最新的生物技术生成的高通量数据流。 第一章:生物信息学的历史溯源与基本概念 回顾生物信息学学科的萌芽阶段,重点介绍序列数据的早期收集、存储和基本检索需求。讨论信息论在生物学中的初步应用,如熵的概念在区分不同生物大分子特性上的价值。明确生物信息学区别于传统生物学和纯粹计算机科学的独特边界,侧重于其作为数据整合科学的初期定位。 第二章:数据结构与算法基础(面向生物学应用) 详细介绍适合处理生物序列(字符串)的基本数据结构,如链表、树结构在构建生物学数据库中的应用。深入探讨排序、搜索算法(如二分查找、哈希表)如何应用于早期的核酸或蛋白质序列比对准备工作。本章将着重于基础算法的效率分析(时间复杂度和空间复杂度),而非依赖于需要特定高通量数据支持的复杂动态规划优化。 第三章:生物学统计学建模导论 阐述基本的概率论和统计推断方法,如贝叶斯定理在生物分类学和序列相似性评估中的应用。讨论假设检验(如t检验、卡方检验)在比较不同生物群体或基因表达水平(基于早期实验方法获得的相对量)时的经典应用范式。介绍线性回归模型在生物剂量反应关系建模中的作用。 --- 第二部分:经典序列分析与比对方法 本部分深入探讨序列比对和分析的核心理论,这些理论是信息学分析的基石,其发展早于当前主流的下一代测序技术。 第四章:局部与全局序列比对理论 详尽解析Needleman-Wunsch算法(全局比对)和Smith-Waterman算法(局部比对)的数学原理和动态规划实现过程。重点讨论得分矩阵(如PAM和BLOSUM系列)的构建哲学,强调这些矩阵是基于对进化距离的统计推测而非直接基于海量测序数据。探讨比对得分的统计显著性评估的早期方法。 第五章:数据库检索系统——BLAST的原理 系统介绍BLAST(Basic Local Alignment Search Tool)算法的核心思想,包括高分对子(High-scoring Segment Pairs, HSPs)的提取、分词(Word Size)策略和统计过滤机制。深入分析BLAST如何通过近似匹配策略在不消耗过多计算资源的情况下,快速有效地在大型序列数据库中定位相似序列,这是在数据库规模有限时的有效解决方案。 第六章:多序列比对与结构预测的早期视角 讲解多序列比对(MSA)的必要性,并介绍ClustalW等经典多序列比对算法的工作流程,包括基于距离矩阵的聚类方法(如Neighbor-Joining)。讨论MSA如何服务于蛋白质结构预测的早期尝试,即同源建模(Homology Modeling)中,如何利用比对信息构建三维结构的初步框架。 --- 第三部分:基因组学与系统生物学的宏观视图 本部分关注于对基因组和蛋白质组进行概括性描述和分类,侧重于结构和功能的注释,而非对复杂调控网络的实时追踪。 第七章:基因与蛋白质的识别与注释(非高通量方法) 介绍识别基因的传统方法,如Open Reading Frame (ORF) 搜索、启动子和终止子的特征识别。讨论基于信号肽、跨膜区域等生物学特征的蛋白质结构域(Domain)数据库(如Pfam的早期版本)的构建原理和应用,着重于基于特征序列的注释流程。 第八章:分子进化与系统发育树的构建 深入探讨构建系统发育树的经典方法,如邻接法(NJ)、最大简约法(MP)和最大似然法(ML)的基础模型。详细解析用于计算遗传距离的进化模型(如Jukes-Cantor, Kimura双参数模型),这些模型基于对点突变速率的假设,是理解生物分子进化速度的关键。 第九章:早期的基因组组装与序列组装哲学 回顾序列组装的计算挑战,重点讨论基于重叠群(Contig)和Scaffold构建的原理,以及早期Sanger测序数据特有的错误模式和处理方法。解释如何使用重叠度信息来推断片段间的相对位置和方向,建立连续的基因组图谱。 --- 第四部分:结构生物学信息学方法 本部分聚焦于如何从序列信息推导蛋白质的三维结构特征,主要关注基于模板和物理化学原理的计算方法。 第十章:蛋白质二级结构预测的经典算法 介绍基于一维序列信息预测α螺旋、β折叠和无规卷曲的早期方法,如Chou-Fasman方法和GOR方法。分析这些方法如何依赖于特定的氨基酸残基倾向性统计,以及它们在预测准确性上的局限性。 第十一章:分子对接与构象搜索的几何基础 阐述分子对接(Molecular Docking)的基本几何和能量学原理。讨论如何使用网格搜索、形状匹配和势能函数来评估配体与靶点之间的结合亲和力。重点分析基于刚性配体和柔性受体模型的早期计算流程。 第十二章:生物信息学工具的部署与数据管理(经典视角) 探讨在没有云计算和大型生物信息学平台支持的时代,如何利用本地服务器和脚本语言(如Perl, 早期Python)管理和处理生物学数据集。介绍经典生物信息学软件(如EMBOSS, GCG套件)的安装、配置和基本流程自动化,强调软件接口和文件格式标准(如FASTA, GenBank)的重要性。 --- 结语 本书通过对计算生物学、序列分析、系统发育和结构预测等领域的基础理论和经典算法的系统性梳理,为读者构建了一个坚实的“非前沿”生物信息学知识框架。理解这些基础,是任何进一步学习现代生物技术所衍生出的复杂信息学工具的必要前提。我们相信,对计算方法的深刻理解,而非仅仅对新兴工具的浅尝辄止,才能真正掌握生物信息学这门学科的精髓。