內容簡介
《現代生物技術前沿:生物信息學》力求人各個重要的角度反映生物信息學今天的麵貌:比較全麵地介紹瞭生物信息學的若乾個主要分支,並特彆介紹瞭與人類基因組研究相關的生物信息學的一些較新的成果;著重介紹瞭數據庫和數據庫的查詢、序列的同源比較及其在生物進化研究中的應用;以生物芯片中的生物信息學問題為例,介紹與基因錶達相關的生物信息學問題;還介紹瞭蛋白質結構研究中的生物信息學問題,以及與分子設計和藥物設計相關的生物信息學技術。
內頁插圖
目錄
叢書序Ⅰ
叢書序Ⅱ
前言
第一章 生物信息學:導論
一、什麼是生物信息學?
二、生物信息學的研究現狀與發展趨勢
三、生物信息學的生物學內涵
(一)基因與基因組的信息學
(二)基因錶達的信息學:大規模基因功能錶達譜的分析
(三)生物大分子的三維結構信息:蛋白質結構模擬與分子設計
(四)代謝和疾病發生途徑的信息
四、生物信息學的信息學內涵
(一)生物信息數據庫
(二)分析工具的發展
五、生物信息學的應用與發展研究
(一)與疾病相關的基因信息及相關算法和軟件開發
(二)建立與動、植物良種繁育相關的基因組數據庫,發展分子標記輔助育種技術
(三)研究與發展藥物設計軟件和基於生物信息的分子生物學技術
六、生物信息學研究和發展中的交叉學科和大科學特點
(一)實驗生物學傢和計算生物學傢
(二)三種科學文化的融閤
(三)跨越整個生命科學的大科學
第二章 分子生物信息數據庫
一、分子生物信息數據庫簡介
(一)基因組計劃和數據庫
(二)分子生物信息數據庫種類
二、基因組數據庫
(一)GDB
(二)AceDB
三、序列數據庫
(一)核酸序列數據庫
(二)EMBL和GenBank數據庫格式
(三)常用蛋白質序列數據庫
(四)其他蛋白質序列數據庫
四、結構數據庫
(一)蛋白質結構數據庫PDB
(二)蛋白質結構分類數據庫SCOP和CATH
五、二次數據庫
(一)基因組信息二次數據庫
(二)蛋白質序列二次數據庫
(三)蛋白質結構二次數據庫
第三章 數據庫查詢和數據庫搜索
一、簡介
二、數據庫查詢係統Entrez
(一)Entrez係統使用方法
(二)Entrez係統的特點
三、數據庫查詢係統SRS
(一)SRS係統使用方法
(二)SRS係統的特點
四、數據庫搜索簡介
(一)核苷酸堿基和氨基酸殘基代碼錶
(二)相似性和同源性
(三)局部相似性和整體相似性
(四)相似性計分矩陣
五、數據庫搜索工具BLAST
(一)程序簡介
(二)BLAST程序運行實例
第四章 序列的同源比較及分子係統學和分子進化分析
一、簡介
二、相似序列的獲得
(一)BLAST
(二)與BLAST相關的一些知識
(三)獲得同源序列的其他方法
三、多序列比對
四、係統發育分析
(一)係統樹的構建方法
(二)常用的係統樹構建程序
(三)一些需要注意的問題
(四)COG數據庫
五、其他分子標記在生物係統學中的應用
(一)RFLP(restriction fragment length polymorphism)標記
(二)PCR擴增片段長度的多樣性
(三)SNP標記
(四)同工酶
第五章 生物信息學與基因芯片
一、概述
(一)基因芯片簡介
(二)基因芯片對於生物分子信息檢測的作用和意義
(三)基因芯片研究和應用中所涉及到的生物信息學問題
一、基因芯片設計及優化
(一)基因芯片設計的一般性原則
(二)DNA變異檢測型芯片與基因錶達型芯片的設計
(三)cDNA芯片與寡核苷酸芯片的設計
(四)寡核苷酸探針的優化設計
(五)基因芯片的優化
二、基於芯片的序列分析
(一)測定未知序列
(二)直接檢測目標序列
(三)DNA序列突變檢測分析
(四)SNP分析
四、基於芯片的基因功能分析
(一)基因錶達分析
(二)高密度基因錶達芯片
(三)基因錶達圖譜
(四)尋找基因功能
五、基因芯片檢測結果的分析
(一)熒光檢測圖像處理
(二)檢測結果分析
(三)檢測結果可靠性分析
八、基因芯片信息的管理和利用
(一)基因芯片信息管理
(二)數據集成和交叉索引
(三)數據的可比性和歸一化問題
(四)基因芯片信息的利用
七、基於基因芯片的數據挖掘及可視化
(一)數據挖掘
(二)基因芯片的多元數據結構
(三)數據相似程度的量化與距離矩陣
(四)聚類分析
(五)聚類分析結果的樹圖錶示
(六)基因芯片數據的可視化和與數據庫的鏈接
八、基因轉錄調控網絡分析
(一)布爾網絡模型
(二)綫性組閤模型
(三)加權矩陣模型
(四)互信息關聯網絡
第六章 蛋白質結構預測的原理與方法
一、引言
二、影響蛋白質摺疊的因素
三、蛋白質結構分析及蛋白質結構數據庫
(一)有關氨基酸殘基的信息
(二)周期性的二級結構
(三)非同期性的二級結構
(四)殘基間的相互作用及埋藏
(五)超二級結構
(六)蛋白質結構數據庫
(七)蛋白質結構域的摺疊模式與蛋白質結構分類數據庫
(八)蛋白質的進化
四、二級結構預測
(一)二級結構預測概況
(二)Chou-Fasman方法
(三)COR方法
(四)最近鄰居方法
(五)神經網絡方法
(六)基於多重序列比對的二級結構預測
(七)二級結構預測的準確度
(八)二級結構在綫預測(onlineprediction)
五、三級結構預測
(一)同源蛋白質結構預測
(二)蛋白質摺疊類型識彆
(三)蛋白質結構從頭預測
六、蛋白質結構預測發展趨勢
第七章 生物信息學與藥物設計
一當代生物醫藥研究所麵臨的睏難
二、現代生物學給生物醫藥帶來的發展契機
三、基因組學、蛋白質組學和生物信息學在藥物研究中的應用
(一)選擇藥物作用靶標的標準
(二)候選藥物作用靶標的發現
(三)靶標有效性的驗證
(四)藥物作用機製的研究
(五)藥物的藥代動力學及毒理性質的研究
四、計算機輔助藥物設計
(一)間接藥物設計
(二)直接藥物設計
(三)藥物設計實例
五、未來藥物研究方法展望
(一)人類基因組和生物信息學的發展,將為藥物設計研究開闢更廣闊的空間
(二)超級計算機的發展將為復雜生物體係的理論計算和藥物設計創造有利的條件
(三)計算機輔助藥物設計與組閤化學技術相結閤將顯示巨大威力
(四)基於結構的藥物設計將嚮基於作用機製的藥物設計方嚮發展
前言/序言
生物信息學(bioinformatics)是一門新興的交叉學科。它所研究的材料是生物學的數據,而它進行研究所采用的方法,則是從各種計算技術衍生齣來的。在曆史上,生物信息學也曾經被稱為“計算生物學”。隨著基因組研究的日益深入,生物學數據積纍齣現瞭前所未有的飛躍。首先,數據增長的速度之快,已經隻有計算機芯片計算能力的增長能與之相匹配(Moore定律,每18個月翻一番的指數增長);其次,數據的本質齣現瞭從生理生化數據嚮遺傳信息飛躍以及進一步嚮遺傳與結構功能相互關係信息的飛躍。因此,基因組研究啓動以來的十年,是生物學研究真正從往日的以描述、定性研究為主的“經典”模式中脫胎,逐步進入以機製、定量研究為主的“信息生物學”模式的十年,是生物信息學技術不斷發展的十年。
我國生物信息學的研究和應用最早應追溯到分子生物學時代和計算機時代之前在生物統計方麵進行的工作,譬如群體遺傳學方麵的工作。雖然這方麵的工作具有極大的發展潛力,但是,沒有分子生物學提供遺傳學研究的工具,沒有現代的計算機和計算技術提供數據處理的平颱,這些工作隻能停留在理論模建的階段。“文化大革命”之後,隨著分子生物學特彆是蛋白質晶體結構解析能力的提高和蛋白質工程技術的發展和應用,在國傢“863”計劃等高科技計劃的支持下,以蛋白質分子結構的計算及模擬為代錶的“計算生物學”技術在我國有瞭一定的發展。進入20世紀90年代後期,隨著基因組研究在我國的蓬勃發展,我國科學工作者不失時機地開始發展基因組信息技術。應該說,在過去的五年中(第九個五年計劃期間),我國基因組信息技術的發展,特彆是普及的速度是前所未有的。本書的齣版,從一個側麵反映瞭我國科學傢在這方麵努力的成果。
生物信息學不僅是一門新興的學科,隨著基因組研究的發展,它又是一門覆蓋麵極廣的綜閤性學科。本書力求從各個重要的角度反映生物信息學今天的麵貌。第一章導論,除比較全麵地介紹瞭生物信息學的各個分支外,強調瞭與人類基因組研究相關的生物信息學的一些較新的成果。第二、三章著重介紹瞭數據庫和數據庫的查詢,這是生物信息學和生物信息技術的基礎。第四章著重介紹序列的同源比較及其在生物進化研究中的應用,這是今天的實驗生物學傢運用最為普遍的生物信息技術。第五章以生物芯片中的生物信息學問題為例,介紹與基因錶達相關的生物信息學問題,可以預見,隨著大規模基因錶達譜和蛋白質組研究的發展,這一內容將獲得更為廠泛的關注。第六章介紹蛋白質結構研究中的生物信息學問題,這些問題對於研究生物分子的結構與功能關係的讀者一定是有吸引力的。第七章介紹與分子設計和藥物設計相關的生物信息學技術,這一點可能是今後生物信息學應用研究中最為吸引人的部分之一,也是我國今後生物信息學發展的一個重要方麵。
遺憾的是,生物信息學的許多重要組成部分未能在本書中得到反映,這固然與本人的能力有限有關,也與我們的一些科學傢工作繁忙,無暇顧及寫作有關。好在本書隻是旨在對生物信息學作一般性的介紹,讀者如果通過閱讀本書,感覺到生物信息學的重要,並對生物信息學研究的入門有一定的認識,本書的作者們也就感到是完成瞭任務。
本書的作者們都是在科研第一綫從事生物信息學或與生物信息學相關研究的科學傢。我對於他們在百忙中完成這一寫作任務錶示深切的感謝!由於時間限製,我們寫作和編輯中難免有錯誤或問題,希望得到同行們的批評和指正。
我國生物學傢正在積極參與基因組的各個層次上的研究工作,他們對發展生物信息學研究、應用生物信息技術具有強烈的需求。另一方麵,我國又有特彆優秀的物理學和數學基礎,我國已經有一批物理學傢和數學傢積極地投入瞭生物信息學的研究。因此,生物信息學的研究在我國有望取得突破性成果,這對於增強我國在基礎研究領域的實力,在某些方麵占據國際領先地位是十分重要的。生物信息學成果的應用也會産生巨大的社會效益和經濟效益,為實現我國的社會發展、人民幸福、國傢富強貢獻力量。本書作者們願與讀者們一起努力,為開創生物信息學發展的大好局麵而繼續努力。
現代生物技術前沿:生物信息學 作者: [此處留空,或填寫作者名] 齣版社: [此處留空,或填寫齣版社名] ISBN: [此處留空,或填寫ISBN] --- 內容提要 本書旨在為讀者提供一個全麵而深入的視角,探討在不涉及現代生物技術前沿的生物信息學領域的知識體係與發展脈絡。我們將聚焦於生物學數據處理、分析和詮釋的經典方法論,這些方法構成瞭現代生物信息學發展的基礎,但其核心內容並不直接指嚮當前最尖端的生物技術應用(如基因編輯、閤成生物學、單細胞組學深度集成分析等)。 本書將結構化地梳理和闡述支撐整個生物信息學領域的計算生物學基礎、序列分析的經典算法、結構生物學的早期模型構建,以及基因組學的宏觀描述方法。我們緻力於在不觸及當前“前沿”技術熱點的前提下,深入剖析這些學科的理論根基、曆史演進和基礎工具箱。 --- 第一部分:計算生物學與生物信息學基礎 本部分奠定瞭理解生物信息學所需的數學、統計學和計算機科學基礎,著重於這些基礎在處理生物數據(尤其是早期DNA/蛋白質序列數據)時的應用,而非依賴於最新的生物技術生成的高通量數據流。 第一章:生物信息學的曆史溯源與基本概念 迴顧生物信息學學科的萌芽階段,重點介紹序列數據的早期收集、存儲和基本檢索需求。討論信息論在生物學中的初步應用,如熵的概念在區分不同生物大分子特性上的價值。明確生物信息學區彆於傳統生物學和純粹計算機科學的獨特邊界,側重於其作為數據整閤科學的初期定位。 第二章:數據結構與算法基礎(麵嚮生物學應用) 詳細介紹適閤處理生物序列(字符串)的基本數據結構,如鏈錶、樹結構在構建生物學數據庫中的應用。深入探討排序、搜索算法(如二分查找、哈希錶)如何應用於早期的核酸或蛋白質序列比對準備工作。本章將著重於基礎算法的效率分析(時間復雜度和空間復雜度),而非依賴於需要特定高通量數據支持的復雜動態規劃優化。 第三章:生物學統計學建模導論 闡述基本的概率論和統計推斷方法,如貝葉斯定理在生物分類學和序列相似性評估中的應用。討論假設檢驗(如t檢驗、卡方檢驗)在比較不同生物群體或基因錶達水平(基於早期實驗方法獲得的相對量)時的經典應用範式。介紹綫性迴歸模型在生物劑量反應關係建模中的作用。 --- 第二部分:經典序列分析與比對方法 本部分深入探討序列比對和分析的核心理論,這些理論是信息學分析的基石,其發展早於當前主流的下一代測序技術。 第四章:局部與全局序列比對理論 詳盡解析Needleman-Wunsch算法(全局比對)和Smith-Waterman算法(局部比對)的數學原理和動態規劃實現過程。重點討論得分矩陣(如PAM和BLOSUM係列)的構建哲學,強調這些矩陣是基於對進化距離的統計推測而非直接基於海量測序數據。探討比對得分的統計顯著性評估的早期方法。 第五章:數據庫檢索係統——BLAST的原理 係統介紹BLAST(Basic Local Alignment Search Tool)算法的核心思想,包括高分對子(High-scoring Segment Pairs, HSPs)的提取、分詞(Word Size)策略和統計過濾機製。深入分析BLAST如何通過近似匹配策略在不消耗過多計算資源的情況下,快速有效地在大型序列數據庫中定位相似序列,這是在數據庫規模有限時的有效解決方案。 第六章:多序列比對與結構預測的早期視角 講解多序列比對(MSA)的必要性,並介紹ClustalW等經典多序列比對算法的工作流程,包括基於距離矩陣的聚類方法(如Neighbor-Joining)。討論MSA如何服務於蛋白質結構預測的早期嘗試,即同源建模(Homology Modeling)中,如何利用比對信息構建三維結構的初步框架。 --- 第三部分:基因組學與係統生物學的宏觀視圖 本部分關注於對基因組和蛋白質組進行概括性描述和分類,側重於結構和功能的注釋,而非對復雜調控網絡的實時追蹤。 第七章:基因與蛋白質的識彆與注釋(非高通量方法) 介紹識彆基因的傳統方法,如Open Reading Frame (ORF) 搜索、啓動子和終止子的特徵識彆。討論基於信號肽、跨膜區域等生物學特徵的蛋白質結構域(Domain)數據庫(如Pfam的早期版本)的構建原理和應用,著重於基於特徵序列的注釋流程。 第八章:分子進化與係統發育樹的構建 深入探討構建係統發育樹的經典方法,如鄰接法(NJ)、最大簡約法(MP)和最大似然法(ML)的基礎模型。詳細解析用於計算遺傳距離的進化模型(如Jukes-Cantor, Kimura雙參數模型),這些模型基於對點突變速率的假設,是理解生物分子進化速度的關鍵。 第九章:早期的基因組組裝與序列組裝哲學 迴顧序列組裝的計算挑戰,重點討論基於重疊群(Contig)和Scaffold構建的原理,以及早期Sanger測序數據特有的錯誤模式和處理方法。解釋如何使用重疊度信息來推斷片段間的相對位置和方嚮,建立連續的基因組圖譜。 --- 第四部分:結構生物學信息學方法 本部分聚焦於如何從序列信息推導蛋白質的三維結構特徵,主要關注基於模闆和物理化學原理的計算方法。 第十章:蛋白質二級結構預測的經典算法 介紹基於一維序列信息預測α螺鏇、β摺疊和無規捲麯的早期方法,如Chou-Fasman方法和GOR方法。分析這些方法如何依賴於特定的氨基酸殘基傾嚮性統計,以及它們在預測準確性上的局限性。 第十一章:分子對接與構象搜索的幾何基礎 闡述分子對接(Molecular Docking)的基本幾何和能量學原理。討論如何使用網格搜索、形狀匹配和勢能函數來評估配體與靶點之間的結閤親和力。重點分析基於剛性配體和柔性受體模型的早期計算流程。 第十二章:生物信息學工具的部署與數據管理(經典視角) 探討在沒有雲計算和大型生物信息學平颱支持的時代,如何利用本地服務器和腳本語言(如Perl, 早期Python)管理和處理生物學數據集。介紹經典生物信息學軟件(如EMBOSS, GCG套件)的安裝、配置和基本流程自動化,強調軟件接口和文件格式標準(如FASTA, GenBank)的重要性。 --- 結語 本書通過對計算生物學、序列分析、係統發育和結構預測等領域的基礎理論和經典算法的係統性梳理,為讀者構建瞭一個堅實的“非前沿”生物信息學知識框架。理解這些基礎,是任何進一步學習現代生物技術所衍生齣的復雜信息學工具的必要前提。我們相信,對計算方法的深刻理解,而非僅僅對新興工具的淺嘗輒止,纔能真正掌握生物信息學這門學科的精髓。