生物信息學進展研究論文
時間:2022-10-29 11:10:00
導語:生物信息學進展研究論文一文來源于網友上傳,不代表本站觀點,若需要原創文章可咨詢客服老師,歡迎參考。
[論文關鍵詞]生物信息學生命科學
[論文摘要]生物信息學是80年代以來新興的一門邊緣學科,信息在其中具有廣闊的前景。伴隨著人類基因組計劃的勝利完成與生物信息學的發展有著密不可分的聯系,生物信息學的發展為生命科學的發展為生命科學的研究帶來了諸多的便利,對此作了簡單的分析。
一、生物信息學的產生
21世紀是生命科學的世紀,伴隨著人類基因組計劃的勝利完成,與此同時,諸如大腸桿菌、結核桿菌、啤酒酵母、線蟲、果蠅、小鼠、擬南芥、水稻、玉米等等其它一些模式生物的基因組計劃也都相繼完成或正在順利進行。人類基因組以及其它模式生物基因組計劃的全面實施,使分子生物數據以爆炸性速度增長。在計算機科學領域,按照摩爾定律飛速前進的計算機硬件,以及逐步受到各國政府重視的信息高速公路計劃的實施,為生物信息資源的研究和應用帶來了福音。及時、充分、有效地利用網絡上不斷增長的生物信息數據庫資源,已經成為生命科學和生物技術研究開發的必要手段,從而誕生了生物信息學。
二、生物信息學研究內容
(一)序列比對
比較兩個或兩個以上符號序列的相似性或不相似性。序列比對是生物信息學的基礎。兩個序列的比對現在已有較成熟的動態規劃算法,以及在此基礎上編寫的比對軟件包BALST和FASTA,可以免費下載使用。這些軟件在數據庫查詢和搜索中有重要的應用。有時兩個序列總體并不很相似,但某些局部片斷相似性很高。Smith-Waterman算法是解決局部比對的好算法,缺點是速度較慢。兩個以上序列的多重序列比對目前還缺乏快速而又十分有效的算法。
(二)結構比對
比較兩個或兩個以上蛋白質分子空間結構的相似性或不相似性。
(三)蛋白質結構預測
從方法上來看有演繹法和歸納法兩種途徑。前者主要是從一些基本原理或假設出發來預測和研究蛋白質的結構和折疊過程。分子力學和分子動力學屬這一范疇。后者主要是從觀察和總結已知結構的蛋白質結構規律出發來預測未知蛋白質的結構。同源模建和指認(Threading)方法屬于這一范疇。雖然經過30余年的努力,蛋白結構預測研究現狀遠遠不能滿足實際需要。
(四)計算機輔助基因識別
給定基因組序列后,正確識別基因的范圍和在基因組序列中的精確位置.這是最重要的課題之一,而且越來越重要。經過20余年的努力,提出了數十種算法,有十種左右重要的算法和相應軟件上網提供免費服務。原核生物計算機輔助基因識別相對容易些,結果好一些。從具有較多內含子的真核生物基因組序列中正確識別出起始密碼子、剪切位點和終止密碼子,是個相當困難的問題,研究現狀不能令人滿意,仍有大量的工作要做。
(五)非編碼區分析和DNA語言研究
在人類基因組中,編碼部分進展總序列的3-5%,其它通常稱為“垃圾”DNA,其實一點也不是垃圾,只是我們暫時還不知道其重要的功能。分析非編碼區DNA序列需要大膽的想象和嶄新的研究思路和方法。DNA序列作為一種遺傳語言,不僅體現在編碼序列之中,而且隱含在非編碼序列之中。
三、生物信息學的新技術
(一)Lipshutz(Affymetrix,Santaclara,CA,USA)
描述了一種利用DNA探針陣列進行基因組研究的方法,其原理是通過更有效有作圖、表達檢測和多態性篩選方法,可以實現對人類基因組的測序。光介導的化學合成法被應用于制造小型化的高密度寡核苷酸探針的陣列,這種通過軟件包件設計的寡核苷酸探針陣列可用于多態性篩查、基因分型和表達檢測。然后這些陣列就可以直接用于并行DNA雜交分析,以獲得序列、表達和基因分型信息。Milosavljevic(CuraGen,Branford,CT,USA)介紹了一種新的基于專用定量表達分析方法的基因表達檢測系統,以及一種發現基因的系統GeneScape。為了有效地抽樣表達,特意制作片段模式以了解特定基因的子序列的發生和冗余程度。他在酵母差異基因表達的大規模研究中對該技術的性能進行了驗證,并論述了技術在基因的表達、生物學功能以及疾病的基礎研究中的應用。(二)基因的功能分析
Overton(UniversityofPennsylvaniaSchoolofMedicine,Philadelphia,PA,USA)論述了人類基因組計劃的下一階段的任務基因組水平的基因功能分析。這一階段產生的數據的分析、管理和可視性將毫無疑問地比第一階段更為復雜。他介紹了一種用于脊椎動物造血系統紅系發生的功能分析的原型系統E-poDB,它包括了用于集成數據資源的Kleisli系統和建立internet或intranet上視覺化工具的bioWidget圖形用戶界面。EpoDB有可能指導實驗人員發現不可能用傳統實驗方法得到的紅系發育的新的藥物靶,制藥業所感興趣的是全新的藥物靶,EpoDB提供了這樣一個機會,這可能是它最令人激動的地方。
Babbitt(UniversityofCalifornia,SanFrancisco,CA,USA)討論了通過數據庫搜索來識別遠緣蛋白質的方法。對蛋白質超家族的結構和功能的相互依賴性的理解,要求了解自然所塑造的一個特定結構模板的隱含限制。蛋白質結構之間的最有趣的關系經常在分歧的序列中得以表現,因而區分得分低(low-scoring)但生物學關系顯著的序列與得分高而生物學關系較不顯著的序列是重要的。Babbit證明了通過使用BLAST檢索,可以在數據庫搜索所得的低得分區識別遠緣關系(distantrelationship)。Levitt(Stanforduniveersity,PaloAlto,CA,USA)討論了蛋白質結構預測和一種僅從序列數據對功能自動模建的方法。基因功能取決于基因編碼的蛋白質的三級結構,但數據庫中蛋白質序列的數目每18個月翻一番。為了確定這些序列的功能,結構必須確定。同源模建和從頭折疊(abinitiofolding)方法是兩種現有的互為補充的蛋白質結構預測方法;同源模建是通過片段匹配(segmentmatching)來完成的,計算機程棄SegMod就是基于同源模建方法的。
(三)新的數據工具
Letovsky(JohnshopkinsUniversity,Baltimore,MD,USA)介紹了GDB數據庫,它由每條人類染色體的許多不同圖譜組成,包括細胞遺傳學、遺傳學、放射雜交和序列標簽位點(STS)的內容,以及由不同研究者用同種方法得到的圖譜。就位置查詢而言,如果不論其類型(type)和來源(source),或者是否它們正好包含用以批定感興趣的區域的標志(markers),能夠搜索所有圖譜是有用的。為此目的,該數據庫使用了一種公用坐標系統(commoncoordinatesystem)來排列這些圖譜。數據庫還提供了一張高分辨率的和與其他圖譜共享許多標志的圖譜作為標準。共享標志的標之間的對應性容許同等于所有其它圖譜的標準圖譜的分配。
Candlin(PEappliedBiosystems,FosterCity,CA,USA)介紹了一種新的存儲直接來自ABⅠPrismdNA測序儀的數據的關系數據庫系統BioLIMS。該系統可以與其它測序儀的數據集成,并可方便地與其它軟件包自動調用,為測序儀與序列數據的集成提供了一種開放的、可擴展的生物信息學平臺。
參考文獻:
[1]LimHA,BatttR.TIBTECH,1998;16(3)):104.
[2]Williamsn.Science,1997;277(5328):902.
- 上一篇:我國工程測量技術發展前景研究論文
- 下一篇:生態演替理論分析論文