欧美色欧美亚洲高清在线观看,国产特黄特色a级在线视频,国产一区视频一区欧美,亚洲成a 人在线观看中文

  1. <ul id="fwlom"></ul>

    <object id="fwlom"></object>

    <span id="fwlom"></span><dfn id="fwlom"></dfn>

      <object id="fwlom"></object>

      生物信息學(xué)簡介 -Intro to bioimf

      時(shí)間:2019-05-12 18:12:12下載本文作者:會員上傳
      簡介:寫寫幫文庫小編為你整理了多篇相關(guān)的《生物信息學(xué)簡介 -Intro to bioimf》,但愿對你工作學(xué)習(xí)有幫助,當(dāng)然你在寫寫幫文庫還可以找到更多《生物信息學(xué)簡介 -Intro to bioimf》。

      第一篇:生物信息學(xué)簡介 -Intro to bioimf

      生物信息學(xué)簡介

      生物信息學(xué)是一門利用計(jì)算機(jī)技術(shù)研究生物系統(tǒng)之規(guī)律的學(xué)科。它建立在分子生物學(xué)的基礎(chǔ)之上,并以計(jì)算機(jī)為工具對生物信息進(jìn)行存儲、檢索和分析。其研究重點(diǎn)體現(xiàn)在基因組學(xué)和蛋白質(zhì)組學(xué)兩個(gè)方面,具體來說就是從核酸和蛋白質(zhì)序列出發(fā),分析序列中表達(dá)的結(jié)構(gòu)功能的生物信息。生物信息學(xué)是當(dāng)今自然科學(xué)與生命科學(xué)的重大前沿科學(xué)之一。

      一、發(fā)展歷程

      1866年孟德爾從實(shí)驗(yàn)上提出了基因是以生物成分存在的假設(shè),5年以后Miescher從死亡的白細(xì)胞核中分離出DNA,1944年Avery和McCarty證明了DNA是生命器官的遺傳物質(zhì),同年Chargaff發(fā)現(xiàn)DNA中鳥嘌呤的量與胞嘧啶的總量總是相等,腺嘌呤與胸腺嘧啶的量相等。同時(shí),Wilkins與Franklin用X射線衍射技術(shù)測定了DNA纖維的結(jié)構(gòu)。1953年James Watson和Francis Crick推測出DNA的雙螺旋結(jié)構(gòu),DNA是以磷酸糖鏈形成的雙股螺旋結(jié)構(gòu),脫氧核糖上的堿基按Chargaff規(guī)律構(gòu)成的雙股磷酸糖鏈之間的堿基對。這個(gè)模型表示DNA具有自身的互補(bǔ)結(jié)構(gòu),根據(jù)堿基對原則,DNA中貯存的遺傳信息可以精確地進(jìn)行復(fù)制。1954年Crick提出了中心法則(Central dogma),揭示了遺傳信息的傳遞規(guī)律,即DNA是合成RNA的模板,RNA又是合成蛋白質(zhì)的模板,其對分子生物學(xué)和生物信息學(xué)的法則都起到了極其重要的指導(dǎo)作用。分子生物學(xué)揭示了生命科學(xué)中的微觀世界,對生命科學(xué)的發(fā)展起了巨大的推動(dòng)作用。在分子生物學(xué)的研究過程中,產(chǎn)生了大量的生物信息數(shù)據(jù),對大量生物信息數(shù)據(jù)的存儲檢索和分析可以借助計(jì)算機(jī),因此分子生物學(xué)與計(jì)算機(jī)科學(xué)、數(shù)學(xué)、信息技術(shù)等學(xué)科交叉形成的生物信息學(xué)成了一種必然的趨勢。

      隨著人類基因組工程測序的完成,生物信息學(xué)的研究又走向了一個(gè)高潮,在DNA自動(dòng)測序技術(shù)的快速發(fā)展的推動(dòng)下,DNA數(shù)據(jù)庫中的核酸序列公共數(shù)據(jù)量飛速增長迅速膨脹。這使得我們面臨著大量數(shù)據(jù)的組織和存儲、檢索的困難,而在巨大的數(shù)據(jù)量往往蘊(yùn)含著潛在突破性發(fā)現(xiàn)的可能。在這種背景下就產(chǎn)生了生物信息學(xué)這一交叉學(xué)科。簡單地說,該領(lǐng)域的核心內(nèi)容是研究如何通過對DNA序列的統(tǒng)計(jì)計(jì)算分析,更加深入地理解DNA序列、結(jié)構(gòu)、演化及其與生物功能之間的關(guān)系,其研究設(shè)計(jì)到分子生物學(xué)、分子演化及結(jié)構(gòu)生物學(xué),統(tǒng)計(jì)學(xué)及計(jì)算機(jī)科學(xué)與

      技術(shù)等諸多領(lǐng)域。

      二、研究現(xiàn)狀簡介

      生物信息學(xué)作為一門新興的交叉學(xué)科領(lǐng)域,在短短的二十年的發(fā)展過程中,形成了如序列對比、蛋白質(zhì)結(jié)構(gòu)對比和預(yù)測、序列重疊群裝配、代謝網(wǎng)絡(luò)分析等多個(gè)研究方向。

      1.序列對比

      序列對比(Sequence Alignment)的基本問題是比較兩個(gè)或者兩個(gè)以上符號的相似性或者不相似性。序列對比考慮了DNA序列的生物學(xué)特性,如局部發(fā)生的插入、刪除和替代,序列的目標(biāo)函數(shù)獲得序列之間突變集最小距離加權(quán)和或最大相似性和,對齊方法包括全局對齊,局部對齊,代溝懲罰等。通常采用的算法有動(dòng)態(tài)規(guī)劃算法,在序列長度較小的時(shí)候動(dòng)態(tài)規(guī)劃算法適用。然而當(dāng)基因序列的數(shù)據(jù)量非常大的時(shí)候,這一方法就不太適用,甚至采用線性復(fù)雜度的算法也難以湊效。因此在序列對比中引入了啟發(fā)式算法,如著名的BALST和FASTA算法。

      2.蛋白質(zhì)結(jié)構(gòu)對比和預(yù)測

      蛋白質(zhì)結(jié)構(gòu)對比和預(yù)測是比較兩個(gè)或者兩個(gè)以上蛋白質(zhì)分子空間結(jié)構(gòu)的相似性或不相似性。一般認(rèn)為,具有相似功能的蛋白質(zhì)結(jié)構(gòu)一般相似。蛋白質(zhì)是由氨基酸組成的長鏈,具有多種功能,如酶,物質(zhì)的存貯和運(yùn)輸,信號傳遞,抗體等等。我們可以通過研究蛋白質(zhì)結(jié)構(gòu)對比和預(yù)測:在醫(yī)藥上可以理解生物的功能,尋找docking drugs的目標(biāo),在農(nóng)業(yè)上可獲得更好的農(nóng)作物的基因,工業(yè)上有利于酶的合成。因?yàn)榈鞍踪|(zhì)的3維結(jié)構(gòu)比其一級結(jié)構(gòu)在進(jìn)化中更穩(wěn)定的保留,所以直接對蛋白質(zhì)結(jié)構(gòu)進(jìn)行比對。蛋白質(zhì)3維結(jié)構(gòu)研究的有著如下一個(gè)假設(shè),既內(nèi)在的氨基酸序列與3維結(jié)構(gòu)一一對應(yīng)。

      蛋白質(zhì)結(jié)構(gòu)的預(yù)測指的是從觀察和總結(jié)已知結(jié)構(gòu)的蛋白質(zhì)結(jié)構(gòu)規(guī)律出發(fā)來預(yù)測未知蛋白質(zhì)的結(jié)構(gòu),其本質(zhì)是一個(gè)組合優(yōu)化問題。同源建模(homology modeling)用于尋找具有高度相似性的蛋白質(zhì)結(jié)構(gòu)(超過30%氨基酸相同),指認(rèn)(Threading)則用于比較進(jìn)化族中不同的蛋白質(zhì)結(jié)構(gòu)。然而,蛋白結(jié)構(gòu)預(yù)測研究現(xiàn)狀還遠(yuǎn)遠(yuǎn)不能滿足實(shí)際需要。

      3.序列重疊群裝配

      受到現(xiàn)行的測序技術(shù)的限制,每次反應(yīng)只能測出500 或更多一些堿基對的序列,如在人類基因的測量過程中就采用了短槍(shortgun)方法,這就要求把大量的較短的序列全體構(gòu)成了重疊群(Contigs)。逐步把它們拼接起來形成序列更長的重疊群,直至得到完整序列的過程稱為重疊群裝配。這個(gè)過程從算法層次來看,序列的重疊群是一個(gè)NP-完全問題。

      4.代謝網(wǎng)絡(luò)分析(Metabolic network)

      代謝網(wǎng)絡(luò)是將細(xì)胞內(nèi)所有生化反應(yīng)表示為一個(gè)網(wǎng)絡(luò),反映了所有參與代謝過程的化合物之間以及所有催化酶之間的相互作用,是對細(xì)胞代謝過程的抽象表達(dá)。由于在生命過程中代謝活動(dòng)在是不斷發(fā)生的,代謝網(wǎng)絡(luò)隨時(shí)變化。由于大量反應(yīng)的動(dòng)力學(xué)參數(shù)都是未知的,使得其動(dòng)力學(xué)研究受到限制,而基于網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)的靜態(tài)分析得到了廣泛的應(yīng)用。靜態(tài)的代謝網(wǎng)絡(luò)分析主要有三類研究方法:流平衡分析;基元模式分析和極端途徑分析;圖論方法。

      5.基于結(jié)構(gòu)的藥物設(shè)計(jì)

      人類基因工程的目的之一是要了解人體內(nèi)約10萬種蛋白質(zhì)的結(jié)構(gòu)、功能、相互作用以及與各種人類疾病之間的關(guān)系,尋求各種治療和預(yù)防方法,包括藥物治療。基于生物大分子結(jié)構(gòu)及小分子結(jié)構(gòu)的藥物設(shè)計(jì)是生物信息學(xué)中的極為重要的研究領(lǐng)域。為了抑制某些酶或蛋白質(zhì)的活性,在已知其蛋白質(zhì)3級結(jié)構(gòu)的基礎(chǔ)上,可以利用分子對齊算法,在計(jì)算機(jī)上設(shè)計(jì)抑制劑分子,作為候選藥物。這一領(lǐng)域目的是發(fā)現(xiàn)新的基因藥物,有著巨大的經(jīng)濟(jì)效益。

      6.生物信息學(xué)技術(shù)方法

      生物信息學(xué)中產(chǎn)生的海量數(shù)據(jù)和復(fù)雜的背景導(dǎo)致機(jī)器學(xué)習(xí)、統(tǒng)計(jì)數(shù)據(jù)分析和系統(tǒng)描述等方法需要在生物信息學(xué)所面臨的背景之中迅速發(fā)展。巨大的計(jì)算量、復(fù)雜的噪聲模式、海量的時(shí)變數(shù)據(jù)給傳統(tǒng)的統(tǒng)計(jì)分析帶來了巨大的困難,因此提出了非參數(shù)統(tǒng)計(jì)、聚類分析等更加靈活的數(shù)據(jù)分析技術(shù)。在高維數(shù)據(jù)的分析中引入了偏最小二乘(partial least squares,PLS)等特征空間的壓縮技術(shù)。在計(jì)算機(jī)算法的設(shè)計(jì)時(shí),需要充分考慮算法的時(shí)間和空間復(fù)雜度,使用分布式并行計(jì)算、網(wǎng)格計(jì)算等技術(shù)來實(shí)現(xiàn)高效的算法。

      三、前景展望

      生物信息學(xué)是一門利用計(jì)算機(jī)技術(shù)研究生物系統(tǒng)之規(guī)律的學(xué)科。自從人類基

      因組計(jì)劃開展后, 大量的生物基因序列被測定, 如何從這些海量的數(shù)據(jù)中發(fā)現(xiàn)其生物學(xué)意義, 就需要借助計(jì)算機(jī)數(shù)據(jù)庫和計(jì)算機(jī)算法分析預(yù)測的手段。生物信息學(xué)的發(fā)展在國內(nèi)外基本上都處在起步階段, 所擁有的條件也大體相同。那么誰能夠更充分更高效更快捷地利用信息科學(xué)、控制科學(xué)、計(jì)算機(jī)科學(xué)等高技術(shù)手段來分析和理解數(shù)據(jù), 誰就能最先發(fā)現(xiàn)新線索、新現(xiàn)象和新規(guī)律, 也是其在生物信息學(xué)研究領(lǐng)域取得領(lǐng)先地位的先決條件。生物信息學(xué)是一門非常有發(fā)展遠(yuǎn)景的科學(xué), 現(xiàn)代信息技術(shù)則是它不可或缺的研究手段。

      第二篇:生物信息學(xué)簡介

      1、簡介

      生物信息學(xué)(Bioinformatics)是在生命科學(xué)的研究中,以計(jì)算機(jī)為工具對生物信息進(jìn)行儲存、檢索和分析的科學(xué)。它是當(dāng)今生命科學(xué)和自然科學(xué)的重大前沿領(lǐng)域之一,同時(shí)也將是21世紀(jì)自然科學(xué)的核心領(lǐng)域之一。其研究重點(diǎn)主要體現(xiàn)在基因組學(xué)(Genomics)和蛋白質(zhì)組學(xué)(Proteomics)兩方面,具體說就是從核酸和蛋白質(zhì)序列出發(fā),分析序列中表達(dá)的結(jié)構(gòu)功能的生物信息。

      具體而言,生物信息學(xué)作為一門新的學(xué)科領(lǐng)域,它是把基因組DNA序列信息分析作為源頭,在獲得蛋白質(zhì)編碼區(qū)的信息后進(jìn)行蛋白質(zhì)空間結(jié)構(gòu)模擬和預(yù)測,然后依據(jù)特定蛋白質(zhì)的功能進(jìn)行必要的藥物設(shè)計(jì)。基因組信息學(xué),蛋白質(zhì)空間結(jié)構(gòu)模擬以及藥物設(shè)計(jì)構(gòu)成了生物信息學(xué)的3個(gè)重要組成部分。從生物信息學(xué)研究的具體內(nèi)容上看,生物信息學(xué)應(yīng)包括這3個(gè)主要部分:(1)新算法和統(tǒng)計(jì)學(xué)方法研究;(2)各類數(shù)據(jù)的分析和解釋;(3)研制有效利用和管理數(shù)據(jù)新工具。

      生物信息學(xué)是一門利用計(jì)算機(jī)技術(shù)研究生物系統(tǒng)之規(guī)律的學(xué)科。

      目前的生物信息學(xué)基本上只是分子生物學(xué)與信息技術(shù)(尤其是因特網(wǎng)技術(shù))的結(jié)合體。生物信息學(xué)的研究材料和結(jié)果就是各種各樣的生物學(xué)數(shù)據(jù),其研究工具是計(jì)算機(jī),研究方法包括對生物學(xué)數(shù)據(jù)的搜索(收集和篩選)、處理(編輯、整理、管理和顯示)及利用(計(jì)算、模擬)。

      1990年代以來,伴隨著各種基因組測序計(jì)劃的展開和分子結(jié)構(gòu)測定技術(shù)的突破和Internet的普及,數(shù)以百計(jì)的生物學(xué)數(shù)據(jù)庫如雨后春筍般迅速出現(xiàn)和成長。對生物信息學(xué)工作者提出了嚴(yán)峻的挑戰(zhàn):數(shù)以億計(jì)的ACGT序列中包涵著什么信息?基因組中的這些信息怎樣控制有機(jī)體的發(fā)育?基因組本身又是怎樣進(jìn)化的?

      生物信息學(xué)的另一個(gè)挑戰(zhàn)是從蛋白質(zhì)的氨基酸序列預(yù)測蛋白質(zhì)結(jié)構(gòu)。這個(gè)難題已困擾理論生物學(xué)家達(dá)半個(gè)多世紀(jì),如今找到問題答案要求正變得日益迫切。諾貝爾獎(jiǎng)獲得者W.Gilbert在1991年曾經(jīng)指出:“傳統(tǒng)生物學(xué)解決問題的方式是實(shí)驗(yàn)的?,F(xiàn)在,基于全部基因都將知曉,并以電子可操作的方式駐留在數(shù)據(jù)庫中,新的生物學(xué)研究模式的出發(fā)點(diǎn)應(yīng)是理論的。一個(gè)科學(xué)家將從理論推測出發(fā),然后再回到實(shí)驗(yàn)中去,追蹤或驗(yàn)證這些理論假設(shè)”。

      生物信息學(xué)的主要研究方向: 基因組學(xué)系統(tǒng)生物學(xué)-比較基因組學(xué),1989年在美國舉辦生物化學(xué)系統(tǒng)論與生物數(shù)學(xué)的計(jì)算機(jī)模型國際會議,生物信息學(xué)發(fā)展到了計(jì)算生物學(xué)、計(jì)算系統(tǒng)生物學(xué)的時(shí)代。

      姑且不去引用生物信息學(xué)冗長的定義,以通俗的語言闡述其核心應(yīng)用即是:隨著包括人類基因組計(jì)劃在內(nèi)的生物基因組測序工程的里程碑式的進(jìn)展,由此產(chǎn)生的包括生物體生老病死的生物數(shù)據(jù)以前所未有的速度遞增,目前已達(dá)到每14個(gè)月翻一番的速度。同時(shí)隨著互聯(lián)網(wǎng)的普及,數(shù)以百計(jì)的生物學(xué)數(shù)據(jù)庫如雨后春筍般迅速出現(xiàn)和成長。然而這些僅僅是原始生物信息的獲取,是生物信息學(xué)產(chǎn)業(yè)發(fā)展的初組階段,這一階段的生物信息學(xué)企業(yè)大都以出售生物數(shù)據(jù)庫為生。以人類基因組測序而聞名的塞萊拉公司即是這一階段的成功代表。

      原始的生物信息資源挖掘出來后,生命科學(xué)工作者面臨著嚴(yán)峻的挑戰(zhàn):數(shù)以億計(jì)的ACGT序列中包涵著什么信息?基因組中的這些信息怎樣控制有機(jī)體的發(fā)育?基因組本身又是怎樣進(jìn)化的?生物信息學(xué)產(chǎn)業(yè)的高級階段體現(xiàn)于此,人類從此進(jìn)入了以生物信息學(xué)為中心的后基因組時(shí)代。結(jié)合生物信息學(xué)的新藥創(chuàng)新工程即是這一階段的典型應(yīng)用。

      2、發(fā)展簡介

      生物信息學(xué)是建立在分子生物學(xué)的基礎(chǔ)上的,因此,要了解生物信息學(xué),就必須先對分子生物學(xué)的發(fā)展有一個(gè)簡單的了解。研究生物細(xì)胞的生物大分子的結(jié)構(gòu)與功能很早就已經(jīng)開始,1866年孟德爾從實(shí)驗(yàn)上提出了假設(shè):基因是以生物成分存在,1871年Miescher從死的白細(xì)胞核中分離出脫氧核糖核酸(DNA),在Avery和McCarty于1944年證明了DNA是生命器官的遺傳物質(zhì)以前,人們?nèi)匀徽J(rèn)為染色體蛋白質(zhì)攜帶基因,而DNA是一個(gè)次要的角色。1944年Chargaff發(fā)現(xiàn)了著名的Chargaff規(guī)律,即DNA中鳥嘌呤的量與胞嘧定的量總是相等,腺嘌呤與胸腺嘧啶的量相等。與此同時(shí),Wilkins與Franklin用X射線衍射技術(shù)測

      定了DNA纖維的結(jié)構(gòu)。1953年James Watson 和FrancisCrick在Nature雜志上推測出DNA的三維結(jié)構(gòu)(雙螺旋)。DNA以磷酸糖鏈形成發(fā)雙股螺旋,脫氧核糖上的堿基按Chargaff規(guī)律構(gòu)成雙股磷酸糖鏈之間的堿基對。這個(gè)模型表明DNA具有自身互補(bǔ)的結(jié)構(gòu),根據(jù)堿基對原則,DNA中貯存的遺傳信息可以精確地進(jìn)行復(fù)制。他們的理論奠定了分子生物學(xué)的基礎(chǔ)。DNA雙螺旋模型已經(jīng)預(yù)示出了DNA復(fù)制的規(guī)則,Kornberg于1956年從大腸桿菌(E.coli)中分離出DNA聚合酶I(DNA polymerase I),能使4種dNTP連接成DNA。DNA的復(fù)制需要一個(gè)DNA作為模板。Meselson與Stahl(1958)用實(shí)驗(yàn)方法證明了DNA復(fù)制是一種半保留復(fù)制。Crick于1954年提出了遺傳信息傳遞的規(guī)律,DNA是合成RNA的模板,RNA又是合成蛋白質(zhì)的模板,稱之為中心法則(Central dogma),這一中心法則對以后分子生物學(xué)和生物信息學(xué)的發(fā)展都起到了極其重要的指導(dǎo)作用。經(jīng)過Nirenberg和Matthai(1963)的努力研究,編碼20氨基酸的遺傳密碼得到了破譯。限制性內(nèi)切酶的發(fā)現(xiàn)和重組DNA的克?。╟lone)奠定了基因工程的技術(shù)基礎(chǔ)。正是由于分子生物學(xué)的研究對生命科學(xué)的發(fā)展有巨大的推動(dòng)作用,生物信息學(xué)的出現(xiàn)也就成了一種必然。2001年2月,人類基因組工程測序的完成,使生物信息學(xué)走向了一個(gè)高潮。由于DNA自動(dòng)測序技術(shù)的快速發(fā)展,DNA數(shù)據(jù)庫中的核酸序列公共數(shù)據(jù)量以每天106bp速度增長,生物信息迅速地膨脹成數(shù)據(jù)的海洋。毫無疑問,我們正從一個(gè)積累數(shù)據(jù)向解釋數(shù)據(jù)的時(shí)代轉(zhuǎn)變,數(shù)據(jù)量的巨大積累往往蘊(yùn)含著潛在突破性發(fā)現(xiàn)的可能,“生物信息學(xué)”正是從這一前提產(chǎn)生的交叉學(xué)科。粗略地說,該領(lǐng)域的核心內(nèi)容是研究如何通過對DNA序列的統(tǒng)計(jì)計(jì)算分析,更加深入地理解DNA序列,結(jié)構(gòu),演化及其與生物功能之間的關(guān)系,其研究課題涉及到分子生物學(xué),分子演化及結(jié)構(gòu)生物學(xué),統(tǒng)計(jì)學(xué)及計(jì)算機(jī)科學(xué)等許多領(lǐng)域。生物信息學(xué)是內(nèi)涵非常豐富的學(xué)科,其核心是基因組信息學(xué),包括基因組信息的獲取,處理,存儲,分配和解釋?;蚪M信息學(xué)的關(guān)鍵是“讀懂”基因組的核苷酸順序,即全部基因在染色體上的確切位置以及各DNA片段的功能;同時(shí)在發(fā)現(xiàn)了新基因信息之后進(jìn)行蛋白質(zhì)空間結(jié)構(gòu)模擬和預(yù)測,然后依據(jù)特定蛋白質(zhì)的功能進(jìn)行藥物設(shè)計(jì)。了解基因表達(dá)的調(diào)控機(jī)理也是生物信息學(xué)的重要內(nèi)容,根據(jù)生物分子在基因調(diào)控中的作用,描述人類疾病的診斷,治療內(nèi)在規(guī)律。它的研究目標(biāo)是揭示“基因組信息結(jié)構(gòu)的復(fù)雜性及遺傳語言的根本規(guī)律”,解釋生命的遺傳語言。生物信息學(xué)已成為整個(gè)生命科學(xué)發(fā)展的重要組成部分,成為生命科學(xué)研究的前沿。

      3、主要研究方向

      生物信息學(xué)在短短十幾年間,已經(jīng)形成了多個(gè)研究方向,以下簡要介紹一些主要的研究重點(diǎn)。

      1、序列比對

      序列比對(Sequence Alignment)的基本問題是比較兩個(gè)或兩個(gè)以上符號序列的相似性或不相似性。從生物學(xué)的初衷來看,這一問題包含了以下幾個(gè)意義:從相互重疊的序列片斷中重構(gòu)DNA的完整序列。在各種試驗(yàn)條件下從探測數(shù)據(jù)(probe data)中決定物理和基因圖存貯,遍歷和比較數(shù)據(jù)庫中的DNA序列比較兩個(gè)或多個(gè)序列的相似性在數(shù)據(jù)庫中搜索相關(guān)序列和子序列尋找核苷酸(nucleotides)的連續(xù)產(chǎn)生模式找出蛋白質(zhì)和DNA序列中的信息成分序列比對考慮了DNA序列的生物學(xué)特性,如序列局部發(fā)生的插入,刪除(前兩種簡稱為indel)和替代,序列的目標(biāo)函數(shù)獲得序列之間突變集最小距離加權(quán)和或最大相似性和,對齊的方法包括全局對齊,局部對齊,代溝懲罰等。兩個(gè)序列比對常采用動(dòng)態(tài)規(guī)劃算法,這種算法在序列長度較小時(shí)適用,然而對于海量基因序列(如人的DNA序列高達(dá)109bp),這一方法就不太適用,甚至采用算法復(fù)雜性為線性的也難以奏效。因此,啟發(fā)式方法的引入勢在必然,著名的BALST和FASTA算法及相應(yīng)的改進(jìn)方法均是從此前提出發(fā)的。

      2、蛋白質(zhì)結(jié)構(gòu)比對和預(yù)測

      基本問題是比較兩個(gè)或兩個(gè)以上蛋白質(zhì)分子空間結(jié)構(gòu)的相似性或不相似性。蛋白質(zhì)的結(jié)構(gòu)與功能是密切相關(guān)的,一般認(rèn)為,具有相似功能的蛋白質(zhì)結(jié)構(gòu)一般相似。蛋白質(zhì)是由氨基酸組成的長鏈,長度從50到1000~3000AA(Amino Acids),蛋白質(zhì)具有多種功能,如酶,物質(zhì)的存貯和運(yùn)輸,信號傳遞,抗體等等。氨基酸的序列內(nèi)在的決定了蛋白質(zhì)的3維結(jié)構(gòu)。一般認(rèn)為,蛋白質(zhì)有四級不同的結(jié)構(gòu)。研究蛋白質(zhì)結(jié)構(gòu)和預(yù)測的理由是:醫(yī)藥上可以理解生物的功能,尋找dockingdrugs的目標(biāo),農(nóng)業(yè)上獲得更好的農(nóng)作物的基因工程,工業(yè)上有利用酶的合成。直接對蛋白質(zhì)結(jié)構(gòu)進(jìn)行比對的原因是由于蛋白質(zhì)的3維結(jié)構(gòu)比其一級結(jié)構(gòu)

      在進(jìn)化中更穩(wěn)定的保留,同時(shí)也包含了較AA序列更多的信息。蛋白質(zhì)3維結(jié)構(gòu)研究的前提假設(shè)是內(nèi)在的氨基酸序列與3維結(jié)構(gòu)一一對應(yīng)(不一定全真),物理上可用最小能量來解釋。從觀察和總結(jié)已知結(jié)構(gòu)的蛋白質(zhì)結(jié)構(gòu)規(guī)律出發(fā)來預(yù)測未知蛋白質(zhì)的結(jié)構(gòu)。同源建模(homology modeling)和指認(rèn)(Threading)方法屬于這一范疇。同源建模用于尋找具有高度相似性的蛋白質(zhì)結(jié)構(gòu)(超過30%氨基酸相同),后者則用于比較進(jìn)化族中不同的蛋白質(zhì)結(jié)構(gòu)。然而,蛋白結(jié)構(gòu)預(yù)測研究現(xiàn)狀還遠(yuǎn)遠(yuǎn)不能滿足實(shí)際需要。

      3、基因識別非編碼區(qū)分析研究

      基因識別的基本問題是給定基因組序列后,正確識別基因的范圍和在基因組序列中的精確位置。非編碼區(qū)由內(nèi)含子組成(introns),一般在形成蛋白質(zhì)后被丟棄,但從實(shí)驗(yàn)中,如果去除非編碼區(qū),又不能完成基因的復(fù)制。顯然,DNA序列作為一種遺傳語言,既包含在編碼區(qū),又隱含在非編碼序列中。分析非編碼區(qū)DNA序列目前沒有一般性的指導(dǎo)方法。在人類基因組中,并非所有的序列均被編碼,即是某種蛋白質(zhì)的模板,已完成編碼部分僅占人類基因總序列的3~5%,顯然,手工的搜索如此大的基因序列是難以想象的.偵測密碼區(qū)的方法包括測量密碼區(qū)密碼子(codon)的頻率,一階和二階馬爾可夫鏈,ORF(Open Reading Frames),啟動(dòng)子(promoter)識別,HMM(Hidden Markov Model)和GENSCAN,Splice Alignment等等。

      4、分子進(jìn)化和比較基因組學(xué)

      分子進(jìn)化是利用不同物種中同一基因序列的異同來研究生物的進(jìn)化,構(gòu)建進(jìn)化樹。既可以用DNA序列也可以用其編碼的氨基酸序列來做,甚至于可通過相關(guān)蛋白質(zhì)的結(jié)構(gòu)比對來研究分子進(jìn)化,其前提假定是相似種族在基因上具有相似性。通過比較可以在基因組層面上發(fā)現(xiàn)哪些是不同種族中共同的,哪些是不同的。早期研究方法常采用外在的因素,如大小,膚色,肢體的數(shù)量等等作為進(jìn)化的依據(jù)。近年來較多模式生物基因組測序任務(wù)的完成,人們可從整個(gè)基因組的角度來研究分子進(jìn)化。在匹配不同種族的基因時(shí),一般須處理三種情況:Orthologous:不同種族,相同功能的基因;Paralogous:相同種族,不同功能的基因;Xenologs:有機(jī)體間采用其他方式傳遞的基因,如被病毒注入的基因。這一領(lǐng)域常采用的方法是構(gòu)造進(jìn)化樹,通過基于特征(即DNA序列或蛋白質(zhì)中的氨基酸的堿基的特定位置)和基于距離(對齊的分?jǐn)?shù))的方法和一些傳統(tǒng)的聚類方法(如UPGMA)來實(shí)現(xiàn)。

      5、序列重疊群(Contigs)裝配

      根據(jù)現(xiàn)行的測序技術(shù),每次反應(yīng)只能測出500 或更多一些堿基對的序列,如人類基因的測量就采用了短槍(shortgun)方法,這就要求把大量的較短的序列全體構(gòu)成了重疊群(Contigs)。逐步把它們拼接起來形成序列更長的重疊群,直至得到完整序列的過程稱為重疊群裝配。從算法層次來看,序列的重疊群是一個(gè)NP-完全問題。

      6、遺傳密碼的起源

      通常對遺傳密碼的研究認(rèn)為,密碼子與氨基酸之間的關(guān)系是生物進(jìn)化歷史上一次偶然的事件而造成的,并被固定在現(xiàn)代生物的共同祖先里,一直延續(xù)至今。不同于這種“凍結(jié)”理論,有人曾分別提出過選擇優(yōu)化,化學(xué)和歷史等三種學(xué)說來解釋遺傳密碼。隨著各種生物基因組測序任務(wù)的完成,為研究遺傳密碼的起源和檢驗(yàn)上述理論的真?zhèn)翁峁┝诵碌乃夭摹?/p>

      7、基于結(jié)構(gòu)的藥物設(shè)計(jì)

      人類基因工程的目的之一是要了解人體內(nèi)約10萬種蛋白質(zhì)的結(jié)構(gòu),功能,相互作用以及與各種人類疾病之間的關(guān)系,尋求各種治療和預(yù)防方法,包括藥物治療。基于生物大分子結(jié)構(gòu)及小分子結(jié)構(gòu)的藥物設(shè)計(jì)是生物信息學(xué)中的極為重要的研究領(lǐng)域。為了抑制某些酶或蛋白質(zhì)的活性,在已知其蛋白質(zhì)3級結(jié)構(gòu)的基礎(chǔ)上,可以利用分子對齊算法,在計(jì)算機(jī)上設(shè)計(jì)抑制劑分子,作為候選藥物。這一領(lǐng)域目的是發(fā)現(xiàn)新的基因藥物,有著巨大的經(jīng)濟(jì)效益。

      8、生物系統(tǒng)的建模和仿真

      隨著大規(guī)模實(shí)驗(yàn)技術(shù)的發(fā)展和數(shù)據(jù)累積,從全局和系統(tǒng)水平研究和分析生物學(xué)系統(tǒng),揭示其發(fā)展規(guī)律已經(jīng)成為后基因組時(shí)代的另外一個(gè)研究 熱點(diǎn)-系統(tǒng)生物學(xué)。目前來看,其研究內(nèi)容包括生物系統(tǒng)的模擬(Curr Opin Rheumatol,2007,463-70),系統(tǒng)穩(wěn)定性分析(Nonlinear Dynamics Psychol Life Sci,2007,413-33),系統(tǒng)魯棒性分析(Ernst Schering Res Found Workshop,2007,69-88)等方面。以SBML(Bioinformatics,2007,1297-8)為代表的建模語言在迅速發(fā)展之中,以布爾網(wǎng)絡(luò)(PLoS Comput Biol,2007,e163)、微分方程(Mol Biol Cell,2004,3841-62)、隨機(jī)過程(Neural Comput,2007,3262-92)、離散動(dòng)態(tài)事件系統(tǒng)等(Bioinformatics,2007,336-43)方法在系統(tǒng)分析中已經(jīng)得到應(yīng) 用。很多模型的建立借鑒了電路和其它物理系統(tǒng)建模的方法,很多研究試圖從信息流、熵和能量流等宏觀分析思想來解決系統(tǒng)的復(fù)雜性問題(Anal Quant Cytol Histol,2007,296-308)。當(dāng)然,建立生物系統(tǒng)的理論模型還需要很長時(shí)間的努力,現(xiàn)在實(shí)驗(yàn)觀測數(shù)據(jù)雖然在海量增加,但是生物系統(tǒng)的模型辨 識所需要的數(shù)據(jù)遠(yuǎn)遠(yuǎn)超過了目前數(shù)據(jù)的產(chǎn)出能力。例如,對于時(shí)間序列的芯片數(shù)據(jù),采樣點(diǎn)的數(shù)量還不足以使用傳統(tǒng)的時(shí)間序列建模方法,巨大的實(shí)驗(yàn)代價(jià)是目前系 統(tǒng)建模主要困難。系統(tǒng)描述和建模方法也需要開創(chuàng)性的發(fā)展。

      9、生物信息學(xué)技術(shù)方法的研究

      生物信息學(xué)不僅僅是生物學(xué)知識的簡單整理和數(shù)學(xué)、物理學(xué)、信息科學(xué)等學(xué)科知識的簡單應(yīng)用。海量數(shù)據(jù)和復(fù)雜的背景導(dǎo)致機(jī)器學(xué)習(xí)、統(tǒng) 計(jì)數(shù)據(jù)分析和系統(tǒng)描述等方法需要在生物信息學(xué)所面臨的背景之中迅速發(fā)展。巨大的計(jì)算量、復(fù)雜的噪聲模式、海量的時(shí)變數(shù)據(jù)給傳統(tǒng)的統(tǒng)計(jì)分析帶來了巨大的困難,需要像非參數(shù)統(tǒng)計(jì)(BMC Bioinformatics,2007,339)、聚類分析(Qual Life Res,2007,1655-63)等更加靈活的數(shù)據(jù)分析技術(shù)。高維數(shù)據(jù)的分析需要偏最小二乘(partial least squares,PLS)等特征空間的壓縮技術(shù)。在計(jì)算機(jī)算法的開發(fā)中,需要充分考慮算法的時(shí)間和空間復(fù)雜度,使用并行計(jì)算、網(wǎng)格計(jì)算等技術(shù)來拓展算法的 可實(shí)現(xiàn)性。

      10、生物圖像

      沒有血緣關(guān)系的人,為什么長得那么像呢?

      外貌是像點(diǎn)組成的,像點(diǎn)愈重合兩人長得愈像,那兩個(gè)沒有血緣關(guān)系的人像點(diǎn)為什么重合?有什么生物學(xué)基礎(chǔ)?基因是不是相似?我不知道,希望專家解答。

      11、其他

      如基因表達(dá)譜分析,代謝網(wǎng)絡(luò)分析;基因芯片設(shè)計(jì)和蛋白質(zhì)組學(xué)數(shù)據(jù)分析等,逐漸成為生物信息學(xué)中新興的重要研究領(lǐng)域;在學(xué)科方面,由生物信息學(xué)衍生的學(xué)科包括結(jié)構(gòu)基因組學(xué),功能基因組學(xué),比較基因組學(xué),蛋白質(zhì)學(xué),藥物基因組學(xué),中藥基因組學(xué),腫瘤基因組學(xué),分子流行病學(xué)和環(huán)境基因組學(xué),成為系統(tǒng)生物學(xué)的重要研究方法。從現(xiàn)在的發(fā)展不難看出,基因工程已經(jīng)進(jìn)入了后基因組時(shí)代。我們也有應(yīng)對與生物信息學(xué)密切相關(guān)的如機(jī)器學(xué)習(xí),和數(shù)學(xué)中可能存在的誤導(dǎo)有一個(gè)清楚的認(rèn)識。

      4、生物信息學(xué)與機(jī)器學(xué)習(xí)

      生物信息的大規(guī)模給數(shù)據(jù)挖掘提出了新課題和挑戰(zhàn),需要新的思想的加入.常規(guī)的計(jì)算機(jī)算法仍可以應(yīng)用于生物數(shù)據(jù)分析中,但越來越不適用于序列分析問題.究其原因,是由于生物系統(tǒng)本質(zhì)上的模型復(fù)雜性及缺乏在分子層上建立的完備的生命組織理論.西蒙曾給出學(xué)習(xí)的定義:學(xué)習(xí)是系統(tǒng)的變化,這種變化可使系統(tǒng)做相同工作時(shí)更有效。機(jī)器學(xué)習(xí)的目的是期望能從數(shù)據(jù)中自動(dòng)地獲得相應(yīng)的理論,通過采用如推理,模型擬合及從樣本中學(xué)習(xí),尤其適用于缺乏一般性的理論,“噪聲”模式,及大規(guī)模數(shù)據(jù)集.因此,機(jī)器學(xué)習(xí)形成了與常規(guī)方法互補(bǔ)的可行的方法.機(jī)器學(xué)習(xí)使得利用計(jì)算機(jī)從海量的生物信息中提取有用知識,發(fā)現(xiàn)知識成為可能.機(jī)器學(xué)習(xí)方法在大樣本,多向量的數(shù)據(jù)分析工作中發(fā)揮著日益重要的作用,而目前大量的基因數(shù)據(jù)庫處理需要計(jì)算機(jī)能自動(dòng)識別,標(biāo)注,以避免即耗時(shí)又花費(fèi)巨大的人工處理方法.早期的科學(xué)方法——觀測和假設(shè)——面對高數(shù)據(jù)的體積,快速的數(shù)據(jù)獲取率和客觀分析的要求——已經(jīng)不能僅依賴于人的感知來處理了.因而,生物信息學(xué)與機(jī)器學(xué)習(xí)相結(jié)合也就成了必然.機(jī)器學(xué)習(xí)中最基本的理論框架是建立在概率基礎(chǔ)上的,從某種意義來說,是統(tǒng)計(jì)模型擬合的延續(xù),其目的均為提取有用信息.機(jī)器學(xué)習(xí)與模式識別和統(tǒng)計(jì)推理密切相關(guān).學(xué)習(xí)方法包括數(shù)據(jù)聚類,神經(jīng)網(wǎng)絡(luò)分類器和非線性回歸等等.隱馬爾可夫模型也廣泛用于預(yù)測DNA的基因結(jié)構(gòu).目前研究重心包括:1)觀測和探索有趣的現(xiàn)象.目前ML研究的焦點(diǎn)是如何可視化和探索高維向量數(shù)據(jù).一般的方法是將其約簡至低維空間,如常規(guī)的主成分分析(PCA),核主成分分析(KPCA),獨(dú)立成分分析(Independent component analysis),局部線性嵌套(LocallyLinear embedding).2)生成假設(shè)

      和形式化模型來解釋現(xiàn)象[6].大多數(shù)聚類方法可看成是擬合向量數(shù)據(jù)至某種簡單分布的混合.在生物信息學(xué)中聚類方法已經(jīng)用于microarray數(shù)據(jù)分析中,癌癥類型分類及其他方向中.機(jī)器學(xué)習(xí)也用于從基因數(shù)據(jù)庫中獲得相應(yīng)的現(xiàn)象解釋.機(jī)器學(xué)習(xí)加速了生物信息學(xué)的進(jìn)展,也帶了相應(yīng)的問題.機(jī)器學(xué)習(xí)方法大多假定數(shù)據(jù)符合某種相對固定的模型,而一般數(shù)據(jù)結(jié)構(gòu)通常是可變的,在生物信息學(xué)中尤其如此,因此,有必要建立一套不依賴于假定數(shù)據(jù)結(jié)構(gòu)的一般性方法來尋找數(shù)據(jù)集的內(nèi)在結(jié)構(gòu).其次,機(jī)器學(xué)習(xí)方法中常采用“黑箱”操作,如神經(jīng)網(wǎng)絡(luò)和隱馬爾可夫模型,對于獲得特定解的內(nèi)在機(jī)理仍不清楚.5、生物信息學(xué)的數(shù)學(xué)問題

      生物信息學(xué)中數(shù)學(xué)占了很大的比重.統(tǒng)計(jì)學(xué),包括多元統(tǒng)計(jì)學(xué),是生物信息學(xué)的數(shù)學(xué)基礎(chǔ)之一;概率論與隨機(jī)過程理論,如近年來興起的隱馬爾科夫鏈模型(HMM),在生物信息學(xué)中有重要應(yīng)用;其他如用于序列比對的運(yùn)籌學(xué);蛋白質(zhì)空間結(jié)構(gòu)預(yù)測和分子對接研究中采用的最優(yōu)化理論;研究DNA超螺旋結(jié)構(gòu)的拓?fù)鋵W(xué);研究遺傳密碼和DNA序列的對稱性方面的群論等等.總之,各種數(shù)學(xué)理論或多或少在生物學(xué)研究中起到了相應(yīng)的作用.但并非所有的數(shù)學(xué)方法在引入生物信息學(xué)中都能普遍成立的,以下以統(tǒng)計(jì)學(xué)和度量空間為例來說明.1、統(tǒng)計(jì)學(xué)的悖論

      數(shù)學(xué)的發(fā)展是伴隨悖論而發(fā)展的.對于進(jìn)化樹研究和聚類研究中最顯著的悖論莫過于均值了,就說明了要采用常規(guī)的均值方法不能將這兩類分開,也表明均值并不能帶來更多的數(shù)據(jù)的幾何性質(zhì).那么,如果數(shù)據(jù)呈現(xiàn)類似的特有分布時(shí),常有的進(jìn)化樹算法和聚類算法(如K-均值)往往會得錯(cuò)誤的結(jié)論.統(tǒng)計(jì)上存在的陷阱往往是由于對數(shù)據(jù)的結(jié)構(gòu)缺乏一般性認(rèn)識而產(chǎn)生的.2、度量空間的假設(shè)

      在生物信息學(xué)中,進(jìn)化樹的確立,基因的聚類等都需要引入度量的概念.舉例來說,距離上相近或具有相似性的基因等具有相同的功能,在進(jìn)化樹中滿足分值最小的具有相同的父系,這一度量空間的前提假設(shè)是度量在全局意義下成立.那么,是否這種前提假設(shè)具有普適性呢,我們不妨給出一般的描述:假定兩個(gè)向量為A,B,其中,則在假定且滿足維數(shù)間線性無關(guān)的前提下,兩個(gè)向量的度量可定義為:(1)依據(jù)上式可以得到滿足正交不變運(yùn)動(dòng)群的歐氏度量空間,這也是大多數(shù)生物信息學(xué)中常采用的一般性描述,即假定了變量間線性無關(guān).然而,這種假設(shè)一般不能正確描述度量的性質(zhì),尤其在高維數(shù)據(jù)集時(shí),不考慮數(shù)據(jù)變量間的非線性相關(guān)性顯然存在問題,由此,我們可以認(rèn)為,一個(gè)正確的度量公式可由下式給出:(2)上式中采用了愛因斯坦和式約定,描述了變量間的度量關(guān)系.后者在滿足(3)時(shí)等價(jià)于(1),因而是更一般的描述,然而問題在于如何準(zhǔn)確描述變量間的非線性相關(guān)性,我們正在研究這個(gè)問題.6、統(tǒng)計(jì)學(xué)習(xí)理論在生物信息學(xué)中應(yīng)用的困難

      生物信息學(xué)中面對的數(shù)據(jù)量和數(shù)據(jù)庫都是規(guī)模很大的,而相對的目標(biāo)函數(shù)卻一般難以給出明確的定義.生物信息學(xué)面臨的這種困難,可以描述成問題規(guī)模的巨大以及問題定義的病態(tài)性之間的矛盾,一般從數(shù)學(xué)上來看,引入某個(gè)正則項(xiàng)來改善性能是必然的[7].以下對基于這一思想產(chǎn)生的統(tǒng)計(jì)學(xué)習(xí)理論,Kolmogorov復(fù)雜性[98]和BIC(Bayesian Information Criterion)[109]及其存在的問題給出簡要介紹.支持向量機(jī)(SVM)是近來較熱門的一種方法,其研究背景是Vapnik的統(tǒng)計(jì)學(xué)習(xí)理論,是通過最大化兩個(gè)數(shù)據(jù)集的最小間隔來實(shí)現(xiàn)分類,對于非線性問題則采用核函數(shù)將數(shù)據(jù)集映射至高維空間而又無需顯式描述數(shù)據(jù)集在高維空間的性質(zhì),這一方法較之神經(jīng)方法的好處在于將神經(jīng)網(wǎng)絡(luò)隱層的參數(shù)選擇簡化為對核函數(shù)的選擇,因此,受到廣泛的注意.在生物信息學(xué)中也開始受到重視,然而,核函數(shù)的選擇問題本身是一個(gè)相當(dāng)困難的問題,從這個(gè)層次來看,最優(yōu)核函數(shù)的選擇可能只是一種理想,SVM也有可能象神經(jīng)網(wǎng)絡(luò)一樣只是機(jī)器學(xué)習(xí)研究進(jìn)程中又一個(gè)大氣泡.Kolmogorov復(fù)雜性思想與統(tǒng)計(jì)學(xué)習(xí)理論思想分別從不同的角度描述了學(xué)習(xí)的性質(zhì),前者從編碼的角度,后者基于有限樣本來獲得一致收斂性.Kolmogorov復(fù)雜性是不可計(jì)算的,因此由此衍生了MDL原則(最小描述長度),其最初只適用于離散數(shù)據(jù),最近已經(jīng)推廣至連續(xù)數(shù)據(jù)集中,試圖從編碼角度獲得對模型參數(shù)的最小描述.其缺陷在于建模的復(fù)雜性過高,導(dǎo)致在大數(shù)據(jù)集中難以運(yùn)用.BIC準(zhǔn)則從模型復(fù)雜性角度來考慮,BIC準(zhǔn)則對模型復(fù)雜度較高的給予大的懲罰,反之,懲罰則小,隱式地體現(xiàn)了奧卡姆剃

      刀(“Occam Razor”)原理,近年也廣泛應(yīng)用于生物信息學(xué)中.BIC準(zhǔn)則的主要局限是對參數(shù)模型的假定和先驗(yàn)的選擇的敏感性,在數(shù)據(jù)量較大時(shí)處理較慢.因此,在這一方面仍然有許多探索的空間.7、討論與總結(jié)

      人類對基因的認(rèn)識,從以往的對單個(gè)基因的了解,上升到在整個(gè)基因組水平上考察基因的組織結(jié)構(gòu)和信息結(jié)構(gòu),考察基因之間在位置,結(jié)構(gòu)和功能上的相互關(guān)系.這就要求生物信息學(xué)在一些基本的思路上要做本質(zhì)的觀念轉(zhuǎn)變,本節(jié)就這些問題做出探討和思索.啟發(fā)式方法

      Simond在人類的認(rèn)知一書中指出,人在解決問題時(shí),一般并不去尋找最優(yōu)的方法,而只要求找到一個(gè)滿意的方法.因?yàn)榧词故墙鉀Q最簡單的問題,要想得到次數(shù)最少,效能最高的解決方法也是非常困難的.最優(yōu)方法和滿意方法之間的困難程度相差很大,后者不依賴于問題的空間,不需要進(jìn)行全部搜索,而只要能達(dá)到解決的程度就可以了.正如前所述,面對大規(guī)模的序列和蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)集,要獲得全局結(jié)果,往往是即使算法復(fù)雜度為線性時(shí)也不能夠得到好的結(jié)果,因此,要通過變換解空間或不依賴于問題的解空間獲得滿意解,生物信息學(xué)仍需要人工智能和認(rèn)知科學(xué)對人腦的進(jìn)一步認(rèn)識,并從中得到更好的啟發(fā)式方法.問題規(guī)模不同的處理:Marvin Minsky在人工智能研究中曾指出:小規(guī)模數(shù)據(jù)量的處理向大規(guī)模數(shù)據(jù)量推廣時(shí),往往并非算法上的改進(jìn)能做到的,更多的是要做本質(zhì)性的變化.這好比一個(gè)人爬樹,每天都可以爬高一些,但要想爬到月球,就必須采用其他方法一樣.在分子生物學(xué)中,傳統(tǒng)的實(shí)驗(yàn)方法已不適應(yīng)處理飛速增長的海量數(shù)據(jù).同樣,在采用計(jì)算機(jī)處理上,也并非依靠原有的計(jì)算機(jī)算法就能夠解決現(xiàn)有的數(shù)據(jù)挖掘問題.如在序列對齊(sequence Alignment)問題上,在小規(guī)模數(shù)據(jù)中可以采用動(dòng)態(tài)規(guī)劃,而在大規(guī)模序列對齊時(shí)不得不引入啟發(fā)式方法,如BLAST,F(xiàn)ASTA.樂觀中的隱擾

      生物信息學(xué)是一門新興學(xué)科,起步于20世紀(jì)90年代,至今已進(jìn)入“后基因組時(shí)代”,目前在這一領(lǐng)域的研究人員均呈普遍樂觀態(tài)度,那么,是否存在潛在的隱擾呢不妨回顧一下早期人工智能的發(fā)展史,在1960年左右,西蒙曾相信不出十年,人類即可象完成登月一樣完成對人的模擬,造出一個(gè)與人智能行為完全相同的機(jī)器人.而至今為止,這一諾言仍然遙遙無期.盡管人工智能研究得到的成果已經(jīng)滲入到各個(gè)領(lǐng)域,但對人的思維行為的了解遠(yuǎn)未完全明了.從本質(zhì)來看,這是由于最初人工智能研究上定位錯(cuò)誤以及沒有從認(rèn)識論角度看清人工智能的本質(zhì)造成的;從研究角度來看,將智能行為還原成一般的形式化語言和規(guī)則并不能完整描述人的行為,期望物理科學(xué)的成功同樣在人工智能研究中適用并不現(xiàn)實(shí).反觀生物信息學(xué),其目的是期望從基因序列上解開一切生物的基本奧秘,從結(jié)構(gòu)上獲得生命的生理機(jī)制,這從哲學(xué)上來看是期望從分子層次上解釋人類的所有行為和功能和致病原因.這類似于人工智能早期發(fā)展中表現(xiàn)的樂觀行為,也來自于早期分子生物學(xué),生物物理和生物化學(xué)的成就.然而,從本質(zhì)上來講,與人工智能研究相似,都是希望將生命的奧秘還原成孤立的基因序列或單個(gè)蛋白質(zhì)的功能,而很少強(qiáng)調(diào)基因序列或蛋白質(zhì)組作為一個(gè)整體在生命體中的調(diào)控作用.我們因此也不得不思考,這種研究的最終結(jié)果是否能夠支撐我們對生物信息學(xué)的樂觀呢 現(xiàn)在說肯定的話也許為時(shí)尚早.8、總結(jié)

      綜上所述,不難看出,生物信息學(xué)并不是一個(gè)足以樂觀的領(lǐng)域,究竟原因,是由于其是基于分子生物學(xué)與多種學(xué)科交叉而成的新學(xué)科,現(xiàn)有的形勢仍表現(xiàn)為各種學(xué)科的簡單堆砌,相互之間的聯(lián)系并不是特別的緊密。在處理大規(guī)模數(shù)據(jù)方面,沒有行之有效的一般性方法;而對于大規(guī)模數(shù)據(jù)內(nèi)在的生成機(jī)制也沒有完全明了,這使得生物信息學(xué)的研究短期內(nèi)很難有突破性的結(jié)果。那么,要得到真正的解決,最終不能從計(jì)算機(jī)科學(xué)得到,真正地解決可能還是得從生物學(xué)自身,從數(shù)學(xué)上的新思路來獲得本質(zhì)性的動(dòng)力。毫無疑問,正如Dulbecco1986年所說:“人類的DNA序列是人類的真諦,這個(gè)世界上發(fā)生的一切事情,都與這一序列息息相關(guān)”。但要完全破譯這一序列以及相關(guān)的內(nèi)容,我們還有相當(dāng)長的路要走。

      第三篇:生物信息學(xué)

      淺談對生物信息學(xué)的認(rèn)識

      摘要生物信息學(xué)是采用計(jì)算機(jī)技術(shù)和信息論方法研究蛋白質(zhì)及核酸序列等各種生物信息的采集、儲存、傳遞、檢索、分析和解讀的科學(xué), 是現(xiàn)代生命科學(xué)與信息科學(xué)、計(jì)算機(jī)科學(xué)、數(shù)學(xué)、統(tǒng)計(jì)學(xué)、物理學(xué)和化學(xué)等學(xué)科相互滲透而形成的交叉學(xué)科。經(jīng)過一學(xué)期的學(xué)習(xí),我學(xué)到了很多很有用的知識,給我印象最深的有序列比對、蛋白質(zhì)結(jié)構(gòu)分析、核酸序列分析、數(shù)據(jù)庫及數(shù)據(jù)庫檢索等內(nèi)容。關(guān)鍵字:生物信息學(xué)認(rèn)識基因組學(xué)數(shù)據(jù)庫

      時(shí)光飛逝,一學(xué)期馬上就要結(jié)束了,本學(xué)期的專業(yè)選修課也即將結(jié)束。在上課之前,我一直認(rèn)為生物信息學(xué)就是在講關(guān)于人類及動(dòng)物的基因,以及基因之間的差別。但是,剛上了幾節(jié)課,我就發(fā)現(xiàn)生物信息學(xué)根本不是我想象的那么簡單,就這樣我懷著對自己的懷疑和對這門課的好奇走進(jìn)了這門課。

      生物信息學(xué)是一門新興的、正在迅速發(fā)展的交叉學(xué)科,美國國家基因組研究中心認(rèn)為, 生物信息學(xué)是一個(gè)代表生物學(xué)、數(shù)學(xué)和計(jì)算機(jī)的綜合力量的新興學(xué)(Bioinformatics is an emerging scientific discipline representing the combined power of biology,mathematics, and computers)。

      現(xiàn)代生物信息學(xué)是采用計(jì)算機(jī)技術(shù)和信息論方法研究蛋白質(zhì)及核酸序列等各種生物信息的采集、儲存、傳遞、檢索、分析和解讀的科學(xué), 是現(xiàn)代生命科學(xué)與信息科學(xué)、計(jì)算機(jī)科學(xué)、數(shù)學(xué)、統(tǒng)計(jì)學(xué)、物理學(xué)和化學(xué)等學(xué)科相互滲透而形成的交叉學(xué)科。

      在這短短的一學(xué)期課中,在老師的帶領(lǐng)下,我們學(xué)到了很多關(guān)

      于生物信息學(xué)的知識,其中給我印象最深的有序列比對、蛋白質(zhì)結(jié)

      構(gòu)分析、核酸序列分析、數(shù)據(jù)庫及數(shù)據(jù)庫檢索等內(nèi)容。

      比如,序列比對,它的基本問題是比較兩個(gè)或兩個(gè)以上符號序列的相似性或不相似性。從生物學(xué)角度來看,它包含很多意義;如從

      相互重疊的序列片段中重構(gòu)DNA的完整序列等。老師主要給我們介

      紹了blast比對。

      再如,對蛋白質(zhì)的分析。比如我們實(shí)驗(yàn)測定了一條蛋白質(zhì)序列

      或者從DNA序列翻譯得來一條蛋白質(zhì)序列,我們要借助生物信息學(xué)

      方法來對它進(jìn)行基本性質(zhì)及結(jié)構(gòu)分析。其中基本性質(zhì)包括它的分子

      量、氨基酸數(shù)目、排列順序、等電點(diǎn)分析等。結(jié)構(gòu)分析包括跨膜螺

      旋分析等。要運(yùn)用的工具是protparam tool 和TMHMM。對于這兩

      個(gè)工具我都進(jìn)行了實(shí)際操作練習(xí),我覺得這對我們以后的理論學(xué)習(xí)

      和實(shí)驗(yàn)分析都非常重要?,F(xiàn)代生物信息學(xué)的主要研究領(lǐng)域及其進(jìn)展

      1、基因組學(xué)和蛋白組學(xué)研究

      基因組和蛋白組研究是生物信息學(xué)的主要內(nèi)容.同樣, 生物信息

      學(xué)是基因組和蛋白組研究中必不可少的工具。

      基因組學(xué)(Genomics)和蛋白組學(xué)(Proteomics)的實(shí)質(zhì)就是分析和解讀核酸和蛋白質(zhì)序列中所表達(dá)的結(jié)構(gòu)與功能的生物信息.這方面的研究已成為生物信息學(xué)的主要研究內(nèi)容之一.一種生物的全部遺傳構(gòu)成被稱為該種生物的基因組.有關(guān)基因組的研究稱為基因組學(xué).其中, 序列基因組學(xué)(Sequence genomics)主要研究測序和核苷酸序列;結(jié)構(gòu)基因組學(xué)(Structural genomics)著重于遺傳圖譜、物理圖譜和測序等方面的研究;功能基因組學(xué)

      (Functional genomics)則研究以轉(zhuǎn)錄圖為基礎(chǔ)的基因組表達(dá)圖譜;比較基因組學(xué)(Comparative ge2nomics)的研究內(nèi)容包括對不同進(jìn)化階段基因組的比較和不同種群和群體基因組的比較。

      蛋白組和蛋白組學(xué)的概念是隨基因組和基因組學(xué)的出現(xiàn)而出現(xiàn)的.蛋白組(proteme)的概念是由于基因表達(dá)水平并不能代表細(xì)胞中活性蛋白質(zhì)的數(shù)量, 基因組序列并不能描述活性蛋白質(zhì)所必需的翻譯后修飾和反映蛋白質(zhì)種類和含量的動(dòng)態(tài)變化過程而提出的.在一定條件下某一基因組蛋白質(zhì)表達(dá)的數(shù)量類型稱為蛋白組, 代表這一有機(jī)體全部蛋白質(zhì)組成及其作用方式.有關(guān)蛋白組的研究稱為蛋白組學(xué).其中, 蛋白組的研究技術(shù)與方法、雙向凝膠電泳圖譜以及對不同條件下蛋白組變化的比較分析是蛋白組學(xué)的主要研究內(nèi)容。生物信息學(xué)在基因組和蛋白組研究中所起的作用主要有:(1)基因組信息結(jié)構(gòu)的計(jì)算分析.即對基因組數(shù)據(jù)進(jìn)行大規(guī)模并行計(jì)算并預(yù)測各種新基因和功能位點(diǎn), 研究大量非編碼區(qū)序列的信息結(jié)構(gòu)和可能的生物學(xué)意義。(2)模式生物全基因組信息結(jié)構(gòu)的比較研究.即

      對已完成全基因組測序的各種模式生物的基因組信息結(jié)構(gòu)進(jìn)行比較分析, 包括同源序列的搜索比較和指導(dǎo)基因克隆.(3)功能基因組的相關(guān)信息分析, 包括對基因表達(dá)圖譜及其相關(guān)算法和軟件的研究, 與功能基因組信息相關(guān)的核酸、蛋白質(zhì)的空間結(jié)構(gòu)的預(yù)測模擬以及蛋白質(zhì)的功能預(yù)測。

      2、生物信息數(shù)據(jù)庫

      復(fù)雜的生物和生物界和日新月異的生命科學(xué)研究產(chǎn)出的大量的生物學(xué)信息,對這些信息的儲存、檢索、比較分析必須借助于計(jì)算機(jī)數(shù)據(jù)庫技術(shù), 包括各類生物學(xué)信息數(shù)據(jù)庫的建立與維護(hù)、數(shù)據(jù)的添加與注釋、更新與查詢、數(shù)據(jù)庫資料的網(wǎng)絡(luò)化等研究內(nèi)容?,F(xiàn)有的數(shù)據(jù)庫有:核酸序列數(shù)據(jù)庫(GenBank、EMBL、DDBJ)、基因組數(shù)據(jù)庫、基因圖譜數(shù)據(jù)庫、蛋白質(zhì)序列數(shù)據(jù)庫(SWTSS-

      PROT、PIR)和蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)庫(Interpro)等。隨著生命科學(xué)的不斷發(fā)展,數(shù)據(jù)庫種類不斷增加、結(jié)構(gòu)日益復(fù)雜、使用也越來越方便。

      生物信息學(xué)作為一門新興學(xué)科已經(jīng)成為生命科學(xué)研究中必不可少的研究手段 本文對數(shù)據(jù)庫與數(shù)據(jù)庫搜索序列比對蛋白質(zhì)結(jié)構(gòu)預(yù)測藥物設(shè)計(jì)基因芯片技術(shù)幾個(gè)方面做了介紹較為系統(tǒng)地闡述了生物信息學(xué)在這些領(lǐng)域的應(yīng)用 當(dāng)然它所涉及的內(nèi)容與方法遠(yuǎn)遠(yuǎn)不只上面提到的那些 新基因和 的發(fā)現(xiàn)與鑒定非編碼區(qū)信息結(jié)構(gòu)分析遺傳密碼的起源和生物進(jìn)化完整基因組的比較

      研究 大規(guī)?;蚬δ鼙磉_(dá)譜的分析等都是生物信息學(xué)研究的對象 相信不久的將來生物信息學(xué)會在生命

      科學(xué)領(lǐng)域扮演越來越重要的角色。

      參考文獻(xiàn):

      1、現(xiàn)代生物信息學(xué)及其主要研究領(lǐng)域 蕭浪濤(湖南農(nóng)業(yè)大學(xué)理學(xué)院, 湖南長沙 410128)

      2、生物信息學(xué)技術(shù)進(jìn)展 郭志云 張懷渝 梁龍 軍事醫(yī)學(xué)科學(xué)院 生物工程研究所,北京100071;四川農(nóng)業(yè)大學(xué)生命科學(xué)及理學(xué)院,雅安 6250143、利用生物信息學(xué)技術(shù)研究蛋白功能的幾種方法 王劍利 楊章民綜述 王一理審閱 西安交通大學(xué)醫(yī)學(xué)院免疫病理學(xué)研究室(西安, 710061)

      第四篇:生物信息學(xué)

      生物信息學(xué)是上世紀(jì)90年代初人類基因組計(jì)劃(HGP)依賴,隨著基因組學(xué)、蛋白組學(xué)等新興學(xué)科的建立,逐漸發(fā)展起來的生物學(xué)、數(shù)學(xué)和計(jì)算機(jī)信息科學(xué)的一門交叉應(yīng)用學(xué)科。目前生物信息學(xué)的研究領(lǐng)域主要包括基于生物序列數(shù)據(jù)的整理和注釋、生物信息挖掘工具開發(fā)及利用這些工具揭示生物學(xué)基礎(chǔ)理論知識等領(lǐng)域。生物信息學(xué)作為新型交叉應(yīng)用學(xué)科,可以依托本校已有的計(jì)算機(jī)科學(xué)、信息學(xué)、生物學(xué)和數(shù)學(xué)等學(xué)科優(yōu)勢,充分展現(xiàn)投入少、見效快、起點(diǎn)高的特色,推動(dòng)學(xué)校學(xué)科建設(shè)和本科教學(xué)水平。

      本實(shí)驗(yàn)指導(dǎo)書中的8個(gè)實(shí)驗(yàn)均設(shè)計(jì)為綜合性開發(fā)實(shí)驗(yàn),面向生物信息學(xué)院全體本科學(xué)生和研究生,以及全校對生物信息學(xué)感興趣的其他專業(yè)學(xué)生開放。生物信息學(xué)實(shí)驗(yàn)室將提供系統(tǒng)的保障,包括采用mail服務(wù)器和linux帳號管理等進(jìn)行實(shí)驗(yàn)過程管理和支持。限選《生物信息學(xué)及實(shí)驗(yàn)》的生物技術(shù)專業(yè)本科生至少選擇其中5個(gè)實(shí)驗(yàn),并不少于8個(gè)學(xué)時(shí),即為課程要求的0.5個(gè)學(xué)分。其他選修者按照課時(shí)和學(xué)校相關(guān)規(guī)定計(jì)算創(chuàng)新學(xué)分。實(shí)驗(yàn)一 熟悉生物信息學(xué)網(wǎng)站及其數(shù)據(jù)的生物學(xué)意義

      實(shí)驗(yàn)?zāi)康模?/p>

      培養(yǎng)學(xué)生利用互聯(lián)網(wǎng)資源獲取生物信息學(xué)研究前沿和相關(guān)數(shù)據(jù)的能力,熟悉生物信息學(xué)相關(guān)的一些重要國內(nèi)外網(wǎng)站,及其核酸序列、蛋白質(zhì)序列及代謝途徑等功能相關(guān)數(shù)據(jù)庫,學(xué)會下載生物相關(guān)的信息數(shù)據(jù),了解不同的數(shù)據(jù)文件格式和其中重要的生物學(xué)意義。

      實(shí)驗(yàn)原理:

      利用互聯(lián)網(wǎng)資源檢索相關(guān)的國內(nèi)外生物信息學(xué)相關(guān)網(wǎng)站,如:NCBI、SANGER、TIGR、KEGG、SWISSPORT、Ensemble、中科院北京基因組研究所、北大生物信息

      學(xué)中心等,下載其中相關(guān)的數(shù)據(jù),如fasta、genbank格式的核算和蛋白質(zhì)序列、pathway等數(shù)據(jù),理解其重要的生物學(xué)意義。

      實(shí)驗(yàn)內(nèi)容:

      1.瀏覽和搜索至少10個(gè)國外和至少5個(gè)國內(nèi)生物信息學(xué)相關(guān)網(wǎng)站,并描

      述網(wǎng)站特征;

      2.下載各網(wǎng)站的代表性數(shù)據(jù)各10條(組)以上,并說明其生物學(xué)意義;

      3.討論各網(wǎng)站適合做何種生物信息學(xué)研究的平臺,并設(shè)計(jì)一個(gè)研究設(shè)想。實(shí)驗(yàn)報(bào)告:

      1.各網(wǎng)站網(wǎng)址及特征描述;

      2.代表性數(shù)據(jù)的下載和生物學(xué)意義的描述;

      3.討論:這些生物信息學(xué)相關(guān)網(wǎng)站的信息資源,可以被那些生物信息學(xué)

      研究所利用。

      參考書目:

      《生物信息學(xué)概論》 羅靜初 等譯,北京大學(xué)出版社,2002;《生物信息學(xué)手冊》 郝柏林 等著,上海科技出版社,2004;

      《生物信息學(xué)實(shí)驗(yàn)指導(dǎo)》 胡松年 等著,浙江大學(xué)出版社,2003。實(shí)驗(yàn)二 利用BLAST進(jìn)行序列比對

      實(shí)驗(yàn)?zāi)康模?/p>

      了解BLAST及其子程序的原理和基本參數(shù),熟練地應(yīng)用網(wǎng)絡(luò)平臺和Linux計(jì)算平臺進(jìn)行本地BLAST序列比對,熟悉BLAST結(jié)果的格式和內(nèi)容并能描述其主要意義,同時(shí)比較網(wǎng)上平臺和本地平臺的優(yōu)缺點(diǎn)。

      實(shí)驗(yàn)原理:

      利用實(shí)驗(yàn)一下載的核算和蛋白質(zhì)序列,提交到NCBI或者其他擁有BLAST運(yùn)算平臺的網(wǎng)頁上,觀察其基本參數(shù)設(shè)定庫文件類型,并得到計(jì)算結(jié)果;同時(shí)在本地服務(wù)器上學(xué)會用formatdb格式化庫文件,并輸入BLAST命令進(jìn)行計(jì)算,獲得結(jié)果文件。

      實(shí)驗(yàn)內(nèi)容:

      1.向網(wǎng)上BLAST服務(wù)器提交序列,得到匹配結(jié)果;

      2.本地使用BLAST,格式化庫文件,輸入命令行得到匹配結(jié)果;

      3.對結(jié)果文件進(jìn)行簡要描述,闡述生物學(xué)意義。

      實(shí)驗(yàn)報(bào)告:

      1.闡述BLAST原理和比對步驟;

      2.不同類型BLAST的結(jié)果及其說明;

      3.討論:不同平臺運(yùn)行BLAST的需求比較。

      參考書目:

      《生物信息學(xué)概論》 羅靜初 等譯,北京大學(xué)出版社,2002;

      《生物信息學(xué)實(shí)驗(yàn)指導(dǎo)》 胡松年 等著,浙江大學(xué)出版社,2003。

      實(shí)驗(yàn)三 利用ClustalX(W)進(jìn)行

      多序列聯(lián)配

      實(shí)驗(yàn)?zāi)康模?/p>

      掌握用Clustal X(W)工具及其基本參數(shù),對具有一定同源性和相似性的核酸與蛋白質(zhì)序列進(jìn)行聯(lián)配和聚類分析,由此對這些物種的親緣關(guān)系進(jìn)行判斷,并且對這些序列在分子進(jìn)化過程中的保守性做出估計(jì)。

      實(shí)驗(yàn)原理:

      首先對于輸入的每一條序列,兩兩之間進(jìn)行聯(lián)配,總共進(jìn)行n*(n-1)/2次聯(lián)配,這一步通過一種快速的近似算法實(shí)現(xiàn),其得分用來計(jì)算指導(dǎo)樹,系統(tǒng)樹圖能用于指導(dǎo)后面進(jìn)行的多序列聯(lián)配的過程。系統(tǒng)樹圖是通過UPGMA方法計(jì)算的。在系統(tǒng)樹圖繪制完以后,輸入的所有序列按照得分高低被分成n-1個(gè)組,然后再對組與組之間進(jìn)行聯(lián)配,這一步用Myers和Miller算法實(shí)現(xiàn)。

      實(shí)驗(yàn)內(nèi)容:

      1.明確軟件所支持的輸入文件格式,搜集整理出合適的數(shù)據(jù);

      2.在Windows環(huán)境運(yùn)行Clustal X,在Linux環(huán)境運(yùn)行Clustal W;

      3.實(shí)驗(yàn)結(jié)果及分析,用TREEV32或Njplotwin95生成NJ聚類圖。

      實(shí)驗(yàn)報(bào)告:

      1.整理好的符合Clustal的序列數(shù)據(jù);

      2.提交數(shù)據(jù)網(wǎng)頁記錄和各步驟記錄;

      3.提供聚類圖和多序列聯(lián)配圖,并說明意義。

      參考書目:

      《生物信息學(xué)概論》 羅靜初 等譯,北京大學(xué)出版社,2002;

      《生物信息學(xué)實(shí)驗(yàn)指導(dǎo)》 胡松年 等著,浙江大學(xué)出版社,2003。實(shí)驗(yàn)四 ESTS分析

      實(shí)驗(yàn)?zāi)康模?/p>

      熟悉使用一系列生物信息學(xué)分析工具對測序得到ESTs序列數(shù)據(jù)進(jìn)行聚類處理,由此對獲得表達(dá)基因的豐度等相關(guān)信息,并且對這些表達(dá)基因進(jìn)行功能的初步詮釋,為后續(xù)實(shí)驗(yàn)通過設(shè)計(jì)RACE引物獲得全長基因,以及進(jìn)一步的功能注

      釋和代謝途徑分析做好準(zhǔn)備。

      實(shí)驗(yàn)原理:

      首先用crossmatch程序去除ESTs原始序列中的載體成分和引物成分,然后用phrap生成congtig和singlet,用blast程序進(jìn)一步將有同源性的contig和singlet進(jìn)行功能聚類,最后通過blast對聚類獲得的cluster進(jìn)行功能注釋。在實(shí)驗(yàn)過程中將用到一些本實(shí)驗(yàn)室寫好的perl程序用于連接各數(shù)據(jù)庫和工具軟件。

      實(shí)驗(yàn)內(nèi)容:

      1.運(yùn)行CodonCode Aligner程序,并用它建立工程文件,導(dǎo)入例子文件

      夾里面的數(shù)據(jù);練習(xí)對序列的各種查看方式。

      2.使用CodonCode Aligner程序里的Clip Ends, Trim Vector, Assemble

      等功能,完成序列的剪切、去雜質(zhì)、組裝工作。

      實(shí)驗(yàn)報(bào)告:

      1.實(shí)驗(yàn)各步驟記錄和中間結(jié)果文件;

      2.舉例簡要說明結(jié)果文件中數(shù)據(jù)的生物學(xué)意義。

      參考書目:

      《生物信息學(xué)概論》 羅靜初 等譯,北京大學(xué)出版社,2002;

      《基因表達(dá)序列標(biāo)簽(EST)數(shù)據(jù)分析手冊》 胡松年 等著,浙江大學(xué)出版社,2005。

      實(shí)驗(yàn)五 利用Primer Premier5.0設(shè)計(jì)

      RACE引物

      實(shí)驗(yàn)?zāi)康模?/p>

      熟悉PCR引物設(shè)計(jì)工具Primer Premier5.0的一些基本功能,能夠根據(jù)實(shí)驗(yàn)需要選擇相應(yīng)的引物設(shè)計(jì)方法設(shè)計(jì)PCR引物。

      實(shí)驗(yàn)原理:

      PCR實(shí)驗(yàn)是當(dāng)代分子生物學(xué)的基本實(shí)驗(yàn)之一,由于目標(biāo)序列和實(shí)驗(yàn)?zāi)康牡牟煌鄳?yīng)設(shè)計(jì)引物的要求也不一樣。本實(shí)驗(yàn)延續(xù)ESTs分析結(jié)果,對于其中需要獲得全長的基因進(jìn)行RACE引物的設(shè)計(jì),及5’和3’RACE引物,配合接頭序列設(shè)計(jì)單向引物,并模擬練習(xí)通過連接獲得全長的基因CDS序列。最后設(shè)計(jì)已知全長基因序列的PCR擴(kuò)增引物。

      實(shí)驗(yàn)內(nèi)容:

      1.從網(wǎng)站下載并安裝Primer Premier5.0;

      2.從 GenBank 中任意獲取一個(gè) DNA 序列,設(shè)計(jì)出該序列的合適引物; 實(shí)驗(yàn)報(bào)告:

      1.實(shí)驗(yàn)各步驟使用的數(shù)據(jù)、運(yùn)算平臺、結(jié)果文件記錄;

      2.比較不同引物設(shè)計(jì)平臺和不同PCR實(shí)驗(yàn)的差別;

      參考書目:

      《生物信息學(xué)概論》 羅靜初 等譯,北京大學(xué)出版社,2002;《生物信息學(xué)實(shí)驗(yàn)指導(dǎo)》 胡松年 等著,浙江大學(xué)出版社,2003。

      實(shí)驗(yàn)八 perl程序的安裝、編寫、調(diào)試 實(shí)驗(yàn)?zāi)康模?/p>

      培養(yǎng)學(xué)生能在windows和Linux兩種平臺安裝perl解釋器、編寫perl程序以及debug和運(yùn)行的能力,熟悉perl語言基本語法,學(xué)會熟練編寫和運(yùn)用perl程序進(jìn)行基礎(chǔ)生物信息學(xué)研究。

      實(shí)驗(yàn)原理:

      Perl語言是一門通用的腳本語言,具有強(qiáng)大的字符串處理功能,是生物信息學(xué)研究的強(qiáng)大幫手,學(xué)會了perl語言,就能方便地處理生物信息學(xué)研究中遇到的各種字符串文本,促進(jìn)研究的快速進(jìn)行。

      實(shí)驗(yàn)內(nèi)容:

      1.下載perl程序在Windows和Linux下的安裝包并進(jìn)行安裝;

      2.編寫簡單的perl程序,并學(xué)會debug;

      3.編寫具有簡單功能的堿基處理perl程序。

      實(shí)驗(yàn)報(bào)告:

      1.perl解釋器安裝方法;

      2.perl解釋器debug方法;

      3.討論:perl語言在生物信息學(xué)研究中所起到的積極作用。

      參考書目:

      《PERL 編程24學(xué)時(shí)教程》(美)皮爾斯著 王建華等譯,機(jī)械工業(yè)出版社,2000;

      《生物信息學(xué)手冊》 郝柏林 等著,上??萍汲霭嫔?,2004;《生物信息學(xué)實(shí)驗(yàn)指導(dǎo)》 胡松年 等著,浙江大學(xué)出版社,2003

      第五篇:生物信息學(xué)論文

      生物信息學(xué)的進(jìn)展綜述

      韓雪晴

      (生物工程1201班,學(xué)號:201224340124)

      摘要:生物信息學(xué)是一門研究生物和生物相關(guān)系統(tǒng)中信息內(nèi)容和信息流向的綜合性系統(tǒng)科學(xué)。80年代以來新興的一門邊緣學(xué)科,信息在其中具有廣闊的前景。伴隨著人類基因組計(jì)劃的勝利完成與生物信息學(xué)的發(fā)展有著密不可分的聯(lián)系,生物信息學(xué)的發(fā)展為生命科學(xué)的發(fā)展為生命科學(xué)的研究帶來了諸多的便利,對此作了簡單的分析。

      關(guān)鍵詞:生物信息學(xué);進(jìn)展;序列比對;生物芯片

      A review of the advances in Bioinformatics

      Han Xueqing(Bioengineering, Class1201,Student ID:201224340124)

      Abstract: Bioinformatics is the science of comprehensive system of information content and information flows to a study on the biological and bio related in the system.The edge of an emerging discipline since 80, has broad prospects in which information.With the human genome project was completed and the development of bioinformatics are inextricably linked, for the life science research development of bioinformatics for the development of life science has also brought a lot of convenience, has made the simple analysis.Keywords:

      bioinformatics;progress;Sequence alignment;biochip

      1、生物信息學(xué)的產(chǎn)生背景

      生物信息學(xué)是20世紀(jì)80年代末開始,隨著基因組測序數(shù)據(jù)迅猛增加而逐漸興起的一門學(xué)科[1]。應(yīng)用系統(tǒng)生物學(xué)的方法認(rèn)識生物體代謝、發(fā)育、分化、進(jìn)化以及疾患發(fā)生規(guī)律的不可或缺的工具[2]。及時(shí)、充分、有效地利用網(wǎng)絡(luò)上不斷增長的生物信息數(shù)據(jù)庫資源,已經(jīng)成為生命科學(xué)和生物技術(shù)研究開發(fā)的必要手段,從而誕生了生物信息學(xué)。

      2、生物信息學(xué)研究內(nèi)容

      主要是利用計(jì)算機(jī)存儲核酸和蛋白質(zhì)序列,通過研究科學(xué)的算法,編制相應(yīng)的軟件對序列進(jìn)行分析、比較與預(yù)測,從中發(fā)現(xiàn)規(guī)律。白細(xì)胞介素-6(IL-6)是機(jī)體重要的免疫因子,但在兩棲類中未見報(bào)道。采用生物信息學(xué)方法對兩棲類模式動(dòng)物非洲爪蟾IL-6進(jìn)行分析[3]。以人IL-6基因?qū)Ψ侵拮笖?shù)據(jù)庫進(jìn)行搜索、分析,并采用RT-PCR方法對所得序列進(jìn)行驗(yàn)證。結(jié)果表明,非洲爪蟾IL-6基因位于scaffold_52基因架上,具有保守的IL-6家族基序[4]。采用生物信息新方法進(jìn)行不同物種的免疫基因挖掘、克隆,是一種有效的方法[5]。

      2.1序列比對

      比較兩個(gè)或兩個(gè)以上符號序列的相似性或不相似性。序列比對是生物信息學(xué)的基礎(chǔ)。兩個(gè)序列的比對現(xiàn)在已有較成熟的動(dòng)態(tài)規(guī)劃算法,以及在此基礎(chǔ)上編寫的比對軟件包BLAST和FASTA[6]。序列數(shù)據(jù)庫搜索最著名且最常用的工具之一便是BLAST算法。FASTA算法是另一族常用的序列比對及搜索工具[7]。

      2.2結(jié)構(gòu)比對

      比較兩個(gè)或兩個(gè)以上蛋白質(zhì)分子空間結(jié)構(gòu)的相似性或不相似性。

      2.3蛋白質(zhì)結(jié)構(gòu)預(yù)測

      從方法上來看有演繹法和歸納法兩種途徑。前者主要是從一些基本原理或假設(shè)出發(fā)來預(yù)測和研究蛋白質(zhì)的結(jié)構(gòu)和折疊過程。分子力學(xué)和分子動(dòng)力學(xué)屬這一范疇。后者主要是從觀察和總結(jié)已知結(jié)構(gòu)的蛋白質(zhì)結(jié)構(gòu)規(guī)律出發(fā)來預(yù)測未知蛋白質(zhì)的結(jié)構(gòu)[8]。

      3、生物信息學(xué)的新技術(shù) 3.1 Lipshutz(Affymetrix,Santa clara,CA,USA)

      描述了一種利用DNA探針陣列進(jìn)行基因組研究的方法,其原理是通過更有效有作圖、表達(dá)檢測和多態(tài)性篩選方法,可以實(shí)現(xiàn)對人類基因組的測序[9]。光介導(dǎo)的化學(xué)合成法被應(yīng)用于制造小型化的高密度寡核苷酸探針的陣列,這種通過軟件包件設(shè)計(jì)的寡核苷酸探針陣列可用于多態(tài)性篩查、基因分型和表達(dá)檢測[10]。

      3.2基因的功能分析

      Overton(University of Pennsylvania School of Medicine,Philadelphia,PA,USA)論述了人類基因組計(jì)劃的下一階段的任務(wù)基因組水平的基因功能分析。

      4生物信息學(xué)前沿

      4.1生物芯片技術(shù)

      4.1.1生物芯片的簡介

      生物芯片技術(shù)是通過縮微技術(shù),根據(jù)分子間特異性地相互作用的原理,按照芯片上固化的生物材料的不同,可以將生物芯片劃分為基因芯片、蛋白質(zhì)芯片、細(xì)胞芯片和組織芯片。4.1.2生物芯片的基本內(nèi)容

      生物芯片技術(shù)通過微加工工藝在厘米見方的芯片上集成有成千上萬個(gè)與生命相關(guān)的信息分子,它可以對生命科學(xué)與醫(yī)學(xué)中的各種生物化學(xué)反應(yīng)過程進(jìn)行集成,從而實(shí)現(xiàn)對基因、配體、抗原等生物活性物質(zhì)進(jìn)行高效快捷的測試和分析。4.1.3生物芯片的發(fā)展

      生物芯片將會給21世紀(jì)整個(gè)人類生活帶來一場“革命”。生物芯片產(chǎn)業(yè)也有望與“微電子芯片”并列成為21世紀(jì)最大的產(chǎn)業(yè)之一。4.1.4與生物芯片相關(guān)的技術(shù)

      平面微加工技術(shù)、微機(jī)械技術(shù)、CCD成像技術(shù)、基因芯片技術(shù)等。

      4.2藥物設(shè)計(jì)與生物信息學(xué)

      藥物基因組學(xué)可以說是基因功能學(xué)與分子藥理學(xué)的有機(jī)結(jié)合,在很多方面這種結(jié)合是非常必要的。藥物基因組學(xué)以藥物效應(yīng)及安全性為目標(biāo),研究各種基因突變與藥效及安全性的關(guān)系。

      4.3基因治療

      基因治療(gene therapy)是指將外源正常基因?qū)氚屑?xì)胞,以糾正或補(bǔ)償因基因缺陷和異常引起的疾病,達(dá)到治療目的[11]。也就是將外源基因通過基因轉(zhuǎn)移技術(shù)將其插入病人的適當(dāng)?shù)氖荏w細(xì)胞中,使外源基因制造的產(chǎn)物能治療某種疾病[12]。通過對miR-29a進(jìn)行靶基因預(yù)測及相關(guān)生物信息學(xué)分析,為miR-29a靶基因的實(shí)驗(yàn)驗(yàn)證提供數(shù)據(jù)支持,以期為深入研究miR-29a的生物學(xué)功能和調(diào)控機(jī)制提供理論指導(dǎo)[13]。從廣義說,基因治療還可包括從DNA水平采取的治療某些疾病的措施和新技術(shù)。在基因治療中迄今所應(yīng)用的目的基因轉(zhuǎn)移方法可分為兩大類:病毒方法和非病毒方法[14]。

      4.4虛擬細(xì)胞--人工生命的模型

      虛擬細(xì)胞是應(yīng)用信息科學(xué)的原理和技術(shù),通過數(shù)學(xué)的計(jì)算和分析,對細(xì)胞的結(jié)構(gòu)和功能進(jìn)行分析、整合和應(yīng)用,以模擬和再現(xiàn)細(xì)胞和生命的現(xiàn)象的一門新興學(xué)科。虛擬細(xì)胞亦稱人工細(xì)胞或人工生命[15]。目前,國際上已有兩個(gè)虛擬細(xì)胞問世,一個(gè)是日本的原核虛擬細(xì)胞模型,一個(gè)是美國的真核虛擬細(xì)胞模型。

      參考文獻(xiàn)

      [1].張陽德,生物信息學(xué)(第二版)科學(xué)出版社,2010,21世紀(jì)高等院校教材ISBN978-7-03-023931-0 [2].邁克爾 R.巴恩斯(Barnes.M.R.),遺傳學(xué)工作者的生物信息學(xué),科學(xué)出版社2010年10月1日出版ISBN 9787030254900 [3].齊志濤;張啟煥;王資生;許偉;黃貝;王愛民,非洲爪蟾IL-6基因的克隆及生物信息學(xué)分析 出版日期: 2010 [4].齊志濤;張啟煥;黃貝;王資生;仇明;黃金田;許偉;王愛民.非洲爪蟾BAFF及其信號通路相關(guān)基因的比較生物信息學(xué)分析,生物技術(shù),2011,(4):

      [5].廖明幟,生物背景學(xué)生的《生物信息學(xué)》課程教學(xué)思考與探索,教育教學(xué)論壇,2014年第36期

      [6].Dan E.Krane&Michael L.Raymer,生物信息學(xué)概論,清華大學(xué)出版社 2010年出版

      [7].Eddy S R.Profile Hidden Markov Models.Bioinformatics,1998,14(9):755~763 [8].Coombes KR,Fristche HA,Clarke,et al.Qutility control and peak finding for proteomics data collected from nipple aspirate fluid by surface-en-hanced laser desorption and ionization.Clin Chem,2013,49(10):1615~1623 [9].Lim HA,Batt tR.TIBTECH,1998;16(3)):104.[10].Williams n.Science,1997;277(5328):902.[11].顧健人,曹雪濤,基因治療,北京:科學(xué)出版社,2011 [12].余國膺,生物信息學(xué),中國心臟起博與心電生理雜志,2014年01期 [13].施偉杰

      曾玉

      姚純

      曹笑梅

      童華,miR-29a靶基因預(yù)測及其相關(guān)生物信息學(xué)分析,現(xiàn)代生物醫(yī)學(xué)進(jìn)展,2014年32期

      [14].安冬

      姜濤

      張翠麗

      殷玉玲

      曹雪姣

      辛毅,臧師竹利用生物信息學(xué)研究肥胖與2型糖尿病患者肝組織基因表達(dá)變化,《現(xiàn)代生物醫(yī)學(xué)進(jìn)展》 2014年30期

      [15].孫冬泳,湯健,虛擬細(xì)胞-人工生命的模型,中華醫(yī)學(xué)雜志,2011,21(81):1342~1344

      下載生物信息學(xué)簡介 -Intro to bioimfword格式文檔
      下載生物信息學(xué)簡介 -Intro to bioimf.doc
      將本文檔下載到自己電腦,方便修改和收藏,請勿使用迅雷等下載。
      點(diǎn)此處下載文檔

      文檔為doc格式


      聲明:本文內(nèi)容由互聯(lián)網(wǎng)用戶自發(fā)貢獻(xiàn)自行上傳,本網(wǎng)站不擁有所有權(quán),未作人工編輯處理,也不承擔(dān)相關(guān)法律責(zé)任。如果您發(fā)現(xiàn)有涉嫌版權(quán)的內(nèi)容,歡迎發(fā)送郵件至:645879355@qq.com 進(jìn)行舉報(bào),并提供相關(guān)證據(jù),工作人員會在5個(gè)工作日內(nèi)聯(lián)系你,一經(jīng)查實(shí),本站將立刻刪除涉嫌侵權(quán)內(nèi)容。

      相關(guān)范文推薦

        生物信息學(xué)論文

        淺談生物信息學(xué)的發(fā)展和前景 摘 要:本文闡述了生物信息學(xué)產(chǎn)生的背景,生物學(xué)數(shù)據(jù)庫,生物信息學(xué)的主要研究內(nèi)容,與生物信息學(xué)關(guān)系密切的數(shù)學(xué)和計(jì)算機(jī)科學(xué)技術(shù)領(lǐng)域,生物信息學(xué)產(chǎn)業(yè)等......

        生物信息學(xué)參考書目

        生物信息學(xué)-國內(nèi)外書目 1.Bioinformatics: sequence and genome analysis,影印本,David W. Mount,科學(xué)出版社,2002 2.DNA芯片和基因表達(dá):從實(shí)驗(yàn)到數(shù)據(jù)分析與模建,鮑爾迪,科學(xué)出......

        生物信息學(xué)綜述

        2008級臨床學(xué)院(生殖專業(yè))陳濤2008221593生物信息學(xué)綜述摘要: 主要是對生物信息學(xué)的起源及概念進(jìn)行論述,以及區(qū)別基因組信息學(xué),重點(diǎn)對生物信息學(xué)的研究內(nèi)容進(jìn)行綜述,并對國......

        生物信息學(xué)研究進(jìn)展

        我國生物信息學(xué)發(fā)展現(xiàn)狀及展望 摘要:簡要敘述了我國生物信息學(xué)發(fā)展現(xiàn)狀,以及我國當(dāng)前生物信息學(xué)發(fā)展中的一些問題,并對生物信息學(xué)的發(fā)展前景進(jìn)行概述。關(guān)鍵詞:生物信息學(xué) 現(xiàn)狀......

        生物信息學(xué)(五篇范例)

        生物信息學(xué)(Bioinformatics)是在生命科學(xué)的研究中,以計(jì)算機(jī)為工具對生物信息進(jìn)行儲存、檢索和分析的科學(xué)。它是當(dāng)今生命科學(xué)和自然科學(xué)的重大前沿領(lǐng)域之一,同時(shí)也將是21世紀(jì)自然......

        生物信息學(xué)復(fù)習(xí)總結(jié)

        生物信息學(xué)復(fù)習(xí)總結(jié) 1.生物信息學(xué)的發(fā)展歷史。 A. 20世紀(jì)50年代,生物信息學(xué)開始孕育。B.20世紀(jì)60年代,生物分子信息在概念上將計(jì)算生物學(xué)和計(jì)算機(jī)科學(xué)聯(lián)系起來。C.20世紀(jì)70年......

        生物信息學(xué)期末復(fù)習(xí)題

        生物信息學(xué)復(fù)習(xí)題 名詞解釋 1、生物信息學(xué) : 廣義指生命科學(xué)與數(shù)學(xué)、計(jì)算機(jī)科學(xué)和信息科學(xué)等交匯融合所形成的一門交叉學(xué)科。它應(yīng)用先進(jìn)的數(shù)據(jù)管理技術(shù)、數(shù)學(xué)分析模型和計(jì)算......

        生物信息學(xué)名詞解釋 (xiexiebang推薦)

        1.生物信息學(xué)(bioinformatics):是一門綜合運(yùn)用生物學(xué)、數(shù)學(xué)、物理學(xué)、信息科學(xué)以及計(jì)算機(jī)科學(xué)等諸多學(xué)科的理論方法,以互聯(lián)網(wǎng)為媒介、數(shù)據(jù)庫為載體、利用數(shù)學(xué)和計(jì)算機(jī)科學(xué)對生物......