第一篇:本科畢業(yè)答辯演講稿(使用遺傳算法從蛋白質(zhì)質(zhì)譜數(shù)據(jù)提取特征)
尊敬的各位老師:
大家上午好!
我叫XX,本次論文指導(dǎo)老師是XX老師,我選的畢業(yè)論文題目是《使用遺傳算法從蛋白質(zhì)質(zhì)譜數(shù)據(jù)提取特征,下面我先匯報一下自己選擇這篇論文的動機(jī)以及基本寫作思路。
重所周知,蛋白質(zhì)是遺傳物質(zhì)的直接反映者,通過對蛋白質(zhì)所反映出的特征進(jìn)行分析,能夠準(zhǔn)確地判斷出生物體的一些特征,如是否具有癌癥性狀。但是蛋白質(zhì)所反映出的信息成千上萬,在對數(shù)據(jù)進(jìn)行分析之前,必須先知道哪個才是對我們做出判斷有決定性作用的,哪個是與我們所研究的方面無關(guān)的,這就是論文中提到的特征提取。例如,這次論文中所選取的例子,是121卵巢癌癥患者和95例對照的樣本收集,針對每個樣本有15000個質(zhì)譜數(shù)據(jù),編寫程序的目的,就是通過遺傳算法,決定出哪20個質(zhì)譜數(shù)據(jù)能夠?qū)ε袛嗍欠袷前┌Y患者起決定性作用。
現(xiàn)在,我來陳述本篇論文的結(jié)構(gòu),主要內(nèi)容分為三個部分:蛋白質(zhì)質(zhì)譜,遺傳算法,特征提取的程序?qū)崿F(xiàn)。
蛋白質(zhì)質(zhì)譜是蛋白質(zhì)分子經(jīng)過質(zhì)譜儀分析而得的數(shù)據(jù)。首先,被分析樣品的氣態(tài)蛋白質(zhì)分子,在高真空中受到高速電子流或其它能量形式的作用,失去外層電子生成分子離子,或進(jìn)一步發(fā)生化學(xué)鍵的斷裂或重排,生成多種碎片離子。然后,將各種離子導(dǎo)入質(zhì)量分析器,利用離子在電場或磁場中的運動性質(zhì),使多種離子按不同質(zhì)荷比m/e的大小次序分開,并對多種的離子流進(jìn)行控制、記錄,得到質(zhì)譜圖。最后,得到譜圖中的各種離子及其強(qiáng)度實現(xiàn)對樣品成分及結(jié)構(gòu)的分析。
質(zhì)譜分析具有如下優(yōu)點:很高的靈敏度,能為亞微克級試樣提供信息,能最有效地與色譜聯(lián)用,適用于復(fù)雜體系中痕量物質(zhì)的鑒定或結(jié)構(gòu)測定,同時具有準(zhǔn)確性易操作性快速性及很好的普適性。正因為質(zhì)譜法有這些優(yōu)點,所以分子量測定、氨基酸鑒定、蛋白質(zhì)序列分析及立體化學(xué)分析等。
現(xiàn)在來看第二部分,遺傳算法。遺傳算法以達(dá)爾文的進(jìn)化論和Mendel的遺傳理論為基礎(chǔ),將生物進(jìn)化過程中的適者生存法則和遺傳過程中的隨機(jī)配對交叉機(jī)制相結(jié)合,通過模擬生物進(jìn)化的過程和機(jī)制來搜索最優(yōu)解。從本質(zhì)上而言,遺傳算法是一種迭代算法,它通過逐次逼近來獲得問題的近似最優(yōu)解。其主要特點是直接對結(jié)構(gòu)對象進(jìn)行操作,不存在求導(dǎo)和函數(shù)連續(xù)性的限定;具有內(nèi)在的隱并行性和更好的全局尋優(yōu)能力;采用概率化的尋優(yōu)方法,能自動獲取和指導(dǎo)優(yōu)化的搜索空間,自適應(yīng)地調(diào)整搜索方向,不需要確定的規(guī)則。遺傳算法的這些性質(zhì),已被人們廣泛地應(yīng)用于組合優(yōu)化、信號處理、自適應(yīng)控制和人工智能計算中。
在將數(shù)據(jù)載入算法之前,首先要對數(shù)據(jù)進(jìn)行編碼,成為可以被程序處理的數(shù)據(jù),也就是二進(jìn)制串。應(yīng)遵循的準(zhǔn)則首先是完備性,也就是問題空間中的所有點(候選解)都能作為GA
空間中的點(染色體)表現(xiàn)。第二是健全性,就是GA空間中的染色體能對應(yīng)所有問題空間中的候選解。第三是非冗余性(nonredundancy),就是染色體和候選解一一對應(yīng)。在遺傳算法程序之中,會包含一個用于創(chuàng)建初始群體的函數(shù),這個函數(shù)會在編碼而成得可行解中隨機(jī)選擇成為第一代父本,進(jìn)行迭代。
把這些假設(shè)的可行解置于問題的“環(huán)境”中,并按適者生存的原則,從中選擇出較適應(yīng)環(huán)境的“染色體”進(jìn)行復(fù)制,再通過交叉、變異過程產(chǎn)生更適應(yīng)環(huán)境的新一代“染色體”群,這個過程就稱為迭代。
適應(yīng)度,是表示某一個體對環(huán)境的適應(yīng)能力,也表示該個體繁殖后代的能力。遺傳算法的適應(yīng)度函數(shù)也叫評價函數(shù),是用來判斷群體中的個體的優(yōu)劣程度的指標(biāo),它是根據(jù)所求問題的目標(biāo)函數(shù)來進(jìn)行評估的。適應(yīng)度函數(shù)是遺傳算法的核心,它決定了遺傳算法的進(jìn)化方向,也就是我們最后所得到的數(shù)據(jù)的特點,就是由適應(yīng)度函數(shù)來決定的。不同的程序是有不同的適應(yīng)度函數(shù)的。比如我的這次試驗是要找出能夠?qū)ε袛嗍欠袷前┌Y起決定作用的質(zhì)譜數(shù)據(jù),那我的適應(yīng)度函數(shù)用了一個分類函數(shù),按照質(zhì)譜數(shù)據(jù)對個體進(jìn)行分類,選出能夠使分類后兩組的真值分離最大化的作為特征質(zhì)譜。在程序中我用兩個語句把癌癥個體真值賦成1,健康個體的真值為2。
迭代的核心在于三個關(guān)鍵詞——復(fù)制、交叉、變異。遺傳算法的有效性主要來自復(fù)制和交叉操作,尤其是交叉在遺傳算法中起著核心的作用。復(fù)制操作有多種算法,最經(jīng)典的是輪盤賭算法,即將上一代種群中所有個體按適應(yīng)度值成比例的依次組成一個圓形的輪盤隨機(jī)轉(zhuǎn)動輪盤,當(dāng)輪盤停下來時,指針?biāo)赶虻膫€體就是被選中的個體,由于適應(yīng)度值較高的個體所占的區(qū)域較大,被選中的概率也較高,保證了適應(yīng)度值較高的個體能在新的種群中產(chǎn)生較多的后代。
交叉算子有很多種,包括單點交叉、多點交叉、洗牌交叉等等。交叉操作分兩步實現(xiàn)。第一步是在群體中隨機(jī)抽取兩個個體,作為交叉操作的父個體。第二步是隨機(jī)地選擇交叉點,對匹配的位串進(jìn)行交叉繁殖,產(chǎn)生一對新的位串。
由于種群的個體有限,經(jīng)過若干代交叉操作,源于一個較好的祖先的個體會逐漸充斥整個種群,使問題過早收斂而得不到最優(yōu)解。為避免這種情況出現(xiàn),就要效法自然界生物的變異,對個體進(jìn)行小概率的翻轉(zhuǎn)(替換)。變異是由變異算子完成的,反映到數(shù)據(jù)上就比如原來的數(shù)據(jù)是一串1,那么我把它的某位變成0,就完成了最簡單的變異過程。
決定迭代進(jìn)行到什么程度的就是收斂條件。有很多種收斂條件,如時間限制,就是我進(jìn)行多少代之后就停止迭代。再比如精度限制,當(dāng)個體適應(yīng)度的方差或標(biāo)準(zhǔn)差低于一定的數(shù)值時停止迭代,或者適應(yīng)度限制,當(dāng)連續(xù)幾代最優(yōu)個體的適應(yīng)度沒有明顯變化時終止算法。在本次實驗中采取的是時間限制。
這是一張遺傳算法的圖解,它很直觀地表示出了遺傳算法的步驟。這里的初始條件就是收斂條件,我的論文里選的是時間收斂,設(shè)置迭代次數(shù)為50次,沒到次數(shù)就會一直迭代。然后是計算個體適應(yīng)值,這里用到適應(yīng)度函數(shù)。這是為下步的選擇做準(zhǔn)備的。然后用概率來選擇遺傳算子。比如變異的概率是百分之一,也就是500例個體中有5個變異的個體,則從適應(yīng)度高的個體中選出5個,對它運用變異算子。其他個體進(jìn)行交叉或者直接復(fù)制到下一代。然后再回到第二步進(jìn)行收斂檢驗。
最后一部分主要內(nèi)容就是程序設(shè)計了。由于ppt篇幅的關(guān)系我沒有把所有程序都列舉出來。程序一共分為6個部分,數(shù)據(jù)加載到matlab,創(chuàng)建初始種群,創(chuàng)建適應(yīng)度函數(shù),創(chuàng)建選擇結(jié)構(gòu),調(diào)用遺傳算法,顯示被選擇特征。我選擇了數(shù)據(jù)加載和調(diào)用遺傳算法兩部分解釋一下。
Load語句將數(shù)據(jù)加載至matlab,whos是顯示出數(shù)據(jù)名和類型。從輸出可以看出,一共有216組數(shù)據(jù),每組有15000個質(zhì)譜數(shù)據(jù)。
下面看看主程序的調(diào)用。Rand是隨機(jī)產(chǎn)生均勻分布的隨機(jī)數(shù),randn是隨機(jī)產(chǎn)生正態(tài)分布的隨機(jī)數(shù),這兩個隨機(jī)數(shù)是在調(diào)用ga之前必須設(shè)置的。
設(shè)置所需的特征數(shù)目。
設(shè)置適應(yīng)度函數(shù)以便下步調(diào)用。而之前已經(jīng)編寫好了適應(yīng)度函數(shù)biografit。
ga函數(shù)的參數(shù)有三個,分別是適應(yīng)度、特征數(shù)目和選擇結(jié)構(gòu)。這個選擇結(jié)構(gòu)中包含了設(shè)置好的初始群體創(chuàng)建函數(shù),迭代次數(shù),每代得人口增加數(shù)等。
ga的返回值是一個下標(biāo)feat,然后把對應(yīng)的質(zhì)譜數(shù)據(jù)存入Significant_Masses。classify函數(shù)的功能是按照程序選出的特征,來對每個體進(jìn)行判斷到底是不是癌癥,再與真值id對比,得出評價,存入cp,cp.CorrectRate是評價當(dāng)中的正確率。
這個是我們的仿真結(jié)果圖。橫軸是mz值,縱軸是相對離子強(qiáng)度。紅色的豎線所標(biāo)的就是重要質(zhì)譜。很容易可以看出,所選出的質(zhì)譜數(shù)據(jù)集中在8000d附近。仿真和實驗的結(jié)果具有有效性。