第一篇:支持向量機等各種算法和模型的優(yōu)點和缺點
1決策樹(Decision Trees)的優(yōu)缺點 決策樹的優(yōu)點:
一、決策樹易于理解和解釋.人們在通過解釋后都有能力去理解決策樹所表達的意義。
二、對于決策樹,數(shù)據(jù)的準備往往是簡單或者是不必要的.其他的技術往往要求先把數(shù)據(jù)一般化,比如去掉多余的或者空白的屬性。
三、能夠同時處理數(shù)據(jù)型和常規(guī)型屬性。其他的技術往往要求數(shù)據(jù)屬性的單一。
四、決策樹是一個白盒模型。如果給定一個觀察的模型,那么根據(jù)所產(chǎn)生的決策樹很容易推出相應的邏輯表達式。
五、易于通過靜態(tài)測試來對模型進行評測。表示有可能測量該模型的可信度。
六、在相對短的時間內(nèi)能夠對大型數(shù)據(jù)源做出可行且效果良好的結果。
七、可以對有許多屬性的數(shù)據(jù)集構造決策樹。
八、決策樹可很好地擴展到大型數(shù)據(jù)庫中,同時它的大小獨立于數(shù)據(jù)庫的大小。
決策樹的缺點:
一、對于那些各類別樣本數(shù)量不一致的數(shù)據(jù),在決策樹當中,信息增益的結果偏向于那些具有更多數(shù)值的特征。
二、決策樹處理缺失數(shù)據(jù)時的困難。
三、過度擬合問題的出現(xiàn)。
四、忽略數(shù)據(jù)集中屬性之間的相關性。人工神經(jīng)網(wǎng)絡的優(yōu)缺點 人工神經(jīng)網(wǎng)絡的優(yōu)點:分類的準確度高,并行分布處理能力強,分布存儲及學習能力強,對噪聲神經(jīng)有較強的魯棒性和容錯能力,能充分逼近復雜的非線性關系,具備聯(lián)想記憶的功能等。人工神經(jīng)網(wǎng)絡的缺點:神經(jīng)網(wǎng)絡需要大量的參數(shù),如網(wǎng)絡拓撲結構、權值和閾值的初始值;不能觀察之間的學習過程,輸出結果難以解釋,會影響到結果的可信度和可接受程度;學習時間過長,甚至可能達不到學習的目的。遺傳算法的優(yōu)缺點 遺傳算法的優(yōu)點:
一、與問題領域無關切快速隨機的搜索能力。
二、搜索從群體出發(fā),具有潛在的并行性,可以進行多個個體的同時比較,魯棒性好。
三、搜索使用評價函數(shù)啟發(fā),過程簡單。
四、使用概率機制進行迭代,具有隨機性。
五、具有可擴展性,容易與其他算法結合。
遺傳算法的缺點:
一、遺傳算法的編程實現(xiàn)比較復雜,首先需要對問題進行編碼,找到最優(yōu)解之后還需要對問題進行解碼,二、另外三個算子的實現(xiàn)也有許多參數(shù),如交叉率和變異率,并且這些參數(shù)的選擇嚴重影響解的品質(zhì),而目前這些參數(shù)的選擇大部分是依靠經(jīng)驗.沒有能夠及時利用網(wǎng)絡的反饋信息,故算法的搜索速度比較慢,要得要較精確的解需要較多的訓練時間。
三、算法對初始種群的選擇有一定的依賴性,能夠結合一些啟發(fā)算法進行改進。KNN算法(K-Nearest Neighbour)的優(yōu)缺點 KNN算法的優(yōu)點:
一、簡單、有效。
二、重新訓練的代價較低(類別體系的變化和訓練集的變化,在Web環(huán)境和電子商務應用中是很常見的)。
三、計算時間和空間線性于訓練集的規(guī)模(在一些場合不算太大)。
四、由于KNN方法主要靠周圍有限的鄰近的樣本,而不是靠判別類域的方法來確定所屬類別的,因此對于類域的交叉或重疊較多的待分樣本集來說,KNN方法較其他方法更為適合。
五、該算法比較適用于樣本容量比較大的類域的自動分類,而那些樣本容量較小的類域采用這種算法比較容易產(chǎn)生誤分。
KNN算法缺點:
一、KNN算法是懶散學習方法(lazy learning,基本上不學習),一些積極學習的算法要快很多。
二、類別評分不是規(guī)格化的(不像概率評分)。
三、輸出的可解釋性不強,例如決策樹的可解釋性較強。
四、該算法在分類時有個主要的不足是,當樣本不平衡時,如一個類的樣本容量很大,而其他類樣本容量很小時,有可能導致當輸入一個新樣本時,該樣本的K個鄰居中大容量類的樣本占多數(shù)。該算法只計算“最近的”鄰居樣本,某一類的樣本數(shù)量很大,那么或者這類樣本并不接近目標樣本,或者這類樣本很靠近目標樣本。無論怎樣,數(shù)量并不能影響運行結果??梢圆捎脵嘀档姆椒ǎê驮摌颖揪嚯x小的鄰居權值大)來改進。
五、計算量較大。目前常用的解決方法是事先對已知樣本點進行剪輯,事先去除對分類作用不大的樣本。支持向量機(SVM)的優(yōu)缺點 SVM的優(yōu)點:
一、可以解決小樣本情況下的機器學習問題。
二、可以提高泛化性能。
三、可以解決高維問題。
四、可以解決非線性問題。
五、可以避免神經(jīng)網(wǎng)絡結構選擇和局部極小點問題。SVM的缺點:
一、對缺失數(shù)據(jù)敏感。
二、對非線性問題沒有通用解決方案,必須謹慎選擇Kernelfunction來處理。樸素貝葉斯的優(yōu)缺點 優(yōu)點:
一、樸素貝葉斯模型發(fā)源于古典數(shù)學理論,有著堅實的數(shù)學基礎,以及穩(wěn)定的分類效率。
二、NBC模型所需估計的參數(shù)很少,對缺失數(shù)據(jù)不太敏感,算法也比較簡單。缺點:
一、理論上,NBC模型與其他分類方法相比具有最小的誤差率。但是實際上并非總是如此,這是因為NBC模型假設屬性之間相互獨立,這個假設在實際應用中往往是不成立的(可以考慮用聚類算法先將相關性較大的屬性聚類),這給NBC模型的正確分類帶來了一定影響。在屬性個數(shù)比較多或者屬性之間相關性較大時,NBC模型的分類效率比不上決策樹模型。而在屬性相關性較小時,NBC模型的性能最為良好。
二、需要知道先驗概率。
三、分類決策存在錯誤率 Adaboosting方法的優(yōu)點
一、adaboost是一種有很高精度的分類器。
二、可以使用各種方法構建子分類器,Adaboost算法提供的是框架。
三、當使用簡單分類器時,計算出的結果是可以理解的。而且弱分類器構造極其簡單。
四、簡單,不用做特征篩選。
五、不用擔心overfitting。Rocchio的優(yōu)點
Rocchio算法的突出優(yōu)點是容易實現(xiàn),計算(訓練和分類)特別簡單,它通常用來實現(xiàn)衡量分類系統(tǒng)性能的基準系統(tǒng),而實用的分類系統(tǒng)很少采用這種算法解決具體的分類問題。
9各種分類算法比較
根據(jù)這篇論文所得出的結論, Calibrated boosted trees的性能最好,隨機森林第二,uncalibrated bagged trees第三,calibratedSVMs第四,uncalibrated neural nets第五。性能較差的是樸素貝葉斯,決策樹。有些算法在特定的數(shù)據(jù)集下表現(xiàn)較好。
參考文獻:
[1] 羅森林, 馬俊, 潘麗敏.數(shù)據(jù)挖掘理論與技術[M].電子工業(yè)出版社.2013.126-126 [2] 楊曉帆,陳廷槐.人工神經(jīng)網(wǎng)絡固有的優(yōu)點和缺點[J].計算機科學.1994(vol.21).23-26 [3] Steve.遺傳算法的優(yōu)缺點.http://blog.sina.com.cn/s/blog_6377a3100100h1mj.html [4] 楊建武.文本自動分類技術.[6] 張夏天.統(tǒng)計學習理論和SVM的不足(1).http://blog.sciencenet.cn/blog-230547-248821.html [7] RichCaruana,AlexandruNiculescu-Mizil.An Empirical Comparison of Supervised LearningAlgorithms.2006
第二篇:SVM支持向量機題目
機器學習課程作業(yè)(1)
提交截止日期:2017年10月10日周二
1.一個優(yōu)化問題的原問題(Prime Problem)與對偶問題(Dual Problem)定義如下:
原問題
Minimize: f???
Subject to: gi????0,i?1,2,...,K
hi????0,i?1,2,...,M
對偶問題 定義
L??,?,???f??????igi??????ihi????f?????Tg?????Th???
i?1i?1KM對偶問題為: Maximize: ???,???inf?L??,?,?? ?i?0,i?1,2,...,K Subject to:
**(a)證明:如果?是原問題的解,?,?*是對偶問題的解,則有:f???????**,?*?
(b)證明(強對偶定理):如果g????A??b,h????C??d,且f任意
???為凸函數(shù),即對?1和?2,有f???1??1????2???f??1???1???f??2?, 則有:f??*?????,*??
*
2.求下列原問題的對偶問題
(a)(l1 and l2-norm SVM Classification):
NN12??C1??i?C2??i2 Minimize: 2i?1i?1Subject to: ?i?0,i?1,2,...,N
Tyi?????xi??b???1??i
(b)(SVM regression):
NN12Minimize: ??C1???i??i??C2???i2??i2?
2i?1i?1Subject to: ?T??xi??b?yi????i,i?1,2,...,N
yi??T??xi??b????i,i?1,2,...,N
?i?0, ?i?0
(c)(Kernel Ridge Regression):
N12Minimize: ??C??i2
2i?1Subject to: yi??T??xi???i,i?1,2,...,N
(d)(Entropy Maximization Problem): Minimize: ?xlog?x? iii?1NSubject to: ?Tx?b
?xi?1Ni?1
3.如圖所示,平面上有N個點{x1,x2,...,xN},求一個半徑最小的圓,使之能包含這些點。
圖1.平面上N個點,求最小的圓包含這些點。
(a)寫出這個優(yōu)化問題的數(shù)學表達式。(b)寫出(a)的對偶問題。
(c)編寫程序求解這個問題(選做)
第三篇:基于支持向量機建模法預測原油系統(tǒng)PVT參數(shù)
大 連 理 工 大 學
研究生考查課作業(yè)
Forecasting PVT properties of crude oil systems based on support vector machines modeling scheme 基于支持向量機建模方案預測原油系統(tǒng)
PVT參數(shù)
課程名稱:
電信學部專業(yè)英語
導師: 趙珺
研究生姓名:
李德祥
學號: 20909173
作業(yè)成績:
任課教師(簽名)
交作業(yè)日時間:2010 年12月17日
基于支持向量機建模方案預測原油系統(tǒng)PVT參數(shù)
摘要:PVT參數(shù)在油儲工程計算中發(fā)揮著重要的作用。目前有許多種方法用來預測各種PVT參數(shù),例如經(jīng)驗公式法,計算機智能法。神經(jīng)網(wǎng)絡的成就為數(shù)據(jù)挖掘建模技術打開了一扇們,同時它在石油工業(yè)中起到了重要的作用。然而不幸的是,由于倉儲流體的一些特性,現(xiàn)有神經(jīng)網(wǎng)絡方法在其上的應用存在許多缺點和限制。本文提出了一種新的智能模型——支持向量機用來預測原油系統(tǒng)的PVT參數(shù),該方法解決了現(xiàn)有神經(jīng)網(wǎng)絡預測的大部分缺點。文中簡要介紹了預測步驟和建模算法,同時從神經(jīng)網(wǎng)絡,非線性回歸以及經(jīng)驗公式法中分別選擇了一種方法與支持向量機回歸建模法進行了比較。結果表明支持向量機方法更加準確,可靠,同時優(yōu)于大多數(shù)現(xiàn)有的公式法。這說明支持向量機建模法具有光明的前景,我們建議將其用于解決其他石油和煤氣工業(yè)問題,諸如滲透率和孔隙率預測,確定持液量流動區(qū)和其他油儲特性。
關鍵字:支持向量回歸機(SVR);PVT參數(shù)預測;神經(jīng)網(wǎng)絡;1 引言
儲層流動參數(shù)在石油工程計算中是非常重要的,例如物質(zhì)平衡計算,試井分析,儲量預測,向井流動態(tài)計算以及油藏數(shù)值模擬。眾所周知,準確的PVT數(shù)據(jù)對物質(zhì)平衡計算是非常重要的。這些PVT參數(shù)包括起泡點壓力(Pb),石油形成層參數(shù)(Bob),這個被定義儲存石油的容積。Bob的準確預測在儲量和產(chǎn)量計算中至關重要,同時在儲量動態(tài)計算,生產(chǎn)操作和設計以及構成評估的計算中,PVT參數(shù)也是非常重要的。這個流程的經(jīng)濟效益也取決與這些參數(shù)的準確預測。
現(xiàn)存的PVT仿真器在預測儲藏流體的物理參數(shù)時,其預測精度隨使用模型的類型,流體特性以及當時環(huán)境的變化而變化。因此他們在預測準確性方面都存在極大的缺陷。理想情況下,PVT參數(shù)通過對取自井底或者表面的樣本進行試驗研究而獲得,但這樣做獲取試驗數(shù)據(jù)代價昂貴。因此,現(xiàn)在多采用狀態(tài)等式,統(tǒng)計回歸,圖解法以及經(jīng)驗公式法來預測PVT參數(shù)。用于PVT計算的相關方法一直是研究的重點,并發(fā)表了許多論文。過去十年間,有人提出了幾種確定Pb和Bob的圖解法和數(shù)學方法。這些研究都基于這樣一個假設,Pb和Bob都是油氣比,油藏溫度,煤氣比重以及石油比重的強函數(shù)。盡管如此,這些狀態(tài)等式包含了大量的數(shù)據(jù)計算,其中需要知道儲藏流體的詳細成分,而得到它們即費力又費時。另外,這些方法在預測中是 不可靠的,它取決與原始應用數(shù)據(jù)的變化程度以及相似流體成分和API油比重的地理區(qū)域。此外PVT參數(shù)以基于容易測量的現(xiàn)場數(shù)據(jù)為基礎,諸如儲存壓力,儲存溫度和石油比重。
近年來,人工神經(jīng)網(wǎng)絡(ANNs)被用于解決許多煤氣和石油工業(yè)方面的問題,其中包括滲透率和孔隙率預測,巖相類型鑒定,地震模式識別,PVT參數(shù)預測,油管及油井中壓降估計以及井產(chǎn)量預測。在機器學習和數(shù)據(jù)挖掘領域最流行的神經(jīng)網(wǎng)絡方法是前向神經(jīng)網(wǎng)絡(FFN)和多層感知器(MLP)。它們在石油和煤氣工業(yè)中應有廣泛。盡管如此,這些神經(jīng)網(wǎng)絡建模方法存在許多缺點,諸如識別可能因果關系的能力受到限制,在后向傳播算法的構造中比較耗時,這些缺點將導致過擬合和評價函數(shù)收斂于局部極小點。另外,前向神經(jīng)網(wǎng)絡的結構參數(shù)也需要提前估計,諸如前向傳播神經(jīng)網(wǎng)絡的隱層數(shù)量和大小,多層神經(jīng)元之間的傳遞函數(shù)類型。同時,訓練算法參數(shù)通過估計初始隨機權重,學習率和動量而獲得。
本研究的主要目的是了解支持向量機回歸算法在模型化原油系統(tǒng)PVT參數(shù)方面的能力,同時解決上述神經(jīng)網(wǎng)絡存在的一些問題。大量的用戶介入不僅減緩了模型開發(fā),也違背了讓數(shù)據(jù)說話的原則。在工作中,我們精確的研究了基于核函數(shù)的支持向量機回歸算法在模型化Pb和Bob參數(shù)的能力,試驗數(shù)據(jù)來源與全世界已出版的PVT數(shù)據(jù)庫。我們也從神經(jīng)網(wǎng)絡,非線性回歸以及各種不同的經(jīng)驗公式中分別選取了一種方法與支持向量機回歸法進行了比較研究。
高原油采收率的預測是采收率分析的基礎,這也保證了分析結果的可靠性。在統(tǒng)計學習理論中,建立一個高采收率預測模型屬于函數(shù)逼近問題的范疇。根據(jù)Vapnik結構風險最小化原則,提高學習機的泛化能力即是對于有效訓練樣本的小誤差能夠保證相對獨立的測試樣本的小誤差。近幾年,最新的統(tǒng)計理論的研究結果首次運用到高采收率的分析。我們討論了改進的后向傳播人工神經(jīng)網(wǎng)絡和支持向量機。我們將神經(jīng)網(wǎng)絡同三個不同的經(jīng)驗公式法以及前向傳播神經(jīng)網(wǎng)絡進行了對比研究,結果表明支持向量機無論在可靠性和效率上都優(yōu)于大多數(shù)目前流行的建模方法。
為了說明支持向量機回歸法作為一種新的計算機智能算法的有效性,我們使用三種不同的PVT參數(shù)建立了先進的支持向量機回歸校準模型。在包括782個觀測值的數(shù)據(jù)庫中數(shù)據(jù)來自馬來群島,中東,墨西哥灣和哥倫比亞。由于寬域性和不確定分布,這些數(shù)據(jù)具有很大的挑戰(zhàn)性。因此,我們使用了四個不同輸入?yún)?shù)的數(shù)據(jù)庫來建立預測起泡點壓力和石油形成層參數(shù)的支持向量機回歸模型。這四個參數(shù)分別是:油氣比率,油藏溫度,石油比重以及煤氣相對比重。結果表明支持向量機回歸學習算法比其他石油工程論文中所提方法更快,更穩(wěn)定。另外,這種新型支持向量回歸機建模法在絕對平均誤差,標準差和相關系數(shù)上都優(yōu)于標準神經(jīng)網(wǎng)絡和大多數(shù)現(xiàn)存的系數(shù)模型。
本論文的其余部分組織如下:第二部分是文獻綜述,簡要介紹了在確定PVT關系中一些最常用的經(jīng)驗公式和神經(jīng)網(wǎng)絡建模法。應用神經(jīng)網(wǎng)絡對PVT參數(shù)建模的主要缺點也在這部分提及。同時也提出了支持向量回歸機和其訓練算法的最常用結構。第四部分介紹了數(shù)據(jù)獲取和統(tǒng)計質(zhì)量測度。試驗結果在第五部分進行了討論。第六部分通過給出試驗結果說明了方法的性能。文獻綜述
PVT參數(shù),滲透性和孔隙率,巖相類型,地震模式識別在石油和煤氣工業(yè)中是非常重要的參數(shù)。過去的六十年中,工程師們認識到發(fā)展和使用試驗公式預測PVT參數(shù)的重要性,因此在這一領域的研究促進了新方法的發(fā)展。在實驗室預測這些參數(shù)代價高昂,因此很難確定,同時預測的準確性又是至關重要的,而我們并不能提前預知。本部分簡要總結了一下預測PVT參數(shù)的一些通用經(jīng)驗公式和幾種不同的計算機智能算法。2.1 最常用的經(jīng)驗模型和評價研究
過去的六十年里,工程師們認識到發(fā)展和使用經(jīng)驗公式對于預測PVT參數(shù)的重要性。在這一領域的大量研究促進了新的公式的發(fā)展。諸如Standing,Katz,Vasquez& Beggs,Glaso&Al-Marhoun的相關研究.Glaso針對形成層參數(shù)使用45組石油樣本發(fā)展其經(jīng)驗公式,這些樣本來自于北海的烴化合物。Al-Marboun提出了一種經(jīng)驗公式用于預測中東石油的起泡點壓力和石油形成層參數(shù),他使用來自中東69個油井的160組數(shù)據(jù)集來構造他的公式。Abdul-Majeed and Salman提出了一種基于420組數(shù)據(jù)集的油量層形成公式,并命名為Abdul-Majeed and Salman 經(jīng)驗公式。他們的模型與采用新參數(shù)的Al-Marhoun油量層參數(shù)公式類似。Al-Marthoun提出了第二種針對油量層參數(shù)的經(jīng)驗公式,該公式基于11728個起跑點壓力上下的形成層參數(shù)試驗數(shù)據(jù)點。數(shù)據(jù)集的樣本來自全世界700多個油井,這些油井大部分位于中東和北美。讀者也可以參考其他經(jīng)驗公式,諸如Al-Shammasi and EI-Sebakhy等等。本研究中,我們僅僅關注于三個最常用的經(jīng)驗公式,分別為Al-Marhoun,Glaso 和Standing.Labedi提出了針對非洲原油的油量層參數(shù)公式。他使用了來自利比亞的97組數(shù)據(jù)集,尼日利亞的28組數(shù)據(jù)集以及安哥拉的4組數(shù)據(jù)集來形成他的公式。DOKLa and Osman提出了用于預測阿聯(lián)酋原油起泡點壓力和油量層參素的系數(shù)集,他們使用51組數(shù)據(jù)集來計算新的系數(shù)。Al-Yousef and Al-Marhoun指出Dokla and Osaman 起泡點壓力公式違背物理規(guī)則。Al-Marhoun 提出了另一種針 2
對石油形成層參數(shù)的公式,該公式使用11728個起泡點壓力上下的形成層參素。該數(shù)據(jù)集的樣本來自于全世界700多個油井,這些油井大部分來自與中東和北美。
Macary and El-Batanoney提出了針對起泡點壓力和形成層參數(shù)的公式。他們使用了來自蘇伊士灣30個油井的90組數(shù)據(jù)集。該新公式又與來自埃及的數(shù)據(jù)進行了對比測試,并表現(xiàn)出超過其他已有公式的性能。Omar and Todd提出了一種基于標準系數(shù)模型的石油形成層參數(shù)公式。該公式使用了來自馬來群島油井包含93個觀察點的數(shù)據(jù)集。Kartoamodjo and Schmidt 使用全球資料庫發(fā)明了一種新的預測所有PVT參數(shù)的公式,該公式使用740個不同的原油樣本,這些樣本從全世界采集,并包括5392組數(shù)據(jù)集。Almehaideb提出了一種針對阿聯(lián)酋原油的系數(shù)集,其中使用了62組來自阿聯(lián)酋油井的數(shù)據(jù)集來測量起泡點壓力和形成層參數(shù)。起泡點壓力公式,像Omar and Todd使用形成層參數(shù)作為輸入,并排除了石油比重,煤氣比重,氣油混合比以及油井溫度。Suttton and Farshand提出了一種針對墨西哥灣原油的公式,其中使用了天然氣飽和原油的285組數(shù)據(jù)集以及代表31個不同原油和天然氣系統(tǒng)的134組欠飽和石油數(shù)據(jù)集。結果表明Glaso公式預測形成層參數(shù)對于大多數(shù)研究數(shù)據(jù)表現(xiàn)良好。Petrosky and Farshad提出了一種基于墨西哥灣的新公式,并說明了Al-Marhoun公式對預測油量層系數(shù)是最好的。McCain提出了一種新的基于大規(guī)模數(shù)據(jù)的油井參數(shù)評估公式,他們建議在將來的應用中采用Standing公式來預測起泡點壓力上下的形成層參數(shù)。
Ghetto基于195組全球數(shù)據(jù)集得出了一種針對PVT參數(shù)的復雜研究公式,其中使用的數(shù)據(jù)集來自地中海盆地,美洲,中東和北海油井。他們建議運用Vasquez and Beggas公式預測油量層參數(shù)。另一方面,Elsharkawy使用44組樣本評估了用于科威特原油的PVT公式,結果表明,對于起泡點壓力,Standing公式給出了最好的結果,而Al-Marhoun石油形成層參數(shù)公式的表現(xiàn)也是令人滿意的。Mahmood and Al-Marhoun提出針對巴基斯坦原油的PVT估計公式,其中使用了來自22個不同原始樣本中的166組數(shù)據(jù)集。Al-Marhoun指出油量層參數(shù)預測結果良好,而起泡點壓力誤差卻是已有公式所得結果中最高的幾個之一。另外,Hanafy基于Macary and EI-Batanoney公式評價預測埃及原油形成層參數(shù),結果表明其平均絕對誤差為4.9%,而Dokla and Osman公式卻是3.9%。因此,研究結果表明本地公式要優(yōu)于全球公式。
Al-Fattan and Al-Marhoun所著的書中,他們基于來自已有674組數(shù)據(jù)集對現(xiàn)有的油量層參數(shù)進行了評估,結果表面Al-Marhoun公式對于全球數(shù)據(jù)集有最小的誤差。另外,他們也進行了趨勢測試以評估模型的物理行為。最后,Al-Shammasi以來自世界各地的烴混合物為代表,從準確性和適應性兩方面對已發(fā)表的針對起泡點壓力和油量層參數(shù)的公式和神經(jīng)網(wǎng)絡模型進行了評估,并提出了一種新的起泡點壓力公式,該公式基于1661個已發(fā)表的全球數(shù)據(jù)集和48個未發(fā)表的數(shù)據(jù)集。同時他也提出了神經(jīng)網(wǎng)絡模型,并且將其與數(shù)值公式進行了比較,結果表明從統(tǒng)計學和趨勢性能分析來看,一些公式違背了烴流參數(shù)的物理特性。2.2 基于人工神經(jīng)網(wǎng)絡的PVT參數(shù)預測
人工神經(jīng)網(wǎng)絡是并行分配信息處理模型,它能識別具有高度復雜性的現(xiàn)有數(shù)據(jù)。最近幾年,人工神經(jīng)網(wǎng)絡在石油工業(yè)中得到了廣泛的應用。許多學者探討了石油工程中人工神經(jīng)網(wǎng)絡的應用,諸如Ali,Elshakawy,Gharbi and Elsharkawy,Kumoluyi and Daltaban,Mohaghegh and Ameri,Mohaghegn,Mohaghegn,和Varotsis等人。在文獻中最常用的神經(jīng)網(wǎng)絡是采用倒傳遞算法的前向傳播神經(jīng)網(wǎng)絡,參見Ali,Duda以及Osman的論文。這種神經(jīng)網(wǎng)絡在預測和分類問題上有著良好的計算機智能建模能力。采用神經(jīng)網(wǎng)絡模型化PVT參數(shù)的研究還不多,最近,有人采用前向傳播神經(jīng)網(wǎng)絡預測PVT參數(shù),參見Gharbi and Elsharkawy以及Osman等人的論文。
Al-Shammasi提出了神經(jīng)網(wǎng)絡模型,并將其與數(shù)值公式進行了性能比較,結果表明從統(tǒng)計學和趨勢性能來看一些公式違背了烴流參數(shù)的物理性質(zhì)。另外,他還指出已發(fā)表的神經(jīng)網(wǎng)絡模型丟失了主要模型參數(shù)而需要重建。他使用神經(jīng)網(wǎng)絡(4-5-3-1)結構來預測起泡點壓力和石油形成層參數(shù),并以來自世界各地的烴混合物為例,從準確性和適應性兩方面對已發(fā)表的用于預測如上兩個參數(shù)的公式和神經(jīng)網(wǎng)絡進行了評價。
Gharbi 和Elsharkawy以及Osman等在前向神經(jīng)網(wǎng)絡和四種經(jīng)驗公式之間進行了對比研究,這四種公式分別是Standing,Al-Mahroun,Glaso以及Vasquez and Beggs經(jīng)驗公式,更多的結論和對比研究結果可參見他們的論文。1996,Gharbi and Elsharkawy提出了預測中東原油起泡點壓力和形成層參數(shù)的神經(jīng)網(wǎng)絡模型。該模型基于具有對數(shù)雙彎曲激發(fā)函數(shù)的神經(jīng)系統(tǒng)來預測中東油井的PVT數(shù)據(jù)。同時,Gharbi和Elsharkawy訓練了兩個神經(jīng)網(wǎng)絡分別預測起泡點壓力和形成層參數(shù)。輸入數(shù)據(jù)是油氣比率,油儲溫度,石油比重以及煤氣比重。他們使用具有兩個隱層的神經(jīng)網(wǎng)絡,第一個神經(jīng)網(wǎng)絡預測起泡點壓力,第二個神經(jīng)網(wǎng)絡預測形成層參數(shù)。二者都使用中東地區(qū)包含520個觀察點的數(shù)據(jù)集,其中498個觀察點用于訓練,其余22個觀察點用于檢驗。
Gharbi和Elsharkawy在更廣大區(qū)域采用了同樣的標準,這些區(qū)域包括:南北美,北海,東南亞和中東地區(qū)。他們提出了一種只采用1個隱層的神經(jīng)網(wǎng)絡,其中使用了來自350個不同原油系統(tǒng)的5432個觀察點的數(shù)據(jù)庫。該數(shù)據(jù)庫被分成具有5200個觀察點的訓練集和234個觀察點的測試集。對比研究結果表明,前向神經(jīng)網(wǎng)絡預測PVT參數(shù)在減小平均絕對誤差和提高相關系數(shù)方面優(yōu)于傳統(tǒng)經(jīng)驗公式。讀者可以參看Al-Shammasi和EI-Sebkhy的論文獲取其他類型的神經(jīng)網(wǎng)絡在預測PVT參數(shù)方面的應用。例如,徑向基函數(shù)和誘導神經(jīng)網(wǎng)絡。2.3 神經(jīng)網(wǎng)絡建模法最普遍的缺點
神經(jīng)網(wǎng)絡相關經(jīng)驗已經(jīng)暴露了許多技術上的限制。其中之一是設計空間的復雜性。在許多設計參數(shù)的選擇上由于沒有分析指導,開發(fā)者常常采用一種人為試探的嘗試錯誤方法,該方法將重點放在可能搜索空間的小區(qū)域里。那些需要猜測的結構參數(shù)包括隱層的數(shù)目和大小以及多層神經(jīng)元間傳遞函數(shù)的類型。需要確定的學習算法參數(shù)包括初始權重,學習率以及動量。盡管得到的可接受的結果帶有偏差,但很明顯忽視了可能存在的高級模型。大量的用戶干預不僅減慢了模型構建也違背了讓數(shù)據(jù)說話的原則。為了自動設計過程,Petrosky 和Farshad提出了遺傳算法形式的外部優(yōu)化標準。對于新數(shù)據(jù)在實際應用中的過擬合和弱網(wǎng)絡泛化能力也是一個問題。當訓練進行時,訓練數(shù)據(jù)的擬合提高了,但是由于訓練中新數(shù)據(jù)不能提前預知網(wǎng)絡性能可能因為過學習而變壞。訓練數(shù)據(jù)的一個單獨部分常常保留下來監(jiān)視性能,以保證完成收斂之前停止訓練。盡管如此,這減少了實際訓練中有效的數(shù)據(jù)量,當好的訓練數(shù)據(jù)缺乏時這也是一大劣勢。Almehaideb提出了一種網(wǎng)絡修剪算法用以提高泛化能力。最常用的采用梯度下降法的后向傳遞訓練算法在最小化誤差時存在局部極小點的問題,這限制了優(yōu)化模型的推廣。另一個問題是神經(jīng)網(wǎng)絡模型的黑箱不透明性。相關解釋能力的缺失在許多決策支持應用中是一個障礙,諸如醫(yī)學診斷,通常用戶需要知道模型給出的結論。附加分析要求通過規(guī)則提取從神經(jīng)網(wǎng)絡模型中獲得解釋設備。模型參數(shù)掩蓋在大規(guī)模矩陣中,因此獲得模型現(xiàn)象或者將其與現(xiàn)存經(jīng)驗或理論模型進行對比變得非常困難。因為模型各種輸入的相對重要性信息還沒有獲得,這使得通過排除一些重要輸入來簡化模型的方法變得不可行。諸如主成份分析技術也需要額外的處理。
在本研究中,我們提出了支持向量機回歸法來克服神經(jīng)網(wǎng)絡的缺點同時采用此方法來預測PVT參數(shù)。支持向量機建模法是一種基于統(tǒng)計學習理論和結構風險最小化原則的新型計算機智能算法。基于該原則,支持向量機通過在經(jīng)驗誤差和Vapnik-Chevonenkis置信區(qū)間之間取得合適的平衡來得到最有效的網(wǎng)絡結構,因此這種方法不可能產(chǎn)生局部極小。支持向量機回歸建模法
支持向量機回歸法是機器學習和數(shù)據(jù)挖掘領域最成功和有效的算法之一。在分類和回歸中它作為魯棒性工具得到了廣泛的應用。在許多應用中,該方法具有很強的魯棒性,例如在特征識別,文 4
本分類和人臉圖像識別等領域。支持向量機回歸算法通過最優(yōu)化超平面的特征參數(shù)以確保其高度的泛化能力。其中超平面在高維特征空間中最大化訓練樣本間的距離。3.1 背景知識和綜述
近年來,人們對支持向量機做了很多研究。從如下這些人的文章中可以獲得已完成的支持向量機建模法的概述,他們是Vapnik,Burges,Scholkopt,Smola,Kobayashi以及Komaki。該方法是一種新的基于統(tǒng)計學習理論的機器學習法。它遵循結構風險最小化原則,通過最小化泛化誤差的上界,而不是最小化訓練誤差。該歸納法基于泛化誤差的界,而泛化誤差通過加和訓練誤差和依賴VC維的置信區(qū)間得到?;诖嗽瓌t,支持向量機通過平衡經(jīng)驗誤差和VC維置信區(qū)間取得最優(yōu)的網(wǎng)絡結構。通過此平衡支持量機可以取得優(yōu)于其他神經(jīng)網(wǎng)絡模型的泛化性能。
起初,支持向量機用于解決模式識別問題。盡管如此,隨著Vapnik 不敏感損失函數(shù)的引入,支持向量機可以擴展用于解決非線性回歸預測問題。例如剛剛為人所知的支持向量回歸法,它表現(xiàn)出了良好的性能。該方法的性能取決于預定義的參數(shù)(也叫超參數(shù))。因此,為建立一個良好的支持向量回歸預測模型,我們要細心設置其參數(shù)。最近,支持向量回歸法已經(jīng)作為一種可供選擇的強有力技術用于預測復雜非線性關系問題。因其許多特有性質(zhì)和良好的泛化能力,支持向量回歸法無論是在學術界還是工業(yè)應用領域都取得了極大的成功。3.2 支持向量回歸機的結構
最近,通過引入可變的損失函數(shù),支持向量回歸機(SVR)作為一種新的強有力技術用于解決回歸問題。這部分,我們簡要介紹一下SVR.更多的細節(jié)參見Vapnik和EI-Sebakhy的論文。通常情況下,SVR的構造遵循結構風險最小化原則,它試圖最小化泛化誤差的上界而不是最小化訓練樣本的預測誤差。該特征能在訓練階段最大程度的泛化輸入輸出關系學習以得到對于新數(shù)據(jù)良好的預測性能。支持向量回歸機通過非線性映射將輸入數(shù)據(jù)x映射到高維特征空間F.,并在如圖1所示的特征空間中產(chǎn)生和解決一個線性回歸問題。
圖1 映射輸入空間x到高維特征空間
回歸估計通過給定的數(shù)據(jù)集G?{(xi,yi):XiR}Rni?1來預測一個函數(shù),這里xi代表輸入向量,?yi代表輸出值,n代表數(shù)據(jù)集的總大小。建模的目的是建立一個決策函數(shù)y?f(x),在給定一組新的輸入輸出樣本?xi,yi?的情況下準確預測輸出?yi?。該線性逼近函數(shù)由下面的公式表示:
f(x)?(w?(x)?b),?:R?F;w?FTP(1)這里w,b是系數(shù),?(x)代表高維特征空間,通過輸入空間x的非線性映射得到。因此,高維特征空間中的線性關系被映射到了低維特征空間中的非線性關系。這里不用考慮高維特征空間中w和?(x)的內(nèi)積計算。相應的,包含非線性回歸的原始優(yōu)化問題被轉換到特征空間F而非輸入空間x中尋找最平緩模型的問題。圖1中的未知參數(shù)w和b通過訓練集G預測得到。
通過不敏感損失函數(shù)支持向量回歸機在高維特征空間中模擬線性回歸。同時,為了避免過擬合,2并提高泛化能力,采用最小化經(jīng)驗風險和復雜度w2之和的正則化函數(shù)。系數(shù)w和b通過最小化結構風險函數(shù)預測得到。
RSVR(C)?Remp?12w2?Cnn?i?1?L?(yi,yi)?212w2(2)這里RSVR和Remp分別代表回歸風險和經(jīng)驗風險。w2代表歐幾里德范數(shù),C代表度量經(jīng)驗風險的損失函數(shù)。在公式2給出的結構風險函數(shù)中,回歸風險RSVR是在給定測試樣本輸入向量情況下由約束函數(shù)f得到的可能誤差。
????(|y,y|??),if|y?y|????L?(y,y)???(3)
Otherwise???0,??n在公式2中,第一項C/n?L?*(yi,yi)代表經(jīng)驗誤差,該誤差通過公式3中?不敏感損失函
i?1?數(shù)預測得到。引入損失函數(shù)可以使用少量的數(shù)據(jù)點來獲得公式1中決策函數(shù)的足夠樣本。第二項2w2是正則化系數(shù)。當存在誤差時,通過折中經(jīng)驗風險和正則化系數(shù),正則化常量C用于計算懲罰值。增大C值等于提高了相應泛化性能的經(jīng)驗風險的重要性。當擬合誤差大于?時接受懲罰。?損失函數(shù)用來穩(wěn)定預測。換句話說,?不敏感損失函數(shù)能減小噪聲。因此,?能被看作如圖2所示訓練數(shù)據(jù)近似精度的等效值。在經(jīng)驗分析中,C和?是由用戶選擇的參數(shù)。
圖2 一種線性支持向量回歸機的軟邊緣損失集
為了估計w和b,我們引入正的松弛變量?i和?i,從圖2可知,超常的正負誤差大小由?i和?i分別代表。假設松弛變量在???,??外非零,支持向量回歸機對數(shù)據(jù)擬合f(x)如下:(i)訓練誤??差通過最小化?i和?i得到。(ii)最小化 w2/2提高f(x)的平滑性,或者懲罰過于復雜的擬合函數(shù)。因此,支持向量回歸機由最小化如下函數(shù)構造而成: ?最小化:RSVR(w,C)?12nw2?C?L?(?i??i)(4)
*i?1??yi?w?(xi)?bi???i??*目標值:???0*?w?(x)?b?y????iiii????
這里?i和?i分別代表度量上下邊沿誤差的松弛變量。以上公式表明在同一結構函數(shù)f(x)下增大?將減小相應的?i和?i,從而減小來自相應數(shù)據(jù)點的誤差。最后通過引入拉格朗日多項式和擴展最優(yōu)性約束,公式1所給決策函數(shù)有如下的形式:
n?f(x,?i,?i)?*?(?i?1i??i)K(x?xi)?b*(5)
*i這里公式5中參數(shù)?i和?i被稱為拉格朗日乘子,他們滿足公式?i?*?0,?i?0和?*i?0,在i?1,2....,n。公式5中的K(xi,xj)稱作核函數(shù),而核函數(shù)的值等于特征空間?(xi)和?(xj)中 7
向量xi和xj的內(nèi)積,其中K(xi,xj)=?(xi)??(xj)。核函數(shù)用來表征任意維特征空間而不用精確計算?(x)。假如任給一個函數(shù)滿足Mercer條件,他就可用作核函數(shù)。核函數(shù)的典型例子是多項式核(K(x,y)?[x?y?1]d)和高斯核(K(x,y)?exp[?(x?y)2/2?2])。這些公式中,d代表多項式核的次數(shù),?代表高斯核寬度。這些參數(shù)必須精確選擇,因為他們確定了高維特征空間的結構并且控制最終函數(shù)的復雜性。24 數(shù)據(jù)獲取和統(tǒng)計質(zhì)量度量
4.1 要求數(shù)據(jù)
研究結果基于來自三個不同的已發(fā)表研究論文的三個數(shù)據(jù)庫中獲得。第一個數(shù)據(jù)庫引自Al-Marhoun的文章。該數(shù)據(jù)庫包括來自中東69口油井的160組數(shù)據(jù),通過它提出了一種用于預測中東石油起跑點壓力和油量層參數(shù)的公式。第二個數(shù)據(jù)庫來自Al-Marhoun&Osman(2002),Osman&Abel-Aal(2002)以及Osman&Al-Marhoun(2005)的文章。該數(shù)據(jù)庫使用采集于沙特各地的283個數(shù)據(jù)點來預測沙特原油的起泡點壓力以及該壓力點附近的油層量參數(shù)。模型基于142組訓練集的神經(jīng)網(wǎng)絡來建立前饋神經(jīng)網(wǎng)絡校正模型用以預測起泡點壓力和油量層參數(shù),其中71組數(shù)據(jù)集用于交叉驗證訓練過程中建立的關系,余下的71組數(shù)據(jù)集用于測試模型以評估精度。結果表明發(fā)展的Bob模型比現(xiàn)有的經(jīng)驗公式有更好的預測效果和更高的精度。第三個數(shù)據(jù)庫來自Goda(2003)和Osman(2001)的著作,這里作者采用具有對數(shù)雙彎曲傳遞函數(shù)的前向神經(jīng)網(wǎng)絡來預測起泡點壓力附近的石油形成層參數(shù)。該數(shù)據(jù)庫包括從803個實際數(shù)據(jù)點中刪除了21個觀察點之后的782個觀察點。該數(shù)據(jù)集采集于馬來群島,中東,墨西哥灣和加利福尼亞。作者采用倒傳遞學習算法設計了一種單隱層的前向神經(jīng)網(wǎng)絡,其中使用4個輸入神經(jīng)元來隱藏輸入的油氣比重,煤氣比重,相對煤氣濃度以及油儲溫度,五個神經(jīng)元的單隱層以及輸出層構造參數(shù)的單一神經(jīng)元。
使用以上三個不同的數(shù)據(jù)庫來評估支持向量回歸機,前向神經(jīng)網(wǎng)絡和三個經(jīng)驗公式建模法的性能。采用分層標準劃分整個數(shù)據(jù)庫。因此,我們使用70%的數(shù)據(jù)建立支持向量回歸機模型,30%的數(shù)據(jù)用于測試和驗證。我們重復內(nèi)部和外部驗證過程各1000次。因此數(shù)據(jù)被分為2到3組用于訓練和交叉驗證。
本研究中,382組數(shù)據(jù)集,267組用于建立校正模型,余下的115組用于交叉驗證訓練和測試過程中建立的關系,并以此來評價模型的精度和穩(wěn)定性。對于測試數(shù)據(jù),支持向量回歸機建模法,神經(jīng)網(wǎng)絡法以及最著名的經(jīng)驗公式法的預測性能使用以上的數(shù)據(jù)集進行度量。起泡點壓力和石油形成層參數(shù)的預測性能分別如表1-6所示。
表1 測試結果(Osman(2001)和EI-Sebakhy(2007)數(shù)據(jù)):預測Bo的統(tǒng)計質(zhì)量量度
表2 測試結果(Osman(2001)和EI-Sebakhy(2007)數(shù)據(jù)):預測Pb的統(tǒng)計質(zhì)量量度
表3測試結果(Al-Marhoun&Osman(2002)和Abdel-Aal(2002)數(shù)據(jù)):預測Bo的統(tǒng)計質(zhì)量量度
表4測試結果(Al-Marhoun&Osman(2002)和Abdel-Aal(2002)數(shù)據(jù)):預測Pb的統(tǒng)計質(zhì)量量度
表5測試結果(Osman(2001)和Goda(2003)數(shù)據(jù)):預測Bo的統(tǒng)計質(zhì)量量度
表6測試結果(Osman(2001)和Goda(2003)數(shù)據(jù)):預測Pb的統(tǒng)計質(zhì)量量度
在應用中,用戶應該知道輸入數(shù)據(jù)的范圍以確保其在正常的范圍內(nèi)。這步叫做質(zhì)量控制,它是最終取得準確和可信結果的重要一環(huán)。以下是一些主要變量的輸入/輸出范圍。包括油氣比,煤氣比重,相對煤氣密度,油儲溫度。在輸入和輸出層使用起泡點壓力和石油形成層參數(shù)進行PVT分析。
? 油氣比在26和1602之間,scf/stb ? 油量層參數(shù)在1.032和1.997之間變化 ? 起泡點壓力起于130止于3573 psia ? 油井溫度從74F到240F ? API比重在19.4和44.6之間變化。? 煤氣相對濃度改變從0.744到1.367 4.2 評價和質(zhì)量度量
在學習完成后,我們進行了擬合模型能力和質(zhì)量的評價和估計。為此,我們計算了大量的質(zhì)量量度。諸如實際和預測輸出之間的相關系數(shù)(r),根方誤差(Erms),平均相對百分誤差(Er),平均絕對百分誤差(Ea),最小絕對百分誤差(Emin),最大絕對百分誤差(Ermax),標準差(SD)和執(zhí)行時間。最好的模型有最高的相關性和最小的根方誤差。
支持向量機建模法的性能與神經(jīng)網(wǎng)絡和最常用的經(jīng)驗公式進行了比較。其中使用三種不同的數(shù)據(jù)庫。執(zhí)行過程采用交叉驗證(內(nèi)部和外部交叉)并重復了1000次。我們得到了支持向量回歸機建模法的良好結果,為了簡便起見,這里只記錄了一些必須的點。這些點能給讀者關于支持向量機建模法精度和穩(wěn)定性方面一個完整的圖形。4.3統(tǒng)計質(zhì)量度量
為了比較新模型與其他經(jīng)驗公式在精度和性能方面的差異,我們采用統(tǒng)計誤差分析法。選用的誤差參數(shù)如下:平均相對百分誤差(Er),平均絕對百分誤差(Ea),最小絕對百分誤差(Emin),最大絕對百分誤差(Ermax),均方根誤差(Erms),標準差(SD),相關系數(shù)(R2)。為了說明支持向量機回歸法的有效性,我們采用了基于三個不同數(shù)據(jù)庫的校正模型。(i)160個觀察點的數(shù)據(jù)庫.(ii)283個觀察點的數(shù)據(jù)庫用于預測Pb和Bob(iii)Goda(2003)和Osman(2001)發(fā)表的包含782個觀察點的全世界范圍內(nèi)的數(shù)據(jù)庫。
結果表明支持向量機回歸法具有穩(wěn)定性和有效性。另外,它的性能在均方根誤差,絕對平均百分誤差,標準差和相關系數(shù)方面也超過了最流行的經(jīng)驗公式中的一種以及標準前向神經(jīng)網(wǎng)絡法。實驗研究
我們在所有數(shù)據(jù)集上進行了質(zhì)量控制檢測并且刪除了多余的和不用的觀察點。為了評估每一種建模方法的性能,我們采用分層標準劃分了整個數(shù)據(jù)庫。因此,我們使用70%的數(shù)據(jù)建立支持向量回歸機模型,30%的數(shù)據(jù)用于測試和驗證。我們重復內(nèi)部和外部驗證過程各1000次。因此數(shù)據(jù)被分為2到3組用于訓練和交叉驗證。而在782組數(shù)據(jù)點中,382組用來訓練神經(jīng)網(wǎng)絡模型,剩下的200組用來交叉驗證訓練過程中建立的關系,最后200組用于測試模型以評估其準確性和趨勢穩(wěn)定性。對于測試數(shù)據(jù),我們用支持向量機回歸建模法,前向神經(jīng)網(wǎng)絡系統(tǒng)和最著名的經(jīng)驗公式分別預測起泡點壓力和石油形成層參數(shù),并研究了他們不同質(zhì)量度量的統(tǒng)計總和。
通常情況下,在訓練了支持向量機回歸建模系統(tǒng)后,我們使用交叉驗證來測試和評價校正模型。
同時我們將支持向量機回歸模型的性能和精度同標準神經(jīng)網(wǎng)絡和三種常用的經(jīng)驗公式進行了對比研究。這三種常用的公式分別是:Standing,Al-Mahroun和Glaso經(jīng)驗公式。5.1 參數(shù)初始化
本研究中,我們采用與Al-Marhoun&Osman(2002),Osman(2001)以及Osman&Abdel-Aal(2002)同樣的步驟。其中采用單或雙隱層的前向神經(jīng)網(wǎng)絡,該網(wǎng)絡基于具有線性和S型激發(fā)函數(shù)的倒傳遞學習算法。初始權重隨機獲得,學習能力基于1000元或0.001目標誤差和0.01學習率獲得。每個隱層包括的神經(jīng)元都與其相鄰層的神經(jīng)元連接。這些連接都有相關的權值,并可以在訓練過程中調(diào)整。當網(wǎng)絡可以預測給定的輸出時訓練完成。對于這兩個模型,第一層包括四個神經(jīng)元,分別代表油儲溫度,油氣比,煤氣比重和API石油比重的輸入值。第二層包含用于Pb模型的七個神經(jīng)元和用于Bob模型的8個神經(jīng)元。第三層包括一個神經(jīng)元,其代表Pb或Bob的輸出值。我們使用的用于Pb和Bob模型的簡略圖正如Al-Marhoun&Osman(2002),Osman&Abdel-Aal(2002)論文中所述。它基于1000次的重復計算使得我們可以檢測網(wǎng)絡的泛化能力,阻止對訓練數(shù)據(jù)的過擬合并且對所有運行取平均。
執(zhí)行過程開始于對現(xiàn)有數(shù)據(jù)集的支持向量機建模,每次一個觀察點,到時學習過程從現(xiàn)有輸入數(shù)據(jù)集中獲得。我們注意到交叉驗證可讓我們監(jiān)視支持向量回歸機建模的性能,同時阻止核網(wǎng)絡過擬合訓練數(shù)據(jù)。在執(zhí)行過程中,我們采用三種不同的核函數(shù),分別名為多項式,S型核以及高斯核。在支持向量回歸機的設計中,首先初始化那些控制模型整體性能的參數(shù),諸如kenel=’poly’,kernel opt=5;epsilon=0.01;lambda=0.0000001;verbose=0;以及常量C為簡便起見取為1或10。交叉驗證方法基于均方根誤差作為訓練算法中的檢查機制來阻止過擬合和復雜性。Bob和Pb模型的結果權重如下表格和圖表中所示。同時,如下所示,每一個輸入?yún)?shù)的相對重要性在訓練過程中確定,并由Bob和Pb模型給出。
5.2 討論和對比研究
我們可以研究除已選擇的檢驗公式之外其他常用的經(jīng)驗公式,更多關于這些公式數(shù)學表達式的細節(jié)可以參考EI-Sebakhv和Osman(2007)的文章。測試中的比對結果,在表1-6中分別進行了外部交叉驗證總結。從結果中我們注意到支持向量機建模法優(yōu)于采用倒傳遞算法的神經(jīng)網(wǎng)絡以及最流行的經(jīng)驗公式。提出的模型以其穩(wěn)定的性能在預測Pb和Bob值時表現(xiàn)出了很高的精度,在采用三個不同數(shù)據(jù)集的情況下該模型在其他公式中得到了最低的絕對相對百分誤差,最低的最小誤差,最低的最大誤差,最低的均方根誤差以及最高的相關系數(shù)。
我們對所有計算機智能預測算法和最著名的經(jīng)驗公式預測所得的絕對相對百分誤差EA和相關系數(shù)繪制了離散點圖。每個建模方法由一種符號表示。好的預測方法應該出現(xiàn)在圖形的左上部分。圖3所示為所用建模方法EA以及R或r的離散點,這些方法使用Osman(2001)的數(shù)據(jù)庫預測Bob。11
圖3基于Osman數(shù)據(jù)庫的所有建模法和經(jīng)驗公式法預測Bob的平均絕對相對誤差和相關系數(shù) 我們注意到支持向量回歸機建模法落在圖形的左上部分,EA=1.368%和r=0.9884,而神經(jīng)網(wǎng)絡次之,EA=1.7886%和r=0.9878,其余的經(jīng)驗公式則有更高的誤差且更低的相關系數(shù)。例如,AL-Marhoun(1992)的EA=2.2053%,r=0.9806,Standing(1947)有EA=2.7238%和r=0.9742以及Glaso公式的EA=3.3743%,r=0.9715。圖4所示為同樣的圖形,只不過采用同樣的數(shù)據(jù)集和建模方法來預測bP。我們注意到支持向量回歸機建模法落在圖形的左上部分,EA=1.368%和R=0.9884,而神經(jīng)網(wǎng)絡次之,EA=1.7886%和r=0.9878,其余的經(jīng)驗公式則有更高的誤差且更低2的相關系數(shù)。例如,AL-Marhoun(1992)的EA=2.2053%,r=0.9806,Standing(1947)有EA=2.7238%和r=0.9742以及Glaso公式的EA=3.3743%,r=0.9715。
圖4基于Osman數(shù)據(jù)庫的所有建模法和經(jīng)驗公式法預測Pb的平均絕對相對誤差和相關系數(shù) 我們也對其他數(shù)據(jù)集重復了同樣的執(zhí)行過程,但為了簡便起見,本文并沒有包括這些內(nèi)容。這些數(shù)據(jù)集是Al-Marhoun(1988,1992)和Al-Marhoun&Osman(2002)以及Osman&Abdel-Aal(2002)。
圖5-10所示為使用三個不同的數(shù)據(jù)集的試驗數(shù)據(jù)對bpp和Bob所得預測結果的六張離散圖形。這些交叉點說明了基于支持向量回歸機的高性能試驗值和預測值之間的吻合程度。讀者可以對已發(fā)表的神經(jīng)網(wǎng)絡建模法和最著名的經(jīng)驗公式進行比較。最后,我們的結論是支持向量回歸集建模法相比其他著名的建模法和經(jīng)驗公式有更好的性能和更高的穩(wěn)定性。
在預測bpp和Bob時支持向量機優(yōu)于標準前向神經(jīng)網(wǎng)絡和最常用的經(jīng)驗公式,其中使用4個輸入數(shù)據(jù):油氣比,油儲溫度,煤氣比重和煤氣相對密度。
圖5 基于Osman數(shù)據(jù)庫的支持向量回歸機預測Pb和Bob的平均交會圖
圖6 基于Osman數(shù)據(jù)庫的支持向量回歸機預測bP或bPP的平均交會圖
圖 7 基于Al-Marhoun,Osman和Osman&Abdel-Abal數(shù)據(jù)集支持向量回歸機預測Bo的交會圖
圖 8 基于Al-Marhoun,Osman和Osman&Abdel-Abal數(shù)據(jù)集支持向量回歸機預測bP的交會圖
圖 9 基于已有數(shù)據(jù)集(Al-Marhoun)支持向量回歸機預測Bo的交會圖
圖 10基于已有數(shù)據(jù)集(Al-Marhoun)支持向量回歸機預測bP的交會圖
6結論和建議
在本研究中,我們使用三種不同的數(shù)據(jù)集來考察支持向量回歸機作為一種新型模式在預測原油系統(tǒng)PVT參數(shù)過程中的能力?;诘玫降慕Y果和比對研究,我們得出如下結論:
我們使用支持向量回歸機及4個輸入變量來預測起泡點壓力和石油形成層參數(shù)。這4個變量分別是:油氣比,油儲溫度,石油比重和煤氣相對密度。在石油工程領域,這兩個參數(shù)被認為是原油系統(tǒng)PVT參數(shù)中最重要的。
成熟的支持向量回歸機建模法優(yōu)于標準前向神經(jīng)網(wǎng)絡和最常用的經(jīng)驗公式。因此,該方法相比其他方法有著更好,更有效和更可靠的性能。另外,該方法在預測Bob值時以其穩(wěn)定的性能表現(xiàn)出了很高的準確性,同時得到最低的絕對相對百分誤差,最低的最小誤差,最低的最大誤差,最低的根均方誤差和最大的相關系數(shù)。因此,支持向量回歸機建模法在油氣工業(yè)中應用靈活,可靠并有著很好的發(fā)展前景。特別是在滲透率,孔隙率,歷史匹配,預測巖石機械參數(shù),流型,液體停止多相流和巖相分類中。
參數(shù)命名
Bob 起泡點壓力附近的OFVF, RB/STB Rs 油氣比,SCF/STB T 油儲溫度,華氏溫度
r0 石油相對密度(水為1.0)
rg 煤氣相對密度(空氣為1.0)
Er平均相對百分誤差 Ei 相對百分誤差
Ea平均絕對百分相對誤差 Emax 最大絕對百分相對誤差 Emin 最小絕對百分相對誤差
RMS 均方根誤差
第四篇:常見電容器如薄膜電容器、電解電容器等的優(yōu)點與缺點
常見電容器如薄膜電容器、電解電容器等的優(yōu)點與缺點
鉭電解電容器
用燒結的鉭塊作正極,電解質(zhì)使用固體二氧化錳。
優(yōu)點:溫度特性、頻率特性和可靠性均優(yōu)于普通電解電容器特別是漏電流極小、貯存性良好、壽命長、容量誤差小、而且體積小、單位體積下能得到最大的電容電壓乘積。
缺點:對脈動電流的耐受能力差,若損壞易呈短路狀態(tài)。
應用:超小型高可靠機件中。
鋁電解電容器
用浸有糊狀電解質(zhì)的吸水紙夾在兩條鋁箔中間卷繞而成,薄的氧化膜作介質(zhì)的電容器。因為氧化膜有單向導電性質(zhì),所以電解電容器具有極性。
優(yōu)點:容量大約0.47μF--10000μF,額定電壓6.3--450V,能耐受大的脈動電流。
缺點:容量誤差大,泄漏電流大;普通的不適于在高頻和低溫下應用,不宜使用在25kHz以上頻率。
應用:低頻旁路、信號耦合、電源濾波。
薄膜電容器
結構與紙質(zhì)電容器相似,但用聚脂、聚苯乙烯等低損耗塑材作介質(zhì)。
優(yōu)點:頻率特性好,介電損耗小。
缺點:不能做成大的容量,耐熱能力差。
應用:濾波器、積分、振蕩、定時電路。
瓷介電容器
穿心式或支柱式結構瓷介電容器,它的一個電極就是安裝螺絲引線電感極小。
優(yōu)點:頻率特性好,介電損耗小,有溫度補償作用。
缺點:不能做成大的容量,受振動會引起容量變化。
應用:特別適于高頻旁路。
獨石電容器(多層陶瓷電容器)
在若干片陶瓷薄膜坯上被覆以電極槳材料,疊合后一次繞結成一塊不可分割的整體,外面再用樹脂包封而成。
優(yōu)點:小體積、大容量、高可靠和耐高溫的新型電容器,高介電常數(shù)的低頻獨石電容器也具有穩(wěn)定的性能,體積極小,Q值高。
缺點:容量誤差較大。
應用:噪聲旁路、濾波器、積分、振蕩電路。
紙介電容器
一般是用兩條鋁箔作為電極,中間以厚度為0.008~0.012mm的電容器紙隔開重疊卷繞而成。優(yōu)點:制造工藝簡單,價格便宜,能得到較大的電容量。
缺點:一般在低頻電路內(nèi),通常不能在高于3~4MHz的頻率上運用。
應用:油浸電容器的耐壓比普通紙質(zhì)電容器高,穩(wěn)定性也好,適用于高壓電路。
云母電容器
就結構而言,可分為箔片式及被銀式。被銀式電極為直接在云母片上用真空蒸發(fā)法或燒滲法
鍍上銀層而成。
優(yōu)點:由于消除了空氣間隙,溫度系數(shù)大為下降,電容穩(wěn)定性也比箔片式高。頻率特性好,Q值高,溫度系數(shù)小。
缺點:不能做成大的容量。
應用:廣泛應用在高頻電器中,并可用作標準電容器。
玻璃釉電容器
由一種濃度適于噴涂的特殊混合物噴涂成薄膜而成,介質(zhì)再以銀層電極經(jīng)燒結而成“獨石”結構性能可與云母電容器媲美,能耐受各種氣候環(huán)境,一般可在200℃或更高溫度下工作,額定工作電壓可達500V,損耗tgδ0.0005~0.008。
陶瓷電容器
用高介電常數(shù)的電容器陶瓷〈鈦酸鋇一氧化鈦〉擠壓成圓管、圓片或圓盤作為介質(zhì),并用燒滲法將銀鍍在陶瓷上作為電極制成。它又分高頻瓷介和低頻瓷介兩種。具有小的正電容溫度系數(shù)的電容器,用于高穩(wěn)定振蕩回路中,作為回路電容器及墊整電容器。低頻瓷介電容器限于在工作頻率較低的回路中作旁路或隔直流用,或對穩(wěn)定性和損耗要求不高的場合〈包括高頻在內(nèi)〉。這種電容器不宜使用在脈沖電路中,因為它們易于被脈沖電壓擊穿。高頻瓷介電容器適用于高頻電路。
第五篇:支持向量機二-拉格朗日對偶問題
支持向量機SVM---拉格朗日乘子 一
參考文檔
周志華《機器學習》 鄭潔的 《機器學習》 李航 《統(tǒng)計學習方法》
一
前言
通過上一章,我們得到SVM求解的問題
那如何根據(jù)輸入的訓練參數(shù) 獲得w, b 呢,這里通過拉格朗日對偶問題求解這個問題,并給出算法推導過程
二
拉格朗日對偶問題
上面的問題,可以通過拉格朗日對偶變換,找到更有效的求解方案
式1
L對w, b分別求偏導數(shù)
式2 把 式2帶入式一可得到
四
求解問題簡化
上面當a = 0 的時候,f(x)為無效,a>0 的時候,yif(Xi)-1 =0 必定是一個支持向量機
五 分類器函數(shù)
六
例子
如圖上,A,B, C三點通過拉格朗日對偶問題求出答案 Step 1 KKT 條件