第一篇:數(shù)據(jù)挖掘與知識(shí)發(fā)現(xiàn)(講稿7-神經(jīng)網(wǎng)絡(luò)挖掘)
┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ 裝 ┊ ┊ ┊ ┊ ┊ 訂 ┊ ┊ ┊ ┊ ┊ 線 ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊
第7章
基于神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)挖掘技術(shù)
人工神經(jīng)網(wǎng)絡(luò)ANN(Artificial Neural Network)是反映人腦結(jié)構(gòu)及功能的一種數(shù)學(xué)模型,它是由大量的簡(jiǎn)單處理單元經(jīng)廣泛并行互連形成的一種網(wǎng)絡(luò)系統(tǒng)。用以模擬人類進(jìn)行知識(shí)的表示與存儲(chǔ)以及利用知識(shí)進(jìn)行推理的行為。它是對(duì)人腦系統(tǒng)的簡(jiǎn)化、抽象和模擬,具有人腦功能的許多特征。
目前,人工神經(jīng)網(wǎng)絡(luò)已在模式分類、機(jī)器視覺(jué)、機(jī)器聽(tīng)覺(jué)、智能計(jì)算、機(jī)器人控制、信號(hào)處理、組合優(yōu)化問(wèn)題求解、聯(lián)想記憶、編碼理論、醫(yī)學(xué)診斷、金融決策、數(shù)據(jù)挖掘等領(lǐng)域得到廣泛應(yīng)用。
7.1 基于知識(shí)的神經(jīng)網(wǎng)絡(luò)(KBANN)
神經(jīng)網(wǎng)絡(luò)用于數(shù)據(jù)挖掘的困難之一是,對(duì)經(jīng)過(guò)訓(xùn)練的神經(jīng)網(wǎng)絡(luò)的輸出結(jié)果很難給出直觀的解釋。許多學(xué)者試圖將專家系統(tǒng)和神經(jīng)網(wǎng)絡(luò)相結(jié)合,設(shè)計(jì)出兼有專家系統(tǒng)和神經(jīng)網(wǎng)絡(luò)優(yōu)點(diǎn)的混合系統(tǒng)。其中,基于知識(shí)的神經(jīng)網(wǎng)絡(luò)就是其中最有代表性的一種系統(tǒng)。
基于知識(shí)的神經(jīng)網(wǎng)絡(luò)包含如下四個(gè)階段:
① 規(guī)則庫(kù)表示階段:提取原始的領(lǐng)域知識(shí)并將其組織成規(guī)則庫(kù);(屬人工智能內(nèi)容)
② 映射階段:將上述規(guī)則庫(kù)中的每條規(guī)則映射成一個(gè)小的子網(wǎng)絡(luò),全體子網(wǎng)絡(luò)就構(gòu)成了一個(gè)原始網(wǎng)絡(luò)結(jié)構(gòu);
③ 學(xué)習(xí)階段:用訓(xùn)練樣本對(duì)上述網(wǎng)絡(luò)進(jìn)行訓(xùn)練;(應(yīng)用人工神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)算法)④ 規(guī)則提取階段:將上述訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)再映射成規(guī)則庫(kù)。
其典型結(jié)構(gòu)圖為:
圖1 基于知識(shí)的神經(jīng)網(wǎng)絡(luò)的信息流程
┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ 裝 ┊ ┊ ┊ ┊ ┊ 訂 ┊ ┊ ┊ ┊ ┊ 線 ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊
1)原始規(guī)則庫(kù)轉(zhuǎn)化為神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)
(1)合取規(guī)則
在與肯定條件相對(duì)應(yīng)的網(wǎng)絡(luò)連接權(quán)設(shè)置為?,在與否定條件相對(duì)應(yīng)的網(wǎng)絡(luò)連接權(quán)設(shè)置為??,在與結(jié)論相對(duì)應(yīng)的神經(jīng)元的閾值設(shè)置為(2P?1)?/2,其中P是肯定條件的個(gè)數(shù)。經(jīng)驗(yàn)表明,在KBANN中,?通常設(shè)置為4能取得較好的效果。如,規(guī)則
A:B,C,D,not(E)
圖2 合取規(guī)則轉(zhuǎn)化為神經(jīng)網(wǎng)絡(luò)示間圖
(2)析取規(guī)則
KBANN對(duì)與每個(gè)析取條件相對(duì)應(yīng)的連接權(quán)設(shè)置為?,對(duì)與結(jié)論相對(duì)應(yīng)的神經(jīng)元閾值設(shè)置為?/2。如,規(guī)則
圖3 析取規(guī)則轉(zhuǎn)化為神經(jīng)網(wǎng)絡(luò)示意圖
2)知識(shí)庫(kù)轉(zhuǎn)化為神經(jīng)網(wǎng)絡(luò)示例
設(shè)(a)為規(guī)則庫(kù);(b)為規(guī)則的層次結(jié)構(gòu),其中,實(shí)線代表必要關(guān)系,虛線表示抑制關(guān)系;(c)為由規(guī)則庫(kù)轉(zhuǎn)化而來(lái)的神經(jīng)網(wǎng)絡(luò),其中,為了處理析取規(guī)則而引入X和Y結(jié)點(diǎn),實(shí)線連接代表權(quán)重均設(shè)置為?,它代表規(guī)則庫(kù)中的依賴關(guān)系;細(xì)線代表有待進(jìn)一步學(xué)習(xí)的連接權(quán),它反映知識(shí)的精化。
┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ 裝 ┊ ┊ ┊ ┊ ┊ 訂 ┊ ┊ ┊ ┊ ┊ 線 ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊
7.2 基于KBANN的規(guī)則提取方法
基于KBANN在數(shù)據(jù)挖掘中的作用集中體現(xiàn)在規(guī)則提取階段,這一問(wèn)題在神經(jīng)網(wǎng)絡(luò)研究領(lǐng)域十分活躍。這里,主要給出一些從前饋網(wǎng)絡(luò)(如,多層感知器MLP)中提取規(guī)則的方法。幾乎所有的規(guī)則提取方法都假設(shè)經(jīng)過(guò)訓(xùn)練的神經(jīng)網(wǎng)絡(luò)的神經(jīng)元,要么處于活躍狀態(tài),要么處于不活躍狀態(tài)。
1.有代表性的規(guī)則提取方法
(1)LRE方法
用LRE方法對(duì)MLP進(jìn)行規(guī)則提取主要兩步:
? 每一步,對(duì)網(wǎng)絡(luò)中的每個(gè)隱層結(jié)點(diǎn)和輸出結(jié)點(diǎn)搜索不同的輸入組合,使得輸入加權(quán)和大于當(dāng)前結(jié)點(diǎn)的閾值;
? 對(duì)每一個(gè)組合產(chǎn)生一條規(guī)則,其前件是各個(gè)輸入條件的合取。如,Either、KT和Subset算法就是LRE方法中有代表性的三種方法。它們的特點(diǎn):生成的規(guī)則均較容易理解,但這三種方法有如下缺點(diǎn):① 搜索空間大,故搜索效率低;② 前后生成的規(guī)則有可能發(fā)生重復(fù);③ 不能保證所有有用的規(guī)則均被產(chǎn)生出來(lái)。
針對(duì)Subset算法的缺點(diǎn),Towell等提出了MofN方法,該算法的基本思想是將所有權(quán)值分成若干個(gè)等價(jià)類,在每個(gè)等價(jià)類中成員的作用基本相似,因而可以相互互換。MofN方法通過(guò)六個(gè)步驟,從訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)中提取規(guī)則,它們分別是:
┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ 裝 ┊ ┊ ┊ ┊ ┊ 訂 ┊ ┊ ┊ ┊ ┊ 線 ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊
① 分類---即將連接權(quán)分成若干等價(jià)類; ②平均---即將每個(gè)等價(jià)類中的權(quán)值平均化; ③ 去除---即去除對(duì)神經(jīng)元的作用較小的等價(jià)類;
④ 優(yōu)化---即在去除了部分連接權(quán)后,對(duì)神經(jīng)元的閾值進(jìn)行優(yōu)化; ⑤ 提取---即從經(jīng)優(yōu)化的神經(jīng)網(wǎng)絡(luò)中提取規(guī)則; ⑥ 簡(jiǎn)化---即將上述規(guī)則簡(jiǎn)化,使其更易于理解。
(2)黑箱方法
黑箱方法僅考慮從前饋神經(jīng)網(wǎng)絡(luò)的輸入和輸出的行為來(lái)提取規(guī)則。所以稱之為黑箱是因?yàn)樵谔崛∫?guī)則時(shí)不考慮神經(jīng)網(wǎng)絡(luò)的類型和結(jié)構(gòu),主要關(guān)心輸入和輸出間的映射關(guān)系。
(3)提取模糊規(guī)則
在模糊神經(jīng)網(wǎng)絡(luò)和神經(jīng)網(wǎng)絡(luò)模糊系統(tǒng)的研究中,有些模糊神經(jīng)網(wǎng)絡(luò)和神經(jīng)網(wǎng)絡(luò)模糊系統(tǒng)中包含模糊規(guī)則的提取和精化方法。
(4)從遞歸網(wǎng)絡(luò)中提取規(guī)則
該方法將遞歸網(wǎng)絡(luò)的狀態(tài)和有限自動(dòng)機(jī)的狀態(tài)相對(duì)應(yīng),可提高神經(jīng)網(wǎng)絡(luò)的泛化能力。
2.一些新規(guī)則的提取方法
本節(jié)主要介紹Taha和Ghosh的最新研究工作,其中包含三種規(guī)則提取方法:
(1)二值輸入輸出規(guī)則提取算法(BIO-RE)
該方法屬于一種簡(jiǎn)單的黑箱方法,它對(duì)二值輸入的神經(jīng)網(wǎng)絡(luò)進(jìn)行規(guī)則提取,若原始輸入不是二值的,則必須先將其二值化:
yi???1ifxi??i
?0otherwise其中,xi為原始輸入;?i為閾值;yi是與xi相對(duì)應(yīng)的二值化輸入。
┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ 裝 ┊ ┊ ┊ ┊ ┊ 訂 ┊ ┊ ┊ ┊ ┊ 線 ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊
圖4 感知器模型
它的算法為:
輸入:經(jīng)訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)
輸出:規(guī)則(庫(kù))
步驟:
① 給出對(duì)應(yīng)于各二值輸入模式的神經(jīng)網(wǎng)絡(luò)輸出O(Y)?{oj(Y)|oj?{0,1}};
② 將二值輸入和輸出相對(duì)應(yīng),構(gòu)成一個(gè)真值表;
③ 由上式真值表生成相應(yīng)的布爾函數(shù),即所需的規(guī)則(庫(kù))。
BIO-RE算法所提取的規(guī)則有如下一般形式:
IF [Not]輸入變量 [[And] [Not]輸入變量]* → 結(jié)論j 其中,[·]---表示任選項(xiàng);[·]*---表示可重復(fù)0次或n次。
若最終提取的規(guī)則為
IfY1AndNoYt2ThenO1 則必須將其改寫為
IfX1??1AndX2??2ThenO1
由此可見(jiàn),一個(gè)“真”二值輸入變量(如,Y1)表示“X1??1”;一個(gè)否定的二值輸入變量(如,NotY2)表示“X2??2”
此法當(dāng)輸入輸出本來(lái)就是二值的,或經(jīng)二值化后不會(huì)顯著影響其性能且輸入變量不太大時(shí),用BIO-RE算法是合適的,否則此方法就不太適用。
┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ 裝 ┊ ┊ ┊ ┊ ┊ 訂 ┊ ┊ ┊ ┊ ┊ 線 ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊
(2)部分規(guī)則提取算法(Partial-RE)
針對(duì)BIO-RE算法的不足,Partial-RE算法僅關(guān)心主要的連接權(quán)的組合,對(duì)每個(gè)隱層結(jié)點(diǎn)或輸出層結(jié)點(diǎn)j,將輸入結(jié)點(diǎn)j的正負(fù)連接權(quán)按降序排列,形成兩個(gè)集合。然后從最大的正連接權(quán)開(kāi)始,比如從第i個(gè)結(jié)點(diǎn)進(jìn)入的連接權(quán)最大,該算法判斷在不考慮其他結(jié)點(diǎn)輸入的情況下,能否使結(jié)點(diǎn)j激活。若存在這樣的結(jié)點(diǎn)j,則生成一條規(guī)則
cf
IfNodei???Nodej
其中,cf表示該條規(guī)則的置信度:
1?,若響應(yīng)函數(shù)為Sigmoid型n_??1?exp(?wjixi??j??)?i?1?n_?
cf??min(1,?wjixi??j??),若響應(yīng)函數(shù)為線性閾值函數(shù)
i?1??1,若響應(yīng)函數(shù)為階躍函數(shù)????這里,wji為輸入xi與結(jié)點(diǎn)j間的連接權(quán);?j為結(jié)點(diǎn)j的閾值;?稱為置信參數(shù),是一個(gè)小正數(shù)(0.1???0.3)。
若發(fā)現(xiàn)結(jié)點(diǎn)i足夠強(qiáng)使得結(jié)點(diǎn)j被激活,則結(jié)點(diǎn)i即被標(biāo)記,今后當(dāng)考察結(jié)點(diǎn)j時(shí),結(jié)點(diǎn)i將不被考慮。Partial-RE算法繼續(xù)檢查剩余的正連接權(quán),直到發(fā)現(xiàn)一個(gè)帶正連接權(quán)的結(jié)點(diǎn)不能單獨(dú)激活結(jié)點(diǎn)j時(shí)為止。
必須注意:Partial-RE算法假定所有的輸入均有相同的取值范圍,這樣它們對(duì)隱層結(jié)點(diǎn)的影響僅由權(quán)值決定。因此,必須對(duì)原始輸入變量先進(jìn)行量化:
zi?_1.0x?u1.0?exp(?(i2i))2?i
其中,zi是原始輸入變量xi經(jīng)量化后的值;?i為輸入X的標(biāo)準(zhǔn)均方差,ui是X的均值。
┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ 裝 ┊ ┊ ┊ ┊ ┊ 訂 ┊ ┊ ┊ ┊ ┊ 線 ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊
此外,該算法還尋找負(fù)權(quán)結(jié)點(diǎn),在激活時(shí),則產(chǎn)生如下規(guī)則:
IfcfNotNodeg???Nodej
不僅如此,該算法還尋找正權(quán)和負(fù)權(quán)的組合,并激活隱層或輸出層結(jié)點(diǎn),則產(chǎn)生如下規(guī)則:
cf
IfNodeiAndNotNodeg???Nodej
當(dāng)所有的規(guī)則都生成后,將它們改寫成如下形式:
IfXi??icfAndXg??g???Consequentj
實(shí)驗(yàn)結(jié)果表明,Partial-RE算法比較適合于規(guī)模較大的問(wèn)題,因?yàn)榇藭r(shí)提取所有規(guī)則是一個(gè)NP-完全問(wèn)題,而提取一部分最重要的規(guī)則是切實(shí)可行的辦法。
(3)全部規(guī)則提取算法(Full-RE)
Full-RE算法與Partial-RE算法相比,它可以從連續(xù)輸入、歸一化輸入及二值化輸入等各種神經(jīng)網(wǎng)絡(luò)中提取規(guī)則,具有較好的普適性。
對(duì)每個(gè)隱層結(jié)點(diǎn)j,F(xiàn)ull-RE算法首先生成以下中間規(guī)則:
cf
If(?wjiXi??j??)???Consequentj
_由于存在一組Xi滿足中間規(guī)則,這樣就必須知道Xi的取值范圍。每個(gè)輸入特征Xi?(ai,bi)可以用k個(gè)小區(qū)間來(lái)離散化為
Di?{di,0?ai,di,1,?,di,k?1,di,k?bi}
當(dāng)Full-RE算法發(fā)現(xiàn)離散化存在多組解時(shí),它將根據(jù)連接權(quán)的符號(hào)選擇Xi的最大或最小離散化值。若wji是負(fù)的,則Full-RE算法選擇Xi的最大離散化值,否則選擇Xi的最小離散化值。離散化后形成下列線性規(guī)化問(wèn)題:
Minimizewj1D1?wj2D2???wjnDn 使得
____
┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ 裝 ┊ ┊ ┊ ┊ ┊ 訂 ┊ ┊ ┊ ┊ ┊ 線 ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊
___
wj1D1?wj2D2???wjnDn??j?? 且Di?{di,0?ai,di,1,?,di,k?1,di,k?bi},1?i?n。
可以用任何一種求解線性規(guī)劃問(wèn)題的工具來(lái)求解該線性規(guī)劃問(wèn)題,從而得到X的取值范圍。假設(shè)一個(gè)可行解為x1?e1和x2?e2,從輸入X1和X2到結(jié)點(diǎn)j的連接權(quán)分別是正數(shù)和負(fù)數(shù),則Full-RE算法如下規(guī)則:
IfX1?e1cfAndX2?e2???hj
其中,ai?ei?bi。隱層和輸出層間提取的規(guī)則可以表示為
cf
Ifh1Andh2???Ok
Full-RE算法將中間規(guī)則和隱層與輸出層間提取的規(guī)則復(fù)合形成新的規(guī)則,復(fù)合的方法是對(duì)每個(gè)隱層結(jié)點(diǎn)hj,將hj替換為中間規(guī)則中后件為hj的前件,最終形成的規(guī)則的一般形式為
cf
If簡(jiǎn)單布爾表達(dá)式[And簡(jiǎn)單布爾表達(dá)式]*???結(jié)論j
值得注意的是,由于由Full-RE算法提取的規(guī)則中對(duì)前提條件的個(gè)數(shù)不作限制,而僅對(duì)相鄰層間規(guī)則中的前提條件個(gè)數(shù)作限制。所以,當(dāng)輸入特征是二值時(shí),就不需要二值化過(guò)程。7.3 基于ANN的數(shù)據(jù)挖掘示例
《吳一帆,基于模糊神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)挖掘算法.caj,長(zhǎng)沙電力學(xué)院學(xué)
報(bào),2002(4)》
第二篇:數(shù)據(jù)挖掘與知識(shí)發(fā)現(xiàn)(講稿9--遺傳算法)
┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ 裝 ┊ ┊ ┊ ┊ ┊ 訂 ┊ ┊ ┊ ┊ ┊ 線 ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊
第九章
基于遺傳算法的數(shù)據(jù)挖掘
面向?qū)傩缘臄?shù)據(jù)挖掘方法是基于邏輯的,神經(jīng)網(wǎng)絡(luò)挖掘方法是基于方程的,而本章要介紹的遺傳算法,則是一種基于十字表的數(shù)據(jù)挖掘方法。它也是一種典型的知識(shí)發(fā)現(xiàn)方法。
遺傳算法是模擬生物在自然環(huán)境中的遺傳和進(jìn)化過(guò)程而形成的一種自適應(yīng)全局優(yōu)化概率搜索算法。它最早由美國(guó)密執(zhí)安大學(xué)的Holland教授提出,起源于60年代對(duì)自然和人工自適應(yīng)系統(tǒng)的研究。70年代De Jong基于遺傳算法的思想在計(jì)算機(jī)上進(jìn)行了大量的純數(shù)值函數(shù)優(yōu)化計(jì)算實(shí)驗(yàn)。在此基礎(chǔ)上,由Goldberg在80年代對(duì)其進(jìn)行了歸納總結(jié),形成了遺傳算法的基本框架。9.1 遺傳算法概要
對(duì)于一個(gè)求函數(shù)最大值的優(yōu)化問(wèn)題(最小值類同),一般可描述為如下的數(shù)學(xué)規(guī)劃模型:
?maxf(X)?
?s.t.X?R
(9-1)
?R?U?式中,X?[x1,x2,?,xn]T為決策變量;f(X)為目標(biāo)函數(shù)(線性或非線性;離散或連續(xù);單峰或多峰);U為基本空間;R為U上的一個(gè)子集。滿足約束條件的解X稱為可行解,集合R表示由所有滿足約束條件的解組成的一個(gè)集合,叫做可行解集合。
圖1 最優(yōu)優(yōu)問(wèn)題的可行解及可行解集合
傳統(tǒng)的求最優(yōu)解或近似最優(yōu)解的方法主要有:枚舉法、分枝定界法、1
┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ 裝 ┊ ┊ ┊ ┊ ┊ 訂 ┊ ┊ ┊ ┊ ┊ 線 ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊
啟發(fā)式算法和搜索算法。隨著問(wèn)題種類的不同,以及問(wèn)題規(guī)模的擴(kuò)大,要尋找到一種能以有限的代價(jià)來(lái)解決上述最優(yōu)化問(wèn)題的通用方法仍是一個(gè)難題。而遺傳算法正好能為此類問(wèn)題提供一個(gè)有效途徑和通用框架,開(kāi)創(chuàng)了一種新的全局優(yōu)化搜索算法。
遺傳算法是模擬生物進(jìn)化過(guò)程的計(jì)算模型,它是自然遺傳學(xué)和計(jì)算機(jī)科學(xué)相互結(jié)合滲透而形成的新的計(jì)算方法。
生物的進(jìn)化過(guò)程主要是通過(guò)染色體之間的交叉和變異來(lái)完成的。在遺傳算法中,將n維決策向量X用n個(gè)記號(hào)Xi,i?1,2,?,n所組成的符號(hào)串來(lái)表示X:
X?X1X2?Xn?X?[X1,X2,?,Xn]T
把每一個(gè)Xi,i?1,2,?,n看作一個(gè)遺傳基因,它的所有可能取值稱為等位基因。這樣,X就可看作是由n個(gè)遺傳基因所組成的一個(gè)染色體(或個(gè)體)。對(duì)于每個(gè)個(gè)體,要按照一定的規(guī)則確定出其適應(yīng)度。個(gè)體的適應(yīng)度與其對(duì)應(yīng)的個(gè)體表現(xiàn)型X的目標(biāo)函數(shù)值相關(guān)聯(lián),X越接近于目標(biāo)函數(shù)的最優(yōu)點(diǎn),其適應(yīng)度越大;反之適應(yīng)度越小。所有染色體X就組成了問(wèn)題的搜索空間。
生物的進(jìn)化是以集團(tuán)為主體的。與此對(duì)應(yīng),遺傳算法的運(yùn)算對(duì)象是由M個(gè)個(gè)體所組成的集合,稱為群體。與生物一代一代的自然進(jìn)化過(guò)程類似,遺傳算法的運(yùn)算過(guò)程也是一個(gè)反復(fù)迭代過(guò)程,第t代群體記為P(t),經(jīng)過(guò)一代遺傳和進(jìn)化后,得到第t?1代群體,也是由多個(gè)個(gè)體組成的集合,記為P(t?1)。這個(gè)群體不斷地經(jīng)過(guò)遺傳和進(jìn)化操作,并且每次都按優(yōu)勝劣汰的規(guī)則將適應(yīng)度較高的個(gè)體更多的遺傳到下一代,這樣最終在群體中將會(huì)得到一個(gè)優(yōu)良的個(gè)體X,它達(dá)到或接近于問(wèn)題的最優(yōu)解X*。
遺傳算法中最優(yōu)解的搜索過(guò)程也模仿生物的這種進(jìn)化過(guò)程。使用所謂的遺傳算子作用于群體P(t)中,進(jìn)行下述的遺傳操作,從而得到新一 2
┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ 裝 ┊ ┊ ┊ ┊ ┊ 訂 ┊ ┊ ┊ ┊ ┊ 線 ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊
代群體P(t?1)。主要操作有:
? 選擇:根據(jù)各個(gè)個(gè)體的適應(yīng)度,按照一定的規(guī)則或方法,從第t代群體P(t)中選擇出一些優(yōu)良的個(gè)體遺傳到下一代群體P(t?1)中; ? 交叉:將群體P(t)內(nèi)的各個(gè)個(gè)體隨機(jī)搭配成對(duì),對(duì)每一對(duì)個(gè)體,以某個(gè)概率(稱為交叉概率)交換它們之間的部分染色體; ? 變異:對(duì)群體P(t)中的每一個(gè)個(gè)體,以某一概率(稱為變異概率)改變某一個(gè)或某一些基因座上的基因值為其他的等位基因。遺傳算法的運(yùn)算步驟為:
(1)初始化:設(shè)置進(jìn)化代數(shù)計(jì)數(shù)器t?0;設(shè)置最大進(jìn)化代數(shù)T;隨機(jī)生成M個(gè)個(gè)體作為初始群體P(0);
(2)個(gè)體評(píng)價(jià):計(jì)算群體P(t)中各個(gè)個(gè)體的適應(yīng)度;(3)選擇運(yùn)算:將選擇算子作用于群體;(4)交叉運(yùn)算:將交叉算子作用于群體;
(5)變異運(yùn)算:將變異算子作用于群體。群體P(t)經(jīng)過(guò)選擇、交叉、變異運(yùn)算之后得到下一代群體P(t?1);
(6)終止條件判斷:若t?T,則t?t?1,轉(zhuǎn)到步驟二;若t?T,則以進(jìn)化過(guò)程中所得到的具有最大適應(yīng)度的個(gè)體作為最優(yōu)解輸出,終止計(jì)算。
遺傳算法的執(zhí)行過(guò)程如下圖所示:
┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ 裝 ┊ ┊ ┊ ┊ ┊ 訂 ┊ ┊ ┊ ┊ ┊ 線 ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊
圖1 遺傳算法的執(zhí)行過(guò)程
9.2 遺傳算法的特點(diǎn)
與傳統(tǒng)的優(yōu)化算法:?jiǎn)渭冃畏?、梯度法、?dòng)態(tài)規(guī)劃法和分枝定界法相比,遺傳算法是一類可用于復(fù)雜系統(tǒng)優(yōu)化計(jì)算的魯棒性搜索算法。其特點(diǎn)主要有:
? 遺傳算法以決策變量的編碼作為運(yùn)算對(duì)象。而傳統(tǒng)的優(yōu)化算法往往是直接利用決策變量的實(shí)際值本身來(lái)進(jìn)行優(yōu)化計(jì)算; ? 遺傳算法直接以目標(biāo)函數(shù)值作為搜索信息。而傳統(tǒng)的優(yōu)化算法不僅需要利用目標(biāo)函數(shù)值,而且往往需要目標(biāo)函數(shù)的導(dǎo)數(shù)值等其他一些輔助信息才能確定搜索方向;
? 遺傳算法同時(shí)使用多個(gè)搜索點(diǎn)的搜索信息。而傳統(tǒng)的優(yōu)化算法往往從解空間中的一個(gè)初始點(diǎn)開(kāi)始最優(yōu)解的迭代搜索過(guò)程; ? 遺傳算法使用概率搜索技術(shù)。而傳統(tǒng)的優(yōu)化算法往往使用的是確定性的搜索方法,一個(gè)搜索點(diǎn)到另一個(gè)搜索點(diǎn)的轉(zhuǎn)移有確定的轉(zhuǎn)移方法和轉(zhuǎn)移關(guān)系,這種確定性往往也有可能使得搜索永遠(yuǎn)達(dá)不到最優(yōu)點(diǎn),因而限制了算法的應(yīng)用范圍。
9.3 遺傳算法的應(yīng)用
遺傳算法提供了一種求解復(fù)雜系統(tǒng)優(yōu)化問(wèn)題的通用框架,它不依賴于問(wèn)題的具體領(lǐng)域,對(duì)問(wèn)題的種類有很強(qiáng)的魯棒性,所以廣泛應(yīng)用于很
┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ 裝 ┊ ┊ ┊ ┊ ┊ 訂 ┊ ┊ ┊ ┊ ┊ 線 ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊
多學(xué)科。
(1)優(yōu)化函數(shù)(2)組合優(yōu)化(3)生產(chǎn)調(diào)度問(wèn)題(4)自動(dòng)控制(5)機(jī)器人學(xué)(6)圖像處理(7)人工生命(8)遺傳編碼(9)機(jī)器學(xué)習(xí)
9.4 遺傳算法的構(gòu)成要素及形式定義
構(gòu)成遺傳算法的要素主要有:染色體編碼方法、個(gè)體適應(yīng)度評(píng)價(jià)、遺傳算子、基本遺傳算法的運(yùn)行參數(shù)。
(1)染色體編碼方法
在實(shí)現(xiàn)對(duì)一個(gè)問(wèn)題用遺傳算法進(jìn)行求解之前,必須先對(duì)問(wèn)題的解空間進(jìn)行編碼,以便于它能夠由遺傳算法進(jìn)行操作。最常用的編碼方法是二進(jìn)制編碼、浮點(diǎn)數(shù)編碼、格雷碼編碼、符號(hào)編碼等。
如,二進(jìn)制編碼方法是遺傳算法中最常用的一種編碼方法,它使用的編碼符號(hào)集是由二進(jìn)制符號(hào)集0和1所組成的二值符號(hào)集{0,1},它所構(gòu)成的個(gè)體基因型是一個(gè)二進(jìn)制編碼符號(hào)串。
二進(jìn)制編碼符號(hào)串的長(zhǎng)度與問(wèn)題所要求的求解精度有關(guān)。假設(shè)某一參數(shù)的取值范圍是[Umin,Umax],若用長(zhǎng)度為l的二進(jìn)制編碼符號(hào)串來(lái)表示該參數(shù),則它總共能夠產(chǎn)生2l種不同的編碼,即為:
00000000...00000000=0 ——> Umin 00000000...00000001=1 ——> Umin?1
┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ 裝 ┊ ┊ ┊ ┊ ┊ 訂 ┊ ┊ ┊ ┊ ┊ 線 ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊
.....11111111...11111111=2*2*2…2-1——>Umax 則二進(jìn)制編碼的編碼精度為:
s?Umax?Umin l2?1假如,對(duì)于x∈[0,1023],若用10位長(zhǎng)的二進(jìn)制編碼來(lái)表示該參數(shù)的話,則下述符號(hào)串:
X:
0 0 1 0 1 0 1 1 1 1
就可表示一個(gè)個(gè)體,它所對(duì)應(yīng)的參數(shù)值為x=175。此時(shí)的編碼精度s=1。
(2)適應(yīng)度函數(shù)
在遺傳算法中,模擬自然選擇的過(guò)程主要通過(guò)評(píng)估函數(shù)和適應(yīng)度函數(shù)來(lái)實(shí)現(xiàn)的。前者是用來(lái)評(píng)估一個(gè)染色體的優(yōu)劣的絕對(duì)值,后者是用來(lái)評(píng)估一個(gè)染色體相對(duì)于整個(gè)群體的優(yōu)劣的相對(duì)值的大小。
但在遺傳算法中,評(píng)估函數(shù)和適應(yīng)度函數(shù)的計(jì)算與應(yīng)用比較相近,所以一般文獻(xiàn)中?;鞛橐徽?。
(3)遺傳算子
基本遺傳算法使用下列三種遺傳算子:
? 選擇算子:按照某種策略從父代中挑選個(gè)體進(jìn)入中間群體,如使用比例選擇;
? 交叉算子:隨機(jī)地從中間群體中抽取兩個(gè)個(gè)體,并按照某種交叉策略使兩個(gè)個(gè)體互相交換部分染色體碼串,從而形成兩個(gè)新的個(gè)體。如使用單點(diǎn)交叉;
? 變異算子:通常按照一定的概率(一般較小),改變?nèi)旧w中某些基因的值。
(4)基本遺傳算法的運(yùn)行參數(shù)
基本遺傳算法有下述4個(gè)運(yùn)行參數(shù)需要提前設(shè)定:(目前無(wú)合理的理論依據(jù))
┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ 裝 ┊ ┊ ┊ ┊ ┊ 訂 ┊ ┊ ┊ ┊ ┊ 線 ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊
? M:群體大小:即群體中所含個(gè)體的數(shù)量,一般取20-100; ? T:遺傳算法的終止進(jìn)化代數(shù),一般取為100-500; ? pc:交叉概率:一般取為0.4-0.99; ? pm:變異概率:一般取為0.0001-0.1?;具z傳算法的形式定義為:
SGA?(C,E,P0,M,?,?,?,T)
其中,C---個(gè)體的編碼方法;
E---個(gè)體適應(yīng)度評(píng)價(jià)函數(shù);
P0---初始群體;
M---群體大??;
?---選擇算子;
?---交叉算子;
?---變異算子;
T---遺優(yōu)越性運(yùn)算終止條件。9.5 遺傳算法的數(shù)學(xué)理論
1.模式
定義:模式表示一些相似的模塊,它描述了在某些位置上具有相似結(jié)構(gòu)特征的個(gè)體編碼串的一個(gè)子集。
不失一般性,以二進(jìn)制編碼為例,個(gè)體是由二值字符集V={0,1}中的元素所組成的一個(gè)編碼串,而模式卻是由三值字符集V??{0,1,*}中的元素所組成的一個(gè)編碼串,其中“*”表示通配符,它既可被當(dāng)作“1”,也可被當(dāng)作“0”。如,H=1***001*就是一個(gè)模式,串A=10100011與B=10110010都是與模式H相匹配的字符串,稱為兩者相似。
定義:模式H的第一個(gè)和最后一個(gè)常量之間的距離稱為模式的定義長(zhǎng)度,記為?(H)。
定義:模式中常量的個(gè)數(shù)稱為模式的階數(shù),記為O(H)。
如上例中,?(H)?6,O(H)?4。再如?(*****1**)?1,O(*******1)?1 顯然,當(dāng)字符串的長(zhǎng)度固定時(shí),模式的階數(shù)越高,能與該模式匹配的字符串(稱為樣本)數(shù)就越少,因而該模式的確定性也就越高。
┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ 裝 ┊ ┊ ┊ ┊ ┊ 訂 ┊ ┊ ┊ ┊ ┊ 線 ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊
2.模式定理
在引入模式的概念之后,遺傳算法的實(shí)質(zhì)可看作是對(duì)模式的一種運(yùn)算。對(duì)基本遺傳算法而言,也就是某一模式H的各個(gè)樣本經(jīng)過(guò)選擇運(yùn)算、交叉運(yùn)算、變異運(yùn)算之后,得到一些新的樣本和新的模式。
假設(shè)在進(jìn)化過(guò)程中的第t代時(shí),當(dāng)前群體P(t)中能與模式H匹配的個(gè)體數(shù)(樣本數(shù))記為m(H,t),下一代群體P(t?1)中能與模式H匹配的個(gè)體數(shù)記為m(H,t?1)。則在選擇算子、交叉算子、變異算子的連續(xù)作用下,模式H的樣本數(shù)m(H,t)的變化情況分析如下:(1)選擇算子的作用
基本遺傳算法中的選擇算子使用的是比例選擇算子。將當(dāng)前群體中適應(yīng)度的總和記為F(t)??F(Ai),在這個(gè)算子作用下,與模式H所匹配
i的各個(gè)個(gè)體Ai能夠平均復(fù)制M?m(H,t?1)?
F(Ai)個(gè)個(gè)體到下一代群體中,即 F(t)M?f(H,t)?F(t)Ai?H?P(t)M?F(Ai)??F(t)Ai?H?P(t)M?f(H,t)f(H,t)?m(H,t)?m(H,t)_F(t)F(t)
(9-2)
F(t)?式中,f(H,t)是第t代群體中模式H所隱含個(gè)體的平均適應(yīng)度;
_F(t)M是第t代群體的平均適應(yīng)度。
若再假設(shè)模式H的平均適應(yīng)度總是高出群體平均適應(yīng)度的倍,則(9-2)式可改寫為
m(H,t?1)?m(H,t)(1?C)
(9-3)由此可見(jiàn),m(H,t?1)為一等比級(jí)數(shù)。其通項(xiàng)公式為
m(H,t)?m(H,0)(1?C)t
(9-4)顯然,有
? 若C>0,則m(H,t)呈指數(shù)級(jí)增長(zhǎng);
┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ 裝 ┊ ┊ ┊ ┊ ┊ 訂 ┊ ┊ ┊ ┊ ┊ 線 ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊
? 若C<0,則m(H,t)呈指數(shù)級(jí)減少。
由此可得如下結(jié)論:在選擇算子作用下,對(duì)于平均適應(yīng)度高于群體平均適應(yīng)度的模式,其樣本數(shù)將呈指數(shù)級(jí)增長(zhǎng);反之,呈指數(shù)級(jí)減少。(2)交叉算子的作用
以單點(diǎn)交叉算子為例,見(jiàn)圖所示的一個(gè)模式。
隱含在該模式中的樣本與其他個(gè)體進(jìn)行交叉操作時(shí),根據(jù)交叉點(diǎn)的位置不同,有可能破壞該模式,也可能不破壞該模式而使其繼續(xù)生存到下一代群體中。下面估算該模式生存概率ps的下界。
顯然,當(dāng)隨機(jī)設(shè)置的交叉點(diǎn)在模式的定義長(zhǎng)度之內(nèi)時(shí),將有可能破壞該模式;而當(dāng)隨機(jī)設(shè)置的交叉點(diǎn)在模式定義長(zhǎng)度之外時(shí),肯定不會(huì)破壞該模式。則由交叉概率pc發(fā)生時(shí),模式H的生存概率的下界為
ps?1?pc??(H)l?(9-5)
這樣,經(jīng)過(guò)選擇算子和交叉算子作用之后,模式H的樣本數(shù)滿足下式:
m(H,t?1)?m(H,t)?(1?C)?[1?pc??(H)l?1]
(9-6)
由式(9-6)知,在其他值固定的情況下(C>0)
? ?(H)越小,則m(H,t)越呈指數(shù)增長(zhǎng); ? ?(H)越大,則m(H,t)越不容易呈指數(shù)增長(zhǎng)。(3)變異算子的作用
這里,以常用的基本位變異算子為例進(jìn)行研究。
若某一模式被破壞,則必然是模式描述形式中通配符“*”之處的某一基因發(fā)生了變化,其發(fā)生概率是:
1?(1?pm)O(H)當(dāng)pm??1時(shí),有:
┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ 裝 ┊ ┊ ┊ ┊ ┊ 訂 ┊ ┊ ┊ ┊ ┊ 線 ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊
1?(1?pm)O(H)?O(H)?pm
由此可知,在變異算子作用下,模式H的生存概率大約是:
ps?1?O(H)?pm
(9-7)顯然知
? O(H)越小,模式H越易于生存; ? O(H)越大,模式H越易被破壞。
綜合上面的各式,并忽略一些極小項(xiàng),則比例選擇算子、單點(diǎn)交叉算子、基本位變異算子的連續(xù)作用下,群體中模式H的子代樣本數(shù)為:
m(H,t?1)?m(H,t)?f(H,t)F(t)_?[1?pc?(H)l?1?O(H)?pm]
(9-8)
[模式定理] 遺傳算法中,在選擇、交叉和變異算子的作用下,具有低價(jià)、短的定義長(zhǎng)度,并且平均適應(yīng)度高于群體平均適應(yīng)度的模式將按指數(shù)級(jí)增長(zhǎng)。
模式定理闡述了遺傳算法的理論基礎(chǔ),說(shuō)明了模式的增長(zhǎng)規(guī)律,同時(shí)也給遺傳算法的應(yīng)用提供指導(dǎo)作用。9.6 積木塊假設(shè)與遺傳算法欺騙問(wèn)題
1.積木塊假設(shè)
具有模式定理中所述的呈指數(shù)增長(zhǎng)的模式稱為積木塊或基因塊。之所以稱為積木塊,是由于遺傳算法的求解過(guò)程并不是在搜索空間中逐一地測(cè)試各個(gè)基因的枚舉組合,而是通過(guò)一些較好的模式,像搭積木一樣,將它們拼接在一起,從而逐漸地構(gòu)造出適應(yīng)度越來(lái)越高的個(gè)體編碼串。
模式定理說(shuō)明了積木塊的樣本呈指數(shù)增長(zhǎng),亦即說(shuō)明了用遺傳算法尋找最優(yōu)樣本的可能性,但它并未指明遺傳算法一定能夠?qū)ふ业阶顑?yōu)樣本。
[積木塊假設(shè)] 個(gè)體的基因塊通過(guò)選擇、交叉、變異等遺傳算子作用,能夠拼接在一起,形成適應(yīng)度更高的個(gè)體編碼。
┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ 裝 ┊ ┊ ┊ ┊ ┊ 訂 ┊ ┊ ┊ ┊ ┊ 線 ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊
注:積木塊假設(shè)已得到完整而嚴(yán)密的數(shù)學(xué)證明,但大量的應(yīng)用實(shí)踐也已說(shuō)明了其有效性。
2.遺傳算法欺騙問(wèn)題(GA Deceptive Problem)
應(yīng)用實(shí)踐表明,存在著一類用遺傳算法難以求解的問(wèn)題,這類稱為“GA-難”的問(wèn)題往往不滿足積木塊假設(shè),即由基因塊之間的拼接,往往會(huì)欺騙遺傳算法,使其進(jìn)化過(guò)程偏離最優(yōu)解。
原因:各種研究結(jié)果表明,屬于“GA-難”的問(wèn)題一般包含有孤立的最優(yōu)點(diǎn),即在這個(gè)最優(yōu)點(diǎn)周圍是一些較差的點(diǎn),從而使得遺傳算法較難通過(guò)基因之間的相互拼接而達(dá)到這個(gè)最優(yōu)點(diǎn)的模式。實(shí)際上,目前也尚無(wú)解決這類問(wèn)題的較好方法或策略。所幸的是,現(xiàn)實(shí)所遇到的各種應(yīng)用問(wèn)題中,很少有這種奇怪的性質(zhì)。9.7 基于遺傳算法的數(shù)據(jù)挖掘示例
【示例】從200名腦出血和腦血栓病例中,按如下屬性:“病人的既往史”、“起病方式”、“局部癥狀”、“病理反射”、“膝腱反射”和“病情發(fā)展”等六個(gè)方面,找出這兩類病人的識(shí)別規(guī)則。其中
(1)病人的既往史
包括:高血壓(有01,無(wú)00)、動(dòng)脈硬化(有01,無(wú)00);(2)起病方式
快(01)、慢(00);(3)局部證狀
偏癱(是01,否00)
瞳孔不等大(是01,否00)
兩便失禁(是01,否00)
語(yǔ)言障礙(是01,否00)
意識(shí)障礙(無(wú)00,深度01,輕度10)
(4)病理反射
陽(yáng)(01),陰(00)
┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ 裝 ┊ ┊ ┊ ┊ ┊ 訂 ┊ ┊ ┊ ┊ ┊ 線 ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊
(5)膝腱反射
無(wú)(00),活躍(01),不活躍(10)
(6)病情發(fā)展
快(01),慢(00)
則可選30個(gè)病例作為訓(xùn)練樣本,100個(gè)作為測(cè)試樣本。
a)采用二進(jìn)制編碼方式。每個(gè)訓(xùn)練樣本是由11個(gè)特征和1個(gè)類別組成,每個(gè)特征和類別都由2位二進(jìn)制字符表示。那么,將樣本編碼成二進(jìn)制字符串的消息就是一個(gè)由22位條件和2位結(jié)論組成的二元組。如,消息M=[***00101,01] b)假設(shè)訓(xùn)練集是由15個(gè)腦出血和15個(gè)腦血栓患者組成30個(gè)訓(xùn)練樣本。本實(shí)驗(yàn)在對(duì)30個(gè)訓(xùn)練樣本進(jìn)行學(xué)習(xí)后,得到12條規(guī)則,學(xué)習(xí)終止于第170代。
(參見(jiàn)P201《數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘》,陳文偉、黃金才編,人民郵電出版社,2004)
c)獲取如下的7條主要規(guī)則:
(1)if 高血壓=有∧瞳孔不等大=是∧膝腱反射=不活躍 then 腦出血(11)
(2)if 瞳孔不等大=是∧語(yǔ)言障礙=是 then 腦出血(12)
(3)if 高血壓=有∧起病方式=快∧意識(shí)障礙=深度 then 腦出血(13)(4)if 高血壓=有∧病情發(fā)展=快 then 腦出血(15)
(5)if 高血壓=有∧動(dòng)脈硬化=有∧起病方式= 慢 then 腦血栓(13)(6)if 動(dòng)脈硬化=有∧病情發(fā)展=慢 then 腦血栓(15)(7)if 動(dòng)脈硬化=有∧意識(shí)障礙=無(wú) then 腦血栓(12)以上括號(hào)內(nèi)的數(shù)值表示該規(guī)則的適應(yīng)值。
第三篇:數(shù)據(jù)挖掘與電子商務(wù)
數(shù)據(jù)挖掘與電子商務(wù)
姓名:龔洪虎
學(xué)號(hào):X2009230111
[摘 要] 企業(yè)的競(jìng)爭(zhēng)優(yōu)勢(shì)并不取決于信息的擁有量,而是取決于信息的處理利用能力。如何化信息優(yōu)勢(shì)為競(jìng)爭(zhēng)優(yōu)勢(shì),是企業(yè)制勝于市場(chǎng)的一個(gè)法寶。本文論述了一種信息處理利用的有效工具——數(shù)據(jù)挖掘方法及其在電子商務(wù)中的應(yīng)用。
[關(guān)鍵詞] 數(shù)據(jù)挖掘 方法 電子商務(wù) 應(yīng)用
隨著網(wǎng)絡(luò)技術(shù)和數(shù)據(jù)庫(kù)技術(shù)的成熟,傳統(tǒng)商務(wù)正經(jīng)歷一次重大變革,向電子商務(wù)全速挺進(jìn)。這種商業(yè)電子化的趨勢(shì)不僅為客戶提供了便利的交易方式和廣泛的選擇,同時(shí)也為商家提供了更加深入了解客戶需求信息和購(gòu)物行為特征的可能性。數(shù)據(jù)挖掘技術(shù)作為電子商務(wù)的重要應(yīng)用技術(shù)之一,將為正確的商業(yè)決策提供強(qiáng)有力的支持和可靠的保證,是電子商務(wù)不可缺少的重要工具。
一、電子商務(wù)和數(shù)據(jù)挖掘簡(jiǎn)介。
電子商務(wù)是指?jìng)€(gè)人或企業(yè)通過(guò)Internet網(wǎng)絡(luò),采用數(shù)字化電子方式進(jìn)行商務(wù)數(shù)據(jù)交換和開(kāi)展商務(wù)業(yè)務(wù)活動(dòng)。目前國(guó)內(nèi)已有網(wǎng)上商情廣告、電子票據(jù)交換、網(wǎng)上訂購(gòu),網(wǎng)上銀行、網(wǎng)上支付結(jié)算等多種類型的電子商務(wù)形式。電子商務(wù)正以其成本低廉、方便、快捷、安全、可靠、不受時(shí)間和空間的限制等突出優(yōu)點(diǎn)而逐步在全球流行。
數(shù)據(jù)挖掘(DataMining)是伴隨著數(shù)據(jù)倉(cāng)庫(kù)技術(shù)的發(fā)展而逐步完善起來(lái)的。數(shù)據(jù)挖掘主要是為了幫助商業(yè)用戶處理大量存在的數(shù)據(jù),發(fā)現(xiàn)其后隱含的規(guī)律性,同時(shí)將其模型化,來(lái)完成輔助決策的作用。它要求從大量的、不完全的、有噪聲的、模糊的和隨機(jī)的數(shù)據(jù)中,提取人們事先不知道的但又是潛在有用的信息和知識(shí)。數(shù)據(jù)挖掘的過(guò)程有時(shí)也叫知識(shí)發(fā)現(xiàn)的過(guò)程。
而電子商務(wù)中的數(shù)據(jù)挖掘即Web挖掘,是利用數(shù)據(jù)挖掘技術(shù)從www的資源(即Web文檔)和行為(即We服務(wù))中自動(dòng)發(fā)現(xiàn)并提取感興趣的、有用的模式和隱含的信息,它是一項(xiàng)綜合技術(shù)涉及到Internet技術(shù)學(xué)、人工智能、計(jì)算機(jī)語(yǔ)言、信息學(xué)、統(tǒng)計(jì)學(xué)等多個(gè)領(lǐng)域。
二、何謂數(shù)據(jù)挖掘及方法
確切地說(shuō),數(shù)據(jù)挖掘(Data Mining),又稱數(shù)據(jù)庫(kù)中的知識(shí)發(fā)現(xiàn)(Knowledge Discovery in Database,KDD),是指從大型數(shù)據(jù)庫(kù)或數(shù)據(jù)倉(cāng)庫(kù)中提取隱含的、未知的、非平凡的及有潛在應(yīng)用價(jià)值的信息或模式。它融合了數(shù)據(jù)庫(kù)、人工智能、機(jī)器學(xué)習(xí)、統(tǒng)計(jì)學(xué)等多個(gè)領(lǐng)域的理論和技術(shù)。比較典型的數(shù)據(jù)挖掘方法有關(guān)聯(lián)分析、序列模式分析、分類分析、聚類分析等。它們可以應(yīng)用到以客戶為中心的企業(yè)決策分析和管理的各個(gè)不同領(lǐng)域和階段。
1.關(guān)聯(lián)分析。關(guān)聯(lián)分析,即利用關(guān)聯(lián)規(guī)則進(jìn)行數(shù)據(jù)挖掘。關(guān)聯(lián)分析的目的是挖掘隱藏在數(shù)據(jù)間的相互關(guān)系,它能發(fā)現(xiàn)數(shù)據(jù)庫(kù)中形如”90%的顧客在一次購(gòu)買活動(dòng)中購(gòu)買商品A的同時(shí)購(gòu)買商品B”之類的知識(shí)。
2.序列模式分析。序列模式分析和關(guān)聯(lián)分析相似,但側(cè)重點(diǎn)在于分析數(shù)據(jù)間的前后序列關(guān)系。它能發(fā)現(xiàn)數(shù)據(jù)庫(kù)中形如”在某一段時(shí)間內(nèi),顧客購(gòu)買商品A,接著購(gòu)買商品B,而后購(gòu)買商品C,即序列A→B→C出現(xiàn)的頻度較高”之類的知識(shí),序列模式分析描述的問(wèn)題是:在給定交易序列數(shù)據(jù)庫(kù)中,每個(gè)序列是按照交易時(shí)間排列的一組交易集,挖掘序列函數(shù)作用在這個(gè)交易序列數(shù)據(jù)庫(kù)上,返回該數(shù)據(jù)庫(kù)中出現(xiàn)的高頻序列。在進(jìn)行序列模式分析時(shí),同樣也需要由用戶輸入最小置信度C和最小支持度S。
3.分類分析。設(shè)有一個(gè)數(shù)據(jù)庫(kù)和一組具有不同特征的類別(標(biāo)記),該數(shù)據(jù)庫(kù)中的每一個(gè)②
記錄都賦予一個(gè)類別的標(biāo)記,這樣的數(shù)據(jù)庫(kù)稱為示例數(shù)據(jù)庫(kù)或訓(xùn)練集。分類分析就是通過(guò)分析示例數(shù)據(jù)庫(kù)中的數(shù)據(jù),為每個(gè)類別做出準(zhǔn)確的描述或建立分析模型或挖掘出分類規(guī)則,然后用這個(gè)分類規(guī)則對(duì)其他數(shù)據(jù)庫(kù)中的記錄進(jìn)行分類。
4.聚類分析。聚類分析輸入的是一組未分類記錄,并且這些記錄應(yīng)分成幾類事先也不知道,通過(guò)分析數(shù)據(jù)庫(kù)中的記錄數(shù)據(jù),根據(jù)一定的分類規(guī)則,合理地劃分記錄集合,確定每個(gè)記錄所在類別。它所采用的分類規(guī)則是由聚類分析工具決定的。采用不同的聚類方法,對(duì)于相同的記錄集合可能有不同的劃分結(jié)果。
應(yīng)用數(shù)據(jù)挖掘技術(shù),較為理想的起點(diǎn)就是從一個(gè)數(shù)據(jù)倉(cāng)庫(kù)開(kāi)始,數(shù)據(jù)挖掘可以直接跟蹤數(shù)據(jù)并輔助用戶快速做出商業(yè)決策,用戶還可以在更新數(shù)據(jù)的時(shí)候不斷發(fā)現(xiàn)更好的行為模式,并將其運(yùn)用于未來(lái)的決策當(dāng)中。
三、選擇數(shù)據(jù)挖掘技術(shù)的兩個(gè)重要依據(jù)。
數(shù)據(jù)挖掘使用的技術(shù)很多,其中主要包括統(tǒng)計(jì)方法、機(jī)器學(xué)習(xí)方法、和神經(jīng)網(wǎng)絡(luò)方法和數(shù)據(jù)庫(kù)方法。統(tǒng)計(jì)方法可細(xì)分為回歸分析、判別分析、聚類分析、探索性分析等。機(jī)器學(xué)習(xí)方法可細(xì)分為歸納學(xué)習(xí)方法(決策樹(shù)、規(guī)則歸納)、基于范例學(xué)習(xí)、遺傳算法等。神經(jīng)網(wǎng)絡(luò)方法可細(xì)分為錢箱神經(jīng)網(wǎng)絡(luò)(BP算法)、自組織神經(jīng)網(wǎng)絡(luò)等。數(shù)據(jù)庫(kù)方法主要是多維數(shù)據(jù)分析或OLAP方法,另外還有面向?qū)傩缘臍w納方法。由于每一種數(shù)據(jù)挖掘技術(shù)都有其自身的特點(diǎn)和實(shí)現(xiàn)的步驟,對(duì)數(shù)據(jù)的形式有具體的要求,并且與具體的應(yīng)用問(wèn)題密切相關(guān),因此成功的應(yīng)用數(shù)據(jù)挖掘技術(shù)以達(dá)到目標(biāo)過(guò)程本身就是一件很復(fù)雜的事情,本文主要從挖掘任務(wù)和可獲得的數(shù)據(jù)兩個(gè)角度來(lái)討論對(duì)數(shù)據(jù)挖掘技術(shù)的選擇。
三、數(shù)據(jù)挖掘在電子商務(wù)中的應(yīng)用
數(shù)據(jù)挖掘能發(fā)現(xiàn)電子商務(wù)客戶的的共性和個(gè)性的知識(shí)、必然和偶然的知識(shí)、獨(dú)立和關(guān)聯(lián)的知識(shí)、現(xiàn)實(shí)和預(yù)測(cè)的知識(shí)等,所有這些知識(shí)經(jīng)過(guò)分析,能對(duì)客戶的消費(fèi)行為如心理、能力、動(dòng)機(jī)、需求、潛能等做出統(tǒng)計(jì)和正確地分析,為管理者提供決策依據(jù)。具體應(yīng)用如下:
1.分類與預(yù)測(cè)方法在電子商務(wù)中的應(yīng)用。在電子商務(wù)活動(dòng)中,分類是一項(xiàng)非常重要的任務(wù),也是應(yīng)用最多的技術(shù)。分類的目的是構(gòu)造一個(gè)分類函數(shù)或分類模型,通常稱作分類器。分類器的構(gòu)造方法通常由統(tǒng)計(jì)方法、機(jī)器學(xué)習(xí)方法、神經(jīng)網(wǎng)絡(luò)方法等。這些方法能把數(shù)據(jù)庫(kù)中的數(shù)據(jù)映射到給定類別中某一個(gè),以便用于預(yù)測(cè),也就是利用歷史數(shù)據(jù)記錄,自動(dòng)推導(dǎo)出給定數(shù)據(jù)的推廣描述,從而對(duì)未來(lái)數(shù)據(jù)進(jìn)行預(yù)測(cè)。
2.聚類方法在電子商務(wù)中的應(yīng)用。聚類是把一組個(gè)體按照相似性原則歸成若干類別。對(duì)電子商務(wù)來(lái)說(shuō),客戶聚類可以對(duì)市場(chǎng)細(xì)分理論提供有力的支持。市場(chǎng)細(xì)分的目的是使得屬于同一類別的個(gè)體之間的距離盡可能小,而不同類別的個(gè)體之間的距離盡可能大,通過(guò)對(duì)聚類的客戶特征的提取,電子商務(wù)網(wǎng)站可以為客戶提供個(gè)性化的服務(wù)。
3.數(shù)據(jù)抽取方法在電子商務(wù)中的應(yīng)用。數(shù)據(jù)抽取的目的是對(duì)數(shù)據(jù)進(jìn)行濃縮,給出它的緊湊描述,如求和值、平均值、方差值、等統(tǒng)計(jì)值、或者用直方圖、餅狀圖等圖形方式表示,更主要的是他從數(shù)據(jù)泛化的角度來(lái)討論數(shù)據(jù)總結(jié)。數(shù)據(jù)泛化是一種把最原始、最基本的信息數(shù)據(jù)從低層次抽象到高層次上的過(guò)程。可采用多維數(shù)據(jù)分析方法和面向?qū)傩缘臍w納方法。在電子商務(wù)活動(dòng)中,采用維數(shù)據(jù)分析方法進(jìn)行數(shù)據(jù)抽取,他針對(duì)的是電子商務(wù)活動(dòng)中的客戶數(shù)據(jù)倉(cāng)庫(kù)。在數(shù)據(jù)分析中經(jīng)常要用到諸如求和、總計(jì)、平均、最大、最小等匯集操作,這類操作的計(jì)算量特別大,可把匯集操作結(jié)果預(yù)先計(jì)算并存儲(chǔ)起來(lái),以便用于決策支持系統(tǒng)使用。
4.關(guān)聯(lián)規(guī)則在電子商務(wù)中的應(yīng)用。管理部門可以收集存儲(chǔ)大量的售貨數(shù)據(jù)和客戶資料,對(duì)這些歷史數(shù)據(jù)進(jìn)行分析并發(fā)現(xiàn)關(guān)聯(lián)規(guī)則。如分析網(wǎng)上顧客的購(gòu)買行為,幫助管理者規(guī)劃市場(chǎng),確定商品的種類、價(jià)格、質(zhì)量等。通常關(guān)聯(lián)規(guī)則有兩種:有意義的關(guān)聯(lián)規(guī)則和泛化關(guān)聯(lián)規(guī)則,有意義的關(guān)聯(lián)規(guī)則,即滿足最小支持度和最小可信度的規(guī)則。最小支持度,它表示一組對(duì)象在統(tǒng)計(jì)意義上的需滿足的最低程度,如電子商務(wù)活動(dòng)中的客戶數(shù)量、客戶消費(fèi)能力、消費(fèi)方式等。后者即用戶規(guī)定的關(guān)聯(lián)規(guī)則的最低可靠度。第二是泛化規(guī)則,這種規(guī)則更實(shí)用,因?yàn)檠芯繉?duì)象存在一種層次關(guān)系,如面包、蛋糕屬西點(diǎn)類,而西點(diǎn)又屬于食品類,有了層次關(guān)系后,可以幫助發(fā)現(xiàn)更多的有意義的規(guī)則。
5、優(yōu)化企業(yè)資源
節(jié)約成本是企業(yè)盈利的關(guān)鍵。基于數(shù)據(jù)挖掘技術(shù),實(shí)時(shí)、全面、準(zhǔn)確地掌握企業(yè)資源信息,通過(guò)分析歷史的財(cái)務(wù)數(shù)據(jù)、庫(kù)存數(shù)據(jù)和交易數(shù)據(jù), 可以發(fā)現(xiàn)企業(yè)資源消耗的關(guān)鍵點(diǎn)和主要活動(dòng)的投入產(chǎn)出比例, 從而為企業(yè)資源優(yōu)化配置提供決策依據(jù), 例如降低庫(kù)存、提高庫(kù)存周轉(zhuǎn)率、提高資金使用率等。通過(guò)對(duì)Web數(shù)據(jù)挖掘,快速提取商業(yè)信息,使企業(yè)準(zhǔn)確地把握市場(chǎng)動(dòng)態(tài),極大地提高企業(yè)對(duì)市場(chǎng)變化的響應(yīng)能力和創(chuàng)新能力,使企業(yè)最大限度地利用人力資源、物質(zhì)資源和信息資源,合理協(xié)調(diào)企業(yè)內(nèi)外部資源的關(guān)系,產(chǎn)生最佳的經(jīng)濟(jì)效益。促進(jìn)企業(yè)發(fā)展的科學(xué)化、信息化和智能化。
例如:美國(guó)運(yùn)通公司(American Express)有一個(gè)用于記錄信用卡業(yè)務(wù)的數(shù)據(jù)庫(kù),數(shù)據(jù)量達(dá)到54億字符,并仍在隨著業(yè)務(wù)進(jìn)展不斷更新。運(yùn)通公司通過(guò)對(duì)這些數(shù)據(jù)進(jìn)行挖掘,制定了“關(guān)聯(lián)結(jié)算(Relation ship Billing)優(yōu)惠”的促銷策略,即如果一個(gè)顧客在一個(gè)商店用運(yùn)通卡購(gòu)買一套時(shí)裝,那么在同一個(gè)商店再買一雙鞋,就可以得到比較大的折扣,這樣既可以增加商店的銷售量,也可以增加運(yùn)通卡在該商店的使用率。
6、管理客戶數(shù)據(jù)
隨著“以客戶為中心”的經(jīng)營(yíng)理念的不斷深入人心, 分析客戶、了解客戶并引導(dǎo)客戶的需求已成為企業(yè)經(jīng)營(yíng)的重要課題?;跀?shù)據(jù)挖掘技術(shù),企業(yè)將最大限度地利用客戶資源,開(kāi)展客戶行為的分析與預(yù)測(cè),對(duì)客戶進(jìn)行分類。有助于客戶盈利能力分析,尋找潛在的有價(jià)值的客戶,開(kāi)展個(gè)性化服務(wù),提高客戶的滿意度和忠誠(chéng)度。通過(guò)Web資源的挖掘,了解客戶的購(gòu)買習(xí)慣和興趣,從而改善網(wǎng)站結(jié)構(gòu)設(shè)計(jì),推出滿足不同客戶的個(gè)性化網(wǎng)頁(yè)。利用數(shù)據(jù)挖掘可以有效地獲得客戶。比如通過(guò)數(shù)據(jù)挖掘可以發(fā)現(xiàn)購(gòu)買某種商品的消費(fèi)者是男性還是女性,學(xué)歷、收入如何, 有什么愛(ài)好,是什么職業(yè)等等。甚至可以發(fā)現(xiàn)不同的人在購(gòu)買該種商品的相關(guān)商品后多長(zhǎng)時(shí)間有可能購(gòu)買該種商品, 以及什么樣的人會(huì)購(gòu)買什么型號(hào)的該種商品等等。在采用了數(shù)據(jù)挖掘后, 針對(duì)目標(biāo)客戶發(fā)送的廣告的有效性和回應(yīng)率將得到大幅度的提高, 推銷的成本將大大降低。同時(shí),在客戶數(shù)據(jù)挖掘的基礎(chǔ)上,企業(yè)可以發(fā)現(xiàn)重點(diǎn)客戶和評(píng)價(jià)市場(chǎng)性能,制定個(gè)性化營(yíng)銷策略,拓寬銷售渠道和范圍,為企業(yè)制定生產(chǎn)策略和發(fā)展規(guī)劃提供科學(xué)的依據(jù)。通過(guò)呼叫中心優(yōu)化與客戶溝通的渠道,提高對(duì)客戶的響應(yīng)效率和服務(wù)質(zhì)量,促
①進(jìn)客戶關(guān)系管理的自動(dòng)化和智能化。
三、結(jié)束語(yǔ)
電子商務(wù)是現(xiàn)代信息技術(shù)發(fā)展的必然結(jié)果,也是未來(lái)商業(yè)運(yùn)作模式的必然選擇。利用數(shù)據(jù)挖掘技術(shù),充分發(fā)揮企業(yè)的獨(dú)特優(yōu)勢(shì),促進(jìn)管理創(chuàng)新和技術(shù)創(chuàng)新,使企業(yè)在在電子商務(wù)的潮流中立于不敗之地。隨著數(shù)據(jù)挖掘算法的不斷發(fā)展和成熟,數(shù)據(jù)挖掘一定會(huì)有更加廣闊的應(yīng)用前景。
參考文獻(xiàn):
(1)《淺談數(shù)據(jù)挖掘在電子商務(wù)中的運(yùn)用》 鐘連福;
(2)《電子商務(wù)中商業(yè)數(shù)據(jù)的挖掘方法》 中國(guó)電子商務(wù)研究中心;
(3)《在電子商務(wù)中如何正確有使用數(shù)據(jù)挖掘技術(shù)》 俠名;
(4)《曾貞:數(shù)據(jù)挖掘在電子商務(wù)中的應(yīng)用》 甘肅農(nóng)業(yè),2004(7);
(5)《馮艷王堅(jiān)強(qiáng):數(shù)據(jù)挖掘在電子商務(wù)上的應(yīng)用》 2002(3);
(6)《呂延杰徐華飛:中國(guó)電子商務(wù)發(fā)展研究報(bào)告》北京郵電大學(xué)出版社 ;
(7)《數(shù)據(jù)挖掘與電子商務(wù)》 鄧鯤鵬,周延杰,嚴(yán)瑜筱。①
第四篇:數(shù)據(jù)挖掘心得體會(huì)
心得體會(huì)
這次數(shù)據(jù)挖掘?qū)嶒?yàn)結(jié)束了,期間我們小組明確分工并積極去完成,雖然有點(diǎn)辛苦,但我感覺(jué)充實(shí)而有收獲感!
根據(jù)老師給的一些資料,我們決定采用SQL Server 2000中的Northwind數(shù)據(jù)庫(kù)里的數(shù)據(jù)作為我們的實(shí)驗(yàn)數(shù)據(jù)。根據(jù)表Order Details中的數(shù)據(jù),我們分別根據(jù)ProductID和OrderID字段,并結(jié)合我們規(guī)定的最小支持度閥值對(duì)數(shù)據(jù)進(jìn)行篩選。依次篩選出1項(xiàng)頻繁集、2項(xiàng)頻繁集和3項(xiàng)頻繁集,其中還會(huì)使用游標(biāo)的方式來(lái)遍歷2項(xiàng)集與3項(xiàng)集的候選集,分別選出2項(xiàng)頻繁集和3項(xiàng)頻繁集。
由于數(shù)據(jù)較多,因此過(guò)程比較復(fù)雜,要編寫很多的查詢語(yǔ)句,建立許多數(shù)據(jù)表,包括臨時(shí)表。開(kāi)始不知道則操作,但經(jīng)過(guò)我們各自多次重復(fù)的建表與查詢,逐漸的理解和有了自己的思路。尤其是在運(yùn)用游標(biāo)的方法進(jìn)行遍歷這塊,因?yàn)槲覀儽容^陌生而不理解,操作時(shí)一時(shí)無(wú)法實(shí)現(xiàn)結(jié)果,但經(jīng)過(guò)我們?cè)诰W(wǎng)上查詢了解相關(guān)知識(shí),最終得以解決。
經(jīng)過(guò)該次實(shí)驗(yàn),使我對(duì)數(shù)據(jù)庫(kù)的操作更加熟練,而且還使我對(duì)課本上的“挖掘頻繁模式”這塊知識(shí)有了很好的掌握,今后我會(huì)多做實(shí)驗(yàn),使我在實(shí)際操作過(guò)程中學(xué)得更好!
第五篇:數(shù)據(jù)挖掘試題
《數(shù)據(jù)挖掘》總復(fù)習(xí)題
1.?dāng)?shù)據(jù)挖掘系統(tǒng)可以根據(jù)什么標(biāo)準(zhǔn)進(jìn)行分類?
答:根據(jù)挖掘的數(shù)據(jù)庫(kù)類型分類、根據(jù)挖掘的知識(shí)類型分類、根據(jù)挖掘所用的技術(shù)分類、根據(jù)應(yīng)用分類
2.知識(shí)發(fā)現(xiàn)過(guò)程包括哪些步驟?
答:數(shù)據(jù)清理、數(shù)據(jù)集成、數(shù)據(jù)選擇、數(shù)據(jù)變換、數(shù)據(jù)挖掘、模式評(píng)估、知識(shí)表示3.什么是概念分層?
答:一個(gè)映射序列,將低層概念映射到更一般的較高層概念。4.多維數(shù)據(jù)模型上的 OLAP 操作包括哪些?
答:上卷、下鉆、切片和切塊、轉(zhuǎn)軸 / 旋轉(zhuǎn)、其他OLAP操作5.OLAP 服務(wù)器類型有哪幾種?
答:關(guān)系 OLAP 服務(wù)器(ROLAP)、多維 OLAP 服務(wù)器(MOLAP)、混合 OLAP 服務(wù)器(HOLAP)、特殊的 SQL 服務(wù)器6.?dāng)?shù)據(jù)預(yù)處理技術(shù)包括哪些?
答:聚集、抽樣、維規(guī)約、特征子集選擇、特征創(chuàng)建、離散化和二元化、變量變換。7. 什么是數(shù)據(jù)清理?
答:填寫缺失的值,平滑噪聲數(shù)據(jù),識(shí)別、刪除離群點(diǎn),解決不一致性 8. 什么是數(shù)據(jù)集成?
答:集成多個(gè)數(shù)據(jù)庫(kù)、數(shù)據(jù)立方體或文件 9.什么是數(shù)據(jù)歸約?
答:得到數(shù)據(jù)集的壓縮表示,它小得多,但可以得到相同或相近的結(jié)果 10.?dāng)?shù)據(jù)清理的內(nèi)容包括哪些?
答:缺失值、噪聲數(shù)據(jù)、數(shù)據(jù)平滑、聚類、回歸11.將下列縮略語(yǔ)復(fù)原
OLAP——on-line analytical processing DM——data mining
KDD——knowledge discovery in databases OLTP——on-line transaction processingDBMS——database management system DWT——discrete wavelet transform
(DMQL)--Data Mining Query Language 12.什么是數(shù)據(jù)挖掘?
答:簡(jiǎn)單地說(shuō),數(shù)據(jù)挖掘是從大量數(shù)據(jù)中提取或挖掘知識(shí)。具體地說(shuō),數(shù)據(jù)挖掘就是從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的實(shí)際 應(yīng)用數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和 知識(shí)的過(guò)程。13.什么是關(guān)聯(lián)規(guī)則? 答:(關(guān)聯(lián)規(guī)則是形如X→Y的蘊(yùn)涵式,其中且,X和Y分別稱為關(guān)聯(lián)規(guī)則的先導(dǎo)和后繼。)假設(shè)I是項(xiàng)的集合。給定一個(gè)交易數(shù)據(jù)庫(kù),其中每個(gè)事務(wù)(Transaction)t是I的非空子集,即,每一個(gè)交易都與一個(gè)唯一的標(biāo)識(shí)符TID(Transaction ID)對(duì)應(yīng)。關(guān)聯(lián)規(guī)則在D中的支持度(support)是D中事務(wù)同時(shí)包含X、Y的百分比,即概率;置信度(confidence)是包含X的事務(wù)中同時(shí)又包含Y的百分比,即條件概率。關(guān)聯(lián)規(guī)則是有趣的,如果滿足最小支持度閾值和最小置信度閾值。這些閾值是根據(jù)挖掘需要人為設(shè)定。
(關(guān)聯(lián)規(guī)則反映一個(gè)事物與其它事物之間的相互依存性和關(guān)聯(lián)性,如果兩個(gè)事物或者多個(gè)事物之間存在一定的關(guān)聯(lián)關(guān)系,那么其中一個(gè)事物就能夠通過(guò)其他事物預(yù)測(cè)到。)15.什么是概念描述?什么是特征化?什么是屬性相關(guān)分析?
答:概念描述:用匯總的、簡(jiǎn)潔的和精確的方式描述各個(gè)類和概念可能是有用的。特征化:是目標(biāo)類數(shù)據(jù)的一般特性或特征的匯總。
屬性相關(guān)分析:可能需要在分類和預(yù)測(cè)之前進(jìn)行,它試圖識(shí)別對(duì)于分類或預(yù)測(cè)過(guò)程無(wú)用的屬性。這些屬性應(yīng)當(dāng)排除。
16.什么是數(shù)據(jù)倉(cāng)庫(kù)?其主要特征是什么?
答:數(shù)據(jù)倉(cāng)庫(kù)是一個(gè)提供決策支持功能的數(shù)據(jù)庫(kù),它與組織機(jī)構(gòu)的操作數(shù)據(jù)庫(kù)分別維護(hù)。它允許將各種應(yīng)用系統(tǒng)集成在一起,為統(tǒng)一的歷史數(shù)據(jù)分析提供堅(jiān)實(shí)的平臺(tái),對(duì)信息處理提供支持。
特征:面向主題、數(shù)據(jù)集成、隨時(shí)間而變化、數(shù)據(jù)不易丟失(數(shù)據(jù)不易丟失是最明顯特征)17.什么是數(shù)據(jù)集市?
答:數(shù)據(jù)集市包含企業(yè)范圍數(shù)據(jù)的一個(gè)子集,對(duì)于特定的用戶群是有用的。其范圍限于選定的主題。
(是完整的數(shù)據(jù)倉(cāng)庫(kù)的一個(gè)邏輯子集,而數(shù)據(jù)倉(cāng)庫(kù)正是由所有的數(shù)據(jù)集市有機(jī)組合而成的)18.?dāng)?shù)據(jù)庫(kù)中的知識(shí)發(fā)現(xiàn)過(guò)程由哪幾個(gè)步驟組成?
答:數(shù)據(jù)清理、數(shù)據(jù)倉(cāng)庫(kù)、任務(wù)相關(guān)數(shù)據(jù)、數(shù)據(jù)挖掘、模式評(píng)估、知識(shí)表示 19.典型的數(shù)據(jù)挖掘系統(tǒng)有哪幾個(gè)主要成分?
答:數(shù)據(jù)庫(kù)、數(shù)據(jù)倉(cāng)庫(kù)、萬(wàn)維網(wǎng)或其他信息庫(kù);數(shù)據(jù)庫(kù)或數(shù)據(jù)倉(cāng)庫(kù)服務(wù)器;知識(shí)庫(kù);數(shù)據(jù)挖掘引擎;模式評(píng)估模塊;用戶界面
20.從軟件工程的觀點(diǎn)來(lái)看,數(shù)據(jù)倉(cāng)庫(kù)的設(shè)計(jì)和構(gòu)造包含哪些步驟?
答:規(guī)劃、需求研究、問(wèn)題分析、倉(cāng)庫(kù)設(shè)計(jì)、數(shù)據(jù)集成和測(cè)試、部署數(shù)據(jù)倉(cāng)庫(kù)。21.在數(shù)據(jù)挖掘系統(tǒng)中,為什么數(shù)據(jù)清理十分重要?
答: 臟數(shù)據(jù)的普遍存在,使得在大型數(shù)據(jù)庫(kù)中維護(hù)數(shù)據(jù)的正確性和一致性成為一個(gè)極其困難的任務(wù)。
22.臟數(shù)據(jù)形成的原因有哪些?
答:濫用縮寫詞、數(shù)據(jù)輸入錯(cuò)誤、數(shù)據(jù)中的內(nèi)嵌控制信息、不同的的慣用語(yǔ)、重復(fù)記錄、丟失值、拼寫變化、不同的計(jì)量單位、過(guò)時(shí)的編碼23.?dāng)?shù)據(jù)清理時(shí),對(duì)空缺值有哪些處理方法?
答:忽略元組、人工填寫缺失值、使用一個(gè)全局變量填充缺失值、使用屬性的平均值填充缺失值、使用與給定元組屬同一類的所有樣本的屬性均值、使用最可能的值填充缺失值 24.什么是數(shù)據(jù)變換?包括哪些內(nèi)容?
答:將數(shù)據(jù)轉(zhuǎn)換或統(tǒng)一成適合于挖掘的形式。包括:光滑、聚集、數(shù)據(jù)泛化、規(guī)范化、屬性構(gòu)造 25. 數(shù)據(jù)歸約的策略包括哪些?
答:數(shù)據(jù)立方體聚集、性子集選擇、維度歸約、數(shù)值歸約、離散化和概念分層產(chǎn)生 26.提高數(shù)據(jù)挖掘算法效率有哪幾種思路?
答:減少對(duì)數(shù)據(jù)的掃描次數(shù);縮小產(chǎn)生的候選項(xiàng)集;改進(jìn)對(duì)候選項(xiàng)集的支持度計(jì)算方法 27.假定屬性income的最小值與最大值分別為12000和980到區(qū)間[0.0,1.0],根據(jù) min-max 規(guī)范化,income的值73600將變?yōu)椋?631/551_。
28.假定屬性income的平均值和標(biāo)準(zhǔn)差分別為54000和16000,使用 Z-score 規(guī)范化,值73600被轉(zhuǎn)換為_1.225_。
29.假定A的值由-986到917.A的最大絕對(duì)值為986,使用小數(shù)定標(biāo)規(guī)范化,-986被規(guī)范化為_-0.986_
30.從結(jié)構(gòu)角度來(lái)看,有哪三種數(shù)據(jù)倉(cāng)庫(kù)模型。答:企業(yè)倉(cāng)庫(kù)、數(shù)據(jù)集市、虛擬倉(cāng)庫(kù)
31.什么是聚類分析?它與分類有什么區(qū)別?
答:將物理或抽象對(duì)象的集合分組成為由類似的對(duì)象組成的多個(gè)類的過(guò)程 區(qū)別:分類有監(jiān)督 聚類無(wú)監(jiān)督 分類要靠學(xué)習(xí)聚類要靠啟發(fā)式搜索 32.與數(shù)據(jù)挖掘類似的術(shù)語(yǔ)有哪些?
答:數(shù)據(jù)庫(kù)中挖掘知識(shí)、知識(shí)提取、數(shù)據(jù)/模式分析、數(shù)據(jù)考古和數(shù)據(jù)捕撈。33.解釋下列術(shù)語(yǔ) 34.翻譯下列術(shù)語(yǔ)
Data Mining 數(shù)據(jù)挖掘Data warehousing 數(shù)據(jù)倉(cāng)庫(kù)Data Mart 數(shù)據(jù)集市
drill-down 下鉆roll-up上卷OLAP 聯(lián)機(jī)分析處理Data cube 數(shù)據(jù)立方體 Association rule 關(guān)聯(lián)規(guī)則Data cleaning數(shù)據(jù)清理Data integration 數(shù)據(jù)集成 Data transformation數(shù)據(jù)變換Data reduction 數(shù)據(jù)歸約
35.可以對(duì)按季度匯總的銷售數(shù)據(jù)進(jìn)行___B___,來(lái)觀察按月匯總的數(shù)據(jù)。A 上卷 B 下鉆 C 切片 D 切塊
36.可以對(duì)按城市匯總的銷售數(shù)據(jù)進(jìn)行____A__,來(lái)觀察按國(guó)家總的數(shù)據(jù)。A 上卷 B 下鉆 C 切片 D 切塊
37.通過(guò)不太詳細(xì)的數(shù)據(jù)得到更詳細(xì)的數(shù)據(jù),稱為_(kāi)___B____。A 上卷 B 下鉆 C 細(xì)化 D 維規(guī)約
38.三層數(shù)據(jù)倉(cāng)庫(kù)結(jié)構(gòu)中,從底層到尾層分別是_倉(cāng)庫(kù)數(shù)據(jù)服務(wù)器、OLAP服務(wù)器、前端客戶層__。
42.常用的四種興趣度的客觀度量。
答:簡(jiǎn)單性 確定性 實(shí)用性 新穎性43.四種常用的概念分層類型。
答:模式分層、集合分組分層、操作導(dǎo)出的分層、基于規(guī)則的分層45.如何理解現(xiàn)實(shí)世界的數(shù)據(jù)是“骯臟的”?答:不完整的、含噪聲的、不一致的、重復(fù)的 46.多維數(shù)據(jù)倉(cāng)庫(kù)有哪幾種概念模型?
答:星形模式、雪花形模式或事實(shí)星座形模式。
48.在多路數(shù)組聚集算法中,如何盡量少地占用內(nèi)存?
答:將最小的平面放在內(nèi)存中,將最大的平面每次只是提取并計(jì)算一塊。49.給出方體的維數(shù),會(huì)計(jì)算各D方體有多少,總的方體個(gè)數(shù)有多少?2^n50.什么是離群點(diǎn)?離群點(diǎn)都需要?jiǎng)h除嗎?為什么?
答:離群點(diǎn):一些與數(shù)據(jù)的一般行為或模型不一致的孤立數(shù)據(jù)。不需要。通常離群點(diǎn)被作為“噪音”或異常被丟棄,但在欺詐檢測(cè)中卻可以通過(guò)對(duì)罕見(jiàn)事件進(jìn)行離群點(diǎn)分析而得到結(jié)論。
【51.所有模式都是有趣的嗎?
答:一個(gè)模式是有趣的,如果(1)它易于被人理解 ;(2)在某種程度上,對(duì)于新的或測(cè)試數(shù)據(jù)是有效的;(3)具有潛在效用;(4)新穎的;(5)符合用戶確信的某種假設(shè)?!?/p>