數(shù)據(jù)挖掘與知識(shí)發(fā)現(xiàn)(講稿7-神經(jīng)網(wǎng)絡(luò)挖掘)

第一篇：數(shù)據(jù)挖掘與知識(shí)發(fā)現(xiàn)(講稿7-神經(jīng)網(wǎng)絡(luò)挖掘)

┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ 裝 ┊ ┊ ┊ ┊ ┊ 訂 ┊ ┊ ┊ ┊ ┊ 線 ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊

第7章

基于神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)挖掘技術(shù)

人工神經(jīng)網(wǎng)絡(luò)ANN（Artificial Neural Network）是反映人腦結(jié)構(gòu)及功能的一種數(shù)學(xué)模型，它是由大量的簡(jiǎn)單處理單元經(jīng)廣泛并行互連形成的一種網(wǎng)絡(luò)系統(tǒng)。用以模擬人類進(jìn)行知識(shí)的表示與存儲(chǔ)以及利用知識(shí)進(jìn)行推理的行為。它是對(duì)人腦系統(tǒng)的簡(jiǎn)化、抽象和模擬，具有人腦功能的許多特征。

目前，人工神經(jīng)網(wǎng)絡(luò)已在模式分類、機(jī)器視覺(jué)、機(jī)器聽(tīng)覺(jué)、智能計(jì)算、機(jī)器人控制、信號(hào)處理、組合優(yōu)化問(wèn)題求解、聯(lián)想記憶、編碼理論、醫(yī)學(xué)診斷、金融決策、數(shù)據(jù)挖掘等領(lǐng)域得到廣泛應(yīng)用。

7.1 基于知識(shí)的神經(jīng)網(wǎng)絡(luò)（KBANN）

神經(jīng)網(wǎng)絡(luò)用于數(shù)據(jù)挖掘的困難之一是，對(duì)經(jīng)過(guò)訓(xùn)練的神經(jīng)網(wǎng)絡(luò)的輸出結(jié)果很難給出直觀的解釋。許多學(xué)者試圖將專家系統(tǒng)和神經(jīng)網(wǎng)絡(luò)相結(jié)合，設(shè)計(jì)出兼有專家系統(tǒng)和神經(jīng)網(wǎng)絡(luò)優(yōu)點(diǎn)的混合系統(tǒng)。其中，基于知識(shí)的神經(jīng)網(wǎng)絡(luò)就是其中最有代表性的一種系統(tǒng)。

基于知識(shí)的神經(jīng)網(wǎng)絡(luò)包含如下四個(gè)階段：

① 規(guī)則庫(kù)表示階段：提取原始的領(lǐng)域知識(shí)并將其組織成規(guī)則庫(kù)；（屬人工智能內(nèi)容）

② 映射階段：將上述規(guī)則庫(kù)中的每條規(guī)則映射成一個(gè)小的子網(wǎng)絡(luò)，全體子網(wǎng)絡(luò)就構(gòu)成了一個(gè)原始網(wǎng)絡(luò)結(jié)構(gòu)；

③ 學(xué)習(xí)階段：用訓(xùn)練樣本對(duì)上述網(wǎng)絡(luò)進(jìn)行訓(xùn)練；（應(yīng)用人工神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)算法）④ 規(guī)則提取階段：將上述訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)再映射成規(guī)則庫(kù)。

其典型結(jié)構(gòu)圖為：

圖1 基于知識(shí)的神經(jīng)網(wǎng)絡(luò)的信息流程

┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ 裝 ┊ ┊ ┊ ┊ ┊ 訂 ┊ ┊ ┊ ┊ ┊ 線 ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊

1）原始規(guī)則庫(kù)轉(zhuǎn)化為神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)

（1）合取規(guī)則

在與肯定條件相對(duì)應(yīng)的網(wǎng)絡(luò)連接權(quán)設(shè)置為?，在與否定條件相對(duì)應(yīng)的網(wǎng)絡(luò)連接權(quán)設(shè)置為??，在與結(jié)論相對(duì)應(yīng)的神經(jīng)元的閾值設(shè)置為(2P?1)?/2，其中P是肯定條件的個(gè)數(shù)。經(jīng)驗(yàn)表明，在KBANN中，?通常設(shè)置為4能取得較好的效果。如，規(guī)則

A:B,C,D,not(E)

圖2 合取規(guī)則轉(zhuǎn)化為神經(jīng)網(wǎng)絡(luò)示間圖

（2）析取規(guī)則

KBANN對(duì)與每個(gè)析取條件相對(duì)應(yīng)的連接權(quán)設(shè)置為?，對(duì)與結(jié)論相對(duì)應(yīng)的神經(jīng)元閾值設(shè)置為?/2。如，規(guī)則

圖3 析取規(guī)則轉(zhuǎn)化為神經(jīng)網(wǎng)絡(luò)示意圖

2）知識(shí)庫(kù)轉(zhuǎn)化為神經(jīng)網(wǎng)絡(luò)示例

設(shè)（a）為規(guī)則庫(kù)；（b）為規(guī)則的層次結(jié)構(gòu)，其中，實(shí)線代表必要關(guān)系，虛線表示抑制關(guān)系；（c）為由規(guī)則庫(kù)轉(zhuǎn)化而來(lái)的神經(jīng)網(wǎng)絡(luò)，其中，為了處理析取規(guī)則而引入X和Y結(jié)點(diǎn)，實(shí)線連接代表權(quán)重均設(shè)置為?，它代表規(guī)則庫(kù)中的依賴關(guān)系；細(xì)線代表有待進(jìn)一步學(xué)習(xí)的連接權(quán)，它反映知識(shí)的精化。

┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ 裝 ┊ ┊ ┊ ┊ ┊ 訂 ┊ ┊ ┊ ┊ ┊ 線 ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊

7.2 基于KBANN的規(guī)則提取方法

基于KBANN在數(shù)據(jù)挖掘中的作用集中體現(xiàn)在規(guī)則提取階段，這一問(wèn)題在神經(jīng)網(wǎng)絡(luò)研究領(lǐng)域十分活躍。這里，主要給出一些從前饋網(wǎng)絡(luò)（如，多層感知器MLP）中提取規(guī)則的方法。幾乎所有的規(guī)則提取方法都假設(shè)經(jīng)過(guò)訓(xùn)練的神經(jīng)網(wǎng)絡(luò)的神經(jīng)元，要么處于活躍狀態(tài)，要么處于不活躍狀態(tài)。

1.有代表性的規(guī)則提取方法

（1）LRE方法

用LRE方法對(duì)MLP進(jìn)行規(guī)則提取主要兩步：

? 每一步，對(duì)網(wǎng)絡(luò)中的每個(gè)隱層結(jié)點(diǎn)和輸出結(jié)點(diǎn)搜索不同的輸入組合，使得輸入加權(quán)和大于當(dāng)前結(jié)點(diǎn)的閾值；

? 對(duì)每一個(gè)組合產(chǎn)生一條規(guī)則，其前件是各個(gè)輸入條件的合取。如，Either、KT和Subset算法就是LRE方法中有代表性的三種方法。它們的特點(diǎn)：生成的規(guī)則均較容易理解，但這三種方法有如下缺點(diǎn)：① 搜索空間大，故搜索效率低；② 前后生成的規(guī)則有可能發(fā)生重復(fù)；③ 不能保證所有有用的規(guī)則均被產(chǎn)生出來(lái)。

針對(duì)Subset算法的缺點(diǎn)，Towell等提出了MofN方法，該算法的基本思想是將所有權(quán)值分成若干個(gè)等價(jià)類，在每個(gè)等價(jià)類中成員的作用基本相似，因而可以相互互換。MofN方法通過(guò)六個(gè)步驟，從訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)中提取規(guī)則，它們分別是：

┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ 裝 ┊ ┊ ┊ ┊ ┊ 訂 ┊ ┊ ┊ ┊ ┊ 線 ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊

① 分類---即將連接權(quán)分成若干等價(jià)類； ②平均---即將每個(gè)等價(jià)類中的權(quán)值平均化； ③ 去除---即去除對(duì)神經(jīng)元的作用較小的等價(jià)類；

④ 優(yōu)化---即在去除了部分連接權(quán)后，對(duì)神經(jīng)元的閾值進(jìn)行優(yōu)化； ⑤ 提取---即從經(jīng)優(yōu)化的神經(jīng)網(wǎng)絡(luò)中提取規(guī)則； ⑥ 簡(jiǎn)化---即將上述規(guī)則簡(jiǎn)化，使其更易于理解。

（2）黑箱方法

黑箱方法僅考慮從前饋神經(jīng)網(wǎng)絡(luò)的輸入和輸出的行為來(lái)提取規(guī)則。所以稱之為黑箱是因?yàn)樵谔崛∫?guī)則時(shí)不考慮神經(jīng)網(wǎng)絡(luò)的類型和結(jié)構(gòu)，主要關(guān)心輸入和輸出間的映射關(guān)系。

（3）提取模糊規(guī)則

在模糊神經(jīng)網(wǎng)絡(luò)和神經(jīng)網(wǎng)絡(luò)模糊系統(tǒng)的研究中，有些模糊神經(jīng)網(wǎng)絡(luò)和神經(jīng)網(wǎng)絡(luò)模糊系統(tǒng)中包含模糊規(guī)則的提取和精化方法。

（4）從遞歸網(wǎng)絡(luò)中提取規(guī)則

該方法將遞歸網(wǎng)絡(luò)的狀態(tài)和有限自動(dòng)機(jī)的狀態(tài)相對(duì)應(yīng)，可提高神經(jīng)網(wǎng)絡(luò)的泛化能力。

2.一些新規(guī)則的提取方法

本節(jié)主要介紹Taha和Ghosh的最新研究工作，其中包含三種規(guī)則提取方法：

（1）二值輸入輸出規(guī)則提取算法（BIO-RE）

該方法屬于一種簡(jiǎn)單的黑箱方法，它對(duì)二值輸入的神經(jīng)網(wǎng)絡(luò)進(jìn)行規(guī)則提取，若原始輸入不是二值的，則必須先將其二值化：

yi???1ifxi??i

?0otherwise其中，xi為原始輸入；?i為閾值；yi是與xi相對(duì)應(yīng)的二值化輸入。

┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ 裝 ┊ ┊ ┊ ┊ ┊ 訂 ┊ ┊ ┊ ┊ ┊ 線 ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊

圖4 感知器模型

它的算法為：

輸入：經(jīng)訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)

輸出：規(guī)則（庫(kù)）

步驟：

① 給出對(duì)應(yīng)于各二值輸入模式的神經(jīng)網(wǎng)絡(luò)輸出O(Y)?{oj(Y)|oj?{0,1}}；

② 將二值輸入和輸出相對(duì)應(yīng)，構(gòu)成一個(gè)真值表；

③ 由上式真值表生成相應(yīng)的布爾函數(shù)，即所需的規(guī)則（庫(kù)）。

BIO-RE算法所提取的規(guī)則有如下一般形式：

IF [Not]輸入變量 [[And] [Not]輸入變量]* → 結(jié)論j 其中，[·]---表示任選項(xiàng)；[·]*---表示可重復(fù)0次或n次。

若最終提取的規(guī)則為

IfY1AndNoYt2ThenO1 則必須將其改寫為

IfX1??1AndX2??2ThenO1

由此可見(jiàn)，一個(gè)“真”二值輸入變量（如，Y1）表示“X1??1”；一個(gè)否定的二值輸入變量（如，NotY2）表示“X2??2”

此法當(dāng)輸入輸出本來(lái)就是二值的，或經(jīng)二值化后不會(huì)顯著影響其性能且輸入變量不太大時(shí)，用BIO-RE算法是合適的，否則此方法就不太適用。

┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ 裝 ┊ ┊ ┊ ┊ ┊ 訂 ┊ ┊ ┊ ┊ ┊ 線 ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊

（2）部分規(guī)則提取算法（Partial-RE）

針對(duì)BIO-RE算法的不足，Partial-RE算法僅關(guān)心主要的連接權(quán)的組合，對(duì)每個(gè)隱層結(jié)點(diǎn)或輸出層結(jié)點(diǎn)j，將輸入結(jié)點(diǎn)j的正負(fù)連接權(quán)按降序排列，形成兩個(gè)集合。然后從最大的正連接權(quán)開(kāi)始，比如從第i個(gè)結(jié)點(diǎn)進(jìn)入的連接權(quán)最大，該算法判斷在不考慮其他結(jié)點(diǎn)輸入的情況下，能否使結(jié)點(diǎn)j激活。若存在這樣的結(jié)點(diǎn)j，則生成一條規(guī)則

IfNodei???Nodej

其中，cf表示該條規(guī)則的置信度：

1?,若響應(yīng)函數(shù)為Sigmoid型n_??1?exp(?wjixi??j??)?i?1?n_?

cf??min(1,?wjixi??j??),若響應(yīng)函數(shù)為線性閾值函數(shù)

i?1??1,若響應(yīng)函數(shù)為階躍函數(shù)????這里，wji為輸入xi與結(jié)點(diǎn)j間的連接權(quán)；?j為結(jié)點(diǎn)j的閾值；?稱為置信參數(shù)，是一個(gè)小正數(shù)（0.1???0.3）。

若發(fā)現(xiàn)結(jié)點(diǎn)i足夠強(qiáng)使得結(jié)點(diǎn)j被激活，則結(jié)點(diǎn)i即被標(biāo)記，今后當(dāng)考察結(jié)點(diǎn)j時(shí)，結(jié)點(diǎn)i將不被考慮。Partial-RE算法繼續(xù)檢查剩余的正連接權(quán)，直到發(fā)現(xiàn)一個(gè)帶正連接權(quán)的結(jié)點(diǎn)不能單獨(dú)激活結(jié)點(diǎn)j時(shí)為止。

必須注意：Partial-RE算法假定所有的輸入均有相同的取值范圍，這樣它們對(duì)隱層結(jié)點(diǎn)的影響僅由權(quán)值決定。因此，必須對(duì)原始輸入變量先進(jìn)行量化：

zi?_1.0x?u1.0?exp(?(i2i))2?i

其中，zi是原始輸入變量xi經(jīng)量化后的值；?i為輸入X的標(biāo)準(zhǔn)均方差，ui是X的均值。

┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ 裝 ┊ ┊ ┊ ┊ ┊ 訂 ┊ ┊ ┊ ┊ ┊ 線 ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊

此外，該算法還尋找負(fù)權(quán)結(jié)點(diǎn)，在激活時(shí)，則產(chǎn)生如下規(guī)則：

IfcfNotNodeg???Nodej

不僅如此，該算法還尋找正權(quán)和負(fù)權(quán)的組合，并激活隱層或輸出層結(jié)點(diǎn)，則產(chǎn)生如下規(guī)則：

IfNodeiAndNotNodeg???Nodej

當(dāng)所有的規(guī)則都生成后，將它們改寫成如下形式：

IfXi??icfAndXg??g???Consequentj

實(shí)驗(yàn)結(jié)果表明，Partial-RE算法比較適合于規(guī)模較大的問(wèn)題，因?yàn)榇藭r(shí)提取所有規(guī)則是一個(gè)NP-完全問(wèn)題，而提取一部分最重要的規(guī)則是切實(shí)可行的辦法。

（3）全部規(guī)則提取算法（Full-RE）

Full-RE算法與Partial-RE算法相比，它可以從連續(xù)輸入、歸一化輸入及二值化輸入等各種神經(jīng)網(wǎng)絡(luò)中提取規(guī)則，具有較好的普適性。

對(duì)每個(gè)隱層結(jié)點(diǎn)j，F(xiàn)ull-RE算法首先生成以下中間規(guī)則：

If(?wjiXi??j??)???Consequentj

_由于存在一組Xi滿足中間規(guī)則，這樣就必須知道Xi的取值范圍。每個(gè)輸入特征Xi?(ai,bi)可以用k個(gè)小區(qū)間來(lái)離散化為

Di?{di,0?ai,di,1,?,di,k?1,di,k?bi}

當(dāng)Full-RE算法發(fā)現(xiàn)離散化存在多組解時(shí)，它將根據(jù)連接權(quán)的符號(hào)選擇Xi的最大或最小離散化值。若wji是負(fù)的，則Full-RE算法選擇Xi的最大離散化值，否則選擇Xi的最小離散化值。離散化后形成下列線性規(guī)化問(wèn)題：

Minimizewj1D1?wj2D2???wjnDn 使得

____

┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ 裝 ┊ ┊ ┊ ┊ ┊ 訂 ┊ ┊ ┊ ┊ ┊ 線 ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊

___

wj1D1?wj2D2???wjnDn??j?? 且Di?{di,0?ai,di,1,?,di,k?1,di,k?bi}，1?i?n。

可以用任何一種求解線性規(guī)劃問(wèn)題的工具來(lái)求解該線性規(guī)劃問(wèn)題，從而得到X的取值范圍。假設(shè)一個(gè)可行解為x1?e1和x2?e2，從輸入X1和X2到結(jié)點(diǎn)j的連接權(quán)分別是正數(shù)和負(fù)數(shù)，則Full-RE算法如下規(guī)則：

IfX1?e1cfAndX2?e2???hj

其中，ai?ei?bi。隱層和輸出層間提取的規(guī)則可以表示為

Ifh1Andh2???Ok

Full-RE算法將中間規(guī)則和隱層與輸出層間提取的規(guī)則復(fù)合形成新的規(guī)則，復(fù)合的方法是對(duì)每個(gè)隱層結(jié)點(diǎn)hj，將hj替換為中間規(guī)則中后件為hj的前件，最終形成的規(guī)則的一般形式為

If簡(jiǎn)單布爾表達(dá)式[And簡(jiǎn)單布爾表達(dá)式]*???結(jié)論j

值得注意的是，由于由Full-RE算法提取的規(guī)則中對(duì)前提條件的個(gè)數(shù)不作限制，而僅對(duì)相鄰層間規(guī)則中的前提條件個(gè)數(shù)作限制。所以，當(dāng)輸入特征是二值時(shí)，就不需要二值化過(guò)程。7.3 基于ANN的數(shù)據(jù)挖掘示例

《吳一帆,基于模糊神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)挖掘算法.caj,長(zhǎng)沙電力學(xué)院學(xué)

報(bào),2002(4)》

第二篇：數(shù)據(jù)挖掘與知識(shí)發(fā)現(xiàn)(講稿9--遺傳算法)

┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ 裝 ┊ ┊ ┊ ┊ ┊ 訂 ┊ ┊ ┊ ┊ ┊ 線 ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊

第九章

基于遺傳算法的數(shù)據(jù)挖掘

面向?qū)傩缘臄?shù)據(jù)挖掘方法是基于邏輯的，神經(jīng)網(wǎng)絡(luò)挖掘方法是基于方程的，而本章要介紹的遺傳算法，則是一種基于十字表的數(shù)據(jù)挖掘方法。它也是一種典型的知識(shí)發(fā)現(xiàn)方法。

遺傳算法是模擬生物在自然環(huán)境中的遺傳和進(jìn)化過(guò)程而形成的一種自適應(yīng)全局優(yōu)化概率搜索算法。它最早由美國(guó)密執(zhí)安大學(xué)的Holland教授提出，起源于60年代對(duì)自然和人工自適應(yīng)系統(tǒng)的研究。70年代De Jong基于遺傳算法的思想在計(jì)算機(jī)上進(jìn)行了大量的純數(shù)值函數(shù)優(yōu)化計(jì)算實(shí)驗(yàn)。在此基礎(chǔ)上，由Goldberg在80年代對(duì)其進(jìn)行了歸納總結(jié)，形成了遺傳算法的基本框架。9.1 遺傳算法概要

對(duì)于一個(gè)求函數(shù)最大值的優(yōu)化問(wèn)題（最小值類同），一般可描述為如下的數(shù)學(xué)規(guī)劃模型：

?maxf(X)?

?s.t.X?R

（9-1）

?R?U?式中，X?[x1,x2,?,xn]T為決策變量；f(X)為目標(biāo)函數(shù)（線性或非線性；離散或連續(xù)；單峰或多峰）；U為基本空間；R為U上的一個(gè)子集。滿足約束條件的解X稱為可行解，集合R表示由所有滿足約束條件的解組成的一個(gè)集合，叫做可行解集合。

圖1 最優(yōu)優(yōu)問(wèn)題的可行解及可行解集合

傳統(tǒng)的求最優(yōu)解或近似最優(yōu)解的方法主要有：枚舉法、分枝定界法、1

┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ 裝 ┊ ┊ ┊ ┊ ┊ 訂 ┊ ┊ ┊ ┊ ┊ 線 ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊

啟發(fā)式算法和搜索算法。隨著問(wèn)題種類的不同，以及問(wèn)題規(guī)模的擴(kuò)大，要尋找到一種能以有限的代價(jià)來(lái)解決上述最優(yōu)化問(wèn)題的通用方法仍是一個(gè)難題。而遺傳算法正好能為此類問(wèn)題提供一個(gè)有效途徑和通用框架，開(kāi)創(chuàng)了一種新的全局優(yōu)化搜索算法。

遺傳算法是模擬生物進(jìn)化過(guò)程的計(jì)算模型，它是自然遺傳學(xué)和計(jì)算機(jī)科學(xué)相互結(jié)合滲透而形成的新的計(jì)算方法。

生物的進(jìn)化過(guò)程主要是通過(guò)染色體之間的交叉和變異來(lái)完成的。在遺傳算法中，將n維決策向量X用n個(gè)記號(hào)Xi,i?1,2,?,n所組成的符號(hào)串來(lái)表示X：

X?X1X2?Xn?X?[X1,X2,?,Xn]T

把每一個(gè)Xi,i?1,2,?,n看作一個(gè)遺傳基因，它的所有可能取值稱為等位基因。這樣，X就可看作是由n個(gè)遺傳基因所組成的一個(gè)染色體（或個(gè)體）。對(duì)于每個(gè)個(gè)體，要按照一定的規(guī)則確定出其適應(yīng)度。個(gè)體的適應(yīng)度與其對(duì)應(yīng)的個(gè)體表現(xiàn)型X的目標(biāo)函數(shù)值相關(guān)聯(lián)，X越接近于目標(biāo)函數(shù)的最優(yōu)點(diǎn)，其適應(yīng)度越大；反之適應(yīng)度越小。所有染色體X就組成了問(wèn)題的搜索空間。

生物的進(jìn)化是以集團(tuán)為主體的。與此對(duì)應(yīng)，遺傳算法的運(yùn)算對(duì)象是由M個(gè)個(gè)體所組成的集合，稱為群體。與生物一代一代的自然進(jìn)化過(guò)程類似，遺傳算法的運(yùn)算過(guò)程也是一個(gè)反復(fù)迭代過(guò)程，第t代群體記為P(t)，經(jīng)過(guò)一代遺傳和進(jìn)化后，得到第t?1代群體，也是由多個(gè)個(gè)體組成的集合，記為P(t?1)。這個(gè)群體不斷地經(jīng)過(guò)遺傳和進(jìn)化操作，并且每次都按優(yōu)勝劣汰的規(guī)則將適應(yīng)度較高的個(gè)體更多的遺傳到下一代，這樣最終在群體中將會(huì)得到一個(gè)優(yōu)良的個(gè)體X，它達(dá)到或接近于問(wèn)題的最優(yōu)解X*。

遺傳算法中最優(yōu)解的搜索過(guò)程也模仿生物的這種進(jìn)化過(guò)程。使用所謂的遺傳算子作用于群體P(t)中，進(jìn)行下述的遺傳操作，從而得到新一 2

┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ 裝 ┊ ┊ ┊ ┊ ┊ 訂 ┊ ┊ ┊ ┊ ┊ 線 ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊

代群體P(t?1)。主要操作有：

? 選擇：根據(jù)各個(gè)個(gè)體的適應(yīng)度，按照一定的規(guī)則或方法，從第t代群體P(t)中選擇出一些優(yōu)良的個(gè)體遺傳到下一代群體P(t?1)中； ? 交叉：將群體P(t)內(nèi)的各個(gè)個(gè)體隨機(jī)搭配成對(duì)，對(duì)每一對(duì)個(gè)體，以某個(gè)概率（稱為交叉概率）交換它們之間的部分染色體； ? 變異：對(duì)群體P(t)中的每一個(gè)個(gè)體，以某一概率（稱為變異概率）改變某一個(gè)或某一些基因座上的基因值為其他的等位基因。遺傳算法的運(yùn)算步驟為：

（1）初始化：設(shè)置進(jìn)化代數(shù)計(jì)數(shù)器t?0；設(shè)置最大進(jìn)化代數(shù)T；隨機(jī)生成M個(gè)個(gè)體作為初始群體P(0)；

（2）個(gè)體評(píng)價(jià)：計(jì)算群體P(t)中各個(gè)個(gè)體的適應(yīng)度；（3）選擇運(yùn)算：將選擇算子作用于群體；（4）交叉運(yùn)算：將交叉算子作用于群體；

（5）變異運(yùn)算：將變異算子作用于群體。群體P(t)經(jīng)過(guò)選擇、交叉、變異運(yùn)算之后得到下一代群體P(t?1)；

（6）終止條件判斷：若t?T，則t?t?1，轉(zhuǎn)到步驟二；若t?T，則以進(jìn)化過(guò)程中所得到的具有最大適應(yīng)度的個(gè)體作為最優(yōu)解輸出，終止計(jì)算。

遺傳算法的執(zhí)行過(guò)程如下圖所示：

┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ 裝 ┊ ┊ ┊ ┊ ┊ 訂 ┊ ┊ ┊ ┊ ┊ 線 ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊

圖1 遺傳算法的執(zhí)行過(guò)程

9.2 遺傳算法的特點(diǎn)

與傳統(tǒng)的優(yōu)化算法：?jiǎn)渭冃畏?、梯度法、?dòng)態(tài)規(guī)劃法和分枝定界法相比，遺傳算法是一類可用于復(fù)雜系統(tǒng)優(yōu)化計(jì)算的魯棒性搜索算法。其特點(diǎn)主要有：

? 遺傳算法以決策變量的編碼作為運(yùn)算對(duì)象。而傳統(tǒng)的優(yōu)化算法往往是直接利用決策變量的實(shí)際值本身來(lái)進(jìn)行優(yōu)化計(jì)算； ? 遺傳算法直接以目標(biāo)函數(shù)值作為搜索信息。而傳統(tǒng)的優(yōu)化算法不僅需要利用目標(biāo)函數(shù)值，而且往往需要目標(biāo)函數(shù)的導(dǎo)數(shù)值等其他一些輔助信息才能確定搜索方向；

? 遺傳算法同時(shí)使用多個(gè)搜索點(diǎn)的搜索信息。而傳統(tǒng)的優(yōu)化算法往往從解空間中的一個(gè)初始點(diǎn)開(kāi)始最優(yōu)解的迭代搜索過(guò)程； ? 遺傳算法使用概率搜索技術(shù)。而傳統(tǒng)的優(yōu)化算法往往使用的是確定性的搜索方法，一個(gè)搜索點(diǎn)到另一個(gè)搜索點(diǎn)的轉(zhuǎn)移有確定的轉(zhuǎn)移方法和轉(zhuǎn)移關(guān)系，這種確定性往往也有可能使得搜索永遠(yuǎn)達(dá)不到最優(yōu)點(diǎn)，因而限制了算法的應(yīng)用范圍。

9.3 遺傳算法的應(yīng)用

遺傳算法提供了一種求解復(fù)雜系統(tǒng)優(yōu)化問(wèn)題的通用框架，它不依賴于問(wèn)題的具體領(lǐng)域，對(duì)問(wèn)題的種類有很強(qiáng)的魯棒性，所以廣泛應(yīng)用于很

┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ 裝 ┊ ┊ ┊ ┊ ┊ 訂 ┊ ┊ ┊ ┊ ┊ 線 ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊

多學(xué)科。

（1）優(yōu)化函數(shù)（2）組合優(yōu)化（3）生產(chǎn)調(diào)度問(wèn)題（4）自動(dòng)控制（5）機(jī)器人學(xué)（6）圖像處理（7）人工生命（8）遺傳編碼（9）機(jī)器學(xué)習(xí)

9.4 遺傳算法的構(gòu)成要素及形式定義

構(gòu)成遺傳算法的要素主要有：染色體編碼方法、個(gè)體適應(yīng)度評(píng)價(jià)、遺傳算子、基本遺傳算法的運(yùn)行參數(shù)。

（1）染色體編碼方法

在實(shí)現(xiàn)對(duì)一個(gè)問(wèn)題用遺傳算法進(jìn)行求解之前，必須先對(duì)問(wèn)題的解空間進(jìn)行編碼，以便于它能夠由遺傳算法進(jìn)行操作。最常用的編碼方法是二進(jìn)制編碼、浮點(diǎn)數(shù)編碼、格雷碼編碼、符號(hào)編碼等。

如，二進(jìn)制編碼方法是遺傳算法中最常用的一種編碼方法，它使用的編碼符號(hào)集是由二進(jìn)制符號(hào)集0和1所組成的二值符號(hào)集{0，1}，它所構(gòu)成的個(gè)體基因型是一個(gè)二進(jìn)制編碼符號(hào)串。

二進(jìn)制編碼符號(hào)串的長(zhǎng)度與問(wèn)題所要求的求解精度有關(guān)。假設(shè)某一參數(shù)的取值范圍是[Umin,Umax]，若用長(zhǎng)度為l的二進(jìn)制編碼符號(hào)串來(lái)表示該參數(shù)，則它總共能夠產(chǎn)生2l種不同的編碼，即為：

00000000...00000000=0 ——> Umin 00000000...00000001=1 ——> Umin?1

┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ 裝 ┊ ┊ ┊ ┊ ┊ 訂 ┊ ┊ ┊ ┊ ┊ 線 ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊

.....11111111...11111111=2*2*2…2-1——>Umax 則二進(jìn)制編碼的編碼精度為：

s?Umax?Umin l2?1假如，對(duì)于x∈[0,1023]，若用10位長(zhǎng)的二進(jìn)制編碼來(lái)表示該參數(shù)的話，則下述符號(hào)串：

0 0 1 0 1 0 1 1 1 1

就可表示一個(gè)個(gè)體，它所對(duì)應(yīng)的參數(shù)值為x=175。此時(shí)的編碼精度s=1。

（2）適應(yīng)度函數(shù)

在遺傳算法中，模擬自然選擇的過(guò)程主要通過(guò)評(píng)估函數(shù)和適應(yīng)度函數(shù)來(lái)實(shí)現(xiàn)的。前者是用來(lái)評(píng)估一個(gè)染色體的優(yōu)劣的絕對(duì)值，后者是用來(lái)評(píng)估一個(gè)染色體相對(duì)于整個(gè)群體的優(yōu)劣的相對(duì)值的大小。

但在遺傳算法中，評(píng)估函數(shù)和適應(yīng)度函數(shù)的計(jì)算與應(yīng)用比較相近，所以一般文獻(xiàn)中?；鞛橐徽?。

（3）遺傳算子

基本遺傳算法使用下列三種遺傳算子：

? 選擇算子：按照某種策略從父代中挑選個(gè)體進(jìn)入中間群體，如使用比例選擇；

? 交叉算子：隨機(jī)地從中間群體中抽取兩個(gè)個(gè)體，并按照某種交叉策略使兩個(gè)個(gè)體互相交換部分染色體碼串，從而形成兩個(gè)新的個(gè)體。如使用單點(diǎn)交叉；

? 變異算子：通常按照一定的概率（一般較小），改變?nèi)旧w中某些基因的值。

（4）基本遺傳算法的運(yùn)行參數(shù)

基本遺傳算法有下述4個(gè)運(yùn)行參數(shù)需要提前設(shè)定：（目前無(wú)合理的理論依據(jù)）

┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ 裝 ┊ ┊ ┊ ┊ ┊ 訂 ┊ ┊ ┊ ┊ ┊ 線 ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊

? M：群體大小：即群體中所含個(gè)體的數(shù)量，一般取20-100； ? T：遺傳算法的終止進(jìn)化代數(shù)，一般取為100-500； ? pc：交叉概率：一般取為0.4-0.99； ? pm：變異概率：一般取為0.0001-0.1?；具z傳算法的形式定義為：

SGA?(C,E,P0,M,?,?,?,T)

其中，C---個(gè)體的編碼方法；

E---個(gè)體適應(yīng)度評(píng)價(jià)函數(shù)；

P0---初始群體；

M---群體大??；

?---選擇算子；

?---交叉算子；

?---變異算子；

T---遺優(yōu)越性運(yùn)算終止條件。9.5 遺傳算法的數(shù)學(xué)理論

1.模式

定義：模式表示一些相似的模塊，它描述了在某些位置上具有相似結(jié)構(gòu)特征的個(gè)體編碼串的一個(gè)子集。

不失一般性，以二進(jìn)制編碼為例，個(gè)體是由二值字符集V={0，1}中的元素所組成的一個(gè)編碼串，而模式卻是由三值字符集V??{0,1,*}中的元素所組成的一個(gè)編碼串，其中“*”表示通配符，它既可被當(dāng)作“1”，也可被當(dāng)作“0”。如，H=1***001*就是一個(gè)模式，串A=10100011與B=10110010都是與模式H相匹配的字符串，稱為兩者相似。

定義：模式H的第一個(gè)和最后一個(gè)常量之間的距離稱為模式的定義長(zhǎng)度，記為?(H)。

定義：模式中常量的個(gè)數(shù)稱為模式的階數(shù)，記為O(H)。

如上例中，?(H)?6,O(H)?4。再如?(*****1**)?1，O(*******1)?1 顯然，當(dāng)字符串的長(zhǎng)度固定時(shí)，模式的階數(shù)越高，能與該模式匹配的字符串（稱為樣本）數(shù)就越少，因而該模式的確定性也就越高。

┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ 裝 ┊ ┊ ┊ ┊ ┊ 訂 ┊ ┊ ┊ ┊ ┊ 線 ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊

2.模式定理

在引入模式的概念之后，遺傳算法的實(shí)質(zhì)可看作是對(duì)模式的一種運(yùn)算。對(duì)基本遺傳算法而言，也就是某一模式H的各個(gè)樣本經(jīng)過(guò)選擇運(yùn)算、交叉運(yùn)算、變異運(yùn)算之后，得到一些新的樣本和新的模式。

假設(shè)在進(jìn)化過(guò)程中的第t代時(shí)，當(dāng)前群體P(t)中能與模式H匹配的個(gè)體數(shù)（樣本數(shù)）記為m(H,t)，下一代群體P(t?1)中能與模式H匹配的個(gè)體數(shù)記為m(H,t?1)。則在選擇算子、交叉算子、變異算子的連續(xù)作用下，模式H的樣本數(shù)m(H,t)的變化情況分析如下：（1）選擇算子的作用

基本遺傳算法中的選擇算子使用的是比例選擇算子。將當(dāng)前群體中適應(yīng)度的總和記為F(t)??F(Ai)，在這個(gè)算子作用下，與模式H所匹配

i的各個(gè)個(gè)體Ai能夠平均復(fù)制M?m(H,t?1)?

F(Ai)個(gè)個(gè)體到下一代群體中，即 F(t)M?f(H,t)?F(t)Ai?H?P(t)M?F(Ai)??F(t)Ai?H?P(t)M?f(H,t)f(H,t)?m(H,t)?m(H,t)_F(t)F(t)

（9-2）

F(t)?式中，f(H,t)是第t代群體中模式H所隱含個(gè)體的平均適應(yīng)度；

_F(t)M是第t代群體的平均適應(yīng)度。

若再假設(shè)模式H的平均適應(yīng)度總是高出群體平均適應(yīng)度的倍，則（9-2）式可改寫為

m(H,t?1)?m(H,t)(1?C)

（9-3）由此可見(jiàn)，m(H,t?1)為一等比級(jí)數(shù)。其通項(xiàng)公式為

m(H,t)?m(H,0)(1?C)t

（9-4）顯然，有

? 若C>0，則m(H,t)呈指數(shù)級(jí)增長(zhǎng)；

┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ 裝 ┊ ┊ ┊ ┊ ┊ 訂 ┊ ┊ ┊ ┊ ┊ 線 ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊

? 若C<0，則m(H,t)呈指數(shù)級(jí)減少。

由此可得如下結(jié)論：在選擇算子作用下，對(duì)于平均適應(yīng)度高于群體平均適應(yīng)度的模式，其樣本數(shù)將呈指數(shù)級(jí)增長(zhǎng)；反之，呈指數(shù)級(jí)減少。（2）交叉算子的作用

以單點(diǎn)交叉算子為例，見(jiàn)圖所示的一個(gè)模式。

隱含在該模式中的樣本與其他個(gè)體進(jìn)行交叉操作時(shí)，根據(jù)交叉點(diǎn)的位置不同，有可能破壞該模式，也可能不破壞該模式而使其繼續(xù)生存到下一代群體中。下面估算該模式生存概率ps的下界。

顯然，當(dāng)隨機(jī)設(shè)置的交叉點(diǎn)在模式的定義長(zhǎng)度之內(nèi)時(shí)，將有可能破壞該模式；而當(dāng)隨機(jī)設(shè)置的交叉點(diǎn)在模式定義長(zhǎng)度之外時(shí)，肯定不會(huì)破壞該模式。則由交叉概率pc發(fā)生時(shí)，模式H的生存概率的下界為

ps?1?pc??(H)l?（9-5）

這樣，經(jīng)過(guò)選擇算子和交叉算子作用之后，模式H的樣本數(shù)滿足下式：

m(H,t?1)?m(H,t)?(1?C)?[1?pc??(H)l?1]

（9-6）

由式（9-6）知，在其他值固定的情況下（C>0）

? ?(H)越小，則m(H,t)越呈指數(shù)增長(zhǎng)； ? ?(H)越大，則m(H,t)越不容易呈指數(shù)增長(zhǎng)。（3）變異算子的作用

這里，以常用的基本位變異算子為例進(jìn)行研究。

若某一模式被破壞，則必然是模式描述形式中通配符“*”之處的某一基因發(fā)生了變化，其發(fā)生概率是：

1?(1?pm)O(H)當(dāng)pm??1時(shí)，有：

┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ 裝 ┊ ┊ ┊ ┊ ┊ 訂 ┊ ┊ ┊ ┊ ┊ 線 ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊

1?(1?pm)O(H)?O(H)?pm

由此可知，在變異算子作用下，模式H的生存概率大約是：

ps?1?O(H)?pm

（9-7）顯然知

? O(H)越小，模式H越易于生存； ? O(H)越大，模式H越易被破壞。

綜合上面的各式，并忽略一些極小項(xiàng)，則比例選擇算子、單點(diǎn)交叉算子、基本位變異算子的連續(xù)作用下，群體中模式H的子代樣本數(shù)為：

m(H,t?1)?m(H,t)?f(H,t)F(t)_?[1?pc?(H)l?1?O(H)?pm]

（9-8）

[模式定理] 遺傳算法中，在選擇、交叉和變異算子的作用下，具有低價(jià)、短的定義長(zhǎng)度，并且平均適應(yīng)度高于群體平均適應(yīng)度的模式將按指數(shù)級(jí)增長(zhǎng)。

模式定理闡述了遺傳算法的理論基礎(chǔ)，說(shuō)明了模式的增長(zhǎng)規(guī)律，同時(shí)也給遺傳算法的應(yīng)用提供指導(dǎo)作用。9.6 積木塊假設(shè)與遺傳算法欺騙問(wèn)題

1.積木塊假設(shè)

具有模式定理中所述的呈指數(shù)增長(zhǎng)的模式稱為積木塊或基因塊。之所以稱為積木塊，是由于遺傳算法的求解過(guò)程并不是在搜索空間中逐一地測(cè)試各個(gè)基因的枚舉組合，而是通過(guò)一些較好的模式，像搭積木一樣，將它們拼接在一起，從而逐漸地構(gòu)造出適應(yīng)度越來(lái)越高的個(gè)體編碼串。

模式定理說(shuō)明了積木塊的樣本呈指數(shù)增長(zhǎng)，亦即說(shuō)明了用遺傳算法尋找最優(yōu)樣本的可能性，但它并未指明遺傳算法一定能夠?qū)ふ业阶顑?yōu)樣本。

[積木塊假設(shè)] 個(gè)體的基因塊通過(guò)選擇、交叉、變異等遺傳算子作用，能夠拼接在一起，形成適應(yīng)度更高的個(gè)體編碼。

┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ 裝 ┊ ┊ ┊ ┊ ┊ 訂 ┊ ┊ ┊ ┊ ┊ 線 ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊

注：積木塊假設(shè)已得到完整而嚴(yán)密的數(shù)學(xué)證明，但大量的應(yīng)用實(shí)踐也已說(shuō)明了其有效性。

2.遺傳算法欺騙問(wèn)題（GA Deceptive Problem）

應(yīng)用實(shí)踐表明，存在著一類用遺傳算法難以求解的問(wèn)題，這類稱為“GA-難”的問(wèn)題往往不滿足積木塊假設(shè)，即由基因塊之間的拼接，往往會(huì)欺騙遺傳算法，使其進(jìn)化過(guò)程偏離最優(yōu)解。

原因：各種研究結(jié)果表明，屬于“GA-難”的問(wèn)題一般包含有孤立的最優(yōu)點(diǎn)，即在這個(gè)最優(yōu)點(diǎn)周圍是一些較差的點(diǎn)，從而使得遺傳算法較難通過(guò)基因之間的相互拼接而達(dá)到這個(gè)最優(yōu)點(diǎn)的模式。實(shí)際上，目前也尚無(wú)解決這類問(wèn)題的較好方法或策略。所幸的是，現(xiàn)實(shí)所遇到的各種應(yīng)用問(wèn)題中，很少有這種奇怪的性質(zhì)。9.7 基于遺傳算法的數(shù)據(jù)挖掘示例

【示例】從200名腦出血和腦血栓病例中，按如下屬性：“病人的既往史”、“起病方式”、“局部癥狀”、“病理反射”、“膝腱反射”和“病情發(fā)展”等六個(gè)方面，找出這兩類病人的識(shí)別規(guī)則。其中

（1）病人的既往史

包括：高血壓（有01，無(wú)00）、動(dòng)脈硬化（有01，無(wú)00）；（2）起病方式

快（01）、慢（00）；（3）局部證狀

偏癱（是01，否00）

瞳孔不等大（是01，否00）

兩便失禁（是01，否00）

語(yǔ)言障礙（是01，否00）

意識(shí)障礙（無(wú)00，深度01，輕度10）

（4）病理反射

陽(yáng)（01），陰（00）

┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ 裝 ┊ ┊ ┊ ┊ ┊ 訂 ┊ ┊ ┊ ┊ ┊ 線 ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊

（5）膝腱反射

無(wú)（00），活躍（01），不活躍（10）

（6）病情發(fā)展

快（01），慢（00）

則可選30個(gè)病例作為訓(xùn)練樣本，100個(gè)作為測(cè)試樣本。

a)采用二進(jìn)制編碼方式。每個(gè)訓(xùn)練樣本是由11個(gè)特征和1個(gè)類別組成，每個(gè)特征和類別都由2位二進(jìn)制字符表示。那么，將樣本編碼成二進(jìn)制字符串的消息就是一個(gè)由22位條件和2位結(jié)論組成的二元組。如，消息M=[***00101，01] b)假設(shè)訓(xùn)練集是由15個(gè)腦出血和15個(gè)腦血栓患者組成30個(gè)訓(xùn)練樣本。本實(shí)驗(yàn)在對(duì)30個(gè)訓(xùn)練樣本進(jìn)行學(xué)習(xí)后，得到12條規(guī)則，學(xué)習(xí)終止于第170代。

（參見(jiàn)P201《數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘》，陳文偉、黃金才編，人民郵電出版社，2004）

c)獲取如下的7條主要規(guī)則：

（1）if 高血壓=有∧瞳孔不等大=是∧膝腱反射=不活躍 then 腦出血（11）

（2）if 瞳孔不等大=是∧語(yǔ)言障礙=是 then 腦出血（12）

（3）if 高血壓=有∧起病方式=快∧意識(shí)障礙=深度 then 腦出血（13）（4）if 高血壓=有∧病情發(fā)展=快 then 腦出血（15）

（5）if 高血壓=有∧動(dòng)脈硬化=有∧起病方式= 慢 then 腦血栓（13）（6）if 動(dòng)脈硬化=有∧病情發(fā)展=慢 then 腦血栓（15）（7）if 動(dòng)脈硬化=有∧意識(shí)障礙=無(wú) then 腦血栓（12）以上括號(hào)內(nèi)的數(shù)值表示該規(guī)則的適應(yīng)值。

第三篇：數(shù)據(jù)挖掘與電子商務(wù)

數(shù)據(jù)挖掘與電子商務(wù)

姓名：龔洪虎

學(xué)號(hào):X2009230111

[摘要] 企業(yè)的競(jìng)爭(zhēng)優(yōu)勢(shì)并不取決于信息的擁有量，而是取決于信息的處理利用能力。如何化信息優(yōu)勢(shì)為競(jìng)爭(zhēng)優(yōu)勢(shì)，是企業(yè)制勝于市場(chǎng)的一個(gè)法寶。本文論述了一種信息處理利用的有效工具——數(shù)據(jù)挖掘方法及其在電子商務(wù)中的應(yīng)用。

[關(guān)鍵詞] 數(shù)據(jù)挖掘方法電子商務(wù) 應(yīng)用

隨著網(wǎng)絡(luò)技術(shù)和數(shù)據(jù)庫(kù)技術(shù)的成熟，傳統(tǒng)商務(wù)正經(jīng)歷一次重大變革，向電子商務(wù)全速挺進(jìn)。這種商業(yè)電子化的趨勢(shì)不僅為客戶提供了便利的交易方式和廣泛的選擇，同時(shí)也為商家提供了更加深入了解客戶需求信息和購(gòu)物行為特征的可能性。數(shù)據(jù)挖掘技術(shù)作為電子商務(wù)的重要應(yīng)用技術(shù)之一，將為正確的商業(yè)決策提供強(qiáng)有力的支持和可靠的保證，是電子商務(wù)不可缺少的重要工具。

一、電子商務(wù)和數(shù)據(jù)挖掘簡(jiǎn)介。

電子商務(wù)是指?jìng)€(gè)人或企業(yè)通過(guò)Internet網(wǎng)絡(luò)，采用數(shù)字化電子方式進(jìn)行商務(wù)數(shù)據(jù)交換和開(kāi)展商務(wù)業(yè)務(wù)活動(dòng)。目前國(guó)內(nèi)已有網(wǎng)上商情廣告、電子票據(jù)交換、網(wǎng)上訂購(gòu)，網(wǎng)上銀行、網(wǎng)上支付結(jié)算等多種類型的電子商務(wù)形式。電子商務(wù)正以其成本低廉、方便、快捷、安全、可靠、不受時(shí)間和空間的限制等突出優(yōu)點(diǎn)而逐步在全球流行。

數(shù)據(jù)挖掘(DataMining)是伴隨著數(shù)據(jù)倉(cāng)庫(kù)技術(shù)的發(fā)展而逐步完善起來(lái)的。數(shù)據(jù)挖掘主要是為了幫助商業(yè)用戶處理大量存在的數(shù)據(jù)，發(fā)現(xiàn)其后隱含的規(guī)律性，同時(shí)將其模型化，來(lái)完成輔助決策的作用。它要求從大量的、不完全的、有噪聲的、模糊的和隨機(jī)的數(shù)據(jù)中，提取人們事先不知道的但又是潛在有用的信息和知識(shí)。數(shù)據(jù)挖掘的過(guò)程有時(shí)也叫知識(shí)發(fā)現(xiàn)的過(guò)程。

而電子商務(wù)中的數(shù)據(jù)挖掘即Web挖掘，是利用數(shù)據(jù)挖掘技術(shù)從www的資源(即Web文檔)和行為(即We服務(wù))中自動(dòng)發(fā)現(xiàn)并提取感興趣的、有用的模式和隱含的信息，它是一項(xiàng)綜合技術(shù)涉及到Internet技術(shù)學(xué)、人工智能、計(jì)算機(jī)語(yǔ)言、信息學(xué)、統(tǒng)計(jì)學(xué)等多個(gè)領(lǐng)域。

二、何謂數(shù)據(jù)挖掘及方法

確切地說(shuō)，數(shù)據(jù)挖掘(Data Mining)，又稱數(shù)據(jù)庫(kù)中的知識(shí)發(fā)現(xiàn)(Knowledge Discovery in Database,KDD)，是指從大型數(shù)據(jù)庫(kù)或數(shù)據(jù)倉(cāng)庫(kù)中提取隱含的、未知的、非平凡的及有潛在應(yīng)用價(jià)值的信息或模式。它融合了數(shù)據(jù)庫(kù)、人工智能、機(jī)器學(xué)習(xí)、統(tǒng)計(jì)學(xué)等多個(gè)領(lǐng)域的理論和技術(shù)。比較典型的數(shù)據(jù)挖掘方法有關(guān)聯(lián)分析、序列模式分析、分類分析、聚類分析等。它們可以應(yīng)用到以客戶為中心的企業(yè)決策分析和管理的各個(gè)不同領(lǐng)域和階段。

1.關(guān)聯(lián)分析。關(guān)聯(lián)分析，即利用關(guān)聯(lián)規(guī)則進(jìn)行數(shù)據(jù)挖掘。關(guān)聯(lián)分析的目的是挖掘隱藏在數(shù)據(jù)間的相互關(guān)系，它能發(fā)現(xiàn)數(shù)據(jù)庫(kù)中形如”90%的顧客在一次購(gòu)買活動(dòng)中購(gòu)買商品A的同時(shí)購(gòu)買商品B”之類的知識(shí)。

2.序列模式分析。序列模式分析和關(guān)聯(lián)分析相似，但側(cè)重點(diǎn)在于分析數(shù)據(jù)間的前后序列關(guān)系。它能發(fā)現(xiàn)數(shù)據(jù)庫(kù)中形如”在某一段時(shí)間內(nèi)，顧客購(gòu)買商品A，接著購(gòu)買商品B，而后購(gòu)買商品C，即序列A→B→C出現(xiàn)的頻度較高”之類的知識(shí)，序列模式分析描述的問(wèn)題是:在給定交易序列數(shù)據(jù)庫(kù)中，每個(gè)序列是按照交易時(shí)間排列的一組交易集，挖掘序列函數(shù)作用在這個(gè)交易序列數(shù)據(jù)庫(kù)上，返回該數(shù)據(jù)庫(kù)中出現(xiàn)的高頻序列。在進(jìn)行序列模式分析時(shí)，同樣也需要由用戶輸入最小置信度C和最小支持度S。

3.分類分析。設(shè)有一個(gè)數(shù)據(jù)庫(kù)和一組具有不同特征的類別(標(biāo)記)，該數(shù)據(jù)庫(kù)中的每一個(gè)②

記錄都賦予一個(gè)類別的標(biāo)記，這樣的數(shù)據(jù)庫(kù)稱為示例數(shù)據(jù)庫(kù)或訓(xùn)練集。分類分析就是通過(guò)分析示例數(shù)據(jù)庫(kù)中的數(shù)據(jù)，為每個(gè)類別做出準(zhǔn)確的描述或建立分析模型或挖掘出分類規(guī)則，然后用這個(gè)分類規(guī)則對(duì)其他數(shù)據(jù)庫(kù)中的記錄進(jìn)行分類。

4.聚類分析。聚類分析輸入的是一組未分類記錄，并且這些記錄應(yīng)分成幾類事先也不知道，通過(guò)分析數(shù)據(jù)庫(kù)中的記錄數(shù)據(jù)，根據(jù)一定的分類規(guī)則，合理地劃分記錄集合，確定每個(gè)記錄所在類別。它所采用的分類規(guī)則是由聚類分析工具決定的。采用不同的聚類方法，對(duì)于相同的記錄集合可能有不同的劃分結(jié)果。

應(yīng)用數(shù)據(jù)挖掘技術(shù)，較為理想的起點(diǎn)就是從一個(gè)數(shù)據(jù)倉(cāng)庫(kù)開(kāi)始，數(shù)據(jù)挖掘可以直接跟蹤數(shù)據(jù)并輔助用戶快速做出商業(yè)決策，用戶還可以在更新數(shù)據(jù)的時(shí)候不斷發(fā)現(xiàn)更好的行為模式，并將其運(yùn)用于未來(lái)的決策當(dāng)中。

三、選擇數(shù)據(jù)挖掘技術(shù)的兩個(gè)重要依據(jù)。

數(shù)據(jù)挖掘使用的技術(shù)很多，其中主要包括統(tǒng)計(jì)方法、機(jī)器學(xué)習(xí)方法、和神經(jīng)網(wǎng)絡(luò)方法和數(shù)據(jù)庫(kù)方法。統(tǒng)計(jì)方法可細(xì)分為回歸分析、判別分析、聚類分析、探索性分析等。機(jī)器學(xué)習(xí)方法可細(xì)分為歸納學(xué)習(xí)方法（決策樹(shù)、規(guī)則歸納）、基于范例學(xué)習(xí)、遺傳算法等。神經(jīng)網(wǎng)絡(luò)方法可細(xì)分為錢箱神經(jīng)網(wǎng)絡(luò)（BP算法）、自組織神經(jīng)網(wǎng)絡(luò)等。數(shù)據(jù)庫(kù)方法主要是多維數(shù)據(jù)分析或OLAP方法，另外還有面向?qū)傩缘臍w納方法。由于每一種數(shù)據(jù)挖掘技術(shù)都有其自身的特點(diǎn)和實(shí)現(xiàn)的步驟，對(duì)數(shù)據(jù)的形式有具體的要求，并且與具體的應(yīng)用問(wèn)題密切相關(guān)，因此成功的應(yīng)用數(shù)據(jù)挖掘技術(shù)以達(dá)到目標(biāo)過(guò)程本身就是一件很復(fù)雜的事情，本文主要從挖掘任務(wù)和可獲得的數(shù)據(jù)兩個(gè)角度來(lái)討論對(duì)數(shù)據(jù)挖掘技術(shù)的選擇。

三、數(shù)據(jù)挖掘在電子商務(wù)中的應(yīng)用

數(shù)據(jù)挖掘能發(fā)現(xiàn)電子商務(wù)客戶的的共性和個(gè)性的知識(shí)、必然和偶然的知識(shí)、獨(dú)立和關(guān)聯(lián)的知識(shí)、現(xiàn)實(shí)和預(yù)測(cè)的知識(shí)等，所有這些知識(shí)經(jīng)過(guò)分析，能對(duì)客戶的消費(fèi)行為如心理、能力、動(dòng)機(jī)、需求、潛能等做出統(tǒng)計(jì)和正確地分析，為管理者提供決策依據(jù)。具體應(yīng)用如下：

1.分類與預(yù)測(cè)方法在電子商務(wù)中的應(yīng)用。在電子商務(wù)活動(dòng)中，分類是一項(xiàng)非常重要的任務(wù)，也是應(yīng)用最多的技術(shù)。分類的目的是構(gòu)造一個(gè)分類函數(shù)或分類模型，通常稱作分類器。分類器的構(gòu)造方法通常由統(tǒng)計(jì)方法、機(jī)器學(xué)習(xí)方法、神經(jīng)網(wǎng)絡(luò)方法等。這些方法能把數(shù)據(jù)庫(kù)中的數(shù)據(jù)映射到給定類別中某一個(gè)，以便用于預(yù)測(cè)，也就是利用歷史數(shù)據(jù)記錄，自動(dòng)推導(dǎo)出給定數(shù)據(jù)的推廣描述，從而對(duì)未來(lái)數(shù)據(jù)進(jìn)行預(yù)測(cè)。

2.聚類方法在電子商務(wù)中的應(yīng)用。聚類是把一組個(gè)體按照相似性原則歸成若干類別。對(duì)電子商務(wù)來(lái)說(shuō)，客戶聚類可以對(duì)市場(chǎng)細(xì)分理論提供有力的支持。市場(chǎng)細(xì)分的目的是使得屬于同一類別的個(gè)體之間的距離盡可能小，而不同類別的個(gè)體之間的距離盡可能大，通過(guò)對(duì)聚類的客戶特征的提取，電子商務(wù)網(wǎng)站可以為客戶提供個(gè)性化的服務(wù)。

3.數(shù)據(jù)抽取方法在電子商務(wù)中的應(yīng)用。數(shù)據(jù)抽取的目的是對(duì)數(shù)據(jù)進(jìn)行濃縮，給出它的緊湊描述，如求和值、平均值、方差值、等統(tǒng)計(jì)值、或者用直方圖、餅狀圖等圖形方式表示，更主要的是他從數(shù)據(jù)泛化的角度來(lái)討論數(shù)據(jù)總結(jié)。數(shù)據(jù)泛化是一種把最原始、最基本的信息數(shù)據(jù)從低層次抽象到高層次上的過(guò)程。可采用多維數(shù)據(jù)分析方法和面向?qū)傩缘臍w納方法。在電子商務(wù)活動(dòng)中，采用維數(shù)據(jù)分析方法進(jìn)行數(shù)據(jù)抽取，他針對(duì)的是電子商務(wù)活動(dòng)中的客戶數(shù)據(jù)倉(cāng)庫(kù)。在數(shù)據(jù)分析中經(jīng)常要用到諸如求和、總計(jì)、平均、最大、最小等匯集操作，這類操作的計(jì)算量特別大，可把匯集操作結(jié)果預(yù)先計(jì)算并存儲(chǔ)起來(lái)，以便用于決策支持系統(tǒng)使用。

4.關(guān)聯(lián)規(guī)則在電子商務(wù)中的應(yīng)用。管理部門可以收集存儲(chǔ)大量的售貨數(shù)據(jù)和客戶資料，對(duì)這些歷史數(shù)據(jù)進(jìn)行分析并發(fā)現(xiàn)關(guān)聯(lián)規(guī)則。如分析網(wǎng)上顧客的購(gòu)買行為，幫助管理者規(guī)劃市場(chǎng)，確定商品的種類、價(jià)格、質(zhì)量等。通常關(guān)聯(lián)規(guī)則有兩種：有意義的關(guān)聯(lián)規(guī)則和泛化關(guān)聯(lián)規(guī)則，有意義的關(guān)聯(lián)規(guī)則，即滿足最小支持度和最小可信度的規(guī)則。最小支持度，它表示一組對(duì)象在統(tǒng)計(jì)意義上的需滿足的最低程度，如電子商務(wù)活動(dòng)中的客戶數(shù)量、客戶消費(fèi)能力、消費(fèi)方式等。后者即用戶規(guī)定的關(guān)聯(lián)規(guī)則的最低可靠度。第二是泛化規(guī)則，這種規(guī)則更實(shí)用，因?yàn)檠芯繉?duì)象存在一種層次關(guān)系，如面包、蛋糕屬西點(diǎn)類，而西點(diǎn)又屬于食品類，有了層次關(guān)系后，可以幫助發(fā)現(xiàn)更多的有意義的規(guī)則。

5、優(yōu)化企業(yè)資源

節(jié)約成本是企業(yè)盈利的關(guān)鍵。基于數(shù)據(jù)挖掘技術(shù)，實(shí)時(shí)、全面、準(zhǔn)確地掌握企業(yè)資源信息，通過(guò)分析歷史的財(cái)務(wù)數(shù)據(jù)、庫(kù)存數(shù)據(jù)和交易數(shù)據(jù), 可以發(fā)現(xiàn)企業(yè)資源消耗的關(guān)鍵點(diǎn)和主要活動(dòng)的投入產(chǎn)出比例, 從而為企業(yè)資源優(yōu)化配置提供決策依據(jù), 例如降低庫(kù)存、提高庫(kù)存周轉(zhuǎn)率、提高資金使用率等。通過(guò)對(duì)Web數(shù)據(jù)挖掘，快速提取商業(yè)信息，使企業(yè)準(zhǔn)確地把握市場(chǎng)動(dòng)態(tài)，極大地提高企業(yè)對(duì)市場(chǎng)變化的響應(yīng)能力和創(chuàng)新能力，使企業(yè)最大限度地利用人力資源、物質(zhì)資源和信息資源，合理協(xié)調(diào)企業(yè)內(nèi)外部資源的關(guān)系，產(chǎn)生最佳的經(jīng)濟(jì)效益。促進(jìn)企業(yè)發(fā)展的科學(xué)化、信息化和智能化。

例如:美國(guó)運(yùn)通公司(American Express)有一個(gè)用于記錄信用卡業(yè)務(wù)的數(shù)據(jù)庫(kù)，數(shù)據(jù)量達(dá)到54億字符，并仍在隨著業(yè)務(wù)進(jìn)展不斷更新。運(yùn)通公司通過(guò)對(duì)這些數(shù)據(jù)進(jìn)行挖掘，制定了“關(guān)聯(lián)結(jié)算(Relation ship Billing)優(yōu)惠”的促銷策略，即如果一個(gè)顧客在一個(gè)商店用運(yùn)通卡購(gòu)買一套時(shí)裝，那么在同一個(gè)商店再買一雙鞋，就可以得到比較大的折扣，這樣既可以增加商店的銷售量，也可以增加運(yùn)通卡在該商店的使用率。

6、管理客戶數(shù)據(jù)

隨著“以客戶為中心”的經(jīng)營(yíng)理念的不斷深入人心, 分析客戶、了解客戶并引導(dǎo)客戶的需求已成為企業(yè)經(jīng)營(yíng)的重要課題?；跀?shù)據(jù)挖掘技術(shù)，企業(yè)將最大限度地利用客戶資源，開(kāi)展客戶行為的分析與預(yù)測(cè)，對(duì)客戶進(jìn)行分類。有助于客戶盈利能力分析，尋找潛在的有價(jià)值的客戶，開(kāi)展個(gè)性化服務(wù)，提高客戶的滿意度和忠誠(chéng)度。通過(guò)Web資源的挖掘，了解客戶的購(gòu)買習(xí)慣和興趣，從而改善網(wǎng)站結(jié)構(gòu)設(shè)計(jì)，推出滿足不同客戶的個(gè)性化網(wǎng)頁(yè)。利用數(shù)據(jù)挖掘可以有效地獲得客戶。比如通過(guò)數(shù)據(jù)挖掘可以發(fā)現(xiàn)購(gòu)買某種商品的消費(fèi)者是男性還是女性,學(xué)歷、收入如何, 有什么愛(ài)好,是什么職業(yè)等等。甚至可以發(fā)現(xiàn)不同的人在購(gòu)買該種商品的相關(guān)商品后多長(zhǎng)時(shí)間有可能購(gòu)買該種商品, 以及什么樣的人會(huì)購(gòu)買什么型號(hào)的該種商品等等。在采用了數(shù)據(jù)挖掘后, 針對(duì)目標(biāo)客戶發(fā)送的廣告的有效性和回應(yīng)率將得到大幅度的提高, 推銷的成本將大大降低。同時(shí)，在客戶數(shù)據(jù)挖掘的基礎(chǔ)上，企業(yè)可以發(fā)現(xiàn)重點(diǎn)客戶和評(píng)價(jià)市場(chǎng)性能，制定個(gè)性化營(yíng)銷策略，拓寬銷售渠道和范圍，為企業(yè)制定生產(chǎn)策略和發(fā)展規(guī)劃提供科學(xué)的依據(jù)。通過(guò)呼叫中心優(yōu)化與客戶溝通的渠道，提高對(duì)客戶的響應(yīng)效率和服務(wù)質(zhì)量，促

①進(jìn)客戶關(guān)系管理的自動(dòng)化和智能化。

三、結(jié)束語(yǔ)

電子商務(wù)是現(xiàn)代信息技術(shù)發(fā)展的必然結(jié)果，也是未來(lái)商業(yè)運(yùn)作模式的必然選擇。利用數(shù)據(jù)挖掘技術(shù)，充分發(fā)揮企業(yè)的獨(dú)特優(yōu)勢(shì)，促進(jìn)管理創(chuàng)新和技術(shù)創(chuàng)新，使企業(yè)在在電子商務(wù)的潮流中立于不敗之地。隨著數(shù)據(jù)挖掘算法的不斷發(fā)展和成熟，數(shù)據(jù)挖掘一定會(huì)有更加廣闊的應(yīng)用前景。

參考文獻(xiàn)：

(1)《淺談數(shù)據(jù)挖掘在電子商務(wù)中的運(yùn)用》鐘連福；

(2)《電子商務(wù)中商業(yè)數(shù)據(jù)的挖掘方法》中國(guó)電子商務(wù)研究中心；

(3)《在電子商務(wù)中如何正確有使用數(shù)據(jù)挖掘技術(shù)》俠名；

(4)《曾貞:數(shù)據(jù)挖掘在電子商務(wù)中的應(yīng)用》甘肅農(nóng)業(yè),2004（7）；

(5)《馮艷王堅(jiān)強(qiáng):數(shù)據(jù)挖掘在電子商務(wù)上的應(yīng)用》 2002（3）；

(6)《呂延杰徐華飛:中國(guó)電子商務(wù)發(fā)展研究報(bào)告》北京郵電大學(xué)出版社；

(7)《數(shù)據(jù)挖掘與電子商務(wù)》鄧鯤鵬，周延杰，嚴(yán)瑜筱。①

第四篇：數(shù)據(jù)挖掘心得體會(huì)

心得體會(huì)

這次數(shù)據(jù)挖掘?qū)嶒?yàn)結(jié)束了，期間我們小組明確分工并積極去完成，雖然有點(diǎn)辛苦，但我感覺(jué)充實(shí)而有收獲感！

根據(jù)老師給的一些資料，我們決定采用SQL Server 2000中的Northwind數(shù)據(jù)庫(kù)里的數(shù)據(jù)作為我們的實(shí)驗(yàn)數(shù)據(jù)。根據(jù)表Order Details中的數(shù)據(jù)，我們分別根據(jù)ProductID和OrderID字段，并結(jié)合我們規(guī)定的最小支持度閥值對(duì)數(shù)據(jù)進(jìn)行篩選。依次篩選出1項(xiàng)頻繁集、2項(xiàng)頻繁集和3項(xiàng)頻繁集，其中還會(huì)使用游標(biāo)的方式來(lái)遍歷2項(xiàng)集與3項(xiàng)集的候選集，分別選出2項(xiàng)頻繁集和3項(xiàng)頻繁集。

由于數(shù)據(jù)較多，因此過(guò)程比較復(fù)雜，要編寫很多的查詢語(yǔ)句，建立許多數(shù)據(jù)表，包括臨時(shí)表。開(kāi)始不知道則操作，但經(jīng)過(guò)我們各自多次重復(fù)的建表與查詢，逐漸的理解和有了自己的思路。尤其是在運(yùn)用游標(biāo)的方法進(jìn)行遍歷這塊，因?yàn)槲覀儽容^陌生而不理解，操作時(shí)一時(shí)無(wú)法實(shí)現(xiàn)結(jié)果，但經(jīng)過(guò)我們?cè)诰W(wǎng)上查詢了解相關(guān)知識(shí)，最終得以解決。

經(jīng)過(guò)該次實(shí)驗(yàn)，使我對(duì)數(shù)據(jù)庫(kù)的操作更加熟練，而且還使我對(duì)課本上的“挖掘頻繁模式”這塊知識(shí)有了很好的掌握，今后我會(huì)多做實(shí)驗(yàn)，使我在實(shí)際操作過(guò)程中學(xué)得更好！

第五篇：數(shù)據(jù)挖掘試題

《數(shù)據(jù)挖掘》總復(fù)習(xí)題

1．?dāng)?shù)據(jù)挖掘系統(tǒng)可以根據(jù)什么標(biāo)準(zhǔn)進(jìn)行分類？

答：根據(jù)挖掘的數(shù)據(jù)庫(kù)類型分類、根據(jù)挖掘的知識(shí)類型分類、根據(jù)挖掘所用的技術(shù)分類、根據(jù)應(yīng)用分類

2．知識(shí)發(fā)現(xiàn)過(guò)程包括哪些步驟？

答：數(shù)據(jù)清理、數(shù)據(jù)集成、數(shù)據(jù)選擇、數(shù)據(jù)變換、數(shù)據(jù)挖掘、模式評(píng)估、知識(shí)表示3．什么是概念分層？

答：一個(gè)映射序列，將低層概念映射到更一般的較高層概念。4．多維數(shù)據(jù)模型上的 OLAP 操作包括哪些？

答：上卷、下鉆、切片和切塊、轉(zhuǎn)軸 / 旋轉(zhuǎn)、其他OLAP操作5．OLAP 服務(wù)器類型有哪幾種？

答：關(guān)系 OLAP 服務(wù)器(ROLAP)、多維 OLAP 服務(wù)器(MOLAP)、混合 OLAP 服務(wù)器(HOLAP)、特殊的 SQL 服務(wù)器6．?dāng)?shù)據(jù)預(yù)處理技術(shù)包括哪些？

答：聚集、抽樣、維規(guī)約、特征子集選擇、特征創(chuàng)建、離散化和二元化、變量變換。7．什么是數(shù)據(jù)清理？

答：填寫缺失的值，平滑噪聲數(shù)據(jù)，識(shí)別、刪除離群點(diǎn)，解決不一致性 8．什么是數(shù)據(jù)集成？

答：集成多個(gè)數(shù)據(jù)庫(kù)、數(shù)據(jù)立方體或文件 9．什么是數(shù)據(jù)歸約？

答：得到數(shù)據(jù)集的壓縮表示，它小得多，但可以得到相同或相近的結(jié)果 10．?dāng)?shù)據(jù)清理的內(nèi)容包括哪些？

答：缺失值、噪聲數(shù)據(jù)、數(shù)據(jù)平滑、聚類、回歸11.將下列縮略語(yǔ)復(fù)原

OLAP——on-line analytical processing DM——data mining

KDD——knowledge discovery in databases OLTP——on-line transaction processingDBMS——database management system DWT——discrete wavelet transform

（DMQL）－－Data Mining Query Language 12．什么是數(shù)據(jù)挖掘？

答：簡(jiǎn)單地說(shuō)，數(shù)據(jù)挖掘是從大量數(shù)據(jù)中提取或挖掘知識(shí)。具體地說(shuō)，數(shù)據(jù)挖掘就是從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的實(shí)際應(yīng)用數(shù)據(jù)中，提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識(shí)的過(guò)程。13．什么是關(guān)聯(lián)規(guī)則？答：（關(guān)聯(lián)規(guī)則是形如X→Y的蘊(yùn)涵式，其中且，X和Y分別稱為關(guān)聯(lián)規(guī)則的先導(dǎo)和后繼。）假設(shè)I是項(xiàng)的集合。給定一個(gè)交易數(shù)據(jù)庫(kù)，其中每個(gè)事務(wù)(Transaction)t是I的非空子集，即，每一個(gè)交易都與一個(gè)唯一的標(biāo)識(shí)符TID(Transaction ID)對(duì)應(yīng)。關(guān)聯(lián)規(guī)則在D中的支持度(support)是D中事務(wù)同時(shí)包含X、Y的百分比，即概率；置信度(confidence)是包含X的事務(wù)中同時(shí)又包含Y的百分比，即條件概率。關(guān)聯(lián)規(guī)則是有趣的，如果滿足最小支持度閾值和最小置信度閾值。這些閾值是根據(jù)挖掘需要人為設(shè)定。

（關(guān)聯(lián)規(guī)則反映一個(gè)事物與其它事物之間的相互依存性和關(guān)聯(lián)性，如果兩個(gè)事物或者多個(gè)事物之間存在一定的關(guān)聯(lián)關(guān)系，那么其中一個(gè)事物就能夠通過(guò)其他事物預(yù)測(cè)到。）15.什么是概念描述？什么是特征化？什么是屬性相關(guān)分析？

答：概念描述：用匯總的、簡(jiǎn)潔的和精確的方式描述各個(gè)類和概念可能是有用的。特征化：是目標(biāo)類數(shù)據(jù)的一般特性或特征的匯總。

屬性相關(guān)分析：可能需要在分類和預(yù)測(cè)之前進(jìn)行，它試圖識(shí)別對(duì)于分類或預(yù)測(cè)過(guò)程無(wú)用的屬性。這些屬性應(yīng)當(dāng)排除。

16．什么是數(shù)據(jù)倉(cāng)庫(kù)？其主要特征是什么？

答：數(shù)據(jù)倉(cāng)庫(kù)是一個(gè)提供決策支持功能的數(shù)據(jù)庫(kù)，它與組織機(jī)構(gòu)的操作數(shù)據(jù)庫(kù)分別維護(hù)。它允許將各種應(yīng)用系統(tǒng)集成在一起，為統(tǒng)一的歷史數(shù)據(jù)分析提供堅(jiān)實(shí)的平臺(tái)，對(duì)信息處理提供支持。

特征：面向主題、數(shù)據(jù)集成、隨時(shí)間而變化、數(shù)據(jù)不易丟失（數(shù)據(jù)不易丟失是最明顯特征）17．什么是數(shù)據(jù)集市？

答：數(shù)據(jù)集市包含企業(yè)范圍數(shù)據(jù)的一個(gè)子集，對(duì)于特定的用戶群是有用的。其范圍限于選定的主題。

(是完整的數(shù)據(jù)倉(cāng)庫(kù)的一個(gè)邏輯子集，而數(shù)據(jù)倉(cāng)庫(kù)正是由所有的數(shù)據(jù)集市有機(jī)組合而成的)18．?dāng)?shù)據(jù)庫(kù)中的知識(shí)發(fā)現(xiàn)過(guò)程由哪幾個(gè)步驟組成？

答：數(shù)據(jù)清理、數(shù)據(jù)倉(cāng)庫(kù)、任務(wù)相關(guān)數(shù)據(jù)、數(shù)據(jù)挖掘、模式評(píng)估、知識(shí)表示 19．典型的數(shù)據(jù)挖掘系統(tǒng)有哪幾個(gè)主要成分？

答：數(shù)據(jù)庫(kù)、數(shù)據(jù)倉(cāng)庫(kù)、萬(wàn)維網(wǎng)或其他信息庫(kù)；數(shù)據(jù)庫(kù)或數(shù)據(jù)倉(cāng)庫(kù)服務(wù)器；知識(shí)庫(kù)；數(shù)據(jù)挖掘引擎；模式評(píng)估模塊；用戶界面

20．從軟件工程的觀點(diǎn)來(lái)看，數(shù)據(jù)倉(cāng)庫(kù)的設(shè)計(jì)和構(gòu)造包含哪些步驟？

答：規(guī)劃、需求研究、問(wèn)題分析、倉(cāng)庫(kù)設(shè)計(jì)、數(shù)據(jù)集成和測(cè)試、部署數(shù)據(jù)倉(cāng)庫(kù)。21．在數(shù)據(jù)挖掘系統(tǒng)中，為什么數(shù)據(jù)清理十分重要？

答：臟數(shù)據(jù)的普遍存在，使得在大型數(shù)據(jù)庫(kù)中維護(hù)數(shù)據(jù)的正確性和一致性成為一個(gè)極其困難的任務(wù)。

22．臟數(shù)據(jù)形成的原因有哪些？

答：濫用縮寫詞、數(shù)據(jù)輸入錯(cuò)誤、數(shù)據(jù)中的內(nèi)嵌控制信息、不同的的慣用語(yǔ)、重復(fù)記錄、丟失值、拼寫變化、不同的計(jì)量單位、過(guò)時(shí)的編碼23．?dāng)?shù)據(jù)清理時(shí)，對(duì)空缺值有哪些處理方法？

答：忽略元組、人工填寫缺失值、使用一個(gè)全局變量填充缺失值、使用屬性的平均值填充缺失值、使用與給定元組屬同一類的所有樣本的屬性均值、使用最可能的值填充缺失值 24．什么是數(shù)據(jù)變換？包括哪些內(nèi)容？

答：將數(shù)據(jù)轉(zhuǎn)換或統(tǒng)一成適合于挖掘的形式。包括：光滑、聚集、數(shù)據(jù)泛化、規(guī)范化、屬性構(gòu)造 25．數(shù)據(jù)歸約的策略包括哪些？

答：數(shù)據(jù)立方體聚集、性子集選擇、維度歸約、數(shù)值歸約、離散化和概念分層產(chǎn)生 26．提高數(shù)據(jù)挖掘算法效率有哪幾種思路？

答：減少對(duì)數(shù)據(jù)的掃描次數(shù)；縮小產(chǎn)生的候選項(xiàng)集；改進(jìn)對(duì)候選項(xiàng)集的支持度計(jì)算方法 27．假定屬性income的最小值與最大值分別為12000和980到區(qū)間[0.0，1.0]，根據(jù) min-max 規(guī)范化，income的值73600將變?yōu)椋?631/551＿。

28．假定屬性income的平均值和標(biāo)準(zhǔn)差分別為54000和16000，使用 Z-score 規(guī)范化，值73600被轉(zhuǎn)換為＿1.225＿。

29．假定A的值由-986到917.A的最大絕對(duì)值為986，使用小數(shù)定標(biāo)規(guī)范化，-986被規(guī)范化為＿-0.986＿

30．從結(jié)構(gòu)角度來(lái)看，有哪三種數(shù)據(jù)倉(cāng)庫(kù)模型。答：企業(yè)倉(cāng)庫(kù)、數(shù)據(jù)集市、虛擬倉(cāng)庫(kù)

31．什么是聚類分析？它與分類有什么區(qū)別？

答：將物理或抽象對(duì)象的集合分組成為由類似的對(duì)象組成的多個(gè)類的過(guò)程區(qū)別：分類有監(jiān)督聚類無(wú)監(jiān)督分類要靠學(xué)習(xí)聚類要靠啟發(fā)式搜索 32．與數(shù)據(jù)挖掘類似的術(shù)語(yǔ)有哪些?

答：數(shù)據(jù)庫(kù)中挖掘知識(shí)、知識(shí)提取、數(shù)據(jù)/模式分析、數(shù)據(jù)考古和數(shù)據(jù)捕撈。33．解釋下列術(shù)語(yǔ) 34．翻譯下列術(shù)語(yǔ)

Data Mining 數(shù)據(jù)挖掘Data warehousing 數(shù)據(jù)倉(cāng)庫(kù)Data Mart 數(shù)據(jù)集市

drill-down 下鉆roll-up上卷OLAP 聯(lián)機(jī)分析處理Data cube 數(shù)據(jù)立方體 Association rule 關(guān)聯(lián)規(guī)則Data cleaning數(shù)據(jù)清理Data integration 數(shù)據(jù)集成 Data transformation數(shù)據(jù)變換Data reduction 數(shù)據(jù)歸約

35．可以對(duì)按季度匯總的銷售數(shù)據(jù)進(jìn)行___B___，來(lái)觀察按月匯總的數(shù)據(jù)。A 上卷 B 下鉆 C 切片 D 切塊

36．可以對(duì)按城市匯總的銷售數(shù)據(jù)進(jìn)行____A__，來(lái)觀察按國(guó)家總的數(shù)據(jù)。A 上卷 B 下鉆 C 切片 D 切塊

37．通過(guò)不太詳細(xì)的數(shù)據(jù)得到更詳細(xì)的數(shù)據(jù)，稱為_(kāi)___B____。A 上卷 B 下鉆 C 細(xì)化 D 維規(guī)約

38．三層數(shù)據(jù)倉(cāng)庫(kù)結(jié)構(gòu)中，從底層到尾層分別是_倉(cāng)庫(kù)數(shù)據(jù)服務(wù)器、OLAP服務(wù)器、前端客戶層__。

42．常用的四種興趣度的客觀度量。

答：簡(jiǎn)單性確定性實(shí)用性新穎性43．四種常用的概念分層類型。

答：模式分層、集合分組分層、操作導(dǎo)出的分層、基于規(guī)則的分層45．如何理解現(xiàn)實(shí)世界的數(shù)據(jù)是“骯臟的”？答：不完整的、含噪聲的、不一致的、重復(fù)的 46．多維數(shù)據(jù)倉(cāng)庫(kù)有哪幾種概念模型？

答：星形模式、雪花形模式或事實(shí)星座形模式。

48.在多路數(shù)組聚集算法中，如何盡量少地占用內(nèi)存？

答：將最小的平面放在內(nèi)存中，將最大的平面每次只是提取并計(jì)算一塊。49.給出方體的維數(shù)，會(huì)計(jì)算各D方體有多少，總的方體個(gè)數(shù)有多少？2^n50．什么是離群點(diǎn)？離群點(diǎn)都需要?jiǎng)h除嗎？為什么？

答：離群點(diǎn)：一些與數(shù)據(jù)的一般行為或模型不一致的孤立數(shù)據(jù)。不需要。通常離群點(diǎn)被作為“噪音”或異常被丟棄，但在欺詐檢測(cè)中卻可以通過(guò)對(duì)罕見(jiàn)事件進(jìn)行離群點(diǎn)分析而得到結(jié)論。

【51.所有模式都是有趣的嗎？

答：一個(gè)模式是有趣的，如果(1)它易于被人理解；（2）在某種程度上，對(duì)于新的或測(cè)試數(shù)據(jù)是有效的；（3）具有潛在效用；（4）新穎的；（5）符合用戶確信的某種假設(shè)?！?/p>

欧美色欧美亚洲高清在线观看,国产特黄特色a级在线视频,国产一区视频一区欧美,亚洲成a 人在线观看中文

數(shù)據(jù)挖掘與知識(shí)發(fā)現(xiàn)(講稿7-神經(jīng)網(wǎng)絡(luò)挖掘)

第一篇：數(shù)據(jù)挖掘與知識(shí)發(fā)現(xiàn)(講稿7-神經(jīng)網(wǎng)絡(luò)挖掘)

第二篇：數(shù)據(jù)挖掘與知識(shí)發(fā)現(xiàn)(講稿9--遺傳算法)

第三篇：數(shù)據(jù)挖掘與電子商務(wù)

第四篇：數(shù)據(jù)挖掘心得體會(huì)

第五篇：數(shù)據(jù)挖掘試題

相關(guān)范文推薦

數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘?qū)W習(xí)心得.

數(shù)據(jù)挖掘與分析心得體會(huì)

數(shù)據(jù)挖掘與數(shù)據(jù)倉(cāng)庫(kù)--教學(xué)大綱

數(shù)據(jù)挖掘論文（合集）

數(shù)據(jù)挖掘?qū)嶒?yàn)三

數(shù)據(jù)挖掘講課心得體會(huì)

數(shù)據(jù)挖掘研究現(xiàn)狀

數(shù)據(jù)挖掘背景文摘