欧美色欧美亚洲高清在线观看,国产特黄特色a级在线视频,国产一区视频一区欧美,亚洲成a 人在线观看中文

  1. <ul id="fwlom"></ul>

    <object id="fwlom"></object>

    <span id="fwlom"></span><dfn id="fwlom"></dfn>

      <object id="fwlom"></object>

      數(shù)據(jù)挖掘與知識(shí)發(fā)現(xiàn)(講稿7-神經(jīng)網(wǎng)絡(luò)挖掘)

      時(shí)間:2019-05-14 18:07:00下載本文作者:會(huì)員上傳
      簡(jiǎn)介:寫寫幫文庫(kù)小編為你整理了多篇相關(guān)的《數(shù)據(jù)挖掘與知識(shí)發(fā)現(xiàn)(講稿7-神經(jīng)網(wǎng)絡(luò)挖掘)》,但愿對(duì)你工作學(xué)習(xí)有幫助,當(dāng)然你在寫寫幫文庫(kù)還可以找到更多《數(shù)據(jù)挖掘與知識(shí)發(fā)現(xiàn)(講稿7-神經(jīng)網(wǎng)絡(luò)挖掘)》。

      第一篇:數(shù)據(jù)挖掘與知識(shí)發(fā)現(xiàn)(講稿7-神經(jīng)網(wǎng)絡(luò)挖掘)

      ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ 裝 ┊ ┊ ┊ ┊ ┊ 訂 ┊ ┊ ┊ ┊ ┊ 線 ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊

      第7章

      基于神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)挖掘技術(shù)

      人工神經(jīng)網(wǎng)絡(luò)ANN(Artificial Neural Network)是反映人腦結(jié)構(gòu)及功能的一種數(shù)學(xué)模型,它是由大量的簡(jiǎn)單處理單元經(jīng)廣泛并行互連形成的一種網(wǎng)絡(luò)系統(tǒng)。用以模擬人類進(jìn)行知識(shí)的表示與存儲(chǔ)以及利用知識(shí)進(jìn)行推理的行為。它是對(duì)人腦系統(tǒng)的簡(jiǎn)化、抽象和模擬,具有人腦功能的許多特征。

      目前,人工神經(jīng)網(wǎng)絡(luò)已在模式分類、機(jī)器視覺(jué)、機(jī)器聽(tīng)覺(jué)、智能計(jì)算、機(jī)器人控制、信號(hào)處理、組合優(yōu)化問(wèn)題求解、聯(lián)想記憶、編碼理論、醫(yī)學(xué)診斷、金融決策、數(shù)據(jù)挖掘等領(lǐng)域得到廣泛應(yīng)用。

      7.1 基于知識(shí)的神經(jīng)網(wǎng)絡(luò)(KBANN)

      神經(jīng)網(wǎng)絡(luò)用于數(shù)據(jù)挖掘的困難之一是,對(duì)經(jīng)過(guò)訓(xùn)練的神經(jīng)網(wǎng)絡(luò)的輸出結(jié)果很難給出直觀的解釋。許多學(xué)者試圖將專家系統(tǒng)和神經(jīng)網(wǎng)絡(luò)相結(jié)合,設(shè)計(jì)出兼有專家系統(tǒng)和神經(jīng)網(wǎng)絡(luò)優(yōu)點(diǎn)的混合系統(tǒng)。其中,基于知識(shí)的神經(jīng)網(wǎng)絡(luò)就是其中最有代表性的一種系統(tǒng)。

      基于知識(shí)的神經(jīng)網(wǎng)絡(luò)包含如下四個(gè)階段:

      ① 規(guī)則庫(kù)表示階段:提取原始的領(lǐng)域知識(shí)并將其組織成規(guī)則庫(kù);(屬人工智能內(nèi)容)

      ② 映射階段:將上述規(guī)則庫(kù)中的每條規(guī)則映射成一個(gè)小的子網(wǎng)絡(luò),全體子網(wǎng)絡(luò)就構(gòu)成了一個(gè)原始網(wǎng)絡(luò)結(jié)構(gòu);

      ③ 學(xué)習(xí)階段:用訓(xùn)練樣本對(duì)上述網(wǎng)絡(luò)進(jìn)行訓(xùn)練;(應(yīng)用人工神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)算法)④ 規(guī)則提取階段:將上述訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)再映射成規(guī)則庫(kù)。

      其典型結(jié)構(gòu)圖為:

      圖1 基于知識(shí)的神經(jīng)網(wǎng)絡(luò)的信息流程

      ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ 裝 ┊ ┊ ┊ ┊ ┊ 訂 ┊ ┊ ┊ ┊ ┊ 線 ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊

      1)原始規(guī)則庫(kù)轉(zhuǎn)化為神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)

      (1)合取規(guī)則

      在與肯定條件相對(duì)應(yīng)的網(wǎng)絡(luò)連接權(quán)設(shè)置為?,在與否定條件相對(duì)應(yīng)的網(wǎng)絡(luò)連接權(quán)設(shè)置為??,在與結(jié)論相對(duì)應(yīng)的神經(jīng)元的閾值設(shè)置為(2P?1)?/2,其中P是肯定條件的個(gè)數(shù)。經(jīng)驗(yàn)表明,在KBANN中,?通常設(shè)置為4能取得較好的效果。如,規(guī)則

      A:B,C,D,not(E)

      圖2 合取規(guī)則轉(zhuǎn)化為神經(jīng)網(wǎng)絡(luò)示間圖

      (2)析取規(guī)則

      KBANN對(duì)與每個(gè)析取條件相對(duì)應(yīng)的連接權(quán)設(shè)置為?,對(duì)與結(jié)論相對(duì)應(yīng)的神經(jīng)元閾值設(shè)置為?/2。如,規(guī)則

      圖3 析取規(guī)則轉(zhuǎn)化為神經(jīng)網(wǎng)絡(luò)示意圖

      2)知識(shí)庫(kù)轉(zhuǎn)化為神經(jīng)網(wǎng)絡(luò)示例

      設(shè)(a)為規(guī)則庫(kù);(b)為規(guī)則的層次結(jié)構(gòu),其中,實(shí)線代表必要關(guān)系,虛線表示抑制關(guān)系;(c)為由規(guī)則庫(kù)轉(zhuǎn)化而來(lái)的神經(jīng)網(wǎng)絡(luò),其中,為了處理析取規(guī)則而引入X和Y結(jié)點(diǎn),實(shí)線連接代表權(quán)重均設(shè)置為?,它代表規(guī)則庫(kù)中的依賴關(guān)系;細(xì)線代表有待進(jìn)一步學(xué)習(xí)的連接權(quán),它反映知識(shí)的精化。

      ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ 裝 ┊ ┊ ┊ ┊ ┊ 訂 ┊ ┊ ┊ ┊ ┊ 線 ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊

      7.2 基于KBANN的規(guī)則提取方法

      基于KBANN在數(shù)據(jù)挖掘中的作用集中體現(xiàn)在規(guī)則提取階段,這一問(wèn)題在神經(jīng)網(wǎng)絡(luò)研究領(lǐng)域十分活躍。這里,主要給出一些從前饋網(wǎng)絡(luò)(如,多層感知器MLP)中提取規(guī)則的方法。幾乎所有的規(guī)則提取方法都假設(shè)經(jīng)過(guò)訓(xùn)練的神經(jīng)網(wǎng)絡(luò)的神經(jīng)元,要么處于活躍狀態(tài),要么處于不活躍狀態(tài)。

      1.有代表性的規(guī)則提取方法

      (1)LRE方法

      用LRE方法對(duì)MLP進(jìn)行規(guī)則提取主要兩步:

      ? 每一步,對(duì)網(wǎng)絡(luò)中的每個(gè)隱層結(jié)點(diǎn)和輸出結(jié)點(diǎn)搜索不同的輸入組合,使得輸入加權(quán)和大于當(dāng)前結(jié)點(diǎn)的閾值;

      ? 對(duì)每一個(gè)組合產(chǎn)生一條規(guī)則,其前件是各個(gè)輸入條件的合取。如,Either、KT和Subset算法就是LRE方法中有代表性的三種方法。它們的特點(diǎn):生成的規(guī)則均較容易理解,但這三種方法有如下缺點(diǎn):① 搜索空間大,故搜索效率低;② 前后生成的規(guī)則有可能發(fā)生重復(fù);③ 不能保證所有有用的規(guī)則均被產(chǎn)生出來(lái)。

      針對(duì)Subset算法的缺點(diǎn),Towell等提出了MofN方法,該算法的基本思想是將所有權(quán)值分成若干個(gè)等價(jià)類,在每個(gè)等價(jià)類中成員的作用基本相似,因而可以相互互換。MofN方法通過(guò)六個(gè)步驟,從訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)中提取規(guī)則,它們分別是:

      ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ 裝 ┊ ┊ ┊ ┊ ┊ 訂 ┊ ┊ ┊ ┊ ┊ 線 ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊

      ① 分類---即將連接權(quán)分成若干等價(jià)類; ②平均---即將每個(gè)等價(jià)類中的權(quán)值平均化; ③ 去除---即去除對(duì)神經(jīng)元的作用較小的等價(jià)類;

      ④ 優(yōu)化---即在去除了部分連接權(quán)后,對(duì)神經(jīng)元的閾值進(jìn)行優(yōu)化; ⑤ 提取---即從經(jīng)優(yōu)化的神經(jīng)網(wǎng)絡(luò)中提取規(guī)則; ⑥ 簡(jiǎn)化---即將上述規(guī)則簡(jiǎn)化,使其更易于理解。

      (2)黑箱方法

      黑箱方法僅考慮從前饋神經(jīng)網(wǎng)絡(luò)的輸入和輸出的行為來(lái)提取規(guī)則。所以稱之為黑箱是因?yàn)樵谔崛∫?guī)則時(shí)不考慮神經(jīng)網(wǎng)絡(luò)的類型和結(jié)構(gòu),主要關(guān)心輸入和輸出間的映射關(guān)系。

      (3)提取模糊規(guī)則

      在模糊神經(jīng)網(wǎng)絡(luò)和神經(jīng)網(wǎng)絡(luò)模糊系統(tǒng)的研究中,有些模糊神經(jīng)網(wǎng)絡(luò)和神經(jīng)網(wǎng)絡(luò)模糊系統(tǒng)中包含模糊規(guī)則的提取和精化方法。

      (4)從遞歸網(wǎng)絡(luò)中提取規(guī)則

      該方法將遞歸網(wǎng)絡(luò)的狀態(tài)和有限自動(dòng)機(jī)的狀態(tài)相對(duì)應(yīng),可提高神經(jīng)網(wǎng)絡(luò)的泛化能力。

      2.一些新規(guī)則的提取方法

      本節(jié)主要介紹Taha和Ghosh的最新研究工作,其中包含三種規(guī)則提取方法:

      (1)二值輸入輸出規(guī)則提取算法(BIO-RE)

      該方法屬于一種簡(jiǎn)單的黑箱方法,它對(duì)二值輸入的神經(jīng)網(wǎng)絡(luò)進(jìn)行規(guī)則提取,若原始輸入不是二值的,則必須先將其二值化:

      yi???1ifxi??i

      ?0otherwise其中,xi為原始輸入;?i為閾值;yi是與xi相對(duì)應(yīng)的二值化輸入。

      ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ 裝 ┊ ┊ ┊ ┊ ┊ 訂 ┊ ┊ ┊ ┊ ┊ 線 ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊

      圖4 感知器模型

      它的算法為:

      輸入:經(jīng)訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)

      輸出:規(guī)則(庫(kù))

      步驟:

      ① 給出對(duì)應(yīng)于各二值輸入模式的神經(jīng)網(wǎng)絡(luò)輸出O(Y)?{oj(Y)|oj?{0,1}};

      ② 將二值輸入和輸出相對(duì)應(yīng),構(gòu)成一個(gè)真值表;

      ③ 由上式真值表生成相應(yīng)的布爾函數(shù),即所需的規(guī)則(庫(kù))。

      BIO-RE算法所提取的規(guī)則有如下一般形式:

      IF [Not]輸入變量 [[And] [Not]輸入變量]* → 結(jié)論j 其中,[·]---表示任選項(xiàng);[·]*---表示可重復(fù)0次或n次。

      若最終提取的規(guī)則為

      IfY1AndNoYt2ThenO1 則必須將其改寫為

      IfX1??1AndX2??2ThenO1

      由此可見(jiàn),一個(gè)“真”二值輸入變量(如,Y1)表示“X1??1”;一個(gè)否定的二值輸入變量(如,NotY2)表示“X2??2”

      此法當(dāng)輸入輸出本來(lái)就是二值的,或經(jīng)二值化后不會(huì)顯著影響其性能且輸入變量不太大時(shí),用BIO-RE算法是合適的,否則此方法就不太適用。

      ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ 裝 ┊ ┊ ┊ ┊ ┊ 訂 ┊ ┊ ┊ ┊ ┊ 線 ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊

      (2)部分規(guī)則提取算法(Partial-RE)

      針對(duì)BIO-RE算法的不足,Partial-RE算法僅關(guān)心主要的連接權(quán)的組合,對(duì)每個(gè)隱層結(jié)點(diǎn)或輸出層結(jié)點(diǎn)j,將輸入結(jié)點(diǎn)j的正負(fù)連接權(quán)按降序排列,形成兩個(gè)集合。然后從最大的正連接權(quán)開(kāi)始,比如從第i個(gè)結(jié)點(diǎn)進(jìn)入的連接權(quán)最大,該算法判斷在不考慮其他結(jié)點(diǎn)輸入的情況下,能否使結(jié)點(diǎn)j激活。若存在這樣的結(jié)點(diǎn)j,則生成一條規(guī)則

      cf

      IfNodei???Nodej

      其中,cf表示該條規(guī)則的置信度:

      1?,若響應(yīng)函數(shù)為Sigmoid型n_??1?exp(?wjixi??j??)?i?1?n_?

      cf??min(1,?wjixi??j??),若響應(yīng)函數(shù)為線性閾值函數(shù)

      i?1??1,若響應(yīng)函數(shù)為階躍函數(shù)????這里,wji為輸入xi與結(jié)點(diǎn)j間的連接權(quán);?j為結(jié)點(diǎn)j的閾值;?稱為置信參數(shù),是一個(gè)小正數(shù)(0.1???0.3)。

      若發(fā)現(xiàn)結(jié)點(diǎn)i足夠強(qiáng)使得結(jié)點(diǎn)j被激活,則結(jié)點(diǎn)i即被標(biāo)記,今后當(dāng)考察結(jié)點(diǎn)j時(shí),結(jié)點(diǎn)i將不被考慮。Partial-RE算法繼續(xù)檢查剩余的正連接權(quán),直到發(fā)現(xiàn)一個(gè)帶正連接權(quán)的結(jié)點(diǎn)不能單獨(dú)激活結(jié)點(diǎn)j時(shí)為止。

      必須注意:Partial-RE算法假定所有的輸入均有相同的取值范圍,這樣它們對(duì)隱層結(jié)點(diǎn)的影響僅由權(quán)值決定。因此,必須對(duì)原始輸入變量先進(jìn)行量化:

      zi?_1.0x?u1.0?exp(?(i2i))2?i

      其中,zi是原始輸入變量xi經(jīng)量化后的值;?i為輸入X的標(biāo)準(zhǔn)均方差,ui是X的均值。

      ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ 裝 ┊ ┊ ┊ ┊ ┊ 訂 ┊ ┊ ┊ ┊ ┊ 線 ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊

      此外,該算法還尋找負(fù)權(quán)結(jié)點(diǎn),在激活時(shí),則產(chǎn)生如下規(guī)則:

      IfcfNotNodeg???Nodej

      不僅如此,該算法還尋找正權(quán)和負(fù)權(quán)的組合,并激活隱層或輸出層結(jié)點(diǎn),則產(chǎn)生如下規(guī)則:

      cf

      IfNodeiAndNotNodeg???Nodej

      當(dāng)所有的規(guī)則都生成后,將它們改寫成如下形式:

      IfXi??icfAndXg??g???Consequentj

      實(shí)驗(yàn)結(jié)果表明,Partial-RE算法比較適合于規(guī)模較大的問(wèn)題,因?yàn)榇藭r(shí)提取所有規(guī)則是一個(gè)NP-完全問(wèn)題,而提取一部分最重要的規(guī)則是切實(shí)可行的辦法。

      (3)全部規(guī)則提取算法(Full-RE)

      Full-RE算法與Partial-RE算法相比,它可以從連續(xù)輸入、歸一化輸入及二值化輸入等各種神經(jīng)網(wǎng)絡(luò)中提取規(guī)則,具有較好的普適性。

      對(duì)每個(gè)隱層結(jié)點(diǎn)j,F(xiàn)ull-RE算法首先生成以下中間規(guī)則:

      cf

      If(?wjiXi??j??)???Consequentj

      _由于存在一組Xi滿足中間規(guī)則,這樣就必須知道Xi的取值范圍。每個(gè)輸入特征Xi?(ai,bi)可以用k個(gè)小區(qū)間來(lái)離散化為

      Di?{di,0?ai,di,1,?,di,k?1,di,k?bi}

      當(dāng)Full-RE算法發(fā)現(xiàn)離散化存在多組解時(shí),它將根據(jù)連接權(quán)的符號(hào)選擇Xi的最大或最小離散化值。若wji是負(fù)的,則Full-RE算法選擇Xi的最大離散化值,否則選擇Xi的最小離散化值。離散化后形成下列線性規(guī)化問(wèn)題:

      Minimizewj1D1?wj2D2???wjnDn 使得

      ____

      ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ 裝 ┊ ┊ ┊ ┊ ┊ 訂 ┊ ┊ ┊ ┊ ┊ 線 ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊

      ___

      wj1D1?wj2D2???wjnDn??j?? 且Di?{di,0?ai,di,1,?,di,k?1,di,k?bi},1?i?n。

      可以用任何一種求解線性規(guī)劃問(wèn)題的工具來(lái)求解該線性規(guī)劃問(wèn)題,從而得到X的取值范圍。假設(shè)一個(gè)可行解為x1?e1和x2?e2,從輸入X1和X2到結(jié)點(diǎn)j的連接權(quán)分別是正數(shù)和負(fù)數(shù),則Full-RE算法如下規(guī)則:

      IfX1?e1cfAndX2?e2???hj

      其中,ai?ei?bi。隱層和輸出層間提取的規(guī)則可以表示為

      cf

      Ifh1Andh2???Ok

      Full-RE算法將中間規(guī)則和隱層與輸出層間提取的規(guī)則復(fù)合形成新的規(guī)則,復(fù)合的方法是對(duì)每個(gè)隱層結(jié)點(diǎn)hj,將hj替換為中間規(guī)則中后件為hj的前件,最終形成的規(guī)則的一般形式為

      cf

      If簡(jiǎn)單布爾表達(dá)式[And簡(jiǎn)單布爾表達(dá)式]*???結(jié)論j

      值得注意的是,由于由Full-RE算法提取的規(guī)則中對(duì)前提條件的個(gè)數(shù)不作限制,而僅對(duì)相鄰層間規(guī)則中的前提條件個(gè)數(shù)作限制。所以,當(dāng)輸入特征是二值時(shí),就不需要二值化過(guò)程。7.3 基于ANN的數(shù)據(jù)挖掘示例

      《吳一帆,基于模糊神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)挖掘算法.caj,長(zhǎng)沙電力學(xué)院學(xué)

      報(bào),2002(4)》

      第二篇:數(shù)據(jù)挖掘與知識(shí)發(fā)現(xiàn)(講稿9--遺傳算法)

      ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ 裝 ┊ ┊ ┊ ┊ ┊ 訂 ┊ ┊ ┊ ┊ ┊ 線 ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊

      第九章

      基于遺傳算法的數(shù)據(jù)挖掘

      面向?qū)傩缘臄?shù)據(jù)挖掘方法是基于邏輯的,神經(jīng)網(wǎng)絡(luò)挖掘方法是基于方程的,而本章要介紹的遺傳算法,則是一種基于十字表的數(shù)據(jù)挖掘方法。它也是一種典型的知識(shí)發(fā)現(xiàn)方法。

      遺傳算法是模擬生物在自然環(huán)境中的遺傳和進(jìn)化過(guò)程而形成的一種自適應(yīng)全局優(yōu)化概率搜索算法。它最早由美國(guó)密執(zhí)安大學(xué)的Holland教授提出,起源于60年代對(duì)自然和人工自適應(yīng)系統(tǒng)的研究。70年代De Jong基于遺傳算法的思想在計(jì)算機(jī)上進(jìn)行了大量的純數(shù)值函數(shù)優(yōu)化計(jì)算實(shí)驗(yàn)。在此基礎(chǔ)上,由Goldberg在80年代對(duì)其進(jìn)行了歸納總結(jié),形成了遺傳算法的基本框架。9.1 遺傳算法概要

      對(duì)于一個(gè)求函數(shù)最大值的優(yōu)化問(wèn)題(最小值類同),一般可描述為如下的數(shù)學(xué)規(guī)劃模型:

      ?maxf(X)?

      ?s.t.X?R

      (9-1)

      ?R?U?式中,X?[x1,x2,?,xn]T為決策變量;f(X)為目標(biāo)函數(shù)(線性或非線性;離散或連續(xù);單峰或多峰);U為基本空間;R為U上的一個(gè)子集。滿足約束條件的解X稱為可行解,集合R表示由所有滿足約束條件的解組成的一個(gè)集合,叫做可行解集合。

      圖1 最優(yōu)優(yōu)問(wèn)題的可行解及可行解集合

      傳統(tǒng)的求最優(yōu)解或近似最優(yōu)解的方法主要有:枚舉法、分枝定界法、1

      ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ 裝 ┊ ┊ ┊ ┊ ┊ 訂 ┊ ┊ ┊ ┊ ┊ 線 ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊

      啟發(fā)式算法和搜索算法。隨著問(wèn)題種類的不同,以及問(wèn)題規(guī)模的擴(kuò)大,要尋找到一種能以有限的代價(jià)來(lái)解決上述最優(yōu)化問(wèn)題的通用方法仍是一個(gè)難題。而遺傳算法正好能為此類問(wèn)題提供一個(gè)有效途徑和通用框架,開(kāi)創(chuàng)了一種新的全局優(yōu)化搜索算法。

      遺傳算法是模擬生物進(jìn)化過(guò)程的計(jì)算模型,它是自然遺傳學(xué)和計(jì)算機(jī)科學(xué)相互結(jié)合滲透而形成的新的計(jì)算方法。

      生物的進(jìn)化過(guò)程主要是通過(guò)染色體之間的交叉和變異來(lái)完成的。在遺傳算法中,將n維決策向量X用n個(gè)記號(hào)Xi,i?1,2,?,n所組成的符號(hào)串來(lái)表示X:

      X?X1X2?Xn?X?[X1,X2,?,Xn]T

      把每一個(gè)Xi,i?1,2,?,n看作一個(gè)遺傳基因,它的所有可能取值稱為等位基因。這樣,X就可看作是由n個(gè)遺傳基因所組成的一個(gè)染色體(或個(gè)體)。對(duì)于每個(gè)個(gè)體,要按照一定的規(guī)則確定出其適應(yīng)度。個(gè)體的適應(yīng)度與其對(duì)應(yīng)的個(gè)體表現(xiàn)型X的目標(biāo)函數(shù)值相關(guān)聯(lián),X越接近于目標(biāo)函數(shù)的最優(yōu)點(diǎn),其適應(yīng)度越大;反之適應(yīng)度越小。所有染色體X就組成了問(wèn)題的搜索空間。

      生物的進(jìn)化是以集團(tuán)為主體的。與此對(duì)應(yīng),遺傳算法的運(yùn)算對(duì)象是由M個(gè)個(gè)體所組成的集合,稱為群體。與生物一代一代的自然進(jìn)化過(guò)程類似,遺傳算法的運(yùn)算過(guò)程也是一個(gè)反復(fù)迭代過(guò)程,第t代群體記為P(t),經(jīng)過(guò)一代遺傳和進(jìn)化后,得到第t?1代群體,也是由多個(gè)個(gè)體組成的集合,記為P(t?1)。這個(gè)群體不斷地經(jīng)過(guò)遺傳和進(jìn)化操作,并且每次都按優(yōu)勝劣汰的規(guī)則將適應(yīng)度較高的個(gè)體更多的遺傳到下一代,這樣最終在群體中將會(huì)得到一個(gè)優(yōu)良的個(gè)體X,它達(dá)到或接近于問(wèn)題的最優(yōu)解X*。

      遺傳算法中最優(yōu)解的搜索過(guò)程也模仿生物的這種進(jìn)化過(guò)程。使用所謂的遺傳算子作用于群體P(t)中,進(jìn)行下述的遺傳操作,從而得到新一 2

      ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ 裝 ┊ ┊ ┊ ┊ ┊ 訂 ┊ ┊ ┊ ┊ ┊ 線 ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊

      代群體P(t?1)。主要操作有:

      ? 選擇:根據(jù)各個(gè)個(gè)體的適應(yīng)度,按照一定的規(guī)則或方法,從第t代群體P(t)中選擇出一些優(yōu)良的個(gè)體遺傳到下一代群體P(t?1)中; ? 交叉:將群體P(t)內(nèi)的各個(gè)個(gè)體隨機(jī)搭配成對(duì),對(duì)每一對(duì)個(gè)體,以某個(gè)概率(稱為交叉概率)交換它們之間的部分染色體; ? 變異:對(duì)群體P(t)中的每一個(gè)個(gè)體,以某一概率(稱為變異概率)改變某一個(gè)或某一些基因座上的基因值為其他的等位基因。遺傳算法的運(yùn)算步驟為:

      (1)初始化:設(shè)置進(jìn)化代數(shù)計(jì)數(shù)器t?0;設(shè)置最大進(jìn)化代數(shù)T;隨機(jī)生成M個(gè)個(gè)體作為初始群體P(0);

      (2)個(gè)體評(píng)價(jià):計(jì)算群體P(t)中各個(gè)個(gè)體的適應(yīng)度;(3)選擇運(yùn)算:將選擇算子作用于群體;(4)交叉運(yùn)算:將交叉算子作用于群體;

      (5)變異運(yùn)算:將變異算子作用于群體。群體P(t)經(jīng)過(guò)選擇、交叉、變異運(yùn)算之后得到下一代群體P(t?1);

      (6)終止條件判斷:若t?T,則t?t?1,轉(zhuǎn)到步驟二;若t?T,則以進(jìn)化過(guò)程中所得到的具有最大適應(yīng)度的個(gè)體作為最優(yōu)解輸出,終止計(jì)算。

      遺傳算法的執(zhí)行過(guò)程如下圖所示:

      ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ 裝 ┊ ┊ ┊ ┊ ┊ 訂 ┊ ┊ ┊ ┊ ┊ 線 ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊

      圖1 遺傳算法的執(zhí)行過(guò)程

      9.2 遺傳算法的特點(diǎn)

      與傳統(tǒng)的優(yōu)化算法:?jiǎn)渭冃畏?、梯度法、?dòng)態(tài)規(guī)劃法和分枝定界法相比,遺傳算法是一類可用于復(fù)雜系統(tǒng)優(yōu)化計(jì)算的魯棒性搜索算法。其特點(diǎn)主要有:

      ? 遺傳算法以決策變量的編碼作為運(yùn)算對(duì)象。而傳統(tǒng)的優(yōu)化算法往往是直接利用決策變量的實(shí)際值本身來(lái)進(jìn)行優(yōu)化計(jì)算; ? 遺傳算法直接以目標(biāo)函數(shù)值作為搜索信息。而傳統(tǒng)的優(yōu)化算法不僅需要利用目標(biāo)函數(shù)值,而且往往需要目標(biāo)函數(shù)的導(dǎo)數(shù)值等其他一些輔助信息才能確定搜索方向;

      ? 遺傳算法同時(shí)使用多個(gè)搜索點(diǎn)的搜索信息。而傳統(tǒng)的優(yōu)化算法往往從解空間中的一個(gè)初始點(diǎn)開(kāi)始最優(yōu)解的迭代搜索過(guò)程; ? 遺傳算法使用概率搜索技術(shù)。而傳統(tǒng)的優(yōu)化算法往往使用的是確定性的搜索方法,一個(gè)搜索點(diǎn)到另一個(gè)搜索點(diǎn)的轉(zhuǎn)移有確定的轉(zhuǎn)移方法和轉(zhuǎn)移關(guān)系,這種確定性往往也有可能使得搜索永遠(yuǎn)達(dá)不到最優(yōu)點(diǎn),因而限制了算法的應(yīng)用范圍。

      9.3 遺傳算法的應(yīng)用

      遺傳算法提供了一種求解復(fù)雜系統(tǒng)優(yōu)化問(wèn)題的通用框架,它不依賴于問(wèn)題的具體領(lǐng)域,對(duì)問(wèn)題的種類有很強(qiáng)的魯棒性,所以廣泛應(yīng)用于很

      ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ 裝 ┊ ┊ ┊ ┊ ┊ 訂 ┊ ┊ ┊ ┊ ┊ 線 ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊

      多學(xué)科。

      (1)優(yōu)化函數(shù)(2)組合優(yōu)化(3)生產(chǎn)調(diào)度問(wèn)題(4)自動(dòng)控制(5)機(jī)器人學(xué)(6)圖像處理(7)人工生命(8)遺傳編碼(9)機(jī)器學(xué)習(xí)

      9.4 遺傳算法的構(gòu)成要素及形式定義

      構(gòu)成遺傳算法的要素主要有:染色體編碼方法、個(gè)體適應(yīng)度評(píng)價(jià)、遺傳算子、基本遺傳算法的運(yùn)行參數(shù)。

      (1)染色體編碼方法

      在實(shí)現(xiàn)對(duì)一個(gè)問(wèn)題用遺傳算法進(jìn)行求解之前,必須先對(duì)問(wèn)題的解空間進(jìn)行編碼,以便于它能夠由遺傳算法進(jìn)行操作。最常用的編碼方法是二進(jìn)制編碼、浮點(diǎn)數(shù)編碼、格雷碼編碼、符號(hào)編碼等。

      如,二進(jìn)制編碼方法是遺傳算法中最常用的一種編碼方法,它使用的編碼符號(hào)集是由二進(jìn)制符號(hào)集0和1所組成的二值符號(hào)集{0,1},它所構(gòu)成的個(gè)體基因型是一個(gè)二進(jìn)制編碼符號(hào)串。

      二進(jìn)制編碼符號(hào)串的長(zhǎng)度與問(wèn)題所要求的求解精度有關(guān)。假設(shè)某一參數(shù)的取值范圍是[Umin,Umax],若用長(zhǎng)度為l的二進(jìn)制編碼符號(hào)串來(lái)表示該參數(shù),則它總共能夠產(chǎn)生2l種不同的編碼,即為:

      00000000...00000000=0 ——> Umin 00000000...00000001=1 ——> Umin?1

      ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ 裝 ┊ ┊ ┊ ┊ ┊ 訂 ┊ ┊ ┊ ┊ ┊ 線 ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊

      .....11111111...11111111=2*2*2…2-1——>Umax 則二進(jìn)制編碼的編碼精度為:

      s?Umax?Umin l2?1假如,對(duì)于x∈[0,1023],若用10位長(zhǎng)的二進(jìn)制編碼來(lái)表示該參數(shù)的話,則下述符號(hào)串:

      X:

      0 0 1 0 1 0 1 1 1 1

      就可表示一個(gè)個(gè)體,它所對(duì)應(yīng)的參數(shù)值為x=175。此時(shí)的編碼精度s=1。

      (2)適應(yīng)度函數(shù)

      在遺傳算法中,模擬自然選擇的過(guò)程主要通過(guò)評(píng)估函數(shù)和適應(yīng)度函數(shù)來(lái)實(shí)現(xiàn)的。前者是用來(lái)評(píng)估一個(gè)染色體的優(yōu)劣的絕對(duì)值,后者是用來(lái)評(píng)估一個(gè)染色體相對(duì)于整個(gè)群體的優(yōu)劣的相對(duì)值的大小。

      但在遺傳算法中,評(píng)估函數(shù)和適應(yīng)度函數(shù)的計(jì)算與應(yīng)用比較相近,所以一般文獻(xiàn)中?;鞛橐徽?。

      (3)遺傳算子

      基本遺傳算法使用下列三種遺傳算子:

      ? 選擇算子:按照某種策略從父代中挑選個(gè)體進(jìn)入中間群體,如使用比例選擇;

      ? 交叉算子:隨機(jī)地從中間群體中抽取兩個(gè)個(gè)體,并按照某種交叉策略使兩個(gè)個(gè)體互相交換部分染色體碼串,從而形成兩個(gè)新的個(gè)體。如使用單點(diǎn)交叉;

      ? 變異算子:通常按照一定的概率(一般較小),改變?nèi)旧w中某些基因的值。

      (4)基本遺傳算法的運(yùn)行參數(shù)

      基本遺傳算法有下述4個(gè)運(yùn)行參數(shù)需要提前設(shè)定:(目前無(wú)合理的理論依據(jù))

      ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ 裝 ┊ ┊ ┊ ┊ ┊ 訂 ┊ ┊ ┊ ┊ ┊ 線 ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊

      ? M:群體大小:即群體中所含個(gè)體的數(shù)量,一般取20-100; ? T:遺傳算法的終止進(jìn)化代數(shù),一般取為100-500; ? pc:交叉概率:一般取為0.4-0.99; ? pm:變異概率:一般取為0.0001-0.1?;具z傳算法的形式定義為:

      SGA?(C,E,P0,M,?,?,?,T)

      其中,C---個(gè)體的編碼方法;

      E---個(gè)體適應(yīng)度評(píng)價(jià)函數(shù);

      P0---初始群體;

      M---群體大??;

      ?---選擇算子;

      ?---交叉算子;

      ?---變異算子;

      T---遺優(yōu)越性運(yùn)算終止條件。9.5 遺傳算法的數(shù)學(xué)理論

      1.模式

      定義:模式表示一些相似的模塊,它描述了在某些位置上具有相似結(jié)構(gòu)特征的個(gè)體編碼串的一個(gè)子集。

      不失一般性,以二進(jìn)制編碼為例,個(gè)體是由二值字符集V={0,1}中的元素所組成的一個(gè)編碼串,而模式卻是由三值字符集V??{0,1,*}中的元素所組成的一個(gè)編碼串,其中“*”表示通配符,它既可被當(dāng)作“1”,也可被當(dāng)作“0”。如,H=1***001*就是一個(gè)模式,串A=10100011與B=10110010都是與模式H相匹配的字符串,稱為兩者相似。

      定義:模式H的第一個(gè)和最后一個(gè)常量之間的距離稱為模式的定義長(zhǎng)度,記為?(H)。

      定義:模式中常量的個(gè)數(shù)稱為模式的階數(shù),記為O(H)。

      如上例中,?(H)?6,O(H)?4。再如?(*****1**)?1,O(*******1)?1 顯然,當(dāng)字符串的長(zhǎng)度固定時(shí),模式的階數(shù)越高,能與該模式匹配的字符串(稱為樣本)數(shù)就越少,因而該模式的確定性也就越高。

      ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ 裝 ┊ ┊ ┊ ┊ ┊ 訂 ┊ ┊ ┊ ┊ ┊ 線 ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊

      2.模式定理

      在引入模式的概念之后,遺傳算法的實(shí)質(zhì)可看作是對(duì)模式的一種運(yùn)算。對(duì)基本遺傳算法而言,也就是某一模式H的各個(gè)樣本經(jīng)過(guò)選擇運(yùn)算、交叉運(yùn)算、變異運(yùn)算之后,得到一些新的樣本和新的模式。

      假設(shè)在進(jìn)化過(guò)程中的第t代時(shí),當(dāng)前群體P(t)中能與模式H匹配的個(gè)體數(shù)(樣本數(shù))記為m(H,t),下一代群體P(t?1)中能與模式H匹配的個(gè)體數(shù)記為m(H,t?1)。則在選擇算子、交叉算子、變異算子的連續(xù)作用下,模式H的樣本數(shù)m(H,t)的變化情況分析如下:(1)選擇算子的作用

      基本遺傳算法中的選擇算子使用的是比例選擇算子。將當(dāng)前群體中適應(yīng)度的總和記為F(t)??F(Ai),在這個(gè)算子作用下,與模式H所匹配

      i的各個(gè)個(gè)體Ai能夠平均復(fù)制M?m(H,t?1)?

      F(Ai)個(gè)個(gè)體到下一代群體中,即 F(t)M?f(H,t)?F(t)Ai?H?P(t)M?F(Ai)??F(t)Ai?H?P(t)M?f(H,t)f(H,t)?m(H,t)?m(H,t)_F(t)F(t)

      (9-2)

      F(t)?式中,f(H,t)是第t代群體中模式H所隱含個(gè)體的平均適應(yīng)度;

      _F(t)M是第t代群體的平均適應(yīng)度。

      若再假設(shè)模式H的平均適應(yīng)度總是高出群體平均適應(yīng)度的倍,則(9-2)式可改寫為

      m(H,t?1)?m(H,t)(1?C)

      (9-3)由此可見(jiàn),m(H,t?1)為一等比級(jí)數(shù)。其通項(xiàng)公式為

      m(H,t)?m(H,0)(1?C)t

      (9-4)顯然,有

      ? 若C>0,則m(H,t)呈指數(shù)級(jí)增長(zhǎng);

      ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ 裝 ┊ ┊ ┊ ┊ ┊ 訂 ┊ ┊ ┊ ┊ ┊ 線 ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊

      ? 若C<0,則m(H,t)呈指數(shù)級(jí)減少。

      由此可得如下結(jié)論:在選擇算子作用下,對(duì)于平均適應(yīng)度高于群體平均適應(yīng)度的模式,其樣本數(shù)將呈指數(shù)級(jí)增長(zhǎng);反之,呈指數(shù)級(jí)減少。(2)交叉算子的作用

      以單點(diǎn)交叉算子為例,見(jiàn)圖所示的一個(gè)模式。

      隱含在該模式中的樣本與其他個(gè)體進(jìn)行交叉操作時(shí),根據(jù)交叉點(diǎn)的位置不同,有可能破壞該模式,也可能不破壞該模式而使其繼續(xù)生存到下一代群體中。下面估算該模式生存概率ps的下界。

      顯然,當(dāng)隨機(jī)設(shè)置的交叉點(diǎn)在模式的定義長(zhǎng)度之內(nèi)時(shí),將有可能破壞該模式;而當(dāng)隨機(jī)設(shè)置的交叉點(diǎn)在模式定義長(zhǎng)度之外時(shí),肯定不會(huì)破壞該模式。則由交叉概率pc發(fā)生時(shí),模式H的生存概率的下界為

      ps?1?pc??(H)l?(9-5)

      這樣,經(jīng)過(guò)選擇算子和交叉算子作用之后,模式H的樣本數(shù)滿足下式:

      m(H,t?1)?m(H,t)?(1?C)?[1?pc??(H)l?1]

      (9-6)

      由式(9-6)知,在其他值固定的情況下(C>0)

      ? ?(H)越小,則m(H,t)越呈指數(shù)增長(zhǎng); ? ?(H)越大,則m(H,t)越不容易呈指數(shù)增長(zhǎng)。(3)變異算子的作用

      這里,以常用的基本位變異算子為例進(jìn)行研究。

      若某一模式被破壞,則必然是模式描述形式中通配符“*”之處的某一基因發(fā)生了變化,其發(fā)生概率是:

      1?(1?pm)O(H)當(dāng)pm??1時(shí),有:

      ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ 裝 ┊ ┊ ┊ ┊ ┊ 訂 ┊ ┊ ┊ ┊ ┊ 線 ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊

      1?(1?pm)O(H)?O(H)?pm

      由此可知,在變異算子作用下,模式H的生存概率大約是:

      ps?1?O(H)?pm

      (9-7)顯然知

      ? O(H)越小,模式H越易于生存; ? O(H)越大,模式H越易被破壞。

      綜合上面的各式,并忽略一些極小項(xiàng),則比例選擇算子、單點(diǎn)交叉算子、基本位變異算子的連續(xù)作用下,群體中模式H的子代樣本數(shù)為:

      m(H,t?1)?m(H,t)?f(H,t)F(t)_?[1?pc?(H)l?1?O(H)?pm]

      (9-8)

      [模式定理] 遺傳算法中,在選擇、交叉和變異算子的作用下,具有低價(jià)、短的定義長(zhǎng)度,并且平均適應(yīng)度高于群體平均適應(yīng)度的模式將按指數(shù)級(jí)增長(zhǎng)。

      模式定理闡述了遺傳算法的理論基礎(chǔ),說(shuō)明了模式的增長(zhǎng)規(guī)律,同時(shí)也給遺傳算法的應(yīng)用提供指導(dǎo)作用。9.6 積木塊假設(shè)與遺傳算法欺騙問(wèn)題

      1.積木塊假設(shè)

      具有模式定理中所述的呈指數(shù)增長(zhǎng)的模式稱為積木塊或基因塊。之所以稱為積木塊,是由于遺傳算法的求解過(guò)程并不是在搜索空間中逐一地測(cè)試各個(gè)基因的枚舉組合,而是通過(guò)一些較好的模式,像搭積木一樣,將它們拼接在一起,從而逐漸地構(gòu)造出適應(yīng)度越來(lái)越高的個(gè)體編碼串。

      模式定理說(shuō)明了積木塊的樣本呈指數(shù)增長(zhǎng),亦即說(shuō)明了用遺傳算法尋找最優(yōu)樣本的可能性,但它并未指明遺傳算法一定能夠?qū)ふ业阶顑?yōu)樣本。

      [積木塊假設(shè)] 個(gè)體的基因塊通過(guò)選擇、交叉、變異等遺傳算子作用,能夠拼接在一起,形成適應(yīng)度更高的個(gè)體編碼。

      ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ 裝 ┊ ┊ ┊ ┊ ┊ 訂 ┊ ┊ ┊ ┊ ┊ 線 ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊

      注:積木塊假設(shè)已得到完整而嚴(yán)密的數(shù)學(xué)證明,但大量的應(yīng)用實(shí)踐也已說(shuō)明了其有效性。

      2.遺傳算法欺騙問(wèn)題(GA Deceptive Problem)

      應(yīng)用實(shí)踐表明,存在著一類用遺傳算法難以求解的問(wèn)題,這類稱為“GA-難”的問(wèn)題往往不滿足積木塊假設(shè),即由基因塊之間的拼接,往往會(huì)欺騙遺傳算法,使其進(jìn)化過(guò)程偏離最優(yōu)解。

      原因:各種研究結(jié)果表明,屬于“GA-難”的問(wèn)題一般包含有孤立的最優(yōu)點(diǎn),即在這個(gè)最優(yōu)點(diǎn)周圍是一些較差的點(diǎn),從而使得遺傳算法較難通過(guò)基因之間的相互拼接而達(dá)到這個(gè)最優(yōu)點(diǎn)的模式。實(shí)際上,目前也尚無(wú)解決這類問(wèn)題的較好方法或策略。所幸的是,現(xiàn)實(shí)所遇到的各種應(yīng)用問(wèn)題中,很少有這種奇怪的性質(zhì)。9.7 基于遺傳算法的數(shù)據(jù)挖掘示例

      【示例】從200名腦出血和腦血栓病例中,按如下屬性:“病人的既往史”、“起病方式”、“局部癥狀”、“病理反射”、“膝腱反射”和“病情發(fā)展”等六個(gè)方面,找出這兩類病人的識(shí)別規(guī)則。其中

      (1)病人的既往史

      包括:高血壓(有01,無(wú)00)、動(dòng)脈硬化(有01,無(wú)00);(2)起病方式

      快(01)、慢(00);(3)局部證狀

      偏癱(是01,否00)

      瞳孔不等大(是01,否00)

      兩便失禁(是01,否00)

      語(yǔ)言障礙(是01,否00)

      意識(shí)障礙(無(wú)00,深度01,輕度10)

      (4)病理反射

      陽(yáng)(01),陰(00)

      ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ 裝 ┊ ┊ ┊ ┊ ┊ 訂 ┊ ┊ ┊ ┊ ┊ 線 ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊

      (5)膝腱反射

      無(wú)(00),活躍(01),不活躍(10)

      (6)病情發(fā)展

      快(01),慢(00)

      則可選30個(gè)病例作為訓(xùn)練樣本,100個(gè)作為測(cè)試樣本。

      a)采用二進(jìn)制編碼方式。每個(gè)訓(xùn)練樣本是由11個(gè)特征和1個(gè)類別組成,每個(gè)特征和類別都由2位二進(jìn)制字符表示。那么,將樣本編碼成二進(jìn)制字符串的消息就是一個(gè)由22位條件和2位結(jié)論組成的二元組。如,消息M=[***00101,01] b)假設(shè)訓(xùn)練集是由15個(gè)腦出血和15個(gè)腦血栓患者組成30個(gè)訓(xùn)練樣本。本實(shí)驗(yàn)在對(duì)30個(gè)訓(xùn)練樣本進(jìn)行學(xué)習(xí)后,得到12條規(guī)則,學(xué)習(xí)終止于第170代。

      (參見(jiàn)P201《數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘》,陳文偉、黃金才編,人民郵電出版社,2004)

      c)獲取如下的7條主要規(guī)則:

      (1)if 高血壓=有∧瞳孔不等大=是∧膝腱反射=不活躍 then 腦出血(11)

      (2)if 瞳孔不等大=是∧語(yǔ)言障礙=是 then 腦出血(12)

      (3)if 高血壓=有∧起病方式=快∧意識(shí)障礙=深度 then 腦出血(13)(4)if 高血壓=有∧病情發(fā)展=快 then 腦出血(15)

      (5)if 高血壓=有∧動(dòng)脈硬化=有∧起病方式= 慢 then 腦血栓(13)(6)if 動(dòng)脈硬化=有∧病情發(fā)展=慢 then 腦血栓(15)(7)if 動(dòng)脈硬化=有∧意識(shí)障礙=無(wú) then 腦血栓(12)以上括號(hào)內(nèi)的數(shù)值表示該規(guī)則的適應(yīng)值。

      第三篇:數(shù)據(jù)挖掘與電子商務(wù)

      數(shù)據(jù)挖掘與電子商務(wù)

      姓名:龔洪虎

      學(xué)號(hào):X2009230111

      [摘 要] 企業(yè)的競(jìng)爭(zhēng)優(yōu)勢(shì)并不取決于信息的擁有量,而是取決于信息的處理利用能力。如何化信息優(yōu)勢(shì)為競(jìng)爭(zhēng)優(yōu)勢(shì),是企業(yè)制勝于市場(chǎng)的一個(gè)法寶。本文論述了一種信息處理利用的有效工具——數(shù)據(jù)挖掘方法及其在電子商務(wù)中的應(yīng)用。

      [關(guān)鍵詞] 數(shù)據(jù)挖掘 方法 電子商務(wù) 應(yīng)用

      隨著網(wǎng)絡(luò)技術(shù)和數(shù)據(jù)庫(kù)技術(shù)的成熟,傳統(tǒng)商務(wù)正經(jīng)歷一次重大變革,向電子商務(wù)全速挺進(jìn)。這種商業(yè)電子化的趨勢(shì)不僅為客戶提供了便利的交易方式和廣泛的選擇,同時(shí)也為商家提供了更加深入了解客戶需求信息和購(gòu)物行為特征的可能性。數(shù)據(jù)挖掘技術(shù)作為電子商務(wù)的重要應(yīng)用技術(shù)之一,將為正確的商業(yè)決策提供強(qiáng)有力的支持和可靠的保證,是電子商務(wù)不可缺少的重要工具。

      一、電子商務(wù)和數(shù)據(jù)挖掘簡(jiǎn)介。

      電子商務(wù)是指?jìng)€(gè)人或企業(yè)通過(guò)Internet網(wǎng)絡(luò),采用數(shù)字化電子方式進(jìn)行商務(wù)數(shù)據(jù)交換和開(kāi)展商務(wù)業(yè)務(wù)活動(dòng)。目前國(guó)內(nèi)已有網(wǎng)上商情廣告、電子票據(jù)交換、網(wǎng)上訂購(gòu),網(wǎng)上銀行、網(wǎng)上支付結(jié)算等多種類型的電子商務(wù)形式。電子商務(wù)正以其成本低廉、方便、快捷、安全、可靠、不受時(shí)間和空間的限制等突出優(yōu)點(diǎn)而逐步在全球流行。

      數(shù)據(jù)挖掘(DataMining)是伴隨著數(shù)據(jù)倉(cāng)庫(kù)技術(shù)的發(fā)展而逐步完善起來(lái)的。數(shù)據(jù)挖掘主要是為了幫助商業(yè)用戶處理大量存在的數(shù)據(jù),發(fā)現(xiàn)其后隱含的規(guī)律性,同時(shí)將其模型化,來(lái)完成輔助決策的作用。它要求從大量的、不完全的、有噪聲的、模糊的和隨機(jī)的數(shù)據(jù)中,提取人們事先不知道的但又是潛在有用的信息和知識(shí)。數(shù)據(jù)挖掘的過(guò)程有時(shí)也叫知識(shí)發(fā)現(xiàn)的過(guò)程。

      而電子商務(wù)中的數(shù)據(jù)挖掘即Web挖掘,是利用數(shù)據(jù)挖掘技術(shù)從www的資源(即Web文檔)和行為(即We服務(wù))中自動(dòng)發(fā)現(xiàn)并提取感興趣的、有用的模式和隱含的信息,它是一項(xiàng)綜合技術(shù)涉及到Internet技術(shù)學(xué)、人工智能、計(jì)算機(jī)語(yǔ)言、信息學(xué)、統(tǒng)計(jì)學(xué)等多個(gè)領(lǐng)域。

      二、何謂數(shù)據(jù)挖掘及方法

      確切地說(shuō),數(shù)據(jù)挖掘(Data Mining),又稱數(shù)據(jù)庫(kù)中的知識(shí)發(fā)現(xiàn)(Knowledge Discovery in Database,KDD),是指從大型數(shù)據(jù)庫(kù)或數(shù)據(jù)倉(cāng)庫(kù)中提取隱含的、未知的、非平凡的及有潛在應(yīng)用價(jià)值的信息或模式。它融合了數(shù)據(jù)庫(kù)、人工智能、機(jī)器學(xué)習(xí)、統(tǒng)計(jì)學(xué)等多個(gè)領(lǐng)域的理論和技術(shù)。比較典型的數(shù)據(jù)挖掘方法有關(guān)聯(lián)分析、序列模式分析、分類分析、聚類分析等。它們可以應(yīng)用到以客戶為中心的企業(yè)決策分析和管理的各個(gè)不同領(lǐng)域和階段。

      1.關(guān)聯(lián)分析。關(guān)聯(lián)分析,即利用關(guān)聯(lián)規(guī)則進(jìn)行數(shù)據(jù)挖掘。關(guān)聯(lián)分析的目的是挖掘隱藏在數(shù)據(jù)間的相互關(guān)系,它能發(fā)現(xiàn)數(shù)據(jù)庫(kù)中形如”90%的顧客在一次購(gòu)買活動(dòng)中購(gòu)買商品A的同時(shí)購(gòu)買商品B”之類的知識(shí)。

      2.序列模式分析。序列模式分析和關(guān)聯(lián)分析相似,但側(cè)重點(diǎn)在于分析數(shù)據(jù)間的前后序列關(guān)系。它能發(fā)現(xiàn)數(shù)據(jù)庫(kù)中形如”在某一段時(shí)間內(nèi),顧客購(gòu)買商品A,接著購(gòu)買商品B,而后購(gòu)買商品C,即序列A→B→C出現(xiàn)的頻度較高”之類的知識(shí),序列模式分析描述的問(wèn)題是:在給定交易序列數(shù)據(jù)庫(kù)中,每個(gè)序列是按照交易時(shí)間排列的一組交易集,挖掘序列函數(shù)作用在這個(gè)交易序列數(shù)據(jù)庫(kù)上,返回該數(shù)據(jù)庫(kù)中出現(xiàn)的高頻序列。在進(jìn)行序列模式分析時(shí),同樣也需要由用戶輸入最小置信度C和最小支持度S。

      3.分類分析。設(shè)有一個(gè)數(shù)據(jù)庫(kù)和一組具有不同特征的類別(標(biāo)記),該數(shù)據(jù)庫(kù)中的每一個(gè)②

      記錄都賦予一個(gè)類別的標(biāo)記,這樣的數(shù)據(jù)庫(kù)稱為示例數(shù)據(jù)庫(kù)或訓(xùn)練集。分類分析就是通過(guò)分析示例數(shù)據(jù)庫(kù)中的數(shù)據(jù),為每個(gè)類別做出準(zhǔn)確的描述或建立分析模型或挖掘出分類規(guī)則,然后用這個(gè)分類規(guī)則對(duì)其他數(shù)據(jù)庫(kù)中的記錄進(jìn)行分類。

      4.聚類分析。聚類分析輸入的是一組未分類記錄,并且這些記錄應(yīng)分成幾類事先也不知道,通過(guò)分析數(shù)據(jù)庫(kù)中的記錄數(shù)據(jù),根據(jù)一定的分類規(guī)則,合理地劃分記錄集合,確定每個(gè)記錄所在類別。它所采用的分類規(guī)則是由聚類分析工具決定的。采用不同的聚類方法,對(duì)于相同的記錄集合可能有不同的劃分結(jié)果。

      應(yīng)用數(shù)據(jù)挖掘技術(shù),較為理想的起點(diǎn)就是從一個(gè)數(shù)據(jù)倉(cāng)庫(kù)開(kāi)始,數(shù)據(jù)挖掘可以直接跟蹤數(shù)據(jù)并輔助用戶快速做出商業(yè)決策,用戶還可以在更新數(shù)據(jù)的時(shí)候不斷發(fā)現(xiàn)更好的行為模式,并將其運(yùn)用于未來(lái)的決策當(dāng)中。

      三、選擇數(shù)據(jù)挖掘技術(shù)的兩個(gè)重要依據(jù)。

      數(shù)據(jù)挖掘使用的技術(shù)很多,其中主要包括統(tǒng)計(jì)方法、機(jī)器學(xué)習(xí)方法、和神經(jīng)網(wǎng)絡(luò)方法和數(shù)據(jù)庫(kù)方法。統(tǒng)計(jì)方法可細(xì)分為回歸分析、判別分析、聚類分析、探索性分析等。機(jī)器學(xué)習(xí)方法可細(xì)分為歸納學(xué)習(xí)方法(決策樹(shù)、規(guī)則歸納)、基于范例學(xué)習(xí)、遺傳算法等。神經(jīng)網(wǎng)絡(luò)方法可細(xì)分為錢箱神經(jīng)網(wǎng)絡(luò)(BP算法)、自組織神經(jīng)網(wǎng)絡(luò)等。數(shù)據(jù)庫(kù)方法主要是多維數(shù)據(jù)分析或OLAP方法,另外還有面向?qū)傩缘臍w納方法。由于每一種數(shù)據(jù)挖掘技術(shù)都有其自身的特點(diǎn)和實(shí)現(xiàn)的步驟,對(duì)數(shù)據(jù)的形式有具體的要求,并且與具體的應(yīng)用問(wèn)題密切相關(guān),因此成功的應(yīng)用數(shù)據(jù)挖掘技術(shù)以達(dá)到目標(biāo)過(guò)程本身就是一件很復(fù)雜的事情,本文主要從挖掘任務(wù)和可獲得的數(shù)據(jù)兩個(gè)角度來(lái)討論對(duì)數(shù)據(jù)挖掘技術(shù)的選擇。

      三、數(shù)據(jù)挖掘在電子商務(wù)中的應(yīng)用

      數(shù)據(jù)挖掘能發(fā)現(xiàn)電子商務(wù)客戶的的共性和個(gè)性的知識(shí)、必然和偶然的知識(shí)、獨(dú)立和關(guān)聯(lián)的知識(shí)、現(xiàn)實(shí)和預(yù)測(cè)的知識(shí)等,所有這些知識(shí)經(jīng)過(guò)分析,能對(duì)客戶的消費(fèi)行為如心理、能力、動(dòng)機(jī)、需求、潛能等做出統(tǒng)計(jì)和正確地分析,為管理者提供決策依據(jù)。具體應(yīng)用如下:

      1.分類與預(yù)測(cè)方法在電子商務(wù)中的應(yīng)用。在電子商務(wù)活動(dòng)中,分類是一項(xiàng)非常重要的任務(wù),也是應(yīng)用最多的技術(shù)。分類的目的是構(gòu)造一個(gè)分類函數(shù)或分類模型,通常稱作分類器。分類器的構(gòu)造方法通常由統(tǒng)計(jì)方法、機(jī)器學(xué)習(xí)方法、神經(jīng)網(wǎng)絡(luò)方法等。這些方法能把數(shù)據(jù)庫(kù)中的數(shù)據(jù)映射到給定類別中某一個(gè),以便用于預(yù)測(cè),也就是利用歷史數(shù)據(jù)記錄,自動(dòng)推導(dǎo)出給定數(shù)據(jù)的推廣描述,從而對(duì)未來(lái)數(shù)據(jù)進(jìn)行預(yù)測(cè)。

      2.聚類方法在電子商務(wù)中的應(yīng)用。聚類是把一組個(gè)體按照相似性原則歸成若干類別。對(duì)電子商務(wù)來(lái)說(shuō),客戶聚類可以對(duì)市場(chǎng)細(xì)分理論提供有力的支持。市場(chǎng)細(xì)分的目的是使得屬于同一類別的個(gè)體之間的距離盡可能小,而不同類別的個(gè)體之間的距離盡可能大,通過(guò)對(duì)聚類的客戶特征的提取,電子商務(wù)網(wǎng)站可以為客戶提供個(gè)性化的服務(wù)。

      3.數(shù)據(jù)抽取方法在電子商務(wù)中的應(yīng)用。數(shù)據(jù)抽取的目的是對(duì)數(shù)據(jù)進(jìn)行濃縮,給出它的緊湊描述,如求和值、平均值、方差值、等統(tǒng)計(jì)值、或者用直方圖、餅狀圖等圖形方式表示,更主要的是他從數(shù)據(jù)泛化的角度來(lái)討論數(shù)據(jù)總結(jié)。數(shù)據(jù)泛化是一種把最原始、最基本的信息數(shù)據(jù)從低層次抽象到高層次上的過(guò)程。可采用多維數(shù)據(jù)分析方法和面向?qū)傩缘臍w納方法。在電子商務(wù)活動(dòng)中,采用維數(shù)據(jù)分析方法進(jìn)行數(shù)據(jù)抽取,他針對(duì)的是電子商務(wù)活動(dòng)中的客戶數(shù)據(jù)倉(cāng)庫(kù)。在數(shù)據(jù)分析中經(jīng)常要用到諸如求和、總計(jì)、平均、最大、最小等匯集操作,這類操作的計(jì)算量特別大,可把匯集操作結(jié)果預(yù)先計(jì)算并存儲(chǔ)起來(lái),以便用于決策支持系統(tǒng)使用。

      4.關(guān)聯(lián)規(guī)則在電子商務(wù)中的應(yīng)用。管理部門可以收集存儲(chǔ)大量的售貨數(shù)據(jù)和客戶資料,對(duì)這些歷史數(shù)據(jù)進(jìn)行分析并發(fā)現(xiàn)關(guān)聯(lián)規(guī)則。如分析網(wǎng)上顧客的購(gòu)買行為,幫助管理者規(guī)劃市場(chǎng),確定商品的種類、價(jià)格、質(zhì)量等。通常關(guān)聯(lián)規(guī)則有兩種:有意義的關(guān)聯(lián)規(guī)則和泛化關(guān)聯(lián)規(guī)則,有意義的關(guān)聯(lián)規(guī)則,即滿足最小支持度和最小可信度的規(guī)則。最小支持度,它表示一組對(duì)象在統(tǒng)計(jì)意義上的需滿足的最低程度,如電子商務(wù)活動(dòng)中的客戶數(shù)量、客戶消費(fèi)能力、消費(fèi)方式等。后者即用戶規(guī)定的關(guān)聯(lián)規(guī)則的最低可靠度。第二是泛化規(guī)則,這種規(guī)則更實(shí)用,因?yàn)檠芯繉?duì)象存在一種層次關(guān)系,如面包、蛋糕屬西點(diǎn)類,而西點(diǎn)又屬于食品類,有了層次關(guān)系后,可以幫助發(fā)現(xiàn)更多的有意義的規(guī)則。

      5、優(yōu)化企業(yè)資源

      節(jié)約成本是企業(yè)盈利的關(guān)鍵。基于數(shù)據(jù)挖掘技術(shù),實(shí)時(shí)、全面、準(zhǔn)確地掌握企業(yè)資源信息,通過(guò)分析歷史的財(cái)務(wù)數(shù)據(jù)、庫(kù)存數(shù)據(jù)和交易數(shù)據(jù), 可以發(fā)現(xiàn)企業(yè)資源消耗的關(guān)鍵點(diǎn)和主要活動(dòng)的投入產(chǎn)出比例, 從而為企業(yè)資源優(yōu)化配置提供決策依據(jù), 例如降低庫(kù)存、提高庫(kù)存周轉(zhuǎn)率、提高資金使用率等。通過(guò)對(duì)Web數(shù)據(jù)挖掘,快速提取商業(yè)信息,使企業(yè)準(zhǔn)確地把握市場(chǎng)動(dòng)態(tài),極大地提高企業(yè)對(duì)市場(chǎng)變化的響應(yīng)能力和創(chuàng)新能力,使企業(yè)最大限度地利用人力資源、物質(zhì)資源和信息資源,合理協(xié)調(diào)企業(yè)內(nèi)外部資源的關(guān)系,產(chǎn)生最佳的經(jīng)濟(jì)效益。促進(jìn)企業(yè)發(fā)展的科學(xué)化、信息化和智能化。

      例如:美國(guó)運(yùn)通公司(American Express)有一個(gè)用于記錄信用卡業(yè)務(wù)的數(shù)據(jù)庫(kù),數(shù)據(jù)量達(dá)到54億字符,并仍在隨著業(yè)務(wù)進(jìn)展不斷更新。運(yùn)通公司通過(guò)對(duì)這些數(shù)據(jù)進(jìn)行挖掘,制定了“關(guān)聯(lián)結(jié)算(Relation ship Billing)優(yōu)惠”的促銷策略,即如果一個(gè)顧客在一個(gè)商店用運(yùn)通卡購(gòu)買一套時(shí)裝,那么在同一個(gè)商店再買一雙鞋,就可以得到比較大的折扣,這樣既可以增加商店的銷售量,也可以增加運(yùn)通卡在該商店的使用率。

      6、管理客戶數(shù)據(jù)

      隨著“以客戶為中心”的經(jīng)營(yíng)理念的不斷深入人心, 分析客戶、了解客戶并引導(dǎo)客戶的需求已成為企業(yè)經(jīng)營(yíng)的重要課題?;跀?shù)據(jù)挖掘技術(shù),企業(yè)將最大限度地利用客戶資源,開(kāi)展客戶行為的分析與預(yù)測(cè),對(duì)客戶進(jìn)行分類。有助于客戶盈利能力分析,尋找潛在的有價(jià)值的客戶,開(kāi)展個(gè)性化服務(wù),提高客戶的滿意度和忠誠(chéng)度。通過(guò)Web資源的挖掘,了解客戶的購(gòu)買習(xí)慣和興趣,從而改善網(wǎng)站結(jié)構(gòu)設(shè)計(jì),推出滿足不同客戶的個(gè)性化網(wǎng)頁(yè)。利用數(shù)據(jù)挖掘可以有效地獲得客戶。比如通過(guò)數(shù)據(jù)挖掘可以發(fā)現(xiàn)購(gòu)買某種商品的消費(fèi)者是男性還是女性,學(xué)歷、收入如何, 有什么愛(ài)好,是什么職業(yè)等等。甚至可以發(fā)現(xiàn)不同的人在購(gòu)買該種商品的相關(guān)商品后多長(zhǎng)時(shí)間有可能購(gòu)買該種商品, 以及什么樣的人會(huì)購(gòu)買什么型號(hào)的該種商品等等。在采用了數(shù)據(jù)挖掘后, 針對(duì)目標(biāo)客戶發(fā)送的廣告的有效性和回應(yīng)率將得到大幅度的提高, 推銷的成本將大大降低。同時(shí),在客戶數(shù)據(jù)挖掘的基礎(chǔ)上,企業(yè)可以發(fā)現(xiàn)重點(diǎn)客戶和評(píng)價(jià)市場(chǎng)性能,制定個(gè)性化營(yíng)銷策略,拓寬銷售渠道和范圍,為企業(yè)制定生產(chǎn)策略和發(fā)展規(guī)劃提供科學(xué)的依據(jù)。通過(guò)呼叫中心優(yōu)化與客戶溝通的渠道,提高對(duì)客戶的響應(yīng)效率和服務(wù)質(zhì)量,促

      ①進(jìn)客戶關(guān)系管理的自動(dòng)化和智能化。

      三、結(jié)束語(yǔ)

      電子商務(wù)是現(xiàn)代信息技術(shù)發(fā)展的必然結(jié)果,也是未來(lái)商業(yè)運(yùn)作模式的必然選擇。利用數(shù)據(jù)挖掘技術(shù),充分發(fā)揮企業(yè)的獨(dú)特優(yōu)勢(shì),促進(jìn)管理創(chuàng)新和技術(shù)創(chuàng)新,使企業(yè)在在電子商務(wù)的潮流中立于不敗之地。隨著數(shù)據(jù)挖掘算法的不斷發(fā)展和成熟,數(shù)據(jù)挖掘一定會(huì)有更加廣闊的應(yīng)用前景。

      參考文獻(xiàn):

      (1)《淺談數(shù)據(jù)挖掘在電子商務(wù)中的運(yùn)用》 鐘連福;

      (2)《電子商務(wù)中商業(yè)數(shù)據(jù)的挖掘方法》 中國(guó)電子商務(wù)研究中心;

      (3)《在電子商務(wù)中如何正確有使用數(shù)據(jù)挖掘技術(shù)》 俠名;

      (4)《曾貞:數(shù)據(jù)挖掘在電子商務(wù)中的應(yīng)用》 甘肅農(nóng)業(yè),2004(7);

      (5)《馮艷王堅(jiān)強(qiáng):數(shù)據(jù)挖掘在電子商務(wù)上的應(yīng)用》 2002(3);

      (6)《呂延杰徐華飛:中國(guó)電子商務(wù)發(fā)展研究報(bào)告》北京郵電大學(xué)出版社 ;

      (7)《數(shù)據(jù)挖掘與電子商務(wù)》 鄧鯤鵬,周延杰,嚴(yán)瑜筱。①

      第四篇:數(shù)據(jù)挖掘心得體會(huì)

      心得體會(huì)

      這次數(shù)據(jù)挖掘?qū)嶒?yàn)結(jié)束了,期間我們小組明確分工并積極去完成,雖然有點(diǎn)辛苦,但我感覺(jué)充實(shí)而有收獲感!

      根據(jù)老師給的一些資料,我們決定采用SQL Server 2000中的Northwind數(shù)據(jù)庫(kù)里的數(shù)據(jù)作為我們的實(shí)驗(yàn)數(shù)據(jù)。根據(jù)表Order Details中的數(shù)據(jù),我們分別根據(jù)ProductID和OrderID字段,并結(jié)合我們規(guī)定的最小支持度閥值對(duì)數(shù)據(jù)進(jìn)行篩選。依次篩選出1項(xiàng)頻繁集、2項(xiàng)頻繁集和3項(xiàng)頻繁集,其中還會(huì)使用游標(biāo)的方式來(lái)遍歷2項(xiàng)集與3項(xiàng)集的候選集,分別選出2項(xiàng)頻繁集和3項(xiàng)頻繁集。

      由于數(shù)據(jù)較多,因此過(guò)程比較復(fù)雜,要編寫很多的查詢語(yǔ)句,建立許多數(shù)據(jù)表,包括臨時(shí)表。開(kāi)始不知道則操作,但經(jīng)過(guò)我們各自多次重復(fù)的建表與查詢,逐漸的理解和有了自己的思路。尤其是在運(yùn)用游標(biāo)的方法進(jìn)行遍歷這塊,因?yàn)槲覀儽容^陌生而不理解,操作時(shí)一時(shí)無(wú)法實(shí)現(xiàn)結(jié)果,但經(jīng)過(guò)我們?cè)诰W(wǎng)上查詢了解相關(guān)知識(shí),最終得以解決。

      經(jīng)過(guò)該次實(shí)驗(yàn),使我對(duì)數(shù)據(jù)庫(kù)的操作更加熟練,而且還使我對(duì)課本上的“挖掘頻繁模式”這塊知識(shí)有了很好的掌握,今后我會(huì)多做實(shí)驗(yàn),使我在實(shí)際操作過(guò)程中學(xué)得更好!

      第五篇:數(shù)據(jù)挖掘試題

      《數(shù)據(jù)挖掘》總復(fù)習(xí)題

      1.?dāng)?shù)據(jù)挖掘系統(tǒng)可以根據(jù)什么標(biāo)準(zhǔn)進(jìn)行分類?

      答:根據(jù)挖掘的數(shù)據(jù)庫(kù)類型分類、根據(jù)挖掘的知識(shí)類型分類、根據(jù)挖掘所用的技術(shù)分類、根據(jù)應(yīng)用分類

      2.知識(shí)發(fā)現(xiàn)過(guò)程包括哪些步驟?

      答:數(shù)據(jù)清理、數(shù)據(jù)集成、數(shù)據(jù)選擇、數(shù)據(jù)變換、數(shù)據(jù)挖掘、模式評(píng)估、知識(shí)表示3.什么是概念分層?

      答:一個(gè)映射序列,將低層概念映射到更一般的較高層概念。4.多維數(shù)據(jù)模型上的 OLAP 操作包括哪些?

      答:上卷、下鉆、切片和切塊、轉(zhuǎn)軸 / 旋轉(zhuǎn)、其他OLAP操作5.OLAP 服務(wù)器類型有哪幾種?

      答:關(guān)系 OLAP 服務(wù)器(ROLAP)、多維 OLAP 服務(wù)器(MOLAP)、混合 OLAP 服務(wù)器(HOLAP)、特殊的 SQL 服務(wù)器6.?dāng)?shù)據(jù)預(yù)處理技術(shù)包括哪些?

      答:聚集、抽樣、維規(guī)約、特征子集選擇、特征創(chuàng)建、離散化和二元化、變量變換。7. 什么是數(shù)據(jù)清理?

      答:填寫缺失的值,平滑噪聲數(shù)據(jù),識(shí)別、刪除離群點(diǎn),解決不一致性 8. 什么是數(shù)據(jù)集成?

      答:集成多個(gè)數(shù)據(jù)庫(kù)、數(shù)據(jù)立方體或文件 9.什么是數(shù)據(jù)歸約?

      答:得到數(shù)據(jù)集的壓縮表示,它小得多,但可以得到相同或相近的結(jié)果 10.?dāng)?shù)據(jù)清理的內(nèi)容包括哪些?

      答:缺失值、噪聲數(shù)據(jù)、數(shù)據(jù)平滑、聚類、回歸11.將下列縮略語(yǔ)復(fù)原

      OLAP——on-line analytical processing DM——data mining

      KDD——knowledge discovery in databases OLTP——on-line transaction processingDBMS——database management system DWT——discrete wavelet transform

      (DMQL)--Data Mining Query Language 12.什么是數(shù)據(jù)挖掘?

      答:簡(jiǎn)單地說(shuō),數(shù)據(jù)挖掘是從大量數(shù)據(jù)中提取或挖掘知識(shí)。具體地說(shuō),數(shù)據(jù)挖掘就是從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的實(shí)際 應(yīng)用數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和 知識(shí)的過(guò)程。13.什么是關(guān)聯(lián)規(guī)則? 答:(關(guān)聯(lián)規(guī)則是形如X→Y的蘊(yùn)涵式,其中且,X和Y分別稱為關(guān)聯(lián)規(guī)則的先導(dǎo)和后繼。)假設(shè)I是項(xiàng)的集合。給定一個(gè)交易數(shù)據(jù)庫(kù),其中每個(gè)事務(wù)(Transaction)t是I的非空子集,即,每一個(gè)交易都與一個(gè)唯一的標(biāo)識(shí)符TID(Transaction ID)對(duì)應(yīng)。關(guān)聯(lián)規(guī)則在D中的支持度(support)是D中事務(wù)同時(shí)包含X、Y的百分比,即概率;置信度(confidence)是包含X的事務(wù)中同時(shí)又包含Y的百分比,即條件概率。關(guān)聯(lián)規(guī)則是有趣的,如果滿足最小支持度閾值和最小置信度閾值。這些閾值是根據(jù)挖掘需要人為設(shè)定。

      (關(guān)聯(lián)規(guī)則反映一個(gè)事物與其它事物之間的相互依存性和關(guān)聯(lián)性,如果兩個(gè)事物或者多個(gè)事物之間存在一定的關(guān)聯(lián)關(guān)系,那么其中一個(gè)事物就能夠通過(guò)其他事物預(yù)測(cè)到。)15.什么是概念描述?什么是特征化?什么是屬性相關(guān)分析?

      答:概念描述:用匯總的、簡(jiǎn)潔的和精確的方式描述各個(gè)類和概念可能是有用的。特征化:是目標(biāo)類數(shù)據(jù)的一般特性或特征的匯總。

      屬性相關(guān)分析:可能需要在分類和預(yù)測(cè)之前進(jìn)行,它試圖識(shí)別對(duì)于分類或預(yù)測(cè)過(guò)程無(wú)用的屬性。這些屬性應(yīng)當(dāng)排除。

      16.什么是數(shù)據(jù)倉(cāng)庫(kù)?其主要特征是什么?

      答:數(shù)據(jù)倉(cāng)庫(kù)是一個(gè)提供決策支持功能的數(shù)據(jù)庫(kù),它與組織機(jī)構(gòu)的操作數(shù)據(jù)庫(kù)分別維護(hù)。它允許將各種應(yīng)用系統(tǒng)集成在一起,為統(tǒng)一的歷史數(shù)據(jù)分析提供堅(jiān)實(shí)的平臺(tái),對(duì)信息處理提供支持。

      特征:面向主題、數(shù)據(jù)集成、隨時(shí)間而變化、數(shù)據(jù)不易丟失(數(shù)據(jù)不易丟失是最明顯特征)17.什么是數(shù)據(jù)集市?

      答:數(shù)據(jù)集市包含企業(yè)范圍數(shù)據(jù)的一個(gè)子集,對(duì)于特定的用戶群是有用的。其范圍限于選定的主題。

      (是完整的數(shù)據(jù)倉(cāng)庫(kù)的一個(gè)邏輯子集,而數(shù)據(jù)倉(cāng)庫(kù)正是由所有的數(shù)據(jù)集市有機(jī)組合而成的)18.?dāng)?shù)據(jù)庫(kù)中的知識(shí)發(fā)現(xiàn)過(guò)程由哪幾個(gè)步驟組成?

      答:數(shù)據(jù)清理、數(shù)據(jù)倉(cāng)庫(kù)、任務(wù)相關(guān)數(shù)據(jù)、數(shù)據(jù)挖掘、模式評(píng)估、知識(shí)表示 19.典型的數(shù)據(jù)挖掘系統(tǒng)有哪幾個(gè)主要成分?

      答:數(shù)據(jù)庫(kù)、數(shù)據(jù)倉(cāng)庫(kù)、萬(wàn)維網(wǎng)或其他信息庫(kù);數(shù)據(jù)庫(kù)或數(shù)據(jù)倉(cāng)庫(kù)服務(wù)器;知識(shí)庫(kù);數(shù)據(jù)挖掘引擎;模式評(píng)估模塊;用戶界面

      20.從軟件工程的觀點(diǎn)來(lái)看,數(shù)據(jù)倉(cāng)庫(kù)的設(shè)計(jì)和構(gòu)造包含哪些步驟?

      答:規(guī)劃、需求研究、問(wèn)題分析、倉(cāng)庫(kù)設(shè)計(jì)、數(shù)據(jù)集成和測(cè)試、部署數(shù)據(jù)倉(cāng)庫(kù)。21.在數(shù)據(jù)挖掘系統(tǒng)中,為什么數(shù)據(jù)清理十分重要?

      答: 臟數(shù)據(jù)的普遍存在,使得在大型數(shù)據(jù)庫(kù)中維護(hù)數(shù)據(jù)的正確性和一致性成為一個(gè)極其困難的任務(wù)。

      22.臟數(shù)據(jù)形成的原因有哪些?

      答:濫用縮寫詞、數(shù)據(jù)輸入錯(cuò)誤、數(shù)據(jù)中的內(nèi)嵌控制信息、不同的的慣用語(yǔ)、重復(fù)記錄、丟失值、拼寫變化、不同的計(jì)量單位、過(guò)時(shí)的編碼23.?dāng)?shù)據(jù)清理時(shí),對(duì)空缺值有哪些處理方法?

      答:忽略元組、人工填寫缺失值、使用一個(gè)全局變量填充缺失值、使用屬性的平均值填充缺失值、使用與給定元組屬同一類的所有樣本的屬性均值、使用最可能的值填充缺失值 24.什么是數(shù)據(jù)變換?包括哪些內(nèi)容?

      答:將數(shù)據(jù)轉(zhuǎn)換或統(tǒng)一成適合于挖掘的形式。包括:光滑、聚集、數(shù)據(jù)泛化、規(guī)范化、屬性構(gòu)造 25. 數(shù)據(jù)歸約的策略包括哪些?

      答:數(shù)據(jù)立方體聚集、性子集選擇、維度歸約、數(shù)值歸約、離散化和概念分層產(chǎn)生 26.提高數(shù)據(jù)挖掘算法效率有哪幾種思路?

      答:減少對(duì)數(shù)據(jù)的掃描次數(shù);縮小產(chǎn)生的候選項(xiàng)集;改進(jìn)對(duì)候選項(xiàng)集的支持度計(jì)算方法 27.假定屬性income的最小值與最大值分別為12000和980到區(qū)間[0.0,1.0],根據(jù) min-max 規(guī)范化,income的值73600將變?yōu)椋?631/551_。

      28.假定屬性income的平均值和標(biāo)準(zhǔn)差分別為54000和16000,使用 Z-score 規(guī)范化,值73600被轉(zhuǎn)換為_1.225_。

      29.假定A的值由-986到917.A的最大絕對(duì)值為986,使用小數(shù)定標(biāo)規(guī)范化,-986被規(guī)范化為_-0.986_

      30.從結(jié)構(gòu)角度來(lái)看,有哪三種數(shù)據(jù)倉(cāng)庫(kù)模型。答:企業(yè)倉(cāng)庫(kù)、數(shù)據(jù)集市、虛擬倉(cāng)庫(kù)

      31.什么是聚類分析?它與分類有什么區(qū)別?

      答:將物理或抽象對(duì)象的集合分組成為由類似的對(duì)象組成的多個(gè)類的過(guò)程 區(qū)別:分類有監(jiān)督 聚類無(wú)監(jiān)督 分類要靠學(xué)習(xí)聚類要靠啟發(fā)式搜索 32.與數(shù)據(jù)挖掘類似的術(shù)語(yǔ)有哪些?

      答:數(shù)據(jù)庫(kù)中挖掘知識(shí)、知識(shí)提取、數(shù)據(jù)/模式分析、數(shù)據(jù)考古和數(shù)據(jù)捕撈。33.解釋下列術(shù)語(yǔ) 34.翻譯下列術(shù)語(yǔ)

      Data Mining 數(shù)據(jù)挖掘Data warehousing 數(shù)據(jù)倉(cāng)庫(kù)Data Mart 數(shù)據(jù)集市

      drill-down 下鉆roll-up上卷OLAP 聯(lián)機(jī)分析處理Data cube 數(shù)據(jù)立方體 Association rule 關(guān)聯(lián)規(guī)則Data cleaning數(shù)據(jù)清理Data integration 數(shù)據(jù)集成 Data transformation數(shù)據(jù)變換Data reduction 數(shù)據(jù)歸約

      35.可以對(duì)按季度匯總的銷售數(shù)據(jù)進(jìn)行___B___,來(lái)觀察按月匯總的數(shù)據(jù)。A 上卷 B 下鉆 C 切片 D 切塊

      36.可以對(duì)按城市匯總的銷售數(shù)據(jù)進(jìn)行____A__,來(lái)觀察按國(guó)家總的數(shù)據(jù)。A 上卷 B 下鉆 C 切片 D 切塊

      37.通過(guò)不太詳細(xì)的數(shù)據(jù)得到更詳細(xì)的數(shù)據(jù),稱為_(kāi)___B____。A 上卷 B 下鉆 C 細(xì)化 D 維規(guī)約

      38.三層數(shù)據(jù)倉(cāng)庫(kù)結(jié)構(gòu)中,從底層到尾層分別是_倉(cāng)庫(kù)數(shù)據(jù)服務(wù)器、OLAP服務(wù)器、前端客戶層__。

      42.常用的四種興趣度的客觀度量。

      答:簡(jiǎn)單性 確定性 實(shí)用性 新穎性43.四種常用的概念分層類型。

      答:模式分層、集合分組分層、操作導(dǎo)出的分層、基于規(guī)則的分層45.如何理解現(xiàn)實(shí)世界的數(shù)據(jù)是“骯臟的”?答:不完整的、含噪聲的、不一致的、重復(fù)的 46.多維數(shù)據(jù)倉(cāng)庫(kù)有哪幾種概念模型?

      答:星形模式、雪花形模式或事實(shí)星座形模式。

      48.在多路數(shù)組聚集算法中,如何盡量少地占用內(nèi)存?

      答:將最小的平面放在內(nèi)存中,將最大的平面每次只是提取并計(jì)算一塊。49.給出方體的維數(shù),會(huì)計(jì)算各D方體有多少,總的方體個(gè)數(shù)有多少?2^n50.什么是離群點(diǎn)?離群點(diǎn)都需要?jiǎng)h除嗎?為什么?

      答:離群點(diǎn):一些與數(shù)據(jù)的一般行為或模型不一致的孤立數(shù)據(jù)。不需要。通常離群點(diǎn)被作為“噪音”或異常被丟棄,但在欺詐檢測(cè)中卻可以通過(guò)對(duì)罕見(jiàn)事件進(jìn)行離群點(diǎn)分析而得到結(jié)論。

      【51.所有模式都是有趣的嗎?

      答:一個(gè)模式是有趣的,如果(1)它易于被人理解 ;(2)在某種程度上,對(duì)于新的或測(cè)試數(shù)據(jù)是有效的;(3)具有潛在效用;(4)新穎的;(5)符合用戶確信的某種假設(shè)?!?/p>

      下載數(shù)據(jù)挖掘與知識(shí)發(fā)現(xiàn)(講稿7-神經(jīng)網(wǎng)絡(luò)挖掘)word格式文檔
      下載數(shù)據(jù)挖掘與知識(shí)發(fā)現(xiàn)(講稿7-神經(jīng)網(wǎng)絡(luò)挖掘).doc
      將本文檔下載到自己電腦,方便修改和收藏,請(qǐng)勿使用迅雷等下載。
      點(diǎn)此處下載文檔

      文檔為doc格式


      聲明:本文內(nèi)容由互聯(lián)網(wǎng)用戶自發(fā)貢獻(xiàn)自行上傳,本網(wǎng)站不擁有所有權(quán),未作人工編輯處理,也不承擔(dān)相關(guān)法律責(zé)任。如果您發(fā)現(xiàn)有涉嫌版權(quán)的內(nèi)容,歡迎發(fā)送郵件至:645879355@qq.com 進(jìn)行舉報(bào),并提供相關(guān)證據(jù),工作人員會(huì)在5個(gè)工作日內(nèi)聯(lián)系你,一經(jīng)查實(shí),本站將立刻刪除涉嫌侵權(quán)內(nèi)容。

      相關(guān)范文推薦

        數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘?qū)W習(xí)心得.

        數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘?qū)W習(xí)心得 通過(guò)數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘的這門課的學(xué)習(xí),掌握了數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘的一些基礎(chǔ)知識(shí)和基本概念,了解了數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)庫(kù)的區(qū)別。下面談?wù)勎覍?duì)數(shù)據(jù)......

        數(shù)據(jù)挖掘與分析心得體會(huì)

        正如柏拉圖所說(shuō):需要是發(fā)明之母。隨著信息時(shí)代的步伐不斷邁進(jìn),大量數(shù)據(jù)日積月累。我們迫切需要一種工具來(lái)滿足從數(shù)據(jù)中發(fā)現(xiàn)知識(shí)的需求!而數(shù)據(jù)挖掘便應(yīng)運(yùn)而生了。正如書中所說(shuō):數(shù)......

        數(shù)據(jù)挖掘與數(shù)據(jù)倉(cāng)庫(kù)--教學(xué)大綱

        數(shù)據(jù)挖掘與數(shù)據(jù)倉(cāng)庫(kù)(教學(xué)大綱) Data mining and data warehouse 課程編碼:05405140 學(xué)分: 2.5 課程類別: 專業(yè)方向課 計(jì)劃學(xué)時(shí): 48 其中講課:32 實(shí)驗(yàn)或?qū)嵺`: 上機(jī):16 適用專業(yè):信息......

        數(shù)據(jù)挖掘論文(合集)

        數(shù)據(jù)挖掘論文在現(xiàn)實(shí)的學(xué)習(xí)、工作中,許多人都有過(guò)寫論文的經(jīng)歷,對(duì)論文都不陌生吧,論文是一種綜合性的文體,通過(guò)論文可直接看出一個(gè)人的綜合能力和專業(yè)基礎(chǔ)。那么你知道一篇好的論......

        數(shù)據(jù)挖掘?qū)嶒?yàn)三

        實(shí)驗(yàn)三 設(shè)計(jì)并構(gòu)造AdventureWorks數(shù)據(jù)倉(cāng)庫(kù)實(shí)例 【實(shí)驗(yàn)要求】 在SQL Server平臺(tái)上,利用AdventureWorks數(shù)據(jù)庫(kù)作為商業(yè)智能解決方案的數(shù)據(jù)源,設(shè)計(jì)并構(gòu)造數(shù)據(jù)倉(cāng)庫(kù),建立OLAP和數(shù)據(jù)......

        數(shù)據(jù)挖掘講課心得體會(huì)

        數(shù)據(jù)挖掘講課心得體會(huì) 今年的數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘課程,任課老師布置每人講一章,并課中研討的授課方式,我非常贊同這種自己備課,自己上去講課并課中和同學(xué)研討、最終老師點(diǎn)評(píng)的做......

        數(shù)據(jù)挖掘研究現(xiàn)狀

        一、 時(shí)代的挑戰(zhàn)近十幾年來(lái),人們利用信息技術(shù)生產(chǎn)和搜集數(shù)據(jù)的能力大幅度提高,千萬(wàn)萬(wàn)個(gè)數(shù)據(jù)庫(kù)被用于商業(yè)管理、政府辦公、科學(xué)研究和工程開(kāi)發(fā)等等,這一勢(shì)頭仍將持續(xù)發(fā)展下去......

        數(shù)據(jù)挖掘背景文摘

        數(shù)據(jù)挖掘是通過(guò)仔細(xì)分析大量數(shù)據(jù)來(lái)揭示有意義的新的關(guān)系、趨勢(shì)和模式的過(guò)程.其出現(xiàn)于 20 世紀(jì) 80年代后期,是數(shù)據(jù)庫(kù)研究中一個(gè)很有應(yīng)用價(jià)值 的新領(lǐng)域,是一門交叉性學(xué)科 ,融......