欧美色欧美亚洲高清在线观看,国产特黄特色a级在线视频,国产一区视频一区欧美,亚洲成a 人在线观看中文

  1. <ul id="fwlom"></ul>

    <object id="fwlom"></object>

    <span id="fwlom"></span><dfn id="fwlom"></dfn>

      <object id="fwlom"></object>

      開題報(bào)告信用卡申請?jiān)u分模型研究 數(shù)據(jù)挖掘(5篇材料)

      時(shí)間:2019-05-15 09:48:14下載本文作者:會(huì)員上傳
      簡介:寫寫幫文庫小編為你整理了多篇相關(guān)的《開題報(bào)告信用卡申請?jiān)u分模型研究 數(shù)據(jù)挖掘》,但愿對你工作學(xué)習(xí)有幫助,當(dāng)然你在寫寫幫文庫還可以找到更多《開題報(bào)告信用卡申請?jiān)u分模型研究 數(shù)據(jù)挖掘》。

      第一篇:開題報(bào)告信用卡申請?jiān)u分模型研究 數(shù)據(jù)挖掘

      一、論文題目

      基于數(shù)據(jù)挖掘技術(shù)的信用卡信用評分模型研究

      二、論文選題理論意義、實(shí)用價(jià)值

      近十年來,受經(jīng)濟(jì)的飛速發(fā)展,中國的信貸消費(fèi)特別是面向消費(fèi)者個(gè)人的信用消費(fèi)蓬勃發(fā)展,汽車貸款、住房按揭、助學(xué)貸款、信用卡消費(fèi)等逐漸走入人們的生活中。個(gè)人消費(fèi)信貸的蓬勃發(fā)展以及消費(fèi)信貸業(yè)務(wù)風(fēng)險(xiǎn)與回報(bào)相對應(yīng)的客觀規(guī)律,使商業(yè)銀行等授信機(jī)構(gòu)在追逐巨額利潤的同時(shí),不得不面對巨大的潛在不良信貸風(fēng)險(xiǎn),從而信用風(fēng)險(xiǎn)管理逐漸成為商業(yè)銀行個(gè)人消費(fèi)信貸管理的一個(gè)核心領(lǐng)域。商業(yè)銀行需要客觀、全面、準(zhǔn)確地評估消費(fèi)者的還款能力和還款意愿,以避免、控制、減少壞賬損失。

      信用評分模型技術(shù)的發(fā)展和應(yīng)用,就是應(yīng)個(gè)人消費(fèi)信貸金融機(jī)構(gòu)風(fēng)險(xiǎn)管理的需要而誕生的。信用評分模型是歐美消費(fèi)信貸管理廣泛應(yīng)用的技術(shù)手段。它運(yùn)用先進(jìn)的數(shù)據(jù)挖掘技術(shù)和統(tǒng)計(jì)分析方法,通過對消費(fèi)者的人口特征、信用歷史記錄和行為記錄等大量的數(shù)據(jù)進(jìn)行系統(tǒng)的分析,挖掘數(shù)據(jù)中蘊(yùn)含的行為模式、信用特征,捕捉歷史信息和未來信用表現(xiàn)之間的關(guān)系,發(fā)展出預(yù)測性的模型,以一個(gè)信用評分來綜合評估消費(fèi)者未來的某種信用表現(xiàn),作為消費(fèi)信貸管理的決策依據(jù)。

      歐美國家的使用經(jīng)驗(yàn)表明,個(gè)人信用評分具有處理客戶貸款申請速度快、成本低、處理的標(biāo)準(zhǔn)一致和客觀等特點(diǎn),在消費(fèi)者信用風(fēng)險(xiǎn)管理中發(fā)揮著重要的作用,同時(shí)個(gè)人信用技術(shù)不僅被廣泛地應(yīng)用于信用卡等消費(fèi)信貸、住房按揭貸款等領(lǐng)域,也被成功地應(yīng)用于中小企業(yè)貸款申請?jiān)u估、信用卡欺詐預(yù)防、基于風(fēng)險(xiǎn)的利率定價(jià)、直銷相應(yīng)評分及資產(chǎn)證券化等領(lǐng)域,因而信用評分模型具有很強(qiáng)的應(yīng)用潛力。

      然而,對于這樣一個(gè)在西方發(fā)達(dá)國家行之有效的信用風(fēng)險(xiǎn)管理技術(shù),國內(nèi)銀行使用的不多,學(xué)術(shù)的研究也很落后。國內(nèi)銀行信用風(fēng)險(xiǎn)控制和管理能力還比較弱,個(gè)人信用評價(jià)工作相當(dāng)不完善,缺乏科學(xué)統(tǒng)一的風(fēng)險(xiǎn)度量方法和工具,無法準(zhǔn)確地度量借款人風(fēng)險(xiǎn)和產(chǎn)品風(fēng)險(xiǎn),還不能對信用額度實(shí)施有效的科學(xué)管理。造成這方面的原因是多方面的,首先由于我國的信用建設(shè)起步比較晚,社會(huì)征信體系不完善,缺乏與個(gè)人信用評估相關(guān)的資料。其次缺乏專業(yè)的個(gè)人信用研究人員和專業(yè)的個(gè)人信用評估機(jī)構(gòu),致使沒有相對統(tǒng)一合理的評估標(biāo)準(zhǔn)、評估方法和指標(biāo)體系。因此借鑒國外先進(jìn)經(jīng)驗(yàn),在現(xiàn)有的條件下,利用信息系統(tǒng)中的數(shù)據(jù)和信息,建立一個(gè)具有一定預(yù)測能力、在信貸決策中具有一定參考價(jià)值、符合我國國情的個(gè)人信用評分模型將有助于銀行拓展個(gè)人消費(fèi)信貸業(yè)務(wù),提高其綜合競爭力,保障我國金融秩序穩(wěn)定,具有很強(qiáng)的理論價(jià)值和現(xiàn)實(shí)意義。

      個(gè)人信用評分模型的必要性具體體現(xiàn)在如下四個(gè)方面:

      首先,使用個(gè)人信用評分模型,可以幫助銀行減少貸款審批時(shí)間,爭取放款實(shí)效。據(jù)美國消費(fèi)銀行協(xié)會(huì)的一份資料,以前不使用個(gè)人信用評分模型,小額消費(fèi)信貸的審批平均需要12小時(shí),如今這類貸款的審批縮短到15分鐘。使用個(gè)人信用評分模型后,信用卡的審批只要一兩分鐘,60%的汽車貸款的審批可以在l小時(shí)內(nèi)完成。

      其次,個(gè)人信用評分可以作為核定信用額度及收帳策略的參考。利用信用評分的結(jié)果,可以核定信用條件、交易條件及信用額度,例如什么范圍的評分結(jié)果,必須提供擔(dān)保或保證人;達(dá)到哪一標(biāo)準(zhǔn)以上,才可授予多少信用額度等;還可以預(yù)測客戶履行債務(wù)的情況,根據(jù)信用得分決定該客戶的收款方法與收款時(shí)間。

      此外,個(gè)人信用評分能夠幫助金融機(jī)構(gòu)確定消費(fèi)貸款利率,對高風(fēng)險(xiǎn)的客戶提供較高的利率,反之亦然。這些都可以幫助金融機(jī)構(gòu)更為有效地和有利地管理他們的賬戶,而且利潤評分可用于在一系列金融產(chǎn)品中追求利潤最大化。

      最后,個(gè)人信用評分不僅為銀行等金融機(jī)構(gòu)進(jìn)行消費(fèi)貸款風(fēng)險(xiǎn)控制提供準(zhǔn)確、客觀的依據(jù),而且加快了消費(fèi)信貸的業(yè)務(wù)速度,降低了消費(fèi)信貸的操作成本,在模型出現(xiàn)誤差時(shí)也可

      以快速地找出原因,并對模型的參數(shù)進(jìn)行調(diào)整。

      綜上所述,可以得出結(jié)論:個(gè)人信用評分模型是有效控制信用風(fēng)險(xiǎn)、擴(kuò)大信貸規(guī)模的有力武器,建立個(gè)人信用模型,對消費(fèi)貸款的申請人的信用進(jìn)行科學(xué)的度量,小到銀行對個(gè)人信用風(fēng)險(xiǎn)的控制,大到保障我國金融秩序的穩(wěn)定都具有積極而重要的意義。

      論文在探討各種信用技術(shù)的前提下,試圖研究該技術(shù)的具體實(shí)現(xiàn),為該技術(shù)的應(yīng)用提供一定的參考。

      二 國內(nèi)外研究現(xiàn)狀與發(fā)展趨勢

      1.國外的研究狀況

      國外幾代學(xué)者經(jīng)過長達(dá)幾十年的探索研究,信用評分模型在技術(shù)上基本成熟。

      杜爾蘭德(Durand)第一個(gè)將Fisher提出的判別分析法用于信用評分,用來區(qū)分“好“的貸款和“壞”的貸款。需要注意的是線性判別法進(jìn)行信用分析時(shí),對數(shù)據(jù)有嚴(yán)格假定。數(shù)據(jù)需服從正態(tài)分布,各總體協(xié)方差陣必須相等,而這些要求在現(xiàn)實(shí)中是很難滿足的。同二次判別函數(shù)相比,線性判別函數(shù)具有更多優(yōu)點(diǎn),多數(shù)學(xué)者在用判別分析法建立信用模型時(shí),往往忽略假設(shè)依然選用線性判別函數(shù),這使得線性判別分析成為信用評分領(lǐng)域最為廣泛的方法之一。

      Wiginton,1980年首次在信用評分模型中采用Logistic回歸方法,并把它與判別分析法進(jìn)行比較。與判別分析法 相反,Logistic回歸法不要求變量必須滿足正態(tài)性的假設(shè),理論基礎(chǔ)比較好:再加上Logistic回歸法在應(yīng)用時(shí),準(zhǔn)確性和穩(wěn)定性方面表現(xiàn)上佳,因此被學(xué)者認(rèn)為是最適合發(fā)展信用評分模型的理論。

      20世紀(jì)80年代,決策樹方法開始應(yīng)用于信用評分領(lǐng)域,之后有學(xué)者將決策樹方法與判別分析方法進(jìn)行了比較,認(rèn)為兩者旗鼓相當(dāng),在有些情況下,決策樹方法的表現(xiàn)或許更佳。

      在非統(tǒng)計(jì)學(xué)方法中,線性規(guī)劃方法應(yīng)用的比較早,20世紀(jì)60年代就有線性規(guī)劃在信用評分領(lǐng)域的文獻(xiàn)報(bào)道。盡管有部分學(xué)者認(rèn)為統(tǒng)計(jì)學(xué)方法要比線性規(guī)劃方法好,但是大部分文獻(xiàn)都認(rèn)為線性規(guī)劃與統(tǒng)計(jì)學(xué)方法的效果相當(dāng)。

      20世紀(jì)90年代,人工神經(jīng)網(wǎng)絡(luò)應(yīng)用于信用評分模型中。當(dāng)然大部分神經(jīng)網(wǎng)絡(luò)模型用于對公司的信用評分,在個(gè)人信用評分領(lǐng)域的應(yīng)用相對比較少,得出的結(jié)論是在各種特征變量呈復(fù)雜非線性關(guān)系的情況下,神經(jīng)網(wǎng)絡(luò)方法具有明顯的優(yōu)勢。也有少部分學(xué)者將遺傳算法應(yīng)用于個(gè)人信用評分領(lǐng)域,但是相比較其他方法,效果不佳,在實(shí)際中不被推崇。

      在消費(fèi)者個(gè)人信用評分的實(shí)務(wù)方面,美國的Equifax公司和環(huán)聯(lián)(”EransUnion)以及英國的益百利(Experian)等是世界上最大的三家個(gè)人征信機(jī)構(gòu)。平均每家公司擁有2億份個(gè)人信息文件,覆蓋全美、加拿大和歐洲部分地區(qū)。三家征信公司一天提供480多萬份消費(fèi)者信用報(bào)告。

      2.國內(nèi)研究狀況

      從國內(nèi)研究來看,由于我國社會(huì)征信體系建設(shè)的落后,理論研究和實(shí)務(wù)方面都相當(dāng)落后。在理論研究領(lǐng)域,雖說成果不多,但也有部分專家學(xué)者利用國內(nèi)銀行的數(shù)據(jù)開發(fā)信用評分模型,取得了一定的研究成果。

      1999年下半年,中國建設(shè)銀行濟(jì)南分行出臺(tái)的<個(gè)人信用等級評定辦法》是我國首部消費(fèi)信貸個(gè)人信用等級評定方法。該辦法規(guī)定,銀行將持卡人的年齡、學(xué)歷、職業(yè)、收入和家庭資產(chǎn)等信息資料匯集起來形成14個(gè)指標(biāo),針對個(gè)人客戶個(gè)人還款能力和資信狀況,設(shè)立7類個(gè)人信用等級,為AAA、AA、A、BBB、BB、B、C七個(gè)等級,不同信用等級的客戶享受的透支額度不同。但該方法僅能判斷一個(gè)人在該行的信用情況,而對其在其他銀行的信用狀況不清楚.隨著2005年,央行個(gè)人征信系統(tǒng)的聯(lián)網(wǎng)運(yùn)行,個(gè)人信用評估工作逐步邁向規(guī)范化發(fā)展,越來越多的商業(yè)銀行利用征信系統(tǒng)開展信用評分工作,建立自己的信用評分系統(tǒng)。

      李曙光(2003)在《個(gè)人信用評估研究》中將個(gè)人信用評分分為個(gè)人行為評分、利潤評分、考慮經(jīng)濟(jì)環(huán)境因素的評分三類,并對國內(nèi)外亟待解決的問題進(jìn)行總結(jié),認(rèn)為個(gè)人信用評分模型中應(yīng)包括對宏觀經(jīng)濟(jì)因素的考慮.

      魯煒(2004)在《基于中國現(xiàn)實(shí)個(gè)人信用數(shù)據(jù)的信用評分方法比較研究》中基于數(shù)據(jù)的時(shí)間跨度分布的分析,發(fā)現(xiàn)個(gè)人信用評分的模型壽命周期在我國較短,認(rèn)為基于我國數(shù)據(jù)開發(fā)的實(shí)用模型至少每年更新一次.這就對個(gè)人信用評分模型的研究提出了可更新性要強(qiáng)的要求。

      潘雅瓊、左相國(2004)在《消費(fèi)信貸信用等級評分值與期望壞賬率的關(guān)系模型》中引用英國某著名商業(yè)銀行在不同風(fēng)險(xiǎn)指數(shù)下的壞賬率作為期望壞賬率,得到符合我國國情的信用等級評分值與壞賬率之間的對應(yīng)關(guān)系模型。

      總體來看,國外對消費(fèi)者個(gè)人信用風(fēng)險(xiǎn)的研究已有多年的歷史,對已使用的和正在開發(fā)的預(yù)測消費(fèi)信貸風(fēng)險(xiǎn)各種技術(shù)的研究取得了重大進(jìn)展,為商業(yè)銀行金融風(fēng)險(xiǎn)的管理決策提供了有效的方法與工具。國內(nèi)關(guān)于這方面的研究和應(yīng)用還處于初級階段,一個(gè)十分重要的原因是理論研究與實(shí)際應(yīng)用結(jié)合的問題,因?yàn)榻⑿庞迷u分模型需要大量的銀行歷史經(jīng)營數(shù)據(jù)和客戶信息,同時(shí)要有復(fù)雜的計(jì)算機(jī)系統(tǒng)支持,這些都涉及銀行的商業(yè)機(jī)密,無法對研究者開放,使得應(yīng)用研究受到限制;另一方面,如國外Fair Isaac等信用風(fēng)險(xiǎn)評估模型公司的產(chǎn)品還無法直接應(yīng)用于中國的銀行業(yè),這是因?yàn)楦鲊男庞铆h(huán)境、客戶自身的狀況和行為習(xí)慣都存在較大差異,而這些是信用評分模型開發(fā)和應(yīng)用的基礎(chǔ),信用評分模型需要有針對性的開發(fā)、訓(xùn)練、優(yōu)化和應(yīng)用。特別是我國商業(yè)銀行正處改制和經(jīng)營轉(zhuǎn)型期,個(gè)人銀行業(yè)務(wù)快速發(fā)展,客戶的總體樣本特征具有相對的不確定性,人們的信用意識(shí)、提前消費(fèi)的信貸意識(shí)在不斷改變,個(gè)人消費(fèi)行為也在不斷發(fā)生變化;同時(shí)個(gè)人征信體系還很不完善,客戶信息不對稱給銀行信貸審批決策的準(zhǔn)確性造成嚴(yán)重影響,這些都是信用評分和風(fēng)險(xiǎn)控制方面亟待解決的現(xiàn)實(shí)問題。

      三、研究內(nèi)容范圍

      論文希望通過對個(gè)人信用評分的基本概念和建立信用評分模型方法的研究,以及對我國銀行業(yè)個(gè)人信用方面的深入調(diào)查,明確應(yīng)用先進(jìn)的數(shù)據(jù)挖掘技術(shù)建立客觀信用評分模型的必要性、緊迫性、科學(xué)性以及在信用領(lǐng)域中數(shù)據(jù)挖掘方法的強(qiáng)大的應(yīng)用價(jià)值。論文的重點(diǎn)是對信用卡風(fēng)險(xiǎn)管理的征信環(huán)節(jié)中信用卡申請者的信用評分模型進(jìn)行研究,以征信系統(tǒng)的部分征信數(shù)據(jù)為基礎(chǔ),就國外信用評分領(lǐng)域使用最多的決策樹、神經(jīng)網(wǎng)絡(luò)方法,按照數(shù)據(jù)挖掘技術(shù)解決問題的一般步驟,詳細(xì)探討如何建立信用評分模型的一個(gè)完整的流程,建立一個(gè)基于我國實(shí)際的決策樹、神經(jīng)網(wǎng)絡(luò)個(gè)人信用評分模型,并對模型進(jìn)行評估,從建模結(jié)果、預(yù)測精度、運(yùn)行效率等角度進(jìn)行對比分析,并利用實(shí)際數(shù)據(jù)對模型進(jìn)行驗(yàn)證,試圖找到最佳模型,得到區(qū)客戶信用的最佳分類途徑,以便使銀行能高效的應(yīng)對大量的信用卡申請者,快速地做出判斷。最后希望利用數(shù)據(jù)挖掘技術(shù)與信息系統(tǒng)開發(fā)技術(shù)開發(fā)信用評分管理系統(tǒng)的部分功能,探討如何將數(shù)據(jù)挖掘的結(jié)果應(yīng)用到實(shí)際的輔助決策系統(tǒng)當(dāng)中。

      總體上來說,現(xiàn)今數(shù)據(jù)挖掘技術(shù)在信用卡業(yè)務(wù)的應(yīng)用和研究僅僅處在初始階段,有很多工作需要去完成。希望本文的研究能為中國銀行業(yè)在信用卡風(fēng)險(xiǎn)管理方面提供一些參考和幫助。

      四、主要參考文獻(xiàn)

      第二篇:數(shù)據(jù)挖掘技術(shù)-畢業(yè)設(shè)計(jì)-開題報(bào)告-畢業(yè)論文

      數(shù)據(jù)挖掘技術(shù)綜述

      數(shù)據(jù)挖掘(Data Mining)是一項(xiàng)較新的數(shù)據(jù)庫技術(shù),它基于由日常積累的大量數(shù)據(jù)所構(gòu)成的數(shù)據(jù)庫,從中發(fā)現(xiàn)潛在的、有價(jià)值的信息——稱為知識(shí),用于支持決策。數(shù)據(jù)挖掘是一項(xiàng)數(shù)據(jù)庫應(yīng)用技術(shù),本文首先對數(shù)據(jù)挖掘進(jìn)行概述,闡明什么是數(shù)據(jù)挖掘,數(shù)據(jù)挖掘的技術(shù)是什么,然后介紹數(shù)據(jù)挖掘的常用技術(shù),數(shù)據(jù)挖掘的主要過程, 如何進(jìn)行數(shù)據(jù)挖掘,主要應(yīng)用領(lǐng)域以及國內(nèi)外現(xiàn)狀分析。

      一.研究背景及意義

      近十幾年來,隨著數(shù)據(jù)庫系統(tǒng)的廣泛流行以及計(jì)算機(jī)技術(shù)的快速發(fā)展,人們利用信息技術(shù)生產(chǎn)和搜集數(shù)據(jù)的能力大幅度提高。千萬個(gè)數(shù)據(jù)庫被用于商業(yè)管理、政府辦公、科學(xué)研究和工程開發(fā)等,特別是網(wǎng)絡(luò)系統(tǒng)的流行,使得信息爆炸性增長。這一趨勢將持續(xù)發(fā)展下去。大量信息在給人們帶來方便的同時(shí)也帶來了一大堆的問題:第一是信息過量,難以消化;第二是信息真假難以辨認(rèn);第三是信息安全難以保證;第四是信息形式不一致,難以統(tǒng)一處理。面對這種狀況,一個(gè)新的挑戰(zhàn)被提出來:如何才能不被信息的汪洋大海所淹沒,從中及時(shí)發(fā)現(xiàn)有用的知識(shí),提高信息利用率呢?這時(shí)出現(xiàn)了新的技術(shù)——數(shù)據(jù)挖掘(Data Mining)技術(shù)便應(yīng)用而生了。

      面對海量的存儲(chǔ)數(shù)據(jù),如何從中發(fā)現(xiàn)有價(jià)值的信息或知識(shí),成為一項(xiàng)非常艱巨的任務(wù)。數(shù)據(jù)挖掘就是為迎合這種要求而產(chǎn)生并迅速發(fā)展起來的。數(shù)據(jù)挖掘研究的目的主要是發(fā)現(xiàn)知識(shí)、使數(shù)據(jù)可視化、糾正數(shù)據(jù)。

      二.概述

      1,數(shù)據(jù)挖掘

      數(shù)據(jù)挖掘(Data Mining)就是從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識(shí)的過程。這些數(shù)據(jù)可以是結(jié)構(gòu)化的,如關(guān)系數(shù)據(jù)庫中的數(shù)據(jù),也可以是半結(jié)構(gòu)化的,如文本,圖形,圖像數(shù)據(jù),甚至是分布在網(wǎng)絡(luò)上的異構(gòu)型數(shù)據(jù)。發(fā)現(xiàn)知識(shí)的方法可以是數(shù)學(xué)的,也可以是非數(shù)學(xué)的,可以是演繹的,也可以是歸納的。發(fā)現(xiàn)了的知識(shí)可以被用于信息管理、查詢優(yōu)化、決策支持、過程控制等,還可以進(jìn)行數(shù)據(jù)自身的維護(hù)。數(shù)據(jù)挖掘借助了多年來數(shù)理統(tǒng)計(jì)技術(shù)和人工智能以及知識(shí)工程等領(lǐng)域的研究成果構(gòu)建自己的理論體系,是一個(gè)交叉學(xué)科領(lǐng)域,可以集成數(shù)據(jù)數(shù)據(jù)庫、人工智能、數(shù)理統(tǒng)計(jì)、可視化、并行計(jì)算等技術(shù)。2,數(shù)據(jù)挖掘技術(shù)

      數(shù)據(jù)挖掘就是對觀測到的數(shù)據(jù)集進(jìn)行分析,目的是發(fā)現(xiàn)未知的關(guān)系和以數(shù)據(jù)擁有者可以理解并對其有價(jià)值的新穎方式來總結(jié)數(shù)據(jù)。它利用各種分析方法和分析工具在大規(guī)模海量數(shù)據(jù)中建立模型和發(fā)現(xiàn)數(shù)據(jù)間關(guān)系的過程,這些模型和關(guān)系可以用來做出決策和預(yù)測。

      數(shù)據(jù)挖掘的過程就是知識(shí)發(fā)現(xiàn)的過程,其所能發(fā)現(xiàn)的知識(shí)有如下幾種:廣義型知識(shí),反映同類事物共同性質(zhì)的知識(shí);特征型知識(shí),反映事物各方面的特征知識(shí);差異型知識(shí),反映不同事物之間屬性差別的知識(shí);關(guān)聯(lián)型知識(shí),反映事物之間依賴或關(guān)聯(lián)的知識(shí);預(yù)測型知識(shí),根據(jù)歷史的和當(dāng)前的數(shù)據(jù)推測未來數(shù)據(jù);偏離型知識(shí),揭示事物偏離常規(guī)的異?,F(xiàn)象。所有這些知識(shí)都可以在不同的概念層次上被發(fā)現(xiàn),隨著概念樹的提升,從微觀到中觀再到宏觀,以滿足不同用戶、不同層次決策的需要。

      數(shù)據(jù)挖掘是涉及數(shù)據(jù)庫、人工智能、數(shù)理統(tǒng)計(jì)、機(jī)械學(xué)、人工神經(jīng)網(wǎng)絡(luò)、可視化、并行計(jì)算等的交叉學(xué)科,是目前國際上數(shù)據(jù)庫和決策支持領(lǐng)域的最前沿的研究方向之一。

      3,數(shù)據(jù)挖掘的功能

      數(shù)據(jù)挖掘通過預(yù)測未來趨勢及行為,做出預(yù)測性的、基于知識(shí)的決策。數(shù)據(jù)挖掘的目標(biāo)是從數(shù)據(jù)庫中發(fā)現(xiàn)隱含的、有意義的知識(shí),按其功能可分為以 下幾類。

      3.1 關(guān)聯(lián)分析(Association Analysis)

      關(guān)聯(lián)分析能尋找到數(shù)據(jù)庫中大量數(shù)據(jù)的相關(guān)聯(lián)系,常用的一種技術(shù)為關(guān)聯(lián)規(guī)則和序列模式。關(guān)聯(lián)規(guī)則是發(fā)現(xiàn)一個(gè)事物與其他事物間的相互關(guān)聯(lián)性或相互依賴性。

      3.2 聚類

      輸入的數(shù)據(jù)并無任何類型標(biāo)記,聚類就是按一定的規(guī)則將數(shù)據(jù)劃分為合理的集合,即將對象分組為多個(gè)類或簇,使得在同一個(gè)簇中的對象之間具有較高的相似度,而在不同簇中的對象差別很大。聚類增強(qiáng)了人們對客觀現(xiàn)實(shí)的認(rèn)識(shí),是概念描述和偏差分析的先決條件。聚類技術(shù)主要包括傳統(tǒng)的模式識(shí)別方法和數(shù)學(xué)分類學(xué)。

      3.3 自動(dòng)預(yù)測趨勢和行為

      數(shù)據(jù)挖掘自動(dòng)在大型數(shù)據(jù)庫中進(jìn)行分類和預(yù)測,尋找預(yù)測性信息,自動(dòng)地提出描述重要數(shù)據(jù)類的模型或預(yù)測未來的數(shù)據(jù)趨勢,這樣以往需要進(jìn)行大量手工分析的問題如今可以迅速直接由數(shù)據(jù)本身得出結(jié)論。

      3.4 概念描述

      對于數(shù)據(jù)庫中龐雜的數(shù)據(jù),人們期望以簡潔的描述形式來描述匯集的數(shù)據(jù)集。概念描述就是對某類對象的內(nèi)涵進(jìn)行描述并概括出這類對象的有關(guān)特征。概念描述分為特征性描述和區(qū)別性描述,前者描述某類對象的共同特征,后者描述不同類對象之間的區(qū)別。生成一個(gè)類的特征性只涉及該類對象中所有對象的共性。生成區(qū)別性描述的方法很多,如決策樹方法、遺傳算法等。

      3.5 偏差檢測

      數(shù)據(jù)庫中的數(shù)據(jù)常有一些異常記錄,從數(shù)據(jù)庫中檢測這些偏差很有意義。偏差包括很多潛在的知識(shí),如分類中的反常實(shí)例、不滿足規(guī)則的特例、觀測結(jié)果與模型預(yù)測值的偏差、量值隨時(shí)間的變化等。偏差檢測的基本方法是尋找觀測結(jié)果與參照值之間有意義的差別。這常用于金融銀行業(yè)中檢測欺詐行為,或市場分析中分析特殊消費(fèi)者的消費(fèi)習(xí)慣。

      三.目前的研究現(xiàn)狀及存在的主要問題

      自KDD一詞首次出現(xiàn)在1989年8月舉行的第11屆國際聯(lián)合人工智能學(xué)術(shù)會(huì)議以來。迄今為止,由美國人工智能協(xié)會(huì)主辦的KDD國際研討會(huì)已經(jīng)召開了13次,規(guī)模由原來的專題討論會(huì)發(fā)展到國際學(xué)術(shù)大會(huì),人數(shù)由二三十人到超過千人,論文收錄數(shù)量也迅速增加,研究重點(diǎn)也從發(fā)現(xiàn)方法逐漸轉(zhuǎn)向系統(tǒng)應(yīng)用直到轉(zhuǎn)向大規(guī)模綜合系統(tǒng)的開發(fā),并且注重多種發(fā)現(xiàn)策略和技術(shù)的集成,以及多種學(xué)科之間的相互滲透。其他內(nèi)容的專題會(huì)議也把數(shù)據(jù)挖掘和知識(shí)發(fā)現(xiàn)列為議題之一,成為當(dāng)前計(jì)算機(jī)科學(xué)界的一大熱點(diǎn)。

      與國外相比,國內(nèi)對DMKD的研究稍晚,沒有形成整體力量。1993年國家自然科學(xué)基金首次支持我們對該領(lǐng)域的研究項(xiàng)目。目前,國內(nèi)的許多科研單位和高等院校競相開展知識(shí)發(fā)現(xiàn)的基礎(chǔ)理論及其應(yīng)用研究,這些單位包括清華大學(xué)、中科院計(jì)算技術(shù)研究所、空軍第三研究所、海軍裝備論證中心等。其中,北京系統(tǒng)工程

      研究所對模糊方法在知識(shí)發(fā)現(xiàn)中的應(yīng)用進(jìn)行了較深入的研究,北京大學(xué)也在開展對數(shù)據(jù)立方體代數(shù)的研究,華中理工大學(xué)、復(fù)旦大學(xué)、浙江大學(xué)、中國科技大學(xué)、中科院數(shù)學(xué)研究所、吉林大學(xué)等單位開展了對關(guān)聯(lián)規(guī)則開采算法的優(yōu)化和改造;南京大學(xué)、四川聯(lián)合大學(xué)和上海交通大學(xué)等單位探討、研究了非結(jié)構(gòu)化數(shù)據(jù)的知識(shí)發(fā)現(xiàn)以及Web數(shù)據(jù)挖掘。

      四.研究內(nèi)容

      1,數(shù)據(jù)挖掘的過程

      數(shù)據(jù)挖掘是指一個(gè)完整的過程,該過程從大型數(shù)據(jù)庫中挖掘先前未知的、有效的、可實(shí)用的信息,并使用這些信息做出決策或豐富知識(shí)。

      數(shù)據(jù)挖掘的一般過程如下流程圖所示:

      圖1,數(shù)據(jù)掘的一般過程

      2.1 神經(jīng)網(wǎng)絡(luò)

      神經(jīng)網(wǎng)絡(luò)方法是模擬人腦神經(jīng)元結(jié)構(gòu),以MP模型和Hebb學(xué)習(xí)規(guī)則為基礎(chǔ)。它主要有三種神經(jīng)網(wǎng)絡(luò)模型:前饋式網(wǎng)絡(luò)、反饋式網(wǎng)絡(luò)、自組織網(wǎng)絡(luò)。為

      2.2決策樹

      決策樹學(xué)習(xí)著眼于從一組無次序、無規(guī)則的事中推理出決策樹表示形式的分類規(guī)則。它采用自頂向下的遞歸方式,在決策樹的內(nèi)部結(jié)點(diǎn)進(jìn)行屬性值的比較并根據(jù)不同的屬性值判斷從該結(jié)點(diǎn)向下的分支,在決策樹的葉結(jié)點(diǎn)得到結(jié)論。

      2.3 遺傳算法

      遺傳算法是一種優(yōu)化技術(shù),是模擬生物進(jìn)化過程的算法。基于進(jìn)化理論,并采用遺傳結(jié)合、遺傳變異以及自然選擇等設(shè)計(jì)方法。由三個(gè)基本算子組成:繁殖、交叉、變異。

      2.4 傳統(tǒng)統(tǒng)計(jì)分析

      這類技術(shù)建立在傳統(tǒng)的數(shù)理統(tǒng)計(jì)的基礎(chǔ)上。在數(shù)據(jù)庫字段項(xiàng)之間存在兩種關(guān)系:函數(shù)關(guān)系(能用函數(shù)公式表示的確定性關(guān)系)和相關(guān)關(guān)系(不能用函數(shù)公式表示,但仍是相關(guān)確定性關(guān)系),對它們的分析可采用判別分析、因子分析、相關(guān)分析、多元回歸分

      析及偏最小二乘回歸方法等。

      2.5 關(guān)聯(lián)規(guī)則

      關(guān)聯(lián)規(guī)則是發(fā)現(xiàn)一個(gè)事物與其他事物間的相互關(guān)聯(lián)性或相互依賴性。關(guān)聯(lián)規(guī)則是展示屬性: 值頻繁地在給定數(shù)據(jù)集中一起出現(xiàn)的條件,是數(shù)據(jù)挖掘中作用比較廣泛的知識(shí)之一。

      2.6 可視化技術(shù)

      可視化技術(shù)是利用計(jì)算機(jī)圖形學(xué)和圖像技術(shù),將數(shù)據(jù)轉(zhuǎn)換成圖形或圖像在屏幕上顯示出來,并進(jìn)行交互處理的理論、方法和技術(shù)??梢暬瘮?shù)據(jù)挖掘技術(shù)將可視化有機(jī)地融合到數(shù)

      據(jù)挖掘之中,使用戶對于數(shù)據(jù)挖掘有一個(gè)更加直接直觀清晰的了解,提供讓用戶有效、主動(dòng)參與數(shù)據(jù)挖掘過程的方法。

      3,數(shù)據(jù)挖掘的應(yīng)用領(lǐng)域

      數(shù)據(jù)挖掘技術(shù)從一開始就是面向應(yīng)用的。它不僅是面向特定數(shù)據(jù)庫的簡單檢索查詢調(diào)用,而且要對這些數(shù)據(jù)進(jìn)行微觀、中觀乃至宏觀的統(tǒng)計(jì),分析,綜合和推理,以指導(dǎo)實(shí)際問題的求解,企圖發(fā)現(xiàn)事件間的相互關(guān)聯(lián),甚至利用已有的數(shù)據(jù)對未來的活動(dòng)

      進(jìn)行預(yù)測。

      一般Data Mining較長被應(yīng)用的領(lǐng)域包括金融業(yè)、保險(xiǎn)業(yè)、零售業(yè)、直效行銷業(yè)、通訊業(yè)、制造業(yè)以及醫(yī)療服務(wù)業(yè)等。更廣義的說法是:數(shù)據(jù)挖掘意味著在一些事實(shí)或觀察數(shù)據(jù)的集合中尋找模式的決策支持過程。

      4,數(shù)據(jù)挖掘的發(fā)展方向

      目前,數(shù)據(jù)挖掘的研究方面主要有:數(shù)據(jù)庫知識(shí)發(fā)現(xiàn)方面,將知識(shí)發(fā)現(xiàn)(KDD)與數(shù)據(jù)庫系統(tǒng)、數(shù)據(jù)倉庫系統(tǒng)和Web數(shù)據(jù)庫系統(tǒng)緊密結(jié)合,力圖充分利用Web中的豐富資源;機(jī)器學(xué)習(xí)方面,進(jìn)一步研究知識(shí)發(fā)現(xiàn)方法,希望克服現(xiàn)存算法的計(jì)算性瓶頸,如注重對Bayes(貝葉斯)方法以及Boosting算法的研究和提高;統(tǒng)計(jì)領(lǐng)域,加大傳統(tǒng)統(tǒng)計(jì)方法在數(shù)據(jù)挖掘中的應(yīng)用。數(shù)據(jù)挖掘研究正蓬勃開展,在今后還會(huì)掀起更大的波瀾,其研究焦點(diǎn)集中到以下幾個(gè)方面:研究專門用于知識(shí)發(fā)現(xiàn)的數(shù)據(jù)挖掘語言,也許會(huì)像SQL語言一樣走向形式化和標(biāo)準(zhǔn)化;尋求數(shù)據(jù)挖掘過程中的可視化方法,使得知識(shí)發(fā)現(xiàn)的過程能夠被用戶理解,也便于在知識(shí)發(fā)現(xiàn)過程中的人機(jī)交互;研究在網(wǎng)絡(luò)環(huán)境下的數(shù)據(jù)挖掘技術(shù),特別是在Internet上建立數(shù)據(jù)挖掘服務(wù)器,與數(shù)據(jù)庫服務(wù)器配合,實(shí)現(xiàn)數(shù)據(jù)挖掘;加強(qiáng)對各種非結(jié)構(gòu)化數(shù)據(jù)的挖掘,如文本數(shù)據(jù)、圖形圖像數(shù)據(jù)、多媒體數(shù)據(jù)。

      5,數(shù)據(jù)挖掘的新技術(shù)

      Web數(shù)據(jù)挖掘技術(shù)首要解決半結(jié)構(gòu)化數(shù)據(jù)源模型和半結(jié)構(gòu)化數(shù)據(jù)模型的查詢與集成問題。這就必須要有一個(gè)模型來清晰地描述Web上的數(shù)據(jù),而尋找一個(gè)半結(jié)構(gòu)化的數(shù)據(jù)模型是解決問題的關(guān)鍵所在。除此之外,還需要一種半結(jié)構(gòu)化模型抽取技術(shù),即自動(dòng)地從現(xiàn)有數(shù)據(jù)中抽取半結(jié)構(gòu)化模型的技術(shù)。

      XML可看作一種半結(jié)構(gòu)化的數(shù)據(jù)模型,可以很容易地將XML的文檔描述與關(guān)系數(shù)據(jù)庫中的屬性對應(yīng)起來,實(shí)施精確地查詢與模型抽取。利用XML.Web設(shè)計(jì)人員不僅能創(chuàng)建文字和圖形,而且還能構(gòu)建文檔類型定義的多層次、相互依存的系統(tǒng)、數(shù)據(jù)樹、元數(shù)據(jù)、超鏈接結(jié)構(gòu)和樣式表。

      6,數(shù)據(jù)挖掘面臨的問題和挑戰(zhàn)

      雖然數(shù)據(jù)挖掘技術(shù)已經(jīng)在各方面都得到了廣泛的應(yīng)用,但數(shù)據(jù)挖掘技術(shù)的研究還不夠成熟,在應(yīng)用上有很大的局限性。正是這些局限性,促使數(shù)據(jù)挖掘技術(shù)進(jìn)一步的發(fā)展:

      (1)挖掘的對象 數(shù)據(jù)庫更大,維數(shù)更高,屬性之間更復(fù)雜,數(shù)據(jù)挖掘處理的數(shù)據(jù)通

      常十分巨大。

      (2)數(shù)據(jù)丟失問題 因大部分?jǐn)?shù)據(jù)庫不是為知識(shí)發(fā)現(xiàn)而定做的,那么它就有可能會(huì)存在一些重要的數(shù)據(jù)和屬性丟失的問題。

      (3)多種形式的輸入數(shù)據(jù) 目前數(shù)據(jù)挖掘工具能處理的數(shù)據(jù)形式有限,一般只能處理數(shù)值型的結(jié)構(gòu)化數(shù)據(jù)。

      (4)網(wǎng)絡(luò)與分布式環(huán)境的KDD問題 隨網(wǎng)絡(luò)的發(fā)展,資源的豐富,技術(shù)人員各自獨(dú)立處理分離數(shù)據(jù)庫的工作方式應(yīng)是可協(xié)作的。

      五.研究達(dá)到的預(yù)期結(jié)果

      系統(tǒng)的介紹數(shù)據(jù)挖掘技術(shù),使更多的研究人員在數(shù)據(jù)庫中發(fā)現(xiàn)有用的,有潛在價(jià)

      值的數(shù)據(jù)知識(shí)。

      六.小結(jié)

      通過各方面資料的查找,理解了基本的數(shù)據(jù)挖掘概念、數(shù)據(jù)挖掘技術(shù)、數(shù)據(jù)挖掘的實(shí)際應(yīng)用及國內(nèi)外現(xiàn)狀。在論文中將對數(shù)據(jù)挖掘的概念以及發(fā)展概況進(jìn)行介紹,并總結(jié)數(shù)據(jù)挖掘中使用的技術(shù),主要結(jié)合當(dāng)前的研究成果,分析了數(shù)據(jù)挖掘領(lǐng)域的。研究領(lǐng)域方面,可能主要集中在網(wǎng)絡(luò)信息中的主要應(yīng)用。

      七.畢業(yè)論文進(jìn)程安排

      序號(hào) 論文各階段安排內(nèi)容 日期資料調(diào)研及方案設(shè)計(jì) 1.4-1.10數(shù)據(jù)挖掘的概論研究 1.11-1.25數(shù)據(jù)挖掘常用技術(shù)研究 1.26-2.15數(shù)據(jù)挖掘的應(yīng)用研究 2.15-3.1(中期檢查)數(shù)據(jù)挖掘的新技術(shù)研究 3.1-3.10數(shù)據(jù)挖掘的發(fā)展方向 3.11-3.16撰寫論文 3.16-4.10論文修改 4.11-4.30準(zhǔn)備答辯,交老師審閱 5.1-5.5畢業(yè)論文答辯 5.6-?

      第三篇:數(shù)據(jù)挖掘研究現(xiàn)狀

      一、時(shí)代的挑戰(zhàn)

      近十幾年來,人們利用信息技術(shù)生產(chǎn)和搜集數(shù)據(jù)的能力大幅度提高,千萬萬個(gè)數(shù)據(jù)庫被用于商業(yè)管理、政府辦公、科學(xué)研究和工程開發(fā)等等,這一勢頭仍將持續(xù)發(fā)展下去。于是,一個(gè)新的挑戰(zhàn)被提了出來:在這被稱之為信息爆炸的時(shí)代,信息過量幾乎成為人人需要面對的問題。如何才能不被信息的汪洋大海所淹沒,從中及時(shí)發(fā)現(xiàn)有用的知識(shí),提高信息利用率呢?要想使數(shù)據(jù)真正成為一個(gè)公司的資源,只有充分利用它為公司自身的業(yè)務(wù)決策和戰(zhàn)略發(fā)展服務(wù)才行,否則大量的數(shù)據(jù)可能成為包袱,甚至成為垃圾。因此,面對“人們被數(shù)據(jù)淹沒,人們卻饑餓于知識(shí)”的挑戰(zhàn),數(shù)據(jù)挖掘和知識(shí)發(fā)現(xiàn)(DMKD)技術(shù)應(yīng)運(yùn)而生,并得以蓬勃發(fā)展,越來越顯示出其強(qiáng)大的生命力。

      數(shù)據(jù)挖掘(Data Mining)就是從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識(shí)的過程。還有很多和這一術(shù)語相近似的術(shù)語,如從數(shù)據(jù)庫中發(fā)現(xiàn)知識(shí)(KDD)、數(shù)據(jù)分析、數(shù)據(jù)融合(Data Fusion)以及決策支持等。人們把原始數(shù)據(jù)看作是形成知識(shí)的源泉,就像從礦石中采礦一樣。原始數(shù)據(jù)可以是結(jié)構(gòu)化的,如關(guān)系數(shù)據(jù)庫中的數(shù)據(jù),也可以是半結(jié)構(gòu)化的,如文本、圖形、圖像數(shù)據(jù),甚至是分布在網(wǎng)絡(luò)上的異構(gòu)型數(shù)據(jù)。發(fā)現(xiàn)知識(shí)的方法可以是數(shù)學(xué)的,也可以是非數(shù)學(xué)的;可以是演繹的,也可以是歸納的。發(fā)現(xiàn)了的知識(shí)可以被用于信息管理、查詢優(yōu)化、決策支持、過程控制等,還可以用于數(shù)據(jù)自身的維護(hù)。因此,數(shù)據(jù)挖掘是一門很廣義的交叉學(xué)科,它匯聚了不同領(lǐng)域的研究者,尤其是數(shù)據(jù)庫、人工智能、數(shù)理統(tǒng)計(jì)、可視化、并行計(jì)算等方面的學(xué)者和工程技術(shù)人員。

      特別要指出的是,數(shù)據(jù)挖掘技術(shù)從一開始就是面向應(yīng)用的。它不僅是面向特定數(shù)據(jù)庫的簡單檢索查詢調(diào)用,而且要對這些數(shù)據(jù)進(jìn)行微觀、中觀乃至宏觀的統(tǒng)計(jì)、分析、綜合和推理,以指導(dǎo)實(shí)際問題的求解,企圖發(fā)現(xiàn)事件間的相互關(guān)聯(lián),甚至利用已有的數(shù)據(jù)對未來的活動(dòng)進(jìn)行預(yù)測。

      二、研究現(xiàn)狀

      KDD一詞首次出現(xiàn)在1989年8月舉行的第11屆國際聯(lián)合人工智能學(xué)術(shù)會(huì)議上。迄今為止,由美國人工智能協(xié)會(huì)主辦的KDD國際研討會(huì)已經(jīng)召開了7次,規(guī)模由原來的專題討論會(huì)發(fā)展到國際學(xué)術(shù)大會(huì),人數(shù)由二三十人到七八百人,論文收錄比例從2X1到6X1,研究重點(diǎn)也逐漸從發(fā)現(xiàn)方法轉(zhuǎn)向系統(tǒng)應(yīng)用,并且注重多種發(fā)現(xiàn)策略和技術(shù)的集成,以及多種學(xué)科之間的相互滲透。其 諶蕕淖ㄌ饣嵋橐舶咽萃誥蠔橢斗⑾至形樘庵?成為當(dāng)前計(jì)算機(jī)科學(xué)界的一大熱點(diǎn)。

      此外,數(shù)據(jù)庫、人工智能、信息處理、知識(shí)工程等領(lǐng)域的國際學(xué)術(shù)刊物也紛紛開辟了 KDD專題或?qū)??。IEEE的Knowledge and Data Engineering 會(huì)刊領(lǐng)先在1993年出版了KD D技術(shù)專刊,所發(fā)表的5篇論文代表了當(dāng)時(shí)KDD研究的最新成果和動(dòng)態(tài),較全面地論述了KDD 系統(tǒng)方法論、發(fā)現(xiàn)結(jié)果的評價(jià)、KDD系統(tǒng)設(shè)計(jì)的邏輯方法,集中討論了鑒于數(shù)據(jù)庫的動(dòng)態(tài)性冗余、高噪聲和不確定性、空值等問題,KDD系統(tǒng)與其它傳統(tǒng)的機(jī)器學(xué)習(xí)、專家系統(tǒng)、人工神經(jīng)網(wǎng)絡(luò)、數(shù)理統(tǒng)計(jì)分析系統(tǒng)的聯(lián)系和區(qū)別,以及相應(yīng)的基本對策。6篇論文摘要展示了KDD在從建立分子模型到設(shè)計(jì)制造業(yè)的具體應(yīng)用。

      不僅如此,在Internet上還有不少KDD電子出版物,其中以半月刊Knowledge Discove

      ryNuggets最為權(quán)威,另一份在線周刊為DS*(DS代表決策支持),1997年10月7日開始出版。在網(wǎng)上,還有一個(gè)自由論壇 DM Email Club, 人們通過電子郵件相互討論DMKD的熱點(diǎn)問題。而領(lǐng)導(dǎo)整個(gè)潮流的DMKD開發(fā)和研究中心,當(dāng)數(shù)設(shè)在美國EMDEN的IBM公司開發(fā)部。至于DMKD書籍,可以在任何計(jì)算機(jī)書店找到十多本,但大多帶有商業(yè)色彩。

      三、內(nèi)容和本質(zhì)

      隨著DMKD研究逐步走向深入,人們越來越清楚地認(rèn)識(shí)到,DMKD的研究主要有3個(gè)技術(shù)支柱,即數(shù)據(jù)庫、人工智能和數(shù)理統(tǒng)計(jì)。

      數(shù)據(jù)庫技術(shù)在經(jīng)過了80年代的輝煌之后,已經(jīng)在各行各業(yè)成為一種數(shù)據(jù)庫文化或時(shí)尚,數(shù)據(jù)庫界目前除了關(guān)注萬維網(wǎng)數(shù)據(jù)庫、分布式數(shù)據(jù)庫、面向?qū)ο髷?shù)據(jù)庫、多媒體數(shù)據(jù)庫、查詢優(yōu)化和并行計(jì)算等技術(shù)外,已經(jīng)在開始反思。數(shù)據(jù)庫最實(shí)質(zhì)的應(yīng)用僅僅是查詢嗎?理論根基最深的關(guān)系數(shù)據(jù)庫最本質(zhì)的技術(shù)進(jìn)步點(diǎn),就是數(shù)據(jù)存放和數(shù)據(jù)使用之間的相互分離。查詢是數(shù)據(jù)庫的奴隸,發(fā)現(xiàn)才是數(shù)據(jù)庫的主人;數(shù)據(jù)只為職員服務(wù),不為老板服務(wù)!這是很多單位的領(lǐng)導(dǎo)在熱心數(shù)據(jù)庫建設(shè)后發(fā)出的感嘆。

      由于數(shù)據(jù)庫文化的迅速普及,用數(shù)據(jù)庫作為知識(shí)源具有堅(jiān)實(shí)的基礎(chǔ);另一方面,對于一個(gè)感興趣的特定領(lǐng)域——客觀世界,先用數(shù)據(jù)庫技術(shù)將其形式化并組織起來,就會(huì)大大提高知識(shí)獲取起點(diǎn),以后從中發(fā)掘或發(fā)現(xiàn)的所有知識(shí)都是針對該數(shù)據(jù)庫而言的。因此,在需求的驅(qū)動(dòng)下,很多數(shù)據(jù)庫學(xué)者轉(zhuǎn)向?qū)?shù)據(jù)倉庫和數(shù)據(jù)挖掘的研究,從對演繹數(shù)據(jù)庫的研究轉(zhuǎn)向?qū)w納數(shù)據(jù)庫的研究。

      專家系統(tǒng)曾經(jīng)是人工智能研究工作者的驕傲。專家系統(tǒng)實(shí)質(zhì)上是一個(gè)問題求解系統(tǒng) ,目前的主要理論工具是基于謂詞演算的機(jī)器定理證明技術(shù)——二階演繹系統(tǒng)。領(lǐng)域?qū)<议L期以來面向一個(gè)特定領(lǐng)域的經(jīng)驗(yàn)世界,通過人腦的思維活動(dòng)積累了大量有用信息。

      在研制一個(gè)專家系統(tǒng)時(shí),知識(shí)工程師首先要從領(lǐng)域?qū)<夷抢铽@取知識(shí),這一過程實(shí)質(zhì)上是歸納過程,是非常復(fù)雜的個(gè)人到個(gè)人之間的交互過程,有很強(qiáng)的個(gè)性和隨機(jī)性。因此 ,知識(shí)獲取成為專家系統(tǒng)研究中公認(rèn)的瓶頸問題。

      其次,知識(shí)工程師在整理表達(dá)從領(lǐng)域?qū)<夷抢铽@得的知識(shí)時(shí),用if-then等類的規(guī)則表達(dá),約束性太大,用常規(guī)數(shù)理邏輯來表達(dá)社會(huì)現(xiàn)象和人的思維活動(dòng)局限性太大,也太困難, 勉強(qiáng)抽象出來的規(guī)則有很強(qiáng)的工藝色彩,差異性極大,知識(shí)表示又成為一大難題。

      此外,即使某個(gè)領(lǐng)域的知識(shí)通過一定手段獲取并表達(dá)了,但這樣做成的專家系統(tǒng)對常識(shí)和百科知識(shí)出奇地貧乏,而人類專家的知識(shí)是以擁有大量常識(shí)為基礎(chǔ)的。人工智能學(xué)家 Feigenbaum估計(jì),一般人擁有的常識(shí)存入計(jì)算機(jī)大約有100萬條事實(shí)和抽象經(jīng)驗(yàn)法則,離開常識(shí)的專家系統(tǒng)有時(shí)會(huì)比傻子還傻。例如戰(zhàn)場指揮員會(huì)根據(jù)“在某地發(fā)現(xiàn)一只剛死的波斯貓”的情報(bào)很快斷定敵高級指揮所的位置,而再好的軍事專家系統(tǒng)也難以顧全到如此的信息。

      以上這3大難題大大限制了專家系統(tǒng)的應(yīng)用,使得專家系統(tǒng)目前還停留在構(gòu)造諸如發(fā)動(dòng)機(jī)故障論斷一類的水平上。人工智能學(xué)者開始著手基于案例的推理,尤其是從事機(jī)器學(xué)習(xí)的科學(xué)家們,不再滿足自己構(gòu)造的小樣本學(xué)習(xí)模式的象牙塔,開始正視現(xiàn)實(shí)生活中大量的、不完全的、有噪聲的、模糊的、隨機(jī)的大數(shù)據(jù)樣本,也走上了數(shù)據(jù)挖掘的道路。

      數(shù)理統(tǒng)計(jì)是應(yīng)用數(shù)學(xué)中最重要、最活躍的學(xué)科之一,它在計(jì)算機(jī)發(fā)明之前就誕生了, 迄今已有幾百年的發(fā)展歷史。如今相當(dāng)強(qiáng)大有效的數(shù)理統(tǒng)計(jì)方法和工具,已成為信息咨詢業(yè)的基礎(chǔ)。信息時(shí)代,咨詢業(yè)更為發(fā)達(dá)。然而,數(shù)理統(tǒng)計(jì)和數(shù)據(jù)庫技術(shù)結(jié)合得并不算快,數(shù)據(jù)庫查詢語言SQL中的聚合函數(shù)功能極其簡單,就是一個(gè)證明。咨詢業(yè)用數(shù)據(jù)庫查詢數(shù)據(jù)還遠(yuǎn)遠(yuǎn)不夠。一旦人們有了從數(shù)據(jù)查詢到知識(shí)發(fā)現(xiàn)、從數(shù)據(jù)演繹到數(shù)據(jù)歸納的要求,概率論和數(shù)理統(tǒng)計(jì)就獲得了新的生命力,所以才會(huì)在DMKD這個(gè)結(jié)合點(diǎn)上,立即呈現(xiàn)出“忽如一夜春風(fēng)來,千樹萬樹梨花開”的繁榮景象。一向以數(shù)理統(tǒng)計(jì)工具和可視化計(jì)算聞名的美國SA S公司,領(lǐng)先宣布進(jìn)入DMKD行列。

      數(shù)據(jù)挖掘所能發(fā)現(xiàn)的知識(shí)有如下幾種:廣義型知識(shí),反映同類事物共同性質(zhì)的知識(shí);特征型知識(shí),反映事物各方面的特征知識(shí);差異型知識(shí),反映不同事物之間屬性差別的知識(shí);關(guān)聯(lián)型知識(shí),反映事物之間依賴或關(guān)聯(lián)的知識(shí);預(yù)測型知識(shí),根據(jù)歷史的和當(dāng)前的數(shù)據(jù)推測未來數(shù)據(jù);偏離型知識(shí),揭示事物偏離常規(guī)的異?,F(xiàn)象。所有這些知識(shí)都可以在不同的概念層次上被發(fā)現(xiàn),隨著概念樹的提升,從微觀到中觀再到宏觀,以滿足不同用戶、不同層次決策的需要。

      四、發(fā)展方向

      當(dāng)前,DMKD研究正方興未艾,預(yù)計(jì)在21世紀(jì)還會(huì)形成更大的高潮,研究焦點(diǎn)可能會(huì)集中到以下幾個(gè)方面:研究專門用于知識(shí)發(fā)現(xiàn)的數(shù)據(jù)挖掘語言,也許會(huì)像SQL語言一樣走向形式化和標(biāo)準(zhǔn)化;尋求數(shù)據(jù)挖掘過程中的可視化方法,使得知識(shí)發(fā)現(xiàn)的過程能夠被用戶理解 ,也便于在知識(shí)發(fā)現(xiàn)過程中的人機(jī)交互;研究在網(wǎng)絡(luò)環(huán)境下的數(shù)據(jù)挖掘技術(shù),特別是在Int ernet上建立DMKD服務(wù)器,與數(shù)據(jù)庫服務(wù)器配合,實(shí)現(xiàn)數(shù)據(jù)挖掘;加強(qiáng)對各種非結(jié)構(gòu)化數(shù)據(jù)的挖掘,如文本數(shù)據(jù)、圖形圖像數(shù)據(jù)、多媒體數(shù)據(jù)。但是,無論怎樣,需求牽引,市場驅(qū)動(dòng)是永恒的,DMKD將首先滿足信息時(shí)代用戶的急需,大量基于DMKD的決策支持軟件工具產(chǎn)品將會(huì)問世

      第四篇:數(shù)據(jù)挖掘教學(xué)方法研究論文

      摘要:在本科高年級學(xué)生中開設(shè)符合學(xué)術(shù)研究和工業(yè)應(yīng)用熱點(diǎn)的進(jìn)階課程是十分必要的。以數(shù)據(jù)挖掘課程為例,本科高年級學(xué)生了解并掌握數(shù)據(jù)挖掘的相關(guān)技術(shù),對于其今后的工作、學(xué)習(xí)不無裨益。著重闡述數(shù)據(jù)挖掘等進(jìn)階課程在本科高年級學(xué)生中的教學(xué)方法,基于本科高年級學(xué)生的實(shí)際情況,以及進(jìn)階課程的知識(shí)體系特點(diǎn),提出有針對性的教學(xué)方法參考,從而提高進(jìn)階課程的教學(xué)效果。

      關(guān)鍵詞:數(shù)據(jù)挖掘;進(jìn)階課程;教學(xué)方法研究;本科高年級

      學(xué)生在本科高年級學(xué)生中開設(shè)數(shù)據(jù)挖掘等進(jìn)階課程是十分必要的,以大數(shù)據(jù)、數(shù)據(jù)挖掘?yàn)槔?,其相關(guān)技術(shù)不僅是當(dāng)前學(xué)術(shù)界的研究熱點(diǎn),也是各家企事業(yè)單位招聘中重要崗位的要求之一。對于即將攻讀碩士或博士學(xué)位的學(xué)生,對于即將走上工作崗位的學(xué)生,了解并掌握一些大數(shù)據(jù)相關(guān)技術(shù),尤其是數(shù)據(jù)挖掘技術(shù),都是不無裨益的。在目前本科教學(xué)中,對于數(shù)據(jù)挖掘等課程的教學(xué),由于前序課程的要求,往往是放在本科四年級進(jìn)行。如何激發(fā)本科四年級學(xué)生在考研,找工作等繁雜事務(wù)中的學(xué)習(xí)興趣,從而更好地掌握數(shù)據(jù)挖掘的相關(guān)技術(shù)是本課程面臨的主要挑戰(zhàn),也是所有本科進(jìn)階課程所面臨的難題之一。

      1數(shù)據(jù)挖掘等進(jìn)階課程所面臨的問題

      1.1進(jìn)階課程知識(shí)體系的綜合性

      進(jìn)階課程由于其理論與技術(shù)的先進(jìn)性,往往是學(xué)術(shù)研究的前沿,工業(yè)應(yīng)用的熱點(diǎn),是綜合多方面知識(shí)的課程。以數(shù)據(jù)挖掘課程為例,其中包括數(shù)據(jù)庫、機(jī)器學(xué)習(xí)、模式識(shí)別、統(tǒng)計(jì)、可視化、高性能技術(shù),算法等多方面的知識(shí)內(nèi)容。雖然學(xué)生在前期的本科學(xué)習(xí)中已經(jīng)掌握了部分相關(guān)內(nèi)容,如數(shù)據(jù)庫、統(tǒng)計(jì)、算法等,但對于其他內(nèi)容如機(jī)器學(xué)習(xí)、人工智能、模式識(shí)別、可視化等,有的是與數(shù)據(jù)挖掘課程同時(shí)開設(shè)的進(jìn)階課程,有的已經(jīng)是研究生的教學(xué)內(nèi)容。對于進(jìn)階課程繁雜的知識(shí)體系,應(yīng)該如何把握廣度和深度的關(guān)系尤為重要。

      1.2進(jìn)階課程的教學(xué)的目的要求

      進(jìn)階課程的知識(shí)體系的綜合性體現(xiàn)在知識(shí)點(diǎn)過多、技術(shù)特征復(fù)雜。從教學(xué)效益的角度出發(fā),進(jìn)階課程的教學(xué)目的是在有限的課時(shí)內(nèi)最大化學(xué)生的知識(shí)收獲。從教學(xué)結(jié)果的可測度出發(fā),進(jìn)階課程的教學(xué)需要能夠有效驗(yàn)證學(xué)生掌握重點(diǎn)知識(shí)的學(xué)習(xí)成果。1.3本科高年級學(xué)生的實(shí)際情況本科高年級學(xué)生需要處理考研復(fù)習(xí),找工作等繁雜事務(wù),往往對于剩余本科階段的學(xué)習(xí)不重視,存在得過且過的心態(tài)。進(jìn)階課程往往是專業(yè)選修課程,部分學(xué)分已經(jīng)修滿的學(xué)生往往放棄這部分課程的學(xué)習(xí),一來沒有時(shí)間,二來怕拖累學(xué)分。

      2數(shù)據(jù)挖掘等進(jìn)階課程的具體教學(xué)方法

      進(jìn)階課程的教學(xué)理念是在有限的課時(shí)內(nèi),盡可能地提高課程的廣度,增加介紹性內(nèi)容,在授課中著重講解1~2個(gè)關(guān)鍵技術(shù),如在數(shù)據(jù)挖掘課程中,著重講解分類中的決策樹算法,聚類中的K-Means算法等復(fù)雜度一般,應(yīng)用廣泛的重要知識(shí)點(diǎn),并利用實(shí)踐來檢驗(yàn)學(xué)習(xí)成果。

      2.1進(jìn)階課程的課堂教學(xué)

      數(shù)據(jù)挖掘等進(jìn)階課程所涉及的知識(shí)點(diǎn)眾多,在課堂上則采用演示和講授相結(jié)合的方法,對大部分知識(shí)點(diǎn)做廣度介紹,而對需要重點(diǎn)掌握知識(shí)點(diǎn)具體講授,結(jié)合實(shí)踐案例及板書。在介紹工業(yè)實(shí)踐案例的過程中,對于具體數(shù)據(jù)挖掘任務(wù)的來龍去脈解釋清楚,尤其是對于問題的歸納,數(shù)據(jù)的處理,算法的選擇等步驟,并在不同的知識(shí)點(diǎn)的教學(xué)中重復(fù)介紹和總結(jié)數(shù)據(jù)挖掘的一般性流程,可以加深學(xué)生對于數(shù)據(jù)挖掘的深入理解。對于一些需要記憶的知識(shí)點(diǎn),在課堂上采用隨機(jī)問答的方式,必要的時(shí)候可以在每堂課的開始重復(fù)提問,提高學(xué)習(xí)的效果。

      2.2進(jìn)階課程的課后教學(xué)

      對于由于時(shí)間限制無法在課上深入討論的知識(shí)點(diǎn),只能依靠學(xué)生在課后自學(xué)掌握。本科高年級學(xué)生的課后自學(xué)的動(dòng)力不像低年級學(xué)生那么充足,可以布置需要?jiǎng)邮謱?shí)踐并涵蓋相關(guān)知識(shí)點(diǎn)的課后實(shí)踐,但盡量降低作業(yè)的工程量。鼓勵(lì)學(xué)生利用開源軟件和框架,基于提供的數(shù)據(jù)集,實(shí)際解決一些簡單的數(shù)據(jù)挖掘任務(wù),讓學(xué)生掌握相關(guān)算法技術(shù)的使用,并對算法有一定的了解。利用學(xué)院與大數(shù)據(jù)相關(guān)企業(yè)建立的合作關(guān)系,在課后通過參觀,了解大數(shù)據(jù)技術(shù)在當(dāng)前企業(yè)實(shí)踐中是如何應(yīng)用的,激發(fā)學(xué)生的學(xué)習(xí)興趣。

      2.3進(jìn)階課程的教學(xué)效果考察進(jìn)階課程的考察不宜采取考試的形式,可以采用大作業(yè)的形式。從具體的數(shù)據(jù)挖掘?qū)嵺`中檢驗(yàn)教學(xué)的成果,力求是學(xué)生在上完本課程后可以解決一些簡單的數(shù)據(jù)挖掘任務(wù),將較復(fù)雜的數(shù)據(jù)挖掘技術(shù)的學(xué)習(xí)留給學(xué)生自己。

      3結(jié)語

      數(shù)據(jù)挖掘是來源于實(shí)踐的科學(xué),學(xué)習(xí)完本課程的學(xué)生需要真正理解,掌握相關(guān)的數(shù)據(jù)挖掘技術(shù),并能夠在實(shí)際數(shù)據(jù)挖掘任務(wù)中應(yīng)用相關(guān)算法解決問題。這也對教師的教學(xué)水平提出了挑戰(zhàn),并直接與教師的科研水平相關(guān)。在具體的教學(xué)過程中,發(fā)現(xiàn)往往是在講授實(shí)際科研中遇到的問題時(shí),學(xué)生的興趣較大,對于書本上的例子則反映一般。進(jìn)階課程在注重教學(xué)方法的基礎(chǔ)上,對于教師的科研水平提出了新的要求,這也是對于教師科研的反哺,使教學(xué)過程變成了教學(xué)相長的過程。

      參考文獻(xiàn):

      [1]孫宇,梁俊斌,鐘淑瑛.面向工程的《數(shù)據(jù)挖掘》課程教學(xué)方法探討[J].現(xiàn)代計(jì)算機(jī),2014(13).[2]蔣盛益,李霞,鄭琪.研究性學(xué)習(xí)和研究性教學(xué)的實(shí)證研究———以數(shù)據(jù)挖掘課程為例[J].計(jì)算機(jī)教育,2014(24).[3]張曉芳,王芬,黃曉.國內(nèi)外大數(shù)據(jù)課程體系與專業(yè)建設(shè)調(diào)查研究[C].2ndInternationalConferenceonEducation,ManagementandSocialScience(ICEMSS2014),2014.[4]郝潔.《無線傳感器網(wǎng)絡(luò)》課程特點(diǎn)、挑戰(zhàn)和解決方案[J].現(xiàn)代計(jì)算機(jī),2016(35).[5]王永紅.計(jì)算機(jī)類專業(yè)剖析中課程分析探討[J].現(xiàn)代計(jì)算機(jī),2011(04).

      第五篇:開題報(bào)告_基于數(shù)據(jù)挖掘方法的學(xué)生課程推薦算法研究

      基于數(shù)據(jù)挖掘方法的學(xué)生課程推薦算法研究

      一、課題來源及研究的目的和意義

      1.1 課題來源

      計(jì)算機(jī)技術(shù)的進(jìn)步,以及計(jì)算機(jī)網(wǎng)絡(luò)建設(shè)的完善促使著社會(huì)信息化進(jìn)程持續(xù)發(fā)展[1]。信息數(shù)據(jù)的獲取、記錄、保存、檢索等操作也因?yàn)樾录夹g(shù)的不斷應(yīng)用而變得更加方便快捷[2]。一方面,遍布各處的計(jì)算機(jī)網(wǎng)絡(luò)終端設(shè)備打破了信息數(shù)據(jù)記錄的時(shí)間和地域限制,讓我們可以隨時(shí)隨地發(fā)送和接收數(shù)據(jù);另一方面,存儲(chǔ)速度越來越快的大容量電磁存儲(chǔ)技術(shù)大大降低了信息數(shù)據(jù)存儲(chǔ)的代價(jià),使得記錄并長時(shí)間保存海量數(shù)據(jù)成為現(xiàn)實(shí)。總體來說,在當(dāng)今社會(huì)的各個(gè)領(lǐng)域中,信息數(shù)據(jù)的記錄已經(jīng)告別了“記賬簿”形式的傳統(tǒng)方式,邁入了電磁化存儲(chǔ)的新時(shí)代[3]。信息數(shù)據(jù)存儲(chǔ)需求與信息數(shù)據(jù)存儲(chǔ)代價(jià)兩者之間的矛盾進(jìn)一步深化為信息數(shù)據(jù)存儲(chǔ)數(shù)量激增與信息數(shù)據(jù)處理能力停滯不前的矛盾。簡單的說就是“我們應(yīng)該如何獲取蘊(yùn)涵于海量數(shù)據(jù)之中的信息?”這一問題??偹苤?,信息處理是一個(gè)知識(shí)創(chuàng)造的過程。這個(gè)過程需要具有某領(lǐng)域?qū)I(yè)知識(shí)的專家通過對數(shù)據(jù)進(jìn)行分析來完成。數(shù)據(jù)的大爆炸使得整個(gè)信息處理過程不堪重負(fù)。在原始的信息處理方式日益不能滿足信息處理的需求的背景下,在統(tǒng)計(jì)學(xué)、計(jì)算機(jī)科學(xué)、人工智能等多學(xué)科知識(shí)融合的基礎(chǔ)上,數(shù)據(jù)挖掘方法應(yīng)運(yùn)而生,將數(shù)據(jù)處理和信息獲取從原始的人工方式轉(zhuǎn)向了大規(guī)模計(jì)算機(jī)自動(dòng)化的方式,開辟了信息數(shù)據(jù)處理的新局面[4]。

      教育是立國之本。隨著我國改革開放的不斷深化,教育事業(yè)正在逐步成為我國現(xiàn)代化建設(shè)過程中的一項(xiàng)重要工作[5]。我國的各項(xiàng)新教育政策的出臺(tái)鼓勵(lì)更多的青少年走進(jìn)學(xué)校接受高等教育,為祖國的未來貢獻(xiàn)自己的力量。到2020年,我國的大學(xué)入學(xué)率計(jì)劃達(dá)到40%,較2006年提高了17%。在如此龐大的學(xué)生群體面前,人均可利用的教育資源正在逐年縮減。如何在有限教育資源的前提下,提高教育資源利用率是關(guān)系我國教育教學(xué)質(zhì)量的重要問題之一。為此,需要我國的教育工作者深入研究我國目前的教育體制,提出合理化建議,健全我國教育教學(xué)體制,提高教學(xué)質(zhì)量。衡量教學(xué)質(zhì)量的關(guān)鍵因素是學(xué)生,量化學(xué)生學(xué)習(xí)質(zhì)量的主要指標(biāo)是學(xué)生成績。面對3000萬學(xué)生以及上億的成績數(shù)據(jù),顯然數(shù)據(jù)挖掘是必不可少的信息數(shù)據(jù)處理方法[6]。

      1.2 課題研究目的和意義

      我國的現(xiàn)代化教育體系建設(shè)起步雖然略晚于西方發(fā)達(dá)國家,但是其發(fā)展卻相當(dāng)快速,并且取得了長足的進(jìn)步。其中最具代表性的就是目前廣泛應(yīng)用于各所高校中的學(xué)生成績數(shù)據(jù)挖掘系統(tǒng)。由于不同高校在重點(diǎn)學(xué)科建設(shè)的傾向性不同,所以各個(gè)高校在系統(tǒng)建設(shè)的指導(dǎo)思想上和具體實(shí)施過程中都結(jié)合自身的特點(diǎn)有所取舍,不同系統(tǒng)之間取長補(bǔ)短,各具特色,形成一種“百家爭鳴,百花齊放”的良性競爭局面。其中效果較好的方法是將系統(tǒng)分為數(shù)據(jù)獲取、數(shù)據(jù)處理、信息挖掘、信息理解和結(jié)果應(yīng)用五個(gè)模塊[36-40]。在信息挖掘和信息理解模塊,系統(tǒng)綜合運(yùn)用Apriori算法、C4.5算法、K-means算法和層次聚類等機(jī)器學(xué)習(xí)方法,構(gòu)建完善的學(xué)生成績分析平臺(tái)[41,42,43]。于成的《數(shù)據(jù)挖掘在學(xué)生成績分析中的應(yīng)用》、武麗芬和孟強(qiáng)的《學(xué)生成績數(shù)據(jù)挖掘的研究與實(shí)現(xiàn)》、朱燕燕的《學(xué)生成績數(shù)據(jù)挖掘系統(tǒng)的設(shè)計(jì)與應(yīng)用》、白玲的《數(shù)據(jù)挖掘在高校學(xué)生成績分析中的應(yīng)用》都是基于這種思想構(gòu)建的教學(xué)平臺(tái)。雖然這些方法在算法的具體細(xì)節(jié)上都具有各自的特點(diǎn),但是它們的關(guān)注焦點(diǎn)都集中在對數(shù)據(jù)中關(guān)聯(lián)規(guī)則的挖掘。通過有效地發(fā)現(xiàn)、理解、運(yùn)用關(guān)聯(lián)規(guī)則,能夠使隱含于大量數(shù)據(jù)之中復(fù)雜而有用的知識(shí)為現(xiàn)代化教育系統(tǒng)的建設(shè)做出更大的貢獻(xiàn)。這些系統(tǒng)所需的數(shù)據(jù)來源于多年來教學(xué)過程中積累的學(xué)生考試成績。通過對這些數(shù)據(jù)的深度挖掘不難發(fā)現(xiàn),學(xué)生成績的高低不單單取決于課程本身,還會(huì)受到學(xué)科的課程設(shè)置、教學(xué)計(jì)劃的制定、各門課程的先后順序等諸多方面的影響。由此產(chǎn)生了學(xué)者關(guān)于“如何為學(xué)科設(shè)置課程”、“各門課程之間的相互關(guān)系”、“如何評定綜合學(xué)生學(xué)科綜合成績”等問題的思考。經(jīng)過高校教育工作者、領(lǐng)域?qū)<覍W(xué)家多年來共同的研究與實(shí)踐,我國已經(jīng)探索出一條符合中國教育實(shí)際情況的發(fā)展之路。高校智能排課系統(tǒng)的出現(xiàn)正是其中[45,46,47]重要的成果之一。四川師范大學(xué)2008年在汪曉飛等學(xué)者的努力下,成功將遺傳算法應(yīng)用于求解排課問題中,取得了良好的效果。該方法分析對比確定了一系列影響排課問題的因素,將其作為約束條件建立排課問題最優(yōu)化模型,通過遺傳算法多代進(jìn)化找到了科學(xué)合理的課程排列順序。2011年大連交通大學(xué)的劉震根據(jù)實(shí)際的工作經(jīng)驗(yàn),在原有的研究基礎(chǔ)上全面闡述了排課工作的原則、流程以及重點(diǎn)難點(diǎn)。針對排課問題中易出現(xiàn)的沖突,他應(yīng)用關(guān)聯(lián)規(guī)則算法加以解決,排除了排課問題中漏課重課的錯(cuò)誤,減輕了人工排課的壓力,提高了學(xué)生學(xué)習(xí)的效率。將智能排課與自動(dòng)出題、考試成績分析三者相結(jié)合,從根本上改變了傳統(tǒng)教學(xué)方式下經(jīng)驗(yàn)式排課、院系集中出題、教師人工閱卷的局面,將教師從繁重的教學(xué)輔助工作中解放出來,使其能夠有更多時(shí)間指導(dǎo)學(xué)生的日常學(xué)習(xí),答疑解惑[48]。

      二、國內(nèi)外在該方向的研究現(xiàn)狀及分析

      國內(nèi)外學(xué)者已經(jīng)從不同角度,不同側(cè)重對這一問題進(jìn)行了深入的研究與探討。尤其是近年來,隨著全世界對教育熱點(diǎn)問題關(guān)注度的持續(xù)升溫,許多新思想、新方法層出不窮。其中著重于學(xué)生考試成績分析的研究方法一直是解決這一問題的熱點(diǎn)[25,26,27]。印度學(xué)者Brijesh Kumar Baradwaj和Saurabh Pal在2011年發(fā)表的論文《Mining Educational Data to Analyze Students’ Performance》中提出一種通過分析學(xué)生考試成績數(shù)據(jù)的方法來預(yù)測學(xué)生的表現(xiàn)。該方法首先通過在線考試系統(tǒng)獲得學(xué)生的考試成績數(shù)據(jù),然后建立高校教育系統(tǒng)的數(shù)據(jù)挖掘模型,利用以ID3決策樹為主的機(jī)器學(xué)習(xí)方法對模型中的數(shù)據(jù)進(jìn)行分類,最終達(dá)到預(yù)測學(xué)生在學(xué)校學(xué)習(xí)情況的目的。與之相關(guān)的數(shù)據(jù)方法還包括Pandey和Pal提出的《Data Mining: A prediction of performer or underperformer using classification》。這種方法以學(xué)生的年級和先修課程為基礎(chǔ),以貝葉斯網(wǎng)絡(luò)為手段,目的是預(yù)測初學(xué)者可能出現(xiàn)的學(xué)習(xí)情況。此類方法都是典型的機(jī)器學(xué)習(xí)方法。它們需要采集學(xué)生的多種信息數(shù)據(jù)作為算法的分析基礎(chǔ),通過多種機(jī)器學(xué)習(xí)方法相結(jié)合的方式構(gòu)造數(shù)據(jù)挖掘模型,并將構(gòu)造好的分析模型應(yīng)用于具體的分類和回歸問題中去[28,29]。除了上述的決策樹學(xué)習(xí)算法和貝葉斯網(wǎng)絡(luò)算法,常用的數(shù)據(jù)挖掘方法還包括聚類算法、神經(jīng)網(wǎng)絡(luò)算法、遺傳算法和線性回歸算法等[30-35]。利用準(zhǔn)確的成績預(yù)測模型,我們還可以繼續(xù)深化關(guān)于問題的研究。例如Galit等在論文《Examining online learning processes based on log files analysis: a case study 》中描述了一種教學(xué)輔助系統(tǒng)就是對考試分析結(jié)果的再利用。該系統(tǒng)根據(jù)學(xué)生的學(xué)習(xí)情況,為學(xué)生提供必要的學(xué)習(xí)計(jì)劃,督導(dǎo)學(xué)生按計(jì)劃執(zhí)行學(xué)習(xí),幫助學(xué)生順利通過最終的學(xué)科測驗(yàn)。

      三、主要研究內(nèi)容及創(chuàng)新點(diǎn) 3.1 主要研究內(nèi)容

      目前,我國的現(xiàn)代化教育體制綜合信息平臺(tái)主要分為以下四個(gè)方面[7]:第一,現(xiàn)代化遠(yuǎn)程教育系統(tǒng);第二,基于海量題庫的自動(dòng)出題系統(tǒng);第三,學(xué)生成績的智能分析系統(tǒng);第四,學(xué)科設(shè)計(jì)及教學(xué)計(jì)劃的優(yōu)化系統(tǒng)。上述四類系統(tǒng)基本涵蓋了現(xiàn)代教育體系中從教育規(guī)劃到教育實(shí)施的各個(gè)方面。如果這四部分能夠相輔相成,相互融合形成一個(gè)有機(jī)整體,那么將會(huì)打開我國的教育現(xiàn)代化的新局面,使整個(gè)基礎(chǔ)教育事業(yè)邁上一個(gè)新臺(tái)階[8]。但是在實(shí)施過程中,由于這四部分的難易程度有所區(qū)別,導(dǎo)致了它們的發(fā)展水平參差不齊。其中隨著我國計(jì)算機(jī)硬件及其他輔助設(shè)備的不斷普及和基礎(chǔ)網(wǎng)絡(luò)設(shè)施建設(shè)的不斷完善,遠(yuǎn)程授課系統(tǒng)不斷推陳出新,從最初的單向講授形式發(fā)展到先進(jìn)的雙向交互形式,大大提升了學(xué)生的學(xué)[9]習(xí)興趣和學(xué)習(xí)效果。而計(jì)算機(jī)自動(dòng)出題系統(tǒng)的廣泛應(yīng)用已經(jīng)徹底改變了原有考試形式的單一性,大大增強(qiáng)了考試的靈活性,同時(shí)也防止了考試試題泄露等不端行為[10-13]。在此基礎(chǔ)上建立起來的考試評分系統(tǒng),不僅大大縮短了考試成績的評判周期,避免誤判漏判現(xiàn)象的發(fā)生,從根本上維護(hù)了考試的公平公正原則。相比較上述幾部分,我國的教育體系信息平臺(tái)對于學(xué)生考試成績的分析和利用,還停留在評價(jià)學(xué)生知識(shí)掌握的程度的單一層面上。事實(shí)上,考試制度的建立不單單是為了衡量學(xué)生對知識(shí)的記憶能力,而是為了通過考試這種形式來幫助學(xué)生找出學(xué)習(xí)過程中的不足,采取適當(dāng)?shù)姆绞郊右灾笇?dǎo),最終達(dá)到知識(shí)理解和再應(yīng)用的目的[14,15,16]。更進(jìn)一步的是,在國內(nèi)外文化充分交流的今天,我國高校借鑒西方知名學(xué)府的先進(jìn)經(jīng)驗(yàn),普遍采取了學(xué)分制的教學(xué)管理模式。這種新興的教學(xué)模式能夠激發(fā)學(xué)生自主學(xué)習(xí)的興趣,有助于跨學(xué)科綜合性人才的培養(yǎng)。在帶給學(xué)生很高的學(xué)習(xí)自由度的同時(shí),也使原先適應(yīng)了傳統(tǒng)教學(xué)習(xí)慣的學(xué)生面臨新的挑戰(zhàn)[17]。如何制定適合自己的學(xué)習(xí)計(jì)劃是擺在每個(gè)學(xué)生面前的重要問題。畢竟面對種類繁多的學(xué)科,缺少學(xué)科深入認(rèn)知的學(xué)生們只能憑著自己對學(xué)科內(nèi)容的表面理解進(jìn)行選擇。這種摸著石頭過河的學(xué)科選擇方式顯然是不可取的。因?yàn)檫@種做法既忽視了學(xué)生自身的特點(diǎn),又沒能提供必要的教學(xué)指導(dǎo),很可能導(dǎo)致學(xué)生學(xué)習(xí)進(jìn)度緩慢,甚至半途而廢現(xiàn)象的出現(xiàn)[18,19]。

      學(xué)校教育的最終目的之一是為學(xué)生就業(yè)做準(zhǔn)備。對于在校學(xué)生,他們對今后工作所需技能的了解相對較少。因此,在選擇課程時(shí)往往缺乏針對性,不能對今后的就業(yè)起到良好 的支撐。為了避免學(xué)生課程選擇的盲目性,學(xué)校需要結(jié)合在校學(xué)生的具體情況和具有相似情況的畢業(yè)生的學(xué)習(xí)過程為其推薦適當(dāng)?shù)膶W(xué)習(xí)計(jì)劃,并視學(xué)生在實(shí)際學(xué)習(xí)過程中的情況做出動(dòng)態(tài)調(diào)整。這種量體裁衣式的課程教學(xué)方法使得每一個(gè)學(xué)生在學(xué)習(xí)過程中都能得到及時(shí)的指導(dǎo),有助于學(xué)生學(xué)習(xí)興趣的持續(xù)發(fā)展,有助于學(xué)生最終完成本學(xué)科的學(xué)習(xí),掌握相關(guān)領(lǐng)域知識(shí),在今后的就業(yè)過程中能夠脫穎而出起到了良好的輔助作用[20,21,22]。

      為了建立一個(gè)行之有效的學(xué)生學(xué)習(xí)指導(dǎo)體系,我們需要總結(jié)、分析一下四方面的問題:

      1.學(xué)生的學(xué)習(xí)需求。學(xué)習(xí)的需求來源于學(xué)生的興趣。在當(dāng)今社會(huì)中,信息的獲取易如反掌。學(xué)生根據(jù)自身的喜好,不斷的在探索著信息海洋,并逐步積累起對某個(gè)學(xué)科最基本的認(rèn)識(shí)。這是學(xué)生學(xué)科選擇的原動(dòng)力。同時(shí),學(xué)生的學(xué)習(xí)需求還會(huì)受到社會(huì)就業(yè)需求的影響。隨著學(xué)生對所學(xué)學(xué)科的深入了解,他們的學(xué)習(xí)傾向一般會(huì)朝著社會(huì)需求的方向發(fā)展。我們需要以此為出發(fā)點(diǎn),指導(dǎo)學(xué)生進(jìn)行合理的學(xué)習(xí)。2.學(xué)生的知識(shí)儲(chǔ)備。學(xué)生在對某學(xué)科進(jìn)行深入學(xué)習(xí)前,一般對該學(xué)科已經(jīng)有了初步的認(rèn)識(shí)。這是學(xué)科學(xué)習(xí)的重要前提。為了更好的進(jìn)行深層次的學(xué)習(xí),我們首先要求學(xué)生具有相關(guān)的學(xué)習(xí)基礎(chǔ)。勿在浮沙筑高臺(tái)。合理安排學(xué)習(xí)內(nèi)容的先后順序,對整個(gè)學(xué)科的學(xué)習(xí)質(zhì)量有至關(guān)重要的影響。3.學(xué)生的成績評價(jià)。大多數(shù)情況下,初學(xué)者不能對自己的學(xué)習(xí)狀況做出正確的判斷。正是由于這個(gè)原因,需要我們對學(xué)生的知識(shí)掌握程度做出正確的、客觀的估計(jì)。其中最直接的方法就是量化學(xué)習(xí)成績。也就是通過考試給學(xué)生的學(xué)習(xí)狀況打分,以分?jǐn)?shù)的高低作為其知識(shí)掌握程度的標(biāo)準(zhǔn)[23]。雖然考試成績對學(xué)生學(xué)習(xí)狀況的量化評價(jià)起到了重要的作用,但是需要注意的是學(xué)生的在校學(xué)習(xí)成績是學(xué)生綜合素質(zhì)體現(xiàn)的一個(gè)方面,評價(jià)以就業(yè)為最終目標(biāo)的學(xué)校教育必須以“學(xué)生是否就業(yè)”為根本標(biāo)準(zhǔn)。4.學(xué)生的繼續(xù)學(xué)習(xí)。學(xué)校通過考試的形式來度量學(xué)生的學(xué)習(xí)效果,所以考試是已學(xué)知識(shí)的結(jié)束。學(xué)習(xí)是一個(gè)發(fā)展的過程,一種知識(shí)的獲取往往會(huì)擴(kuò)大學(xué)生的知識(shí)面,激發(fā)其新的學(xué)習(xí)興趣,這就形成了新的學(xué)習(xí)需求。學(xué)習(xí)的目的,特別是基礎(chǔ)知識(shí)的學(xué)習(xí)是為更深層次的專業(yè)知識(shí)學(xué)習(xí)做積累,所以考試也是未學(xué)知識(shí)的起點(diǎn)。通過已學(xué)知識(shí)的評價(jià),估計(jì)未學(xué)知識(shí)的學(xué)習(xí)計(jì)劃,是對學(xué)生成績分析結(jié)果更充分的利用。

      上述四個(gè)問題循環(huán)往復(fù),既相互制約,又相互促進(jìn)。如果能夠正確處理其中的關(guān)系,使之形成一個(gè)可持續(xù)良性循環(huán),那么將會(huì)大大增強(qiáng)學(xué)生的學(xué)習(xí)效果[24]。

      3.2 創(chuàng)新點(diǎn)

      1.通過關(guān)聯(lián)規(guī)則挖掘方法和聚類算法確定課程與課程之間的教學(xué)順序關(guān)系;

      2.通過決策樹生成算法完成學(xué)生就業(yè)滿意度與課程選擇之間關(guān)系的確定; 3.綜合上述兩方面,采用多種機(jī)器學(xué)習(xí)算法協(xié)同工作的方法完成課程推薦算法。

      四、研究方案及進(jìn)度安排,預(yù)期達(dá)到的目標(biāo)

      4.1 研究方案

      當(dāng)前各所高校都在如火如荼地創(chuàng)新教學(xué)理念,下大力度轉(zhuǎn)變教師為院系服務(wù)為教師為學(xué)生服務(wù),推廣以學(xué)生個(gè)人發(fā)展促進(jìn)學(xué)校發(fā)展的新思路。然而逐年的高校擴(kuò)招,激增的學(xué)生數(shù)量使得教育資源特別是教師資源捉襟見肘。面對求知若渴的學(xué)生,更需要經(jīng)驗(yàn)豐富的教師來指導(dǎo)他們的學(xué)習(xí)之路,充分激發(fā)他們的學(xué)習(xí)欲望,造就一批批具有牢固專業(yè)知識(shí)的人才,使其能夠勝任今后的工作。“如何指導(dǎo)學(xué)生進(jìn)行課程選擇與進(jìn)度安排”正是擺在每一名教育工作者面前的重要問題。本文立足上述優(yōu)秀理論及實(shí)踐的基礎(chǔ)上,繼承和發(fā)揚(yáng)前人研究成果,意在將數(shù)據(jù)挖掘方法引入解決問題方案,使之能夠根據(jù)學(xué)生的就業(yè)滿意度等因素科學(xué)指導(dǎo)學(xué)生安排課程[49,50]。

      數(shù)據(jù)挖掘工作以數(shù)據(jù)為基礎(chǔ),以算法為核心目標(biāo)。為了完成學(xué)生指導(dǎo)工作,我們需要以下工作的定義:

      1.數(shù)據(jù)挖掘的目標(biāo)。本文目的是在綜合分析已畢業(yè)學(xué)生的就業(yè)滿意度與學(xué)生在2.3.4.5.6.校期間學(xué)科選擇、考試成績的關(guān)系,為在校學(xué)生制定符合其就業(yè)需求的學(xué)習(xí)計(jì)劃。經(jīng)過科學(xué)合理的總體計(jì)劃和扎實(shí)的分步實(shí)施,最終使學(xué)生能夠順利達(dá)到學(xué)科學(xué)習(xí)的整體要求,在畢業(yè)后的就業(yè)過程中能夠脫穎而出。

      數(shù)據(jù)挖掘的模型。為了達(dá)到預(yù)期目的,我們需要建立一個(gè)預(yù)測模型。該模型以學(xué)生以往學(xué)生的就業(yè)滿意度和實(shí)際學(xué)習(xí)情況作為參考,預(yù)測在校學(xué)生可能感興趣的學(xué)習(xí)點(diǎn),為其提供適當(dāng)?shù)膶W(xué)習(xí)課程。這個(gè)預(yù)測過程伴隨學(xué)生整個(gè)在校學(xué)習(xí)期間,形成一個(gè)學(xué)生學(xué)習(xí)的發(fā)展路線圖。在模型實(shí)現(xiàn)過程中,本文將預(yù)測模型細(xì)化為若干過程,可分為課程相關(guān)性分析、學(xué)生成績分析、學(xué)生就業(yè)滿意度分析三個(gè)主要過程。

      數(shù)據(jù)挖掘所需數(shù)據(jù)的收集和整理。我們?yōu)閿?shù)據(jù)挖掘模型所提供數(shù)據(jù)的質(zhì)量直接影響其預(yù)測能力。一方面,準(zhǔn)確記錄的數(shù)據(jù)可以為模型提供正確的指導(dǎo),而噪音數(shù)據(jù)的存在則可能誤導(dǎo)預(yù)測模型。另一方面,并不是越多的數(shù)據(jù)就意味著越高的預(yù)測準(zhǔn)確率。在信息過載的今天,獲取數(shù)據(jù)絕非難事。但是無意義的或冗余的數(shù)據(jù)既提高了數(shù)據(jù)采集的代價(jià),也延長了模型的構(gòu)造時(shí)間。為了給數(shù)據(jù)挖掘模型提供充足的有用的數(shù)據(jù),還需要在數(shù)據(jù)收集過程之后進(jìn)一步對原始數(shù)據(jù)進(jìn)行處理,去其糟粕取其精華。

      數(shù)據(jù)挖掘算法的訓(xùn)練方法。選擇什么樣的方法對數(shù)據(jù)挖掘模型進(jìn)行訓(xùn)練是論文整個(gè)工作的核心內(nèi)容。本文的工作是由多個(gè)部分共同組成的,在各個(gè)不同的部分需要不同的訓(xùn)練算法。這些算法可以分為兩類分類算法和聚類算法,其中分類算法主要用于學(xué)生成績分析、學(xué)生就業(yè)滿意度分析,聚類算法主要用于課程相關(guān)性分析。

      數(shù)據(jù)挖掘算法的測試。經(jīng)過對數(shù)據(jù)挖掘模型的訓(xùn)練,最終我們將得到一個(gè)用于學(xué)生課程選擇的輔助系統(tǒng)。系統(tǒng)不斷采集學(xué)生最新的就業(yè)滿意度、學(xué)習(xí)課程、學(xué)習(xí)成績信息加入數(shù)據(jù)庫,然后根據(jù)學(xué)生信息庫動(dòng)態(tài)更新學(xué)生的學(xué)習(xí)計(jì)劃。

      數(shù)據(jù)挖掘的結(jié)果分析。該數(shù)據(jù)挖掘模型的優(yōu)劣,最終需要由學(xué)生自己做出主觀判斷,并輔以全院系學(xué)生的整體就業(yè)滿意度作為客觀判斷。最終綜合二者得出的結(jié)果是判斷“模型是否符合學(xué)生學(xué)習(xí)的要求”的主要依據(jù)。

      4.2 研究進(jìn)度安排

      2012-04-05~2012-05-04

      完成開題報(bào)告,提交指導(dǎo)教師。

      2012-05-05~2012-08-04

      收集相關(guān)資料,構(gòu)思并確定寫作大綱,請指導(dǎo)老師加

      以修改。

      2012-08-05~2012-10-04

      撰寫論文初稿。2012-10-05

      完成論文初稿。

      2012-10-06~2012-11-05

      請指導(dǎo)老師對初稿提出修改意見,完成二稿。2012-11-06~2012-11-19

      請指導(dǎo)老師對二稿進(jìn)行指導(dǎo)并按老師的建議進(jìn)行修

      改,完成最終稿。

      2012-11-20

      提交論文最終稿。2012-11-20~2012-12-10

      請?jiān)u閱老師審閱,準(zhǔn)備論文答辯幻燈片(PPT)。

      4.3 預(yù)期達(dá)到的目標(biāo)

      1.得到課程與課程之間的序關(guān)系。根據(jù)課程度學(xué)科綜合考試的貢獻(xiàn)度確定哪些課程屬于學(xué)科基礎(chǔ)課程,哪些課程屬于專業(yè)基礎(chǔ)課程,哪些課程屬于專業(yè)選修課程。指導(dǎo)學(xué)生在學(xué)習(xí)過程中學(xué)習(xí)的先后順序。

      2.理解學(xué)生就業(yè)滿意度與課程選擇之間的關(guān)系。在課程選擇前先根據(jù)已畢業(yè)學(xué)生的就業(yè)狀況為學(xué)生的課程選擇提出合理化建議。總體教學(xué)遵循針對性學(xué)習(xí)的思想,使學(xué)生能夠?qū)W以致用。

      3.建立一個(gè)可應(yīng)用于實(shí)踐的學(xué)生自動(dòng)課程推薦體系。切實(shí)解決學(xué)生被指導(dǎo)需求量大,教師資源不足的實(shí)際情況。使學(xué)生在學(xué)分制體系下,可以充分發(fā)揮自己的主觀能動(dòng)性,學(xué)有所長。

      五、為完成課題已具備和所需的條件

      5.1 已具備的條件

      為了完成本課題的研究,我們需要從三個(gè)方面入手?;蛘哒f,這三個(gè)方面是研究得以開展的必備條件。其中首要條件是研究的理論支持。研究不是空想,需要以成熟的理論作為研究指導(dǎo),否則就是空中樓閣。本文以目前廣泛應(yīng)用于各個(gè)領(lǐng)域的數(shù)據(jù)挖掘理論作為總的指導(dǎo)思想,并結(jié)合本課題的實(shí)際情況,輔以前人的優(yōu)秀科研成果,三者結(jié)合為論文研究工作的順利進(jìn)行提供了堅(jiān)實(shí)的基礎(chǔ)。

      其次,研究的價(jià)值體現(xiàn)在其實(shí)用價(jià)值上,不具有可行性的研究是毫無意義的。本文的研究過程是伴隨著實(shí)驗(yàn)過程進(jìn)行的。兩者相輔相成,理論研究指導(dǎo)實(shí)驗(yàn)開展,實(shí)驗(yàn)過程完善理論體系。前一階段的資料搜集和論文學(xué)習(xí)工作,目前本人已經(jīng)具備了完成研究的理論知識(shí)和相關(guān)實(shí)驗(yàn)技能,這些都將成為完成論文研究的有力支撐。

      最后,在數(shù)據(jù)挖掘過程中,數(shù)據(jù)是整個(gè)過程中最重要的資源。我國教學(xué)體制改革多年來積累的學(xué)生數(shù)據(jù)正是我們完成本課題研究的重要保障。

      5.2 所需的條件

      一年多的時(shí)間過去了,目前關(guān)于數(shù)據(jù)挖掘理論知識(shí)的學(xué)習(xí),基本實(shí)驗(yàn)方法的實(shí)踐和論文的搜集工作都已經(jīng)告一段落,可以說論文的前期準(zhǔn)備工作基本已經(jīng)結(jié)束了。接下來的工作主要從兩方面入手。第一,論文的寫作。本論文的寫作遵循提綱式寫作方法,因此需要我們在論文搜集工作的基礎(chǔ)上,進(jìn)一步對這些論文進(jìn)行整理,從而確定本論文的大體思路,列出論文提綱,為論文初稿寫作做準(zhǔn)備。第二,實(shí)驗(yàn)的開展。實(shí)驗(yàn)是本論文的重要組成部分,實(shí)驗(yàn)結(jié)果的好壞直接影響到研究的進(jìn)展程度。因此,需要我們掌握扎實(shí)的實(shí)驗(yàn)操作知識(shí),以保證實(shí)驗(yàn)工作的正確性。這些實(shí)驗(yàn)知識(shí)涉及到機(jī)器學(xué)習(xí)算法的偽代碼編寫、計(jì)算機(jī)軟件設(shè)計(jì)與實(shí)現(xiàn)、程序的調(diào)試與排錯(cuò)、以及軟件測試與算法分析。

      六、預(yù)計(jì)研究過程中可能遇到的困難和問題以及解決的措施

      在本課題的研究過程中,可能遇到存在的困難主要來源于實(shí)驗(yàn)數(shù)據(jù)的準(zhǔn)備、算法的設(shè)計(jì)以及、實(shí)驗(yàn)結(jié)果的分析。下列給出了主要的困難及相應(yīng)的解決辦法:

      1.實(shí)驗(yàn)數(shù)據(jù)的準(zhǔn)備。本文的實(shí)驗(yàn)數(shù)據(jù)全部來源于高校的教學(xué)系統(tǒng)。但由于我國教育體制的不斷改革,也使得系統(tǒng)所采用的數(shù)據(jù)記錄方式存在一定的差異。為了得到形式統(tǒng)一的數(shù)據(jù),還需要我們對一些未記錄數(shù)據(jù)進(jìn)行補(bǔ)充。在一定程度上,我們對數(shù)據(jù)的判斷能力,決定了實(shí)驗(yàn)結(jié)果的可靠性。為此,我們首先要有嚴(yán)謹(jǐn)認(rèn)的科學(xué)態(tài)度,通過數(shù)據(jù)挖掘中數(shù)據(jù)預(yù)處理和手工處理相結(jié)合的方式,最大程度上保證數(shù)據(jù)的正確性。2.算法的設(shè)計(jì)。算法是軟件的靈魂。本文的算法設(shè)計(jì)包括算法的理論正確性和邏輯正確性。其中理論正確性是以本文的研究工作作為基礎(chǔ)的,而邏輯正確性是以計(jì)算機(jī)軟件設(shè)計(jì)方法作為基礎(chǔ)的。

      3.實(shí)驗(yàn)結(jié)果分析。實(shí)驗(yàn)結(jié)果直觀反映了研究工作的正確性。通過對實(shí)驗(yàn)結(jié)果的分析,可以及時(shí)發(fā)現(xiàn)算法中存在的問題并做出調(diào)整。這其中一些的錯(cuò)誤看似隨機(jī),影響了我們對算法的正確認(rèn)識(shí),需要我們反復(fù)進(jìn)行實(shí)驗(yàn),觀察結(jié)果,認(rèn)真分析,將算法中的錯(cuò)誤減少到最低。

      綜上所述,在研究過程中需要我們廣泛查閱文獻(xiàn)、反復(fù)動(dòng)手實(shí)驗(yàn)、積極深入思考,當(dāng)然也少不了老師的悉心指導(dǎo)和同學(xué)們的熱心幫助,才能更好地完成本課題的研究和本文的寫作。

      七、主要參考文獻(xiàn)

      [1] 張慶鋒, 鄭建明, 王育紅.社會(huì)信息化進(jìn)程測度指標(biāo)體系之構(gòu)建.情報(bào)科學(xué), 2000, 09: 772-775.[2] 謝俊貴.我國社會(huì)信息化的涵義、作用及推進(jìn)策略.情報(bào)理論與實(shí)踐, 2002, 04: 244-248.[3] 王旭東.論社會(huì)信息化的影響與沖擊——從當(dāng)代歷史進(jìn)程到世界史研究.世界歷史, 2007, 05: 43-52.[4] 羅晶.基于數(shù)據(jù)網(wǎng)格技術(shù)的遠(yuǎn)程教育系統(tǒng)的研究.南昌大學(xué)工學(xué)碩士論文, 2006.[5] 黃越嶺.可視化遠(yuǎn)程教育管理系統(tǒng)研究.西南大學(xué)工學(xué)碩士論文, 2007.[6] 南翔宇.農(nóng)村遠(yuǎn)程教育平臺(tái)建設(shè)和服務(wù)體系研究.西北農(nóng)林科技大學(xué)工學(xué)碩士論文,2008.[7] 李佳.基于IRT模型的題庫智能組卷策略.江西師范大學(xué)工學(xué)碩士論文, 2007.[8] 李軍.基于遺傳算法的智能組卷系統(tǒng)研究.天津大學(xué)工學(xué)碩士論文, 2008.[9] 劉貝貝.基于推理與遺傳算法的智能組卷模型與系統(tǒng)實(shí)現(xiàn).煙臺(tái)大學(xué)工學(xué)碩士論文,2009.[10] 賀敏之.基于遺傳蟻群算法的智能組卷系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn).湖南大學(xué)工學(xué)碩士論文, 2010.[11] 趙志艷.基于遺傳與蟻群混合算法的智能組卷問題探究.安徽大學(xué)工學(xué)碩士論文, 2011.[12] 楊葳.基于OLAP的成績分析系統(tǒng)的研究.沈陽工業(yè)大學(xué)工學(xué)碩士論文, 2007.[13] 劉劍.改進(jìn)聚類分析算法及其在成績分析中的應(yīng)用研究.大連交通大學(xué)工學(xué)碩士論文,2008.[14] 牛文穎.改進(jìn)的ID3決策樹分類算法在成績分析中的應(yīng)用研究.大連交通大學(xué)工學(xué)碩士論文, 2008.[15] 黃芳.基于數(shù)據(jù)挖掘的決策樹技術(shù)在成績分析中的應(yīng)用研究.山東大學(xué)工學(xué)碩士論文,2009.[16] 劉海燕.基于決策樹分類算法的學(xué)習(xí)成績分析系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn).電子科技大學(xué)工學(xué)碩士論文, 2011.[17] 汪曉飛.基于多維編碼方案的遺傳算法在高校排課系統(tǒng)中的應(yīng)用.四川師范大學(xué)工學(xué)碩士論文, 2008.[18] 朱奉梅.遺傳算法在高校排課系統(tǒng)中的研究與應(yīng)用.東北大學(xué)工學(xué)碩士論文, 2009.[19] 王永剛.基于矩陣判別算法的高校自動(dòng)排課系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn).電子科技大學(xué)工學(xué)碩士論文, 2010.[20] 王霞.基于多策略算法排課系統(tǒng)研究.西北農(nóng)林科技大學(xué)工學(xué)碩士論文, 2010.[21] 劉震.基于關(guān)聯(lián)規(guī)則算法的排課系統(tǒng)的應(yīng)用研究.大連交通大學(xué)工學(xué)碩士論文, 2011.[22] Qinghua Hu, Lei Zhang, David Zhang, Wei Pan, Shuang An, Witold Pedrycz.Measuring relevance between discrete and continuous features based on neighborhood mutual information.Expert Systems with Applications, 2011, 38(9): 10737-10750.[23] Haihong Zhang, Cuntai Guan, Yuanqing Li.A linear discriminant analysis method based on mutual information maximization.Pattern Recognition, 2011, 44(4): 877-885.[24] Ai-Hua Jiang, Xiu-Chang Huang, Zhen-Hua Zhang, Jun Li, Zhi-Yi Zhang, Hong-Xin Hua.Mutual information algorithms Original.Mechanical Systems and Signal Processing, 2010, 24(8): 2947-2960.[25] Sombut Foithong, Ouen Pinngern, Boonwat Attachoo.Feature subset selection wrapper based on mutual information and rough sets.Expert Systems with Applications, 2012, 39(1): 574-584.[26] Ju Lynn Ong, Abd-Krim Seghouane.Feature selection using mutual information in CT colonography.Pattern Recognition Letters, 2011, 32(2): 337-341.[27] Sangjae Lee.Using data envelopment analysis and decision trees for efficiency analysis and recommendation of B2C controls.Decision Support Systems, 2010, 49(4): 486-497.[28] Fernando E.B.Otero, Alex A.Freitas, Colin G.Johnson.Inducing decision trees with an ant colony optimization algorithm.Applied Soft Computing, 2012, 12(11): 3615-3626.[29] Siva S.Sivatha Sindhu, S.Geetha, A.Kannan.Decision tree based light weight intrusion detection using a wrapper approach.Expert Systems with Applications, 2012, 39(1): 129-141.[30] Mehmet Ali Cavuslu, Cihan Karakuzu, Fuat Karakaya.Neural identification of dynamic systems on FPGA with improved PSO learning.Applied Soft Computing, 2012, 12(9): 2707-2718.[31] B.Vasumathi, S.Moorthi.Implementation of hybrid ANN–PSO algorithm on FPGA for harmonic estimation.Engineering Applications of Artificial Intelligence, 2012, 25(3): 476-483.[32] Haiyan Lu, Pichet Sriyanyong, Yong Hua Song, Tharam Dillon.Experimental study of a new hybrid PSO with mutation for economic dispatch with non-smooth cost function.International Journal of Electrical Power & Energy Systems, 2010, 32(9): 921-935.[33] Amitava Chatterjee, Fumitoshi Matsuno.A Geese PSO tuned fuzzy supervisor for EKF based solutions of simultaneous localization and mapping(SLAM)problems in mobile robots.Expert Systems with Applications, 2010, 37(8): 5542-5548.[34] U.Fayadd, Piatesky, G.Shapiro, and P.Smyth, From data mining to knowledge discovery in databases, AAAI Press / The MIT Press, Massachusetts Institute Of Technology.ISBN 0–262 56097–6, 1996.[35] J.Han and M.Kamber, “Data Mining: Concepts and Techniques,” Morgan Kaufmann, 2000.[36] S.T.Hijazi, and R.S.M.M.Naqvi, “Factors affecting student?s performance: A Case of Private Colleges”, Bangladesh e-Journal of Sociology, Vol.3, No.1, 2006.[37] Z.N.Khan, “Scholastic achievement of higher secondary students in science stream”, Journal of Social Sciences, Vol.1, No.2, pp.84-87, 2005..[38] Galit.et.al, “Examining online learning processes based on log files analysis: a case study”.Research, Reflection and Innovations in Integrating ICT in Education 2007.[39] Q.A.AI-Radaideh, E.W.AI-Shawakfa, and M.I.AI-Najjar, “Mining student data using decision trees”, International Arab Conference on Information Technology(ACIT'2006), Yarmouk University, Jordan, 2006.[40] U.K.Pandey, and S.Pal, “A Data mining view on class room teaching language”,(IJCSI)International Journal of Computer Science Issue, Vol.8, Issue 2, pp.277-282, ISSN:1694-0814, 2011.[41] Shaeela Ayesha, Tasleem Mustafa, Ahsan Raza Sattar, M.Inayat Khan, “Data mining model for higher education system”, Europen Journal of Scientific Research, Vol.43, No.1, pp.24-29, 2010.[42] M.Bray, The shadow education system: private tutoring and its implications for planners,(2nd ed.), UNESCO, PARIS, France, 2007.[43] Vashishta, S.(2011).Efficient Retrieval of Text for Biomedical Domain using Data Mining Algorithm.IJACSA-International Journal of Advanced Computer Science and Applications, 2(4), 77-80.[44] Collier, K., Carey, B., Sautter, D., and Marjaniemi, C., “A methodology for evaluating and selecting data mining software,” in Proceedings of the 32nd Annual Hawaii International Conference on System Sciences, IEEE, 1999.Orange, University of Ljubljana, Slovenia, [45] Luan, J., Zhao, C.-M., and Hayek, J., “Exploring a new frontier in higher education research: A case study analysis of using data mining techniques to create NSSE institutional typology,” Paper presented at the California Association for Institutional Research, Anaheim, California, November 17-19, 2004.[46] Bekele, R.and Menzel, W., “A Bayesian approach to predict performance of a student(BAPPS): A case with Ethiopian students,” in Proceedings of the International Conference on Artificial Intelligence and Applications(AIA-2005), Vienna, Austria, 2005.[47] Minaei-Bidgoli, B., Kashy, D.A., Kortemeyer, G., and Punch, W.F, “Predicting student performance: an application of data mining methods with an educational web-based system,” in Proceedings of 33rd Annual Conference on Frontiers in Education(FIE 2003), volume 1, 2003, pages 13–18.[48] Romero, C., Ventura, S.(2007).Educational Data Mining: A Survey from 1995 to 2005.Expert Systems with Applications 33, 2007, pp.135-146.[49] Ma, Y., Liu, B., Wong, C.K., Yu, P.S., Lee, S.M.(2000).Targeting the right students using data mining.Proceedings of the sixth ACM SIGKDD international conference on Knowledge discovery and data mining, Boston, pp 457-464.[50] Luan, J.(2002).Data Mining and Its Applications in Higher Education.New Directions for Institutional Research, Special Issue titled Knowledge Management: Building a Competitive Advantage in Higher Education, Vol.2002, Iss.113, pp.17–36.[51] Luan, J.(2004).Data Mining Applications in Higher Education.SPSS Executive Report, SPSS Inc.[52] Minaeli-Bidgoli, B., Kashy, D., Kortemeyer, G., Punch, W.(2003).Predicting Student Performance: An Application of Data Mining Methods with the Educational Web-Based System LON-CAPA.33rd ASEE/IEEE Frontiers in Education Conference, 5-8 Nov 2003, Boulder, CO.[53] Kotsiantis, S., Pierrakeas, C., Pintelas, P.(2004).Prediction of Student’s Performance in Distance Learning Using Machine Learning Techniques.Applied Artificial Intelligence, Vol.18, No.5, 2004, pp.411-426.[54] Pardos Z., Heffernan N., Anderson B., and Heffernan C.(2006).Using Fine-Grained Skill Models to Fit Student Performance with Bayesian Networks.In Proceedings of the Workshop in Educational Data Mining held at the 8th International Conference on Intelligent Tutoring Systems(ITS2006), June 26, 2006, Taiwan.[55] Superby, J.Vandamme, J., Meskens, N.(2006).Determination of factors influencing the achievement of the first-year university students using data mining methods.Proceedings of the Workshop on Educational Data Mining at the 8th International Conference on Intelligent Tutoring Systems(ITS 2006).Jhongli, Taiwan, pp37-44.[56] Vandamme, J., Meskens, N., Superby, J.(2007).Predicting Academic Performance by Data Mining Methods.Education Economics, 15(4), pp405-419.[57] Cortez, P., Silva, A.(2008).Using Data Mining to Predict Secondary School Student Performance.EUROSIS, A.Brito and J.Teixeira(Eds.), 2008, pp.5-12.Dekker, G., Pechenizkiy, M., Vleeshouwers, J.(2009).Predicting Students Drop Out: A Case Study.Conference Proceedings of the 2nd International Conference on Educational Data Mining(EDM’09), 1-3 July 2009, Cordoba, Spain, pp.41-50.

      下載開題報(bào)告信用卡申請?jiān)u分模型研究 數(shù)據(jù)挖掘(5篇材料)word格式文檔
      下載開題報(bào)告信用卡申請?jiān)u分模型研究 數(shù)據(jù)挖掘(5篇材料).doc
      將本文檔下載到自己電腦,方便修改和收藏,請勿使用迅雷等下載。
      點(diǎn)此處下載文檔

      文檔為doc格式


      聲明:本文內(nèi)容由互聯(lián)網(wǎng)用戶自發(fā)貢獻(xiàn)自行上傳,本網(wǎng)站不擁有所有權(quán),未作人工編輯處理,也不承擔(dān)相關(guān)法律責(zé)任。如果您發(fā)現(xiàn)有涉嫌版權(quán)的內(nèi)容,歡迎發(fā)送郵件至:645879355@qq.com 進(jìn)行舉報(bào),并提供相關(guān)證據(jù),工作人員會(huì)在5個(gè)工作日內(nèi)聯(lián)系你,一經(jīng)查實(shí),本站將立刻刪除涉嫌侵權(quán)內(nèi)容。

      相關(guān)范文推薦

        外呼銷售精準(zhǔn)營銷數(shù)據(jù)挖掘模型

        ? ? OB實(shí)現(xiàn)精準(zhǔn)營銷需要建立的數(shù)據(jù)挖掘模型 第一:模型橫向 1、 會(huì)員定性:通過對會(huì)員姓名,性別,年齡,購買商品,購買時(shí)間,購買金額,商品品類等數(shù)據(jù)。得出客戶的購買習(xí)慣,購買能力,會(huì)......

        《數(shù)據(jù)挖掘?qū)д摗纷x書報(bào)告

        數(shù)據(jù)收集和數(shù)據(jù)存儲(chǔ)技術(shù)的快速進(jìn)步使得各組織機(jī)構(gòu)可以積累海量數(shù)據(jù)。然而,提取有用的信息已經(jīng)成為巨大的挑戰(zhàn)。通常,由于數(shù)據(jù)量太大,無法使用傳統(tǒng)的數(shù)據(jù)分析丁具和技術(shù)處理它們......

        數(shù)據(jù)挖掘在保險(xiǎn)精準(zhǔn)營銷中的應(yīng)用-開題報(bào)告

        全日制工學(xué)(工程)碩士學(xué)位論文開題報(bào)告 課題來源及研究的目的和意義 1.1 課題來源 自選課題 1.2 選題價(jià)值及意義 大型的保險(xiǎn)公司已將數(shù)據(jù)挖掘應(yīng)用到保險(xiǎn)業(yè)務(wù)中,但由于應(yīng)用在......

        USB安全鑰模型設(shè)計(jì)與研究開題報(bào)告

        題目:USB安全鑰模型設(shè)計(jì)與研究 本課題來源及研究現(xiàn)狀: 隨著信息技術(shù)的發(fā)展,特別是電子商務(wù)的發(fā)展,網(wǎng)絡(luò)信息的安全傳輸問題逐漸成為人們最為關(guān)心和頭痛的事情。密碼安全芯片的研......

        數(shù)據(jù)挖掘?qū)嵙?xí)報(bào)告(推薦閱讀)

        通過半年的實(shí)習(xí),我在這里得到了一次較全面的、系統(tǒng)的鍛煉,也學(xué)到了許多書本上所學(xué)不到的知識(shí)和技能。以下是我這次的實(shí)習(xí)鑒定。 經(jīng)歷了實(shí)習(xí),對社會(huì)也有了基本的實(shí)踐,讓我學(xué)到了......

        研究開題報(bào)告

        研究開題報(bào)告 研究開題報(bào)告1 一、課題開題報(bào)告的含義與作用著名的物理學(xué)家愛因斯坦說過,提出一個(gè)問題比解決一個(gè)問題更重要。何謂有價(jià)值、有創(chuàng)見性的問題?這樣的問題從何而來......

        網(wǎng)絡(luò)信用卡詐騙罪的疑難問題研究-開題

        網(wǎng)絡(luò)信用卡詐騙罪的疑難問題研究提綱選題的根據(jù):1)說明本選題的理論、實(shí)際意義2)綜述國內(nèi)外有關(guān)本選題的研究動(dòng)態(tài)和自己的見解1.選題意義隨著社會(huì)經(jīng)濟(jì)的不斷發(fā)展,信用卡業(yè)務(wù)在我......

        信用卡詐騙罪的論文開題報(bào)告

        一、選題意義 背景:近年來,隨著信用卡產(chǎn)業(yè)的快速發(fā)展,信用卡詐騙犯罪呈現(xiàn)高發(fā)、多發(fā)態(tài)勢,成為當(dāng)前金融犯罪中最突出、最嚴(yán)重的問題,不僅嚴(yán)重侵犯了銀行信用卡管理秩序和公私財(cái)產(chǎn)......