欧美色欧美亚洲高清在线观看,国产特黄特色a级在线视频,国产一区视频一区欧美,亚洲成a 人在线观看中文

  1. <ul id="fwlom"></ul>

    <object id="fwlom"></object>

    <span id="fwlom"></span><dfn id="fwlom"></dfn>

      <object id="fwlom"></object>

      開題報告_基于數(shù)據(jù)挖掘方法的學(xué)生課程推薦算法研究

      時間:2019-05-15 03:52:04下載本文作者:會員上傳
      簡介:寫寫幫文庫小編為你整理了多篇相關(guān)的《開題報告_基于數(shù)據(jù)挖掘方法的學(xué)生課程推薦算法研究》,但愿對你工作學(xué)習(xí)有幫助,當(dāng)然你在寫寫幫文庫還可以找到更多《開題報告_基于數(shù)據(jù)挖掘方法的學(xué)生課程推薦算法研究》。

      第一篇:開題報告_基于數(shù)據(jù)挖掘方法的學(xué)生課程推薦算法研究

      基于數(shù)據(jù)挖掘方法的學(xué)生課程推薦算法研究

      一、課題來源及研究的目的和意義

      1.1 課題來源

      計算機(jī)技術(shù)的進(jìn)步,以及計算機(jī)網(wǎng)絡(luò)建設(shè)的完善促使著社會信息化進(jìn)程持續(xù)發(fā)展[1]。信息數(shù)據(jù)的獲取、記錄、保存、檢索等操作也因為新技術(shù)的不斷應(yīng)用而變得更加方便快捷[2]。一方面,遍布各處的計算機(jī)網(wǎng)絡(luò)終端設(shè)備打破了信息數(shù)據(jù)記錄的時間和地域限制,讓我們可以隨時隨地發(fā)送和接收數(shù)據(jù);另一方面,存儲速度越來越快的大容量電磁存儲技術(shù)大大降低了信息數(shù)據(jù)存儲的代價,使得記錄并長時間保存海量數(shù)據(jù)成為現(xiàn)實。總體來說,在當(dāng)今社會的各個領(lǐng)域中,信息數(shù)據(jù)的記錄已經(jīng)告別了“記賬簿”形式的傳統(tǒng)方式,邁入了電磁化存儲的新時代[3]。信息數(shù)據(jù)存儲需求與信息數(shù)據(jù)存儲代價兩者之間的矛盾進(jìn)一步深化為信息數(shù)據(jù)存儲數(shù)量激增與信息數(shù)據(jù)處理能力停滯不前的矛盾。簡單的說就是“我們應(yīng)該如何獲取蘊(yùn)涵于海量數(shù)據(jù)之中的信息?”這一問題??偹苤?,信息處理是一個知識創(chuàng)造的過程。這個過程需要具有某領(lǐng)域?qū)I(yè)知識的專家通過對數(shù)據(jù)進(jìn)行分析來完成。數(shù)據(jù)的大爆炸使得整個信息處理過程不堪重負(fù)。在原始的信息處理方式日益不能滿足信息處理的需求的背景下,在統(tǒng)計學(xué)、計算機(jī)科學(xué)、人工智能等多學(xué)科知識融合的基礎(chǔ)上,數(shù)據(jù)挖掘方法應(yīng)運(yùn)而生,將數(shù)據(jù)處理和信息獲取從原始的人工方式轉(zhuǎn)向了大規(guī)模計算機(jī)自動化的方式,開辟了信息數(shù)據(jù)處理的新局面[4]。

      教育是立國之本。隨著我國改革開放的不斷深化,教育事業(yè)正在逐步成為我國現(xiàn)代化建設(shè)過程中的一項重要工作[5]。我國的各項新教育政策的出臺鼓勵更多的青少年走進(jìn)學(xué)校接受高等教育,為祖國的未來貢獻(xiàn)自己的力量。到2020年,我國的大學(xué)入學(xué)率計劃達(dá)到40%,較2006年提高了17%。在如此龐大的學(xué)生群體面前,人均可利用的教育資源正在逐年縮減。如何在有限教育資源的前提下,提高教育資源利用率是關(guān)系我國教育教學(xué)質(zhì)量的重要問題之一。為此,需要我國的教育工作者深入研究我國目前的教育體制,提出合理化建議,健全我國教育教學(xué)體制,提高教學(xué)質(zhì)量。衡量教學(xué)質(zhì)量的關(guān)鍵因素是學(xué)生,量化學(xué)生學(xué)習(xí)質(zhì)量的主要指標(biāo)是學(xué)生成績。面對3000萬學(xué)生以及上億的成績數(shù)據(jù),顯然數(shù)據(jù)挖掘是必不可少的信息數(shù)據(jù)處理方法[6]。

      1.2 課題研究目的和意義

      我國的現(xiàn)代化教育體系建設(shè)起步雖然略晚于西方發(fā)達(dá)國家,但是其發(fā)展卻相當(dāng)快速,并且取得了長足的進(jìn)步。其中最具代表性的就是目前廣泛應(yīng)用于各所高校中的學(xué)生成績數(shù)據(jù)挖掘系統(tǒng)。由于不同高校在重點學(xué)科建設(shè)的傾向性不同,所以各個高校在系統(tǒng)建設(shè)的指導(dǎo)思想上和具體實施過程中都結(jié)合自身的特點有所取舍,不同系統(tǒng)之間取長補(bǔ)短,各具特色,形成一種“百家爭鳴,百花齊放”的良性競爭局面。其中效果較好的方法是將系統(tǒng)分為數(shù)據(jù)獲取、數(shù)據(jù)處理、信息挖掘、信息理解和結(jié)果應(yīng)用五個模塊[36-40]。在信息挖掘和信息理解模塊,系統(tǒng)綜合運(yùn)用Apriori算法、C4.5算法、K-means算法和層次聚類等機(jī)器學(xué)習(xí)方法,構(gòu)建完善的學(xué)生成績分析平臺[41,42,43]。于成的《數(shù)據(jù)挖掘在學(xué)生成績分析中的應(yīng)用》、武麗芬和孟強(qiáng)的《學(xué)生成績數(shù)據(jù)挖掘的研究與實現(xiàn)》、朱燕燕的《學(xué)生成績數(shù)據(jù)挖掘系統(tǒng)的設(shè)計與應(yīng)用》、白玲的《數(shù)據(jù)挖掘在高校學(xué)生成績分析中的應(yīng)用》都是基于這種思想構(gòu)建的教學(xué)平臺。雖然這些方法在算法的具體細(xì)節(jié)上都具有各自的特點,但是它們的關(guān)注焦點都集中在對數(shù)據(jù)中關(guān)聯(lián)規(guī)則的挖掘。通過有效地發(fā)現(xiàn)、理解、運(yùn)用關(guān)聯(lián)規(guī)則,能夠使隱含于大量數(shù)據(jù)之中復(fù)雜而有用的知識為現(xiàn)代化教育系統(tǒng)的建設(shè)做出更大的貢獻(xiàn)。這些系統(tǒng)所需的數(shù)據(jù)來源于多年來教學(xué)過程中積累的學(xué)生考試成績。通過對這些數(shù)據(jù)的深度挖掘不難發(fā)現(xiàn),學(xué)生成績的高低不單單取決于課程本身,還會受到學(xué)科的課程設(shè)置、教學(xué)計劃的制定、各門課程的先后順序等諸多方面的影響。由此產(chǎn)生了學(xué)者關(guān)于“如何為學(xué)科設(shè)置課程”、“各門課程之間的相互關(guān)系”、“如何評定綜合學(xué)生學(xué)科綜合成績”等問題的思考。經(jīng)過高校教育工作者、領(lǐng)域?qū)<覍W(xué)家多年來共同的研究與實踐,我國已經(jīng)探索出一條符合中國教育實際情況的發(fā)展之路。高校智能排課系統(tǒng)的出現(xiàn)正是其中[45,46,47]重要的成果之一。四川師范大學(xué)2008年在汪曉飛等學(xué)者的努力下,成功將遺傳算法應(yīng)用于求解排課問題中,取得了良好的效果。該方法分析對比確定了一系列影響排課問題的因素,將其作為約束條件建立排課問題最優(yōu)化模型,通過遺傳算法多代進(jìn)化找到了科學(xué)合理的課程排列順序。2011年大連交通大學(xué)的劉震根據(jù)實際的工作經(jīng)驗,在原有的研究基礎(chǔ)上全面闡述了排課工作的原則、流程以及重點難點。針對排課問題中易出現(xiàn)的沖突,他應(yīng)用關(guān)聯(lián)規(guī)則算法加以解決,排除了排課問題中漏課重課的錯誤,減輕了人工排課的壓力,提高了學(xué)生學(xué)習(xí)的效率。將智能排課與自動出題、考試成績分析三者相結(jié)合,從根本上改變了傳統(tǒng)教學(xué)方式下經(jīng)驗式排課、院系集中出題、教師人工閱卷的局面,將教師從繁重的教學(xué)輔助工作中解放出來,使其能夠有更多時間指導(dǎo)學(xué)生的日常學(xué)習(xí),答疑解惑[48]。

      二、國內(nèi)外在該方向的研究現(xiàn)狀及分析

      國內(nèi)外學(xué)者已經(jīng)從不同角度,不同側(cè)重對這一問題進(jìn)行了深入的研究與探討。尤其是近年來,隨著全世界對教育熱點問題關(guān)注度的持續(xù)升溫,許多新思想、新方法層出不窮。其中著重于學(xué)生考試成績分析的研究方法一直是解決這一問題的熱點[25,26,27]。印度學(xué)者Brijesh Kumar Baradwaj和Saurabh Pal在2011年發(fā)表的論文《Mining Educational Data to Analyze Students’ Performance》中提出一種通過分析學(xué)生考試成績數(shù)據(jù)的方法來預(yù)測學(xué)生的表現(xiàn)。該方法首先通過在線考試系統(tǒng)獲得學(xué)生的考試成績數(shù)據(jù),然后建立高校教育系統(tǒng)的數(shù)據(jù)挖掘模型,利用以ID3決策樹為主的機(jī)器學(xué)習(xí)方法對模型中的數(shù)據(jù)進(jìn)行分類,最終達(dá)到預(yù)測學(xué)生在學(xué)校學(xué)習(xí)情況的目的。與之相關(guān)的數(shù)據(jù)方法還包括Pandey和Pal提出的《Data Mining: A prediction of performer or underperformer using classification》。這種方法以學(xué)生的年級和先修課程為基礎(chǔ),以貝葉斯網(wǎng)絡(luò)為手段,目的是預(yù)測初學(xué)者可能出現(xiàn)的學(xué)習(xí)情況。此類方法都是典型的機(jī)器學(xué)習(xí)方法。它們需要采集學(xué)生的多種信息數(shù)據(jù)作為算法的分析基礎(chǔ),通過多種機(jī)器學(xué)習(xí)方法相結(jié)合的方式構(gòu)造數(shù)據(jù)挖掘模型,并將構(gòu)造好的分析模型應(yīng)用于具體的分類和回歸問題中去[28,29]。除了上述的決策樹學(xué)習(xí)算法和貝葉斯網(wǎng)絡(luò)算法,常用的數(shù)據(jù)挖掘方法還包括聚類算法、神經(jīng)網(wǎng)絡(luò)算法、遺傳算法和線性回歸算法等[30-35]。利用準(zhǔn)確的成績預(yù)測模型,我們還可以繼續(xù)深化關(guān)于問題的研究。例如Galit等在論文《Examining online learning processes based on log files analysis: a case study 》中描述了一種教學(xué)輔助系統(tǒng)就是對考試分析結(jié)果的再利用。該系統(tǒng)根據(jù)學(xué)生的學(xué)習(xí)情況,為學(xué)生提供必要的學(xué)習(xí)計劃,督導(dǎo)學(xué)生按計劃執(zhí)行學(xué)習(xí),幫助學(xué)生順利通過最終的學(xué)科測驗。

      三、主要研究內(nèi)容及創(chuàng)新點 3.1 主要研究內(nèi)容

      目前,我國的現(xiàn)代化教育體制綜合信息平臺主要分為以下四個方面[7]:第一,現(xiàn)代化遠(yuǎn)程教育系統(tǒng);第二,基于海量題庫的自動出題系統(tǒng);第三,學(xué)生成績的智能分析系統(tǒng);第四,學(xué)科設(shè)計及教學(xué)計劃的優(yōu)化系統(tǒng)。上述四類系統(tǒng)基本涵蓋了現(xiàn)代教育體系中從教育規(guī)劃到教育實施的各個方面。如果這四部分能夠相輔相成,相互融合形成一個有機(jī)整體,那么將會打開我國的教育現(xiàn)代化的新局面,使整個基礎(chǔ)教育事業(yè)邁上一個新臺階[8]。但是在實施過程中,由于這四部分的難易程度有所區(qū)別,導(dǎo)致了它們的發(fā)展水平參差不齊。其中隨著我國計算機(jī)硬件及其他輔助設(shè)備的不斷普及和基礎(chǔ)網(wǎng)絡(luò)設(shè)施建設(shè)的不斷完善,遠(yuǎn)程授課系統(tǒng)不斷推陳出新,從最初的單向講授形式發(fā)展到先進(jìn)的雙向交互形式,大大提升了學(xué)生的學(xué)[9]習(xí)興趣和學(xué)習(xí)效果。而計算機(jī)自動出題系統(tǒng)的廣泛應(yīng)用已經(jīng)徹底改變了原有考試形式的單一性,大大增強(qiáng)了考試的靈活性,同時也防止了考試試題泄露等不端行為[10-13]。在此基礎(chǔ)上建立起來的考試評分系統(tǒng),不僅大大縮短了考試成績的評判周期,避免誤判漏判現(xiàn)象的發(fā)生,從根本上維護(hù)了考試的公平公正原則。相比較上述幾部分,我國的教育體系信息平臺對于學(xué)生考試成績的分析和利用,還停留在評價學(xué)生知識掌握的程度的單一層面上。事實上,考試制度的建立不單單是為了衡量學(xué)生對知識的記憶能力,而是為了通過考試這種形式來幫助學(xué)生找出學(xué)習(xí)過程中的不足,采取適當(dāng)?shù)姆绞郊右灾笇?dǎo),最終達(dá)到知識理解和再應(yīng)用的目的[14,15,16]。更進(jìn)一步的是,在國內(nèi)外文化充分交流的今天,我國高校借鑒西方知名學(xué)府的先進(jìn)經(jīng)驗,普遍采取了學(xué)分制的教學(xué)管理模式。這種新興的教學(xué)模式能夠激發(fā)學(xué)生自主學(xué)習(xí)的興趣,有助于跨學(xué)科綜合性人才的培養(yǎng)。在帶給學(xué)生很高的學(xué)習(xí)自由度的同時,也使原先適應(yīng)了傳統(tǒng)教學(xué)習(xí)慣的學(xué)生面臨新的挑戰(zhàn)[17]。如何制定適合自己的學(xué)習(xí)計劃是擺在每個學(xué)生面前的重要問題。畢竟面對種類繁多的學(xué)科,缺少學(xué)科深入認(rèn)知的學(xué)生們只能憑著自己對學(xué)科內(nèi)容的表面理解進(jìn)行選擇。這種摸著石頭過河的學(xué)科選擇方式顯然是不可取的。因為這種做法既忽視了學(xué)生自身的特點,又沒能提供必要的教學(xué)指導(dǎo),很可能導(dǎo)致學(xué)生學(xué)習(xí)進(jìn)度緩慢,甚至半途而廢現(xiàn)象的出現(xiàn)[18,19]。

      學(xué)校教育的最終目的之一是為學(xué)生就業(yè)做準(zhǔn)備。對于在校學(xué)生,他們對今后工作所需技能的了解相對較少。因此,在選擇課程時往往缺乏針對性,不能對今后的就業(yè)起到良好 的支撐。為了避免學(xué)生課程選擇的盲目性,學(xué)校需要結(jié)合在校學(xué)生的具體情況和具有相似情況的畢業(yè)生的學(xué)習(xí)過程為其推薦適當(dāng)?shù)膶W(xué)習(xí)計劃,并視學(xué)生在實際學(xué)習(xí)過程中的情況做出動態(tài)調(diào)整。這種量體裁衣式的課程教學(xué)方法使得每一個學(xué)生在學(xué)習(xí)過程中都能得到及時的指導(dǎo),有助于學(xué)生學(xué)習(xí)興趣的持續(xù)發(fā)展,有助于學(xué)生最終完成本學(xué)科的學(xué)習(xí),掌握相關(guān)領(lǐng)域知識,在今后的就業(yè)過程中能夠脫穎而出起到了良好的輔助作用[20,21,22]。

      為了建立一個行之有效的學(xué)生學(xué)習(xí)指導(dǎo)體系,我們需要總結(jié)、分析一下四方面的問題:

      1.學(xué)生的學(xué)習(xí)需求。學(xué)習(xí)的需求來源于學(xué)生的興趣。在當(dāng)今社會中,信息的獲取易如反掌。學(xué)生根據(jù)自身的喜好,不斷的在探索著信息海洋,并逐步積累起對某個學(xué)科最基本的認(rèn)識。這是學(xué)生學(xué)科選擇的原動力。同時,學(xué)生的學(xué)習(xí)需求還會受到社會就業(yè)需求的影響。隨著學(xué)生對所學(xué)學(xué)科的深入了解,他們的學(xué)習(xí)傾向一般會朝著社會需求的方向發(fā)展。我們需要以此為出發(fā)點,指導(dǎo)學(xué)生進(jìn)行合理的學(xué)習(xí)。2.學(xué)生的知識儲備。學(xué)生在對某學(xué)科進(jìn)行深入學(xué)習(xí)前,一般對該學(xué)科已經(jīng)有了初步的認(rèn)識。這是學(xué)科學(xué)習(xí)的重要前提。為了更好的進(jìn)行深層次的學(xué)習(xí),我們首先要求學(xué)生具有相關(guān)的學(xué)習(xí)基礎(chǔ)。勿在浮沙筑高臺。合理安排學(xué)習(xí)內(nèi)容的先后順序,對整個學(xué)科的學(xué)習(xí)質(zhì)量有至關(guān)重要的影響。3.學(xué)生的成績評價。大多數(shù)情況下,初學(xué)者不能對自己的學(xué)習(xí)狀況做出正確的判斷。正是由于這個原因,需要我們對學(xué)生的知識掌握程度做出正確的、客觀的估計。其中最直接的方法就是量化學(xué)習(xí)成績。也就是通過考試給學(xué)生的學(xué)習(xí)狀況打分,以分?jǐn)?shù)的高低作為其知識掌握程度的標(biāo)準(zhǔn)[23]。雖然考試成績對學(xué)生學(xué)習(xí)狀況的量化評價起到了重要的作用,但是需要注意的是學(xué)生的在校學(xué)習(xí)成績是學(xué)生綜合素質(zhì)體現(xiàn)的一個方面,評價以就業(yè)為最終目標(biāo)的學(xué)校教育必須以“學(xué)生是否就業(yè)”為根本標(biāo)準(zhǔn)。4.學(xué)生的繼續(xù)學(xué)習(xí)。學(xué)校通過考試的形式來度量學(xué)生的學(xué)習(xí)效果,所以考試是已學(xué)知識的結(jié)束。學(xué)習(xí)是一個發(fā)展的過程,一種知識的獲取往往會擴(kuò)大學(xué)生的知識面,激發(fā)其新的學(xué)習(xí)興趣,這就形成了新的學(xué)習(xí)需求。學(xué)習(xí)的目的,特別是基礎(chǔ)知識的學(xué)習(xí)是為更深層次的專業(yè)知識學(xué)習(xí)做積累,所以考試也是未學(xué)知識的起點。通過已學(xué)知識的評價,估計未學(xué)知識的學(xué)習(xí)計劃,是對學(xué)生成績分析結(jié)果更充分的利用。

      上述四個問題循環(huán)往復(fù),既相互制約,又相互促進(jìn)。如果能夠正確處理其中的關(guān)系,使之形成一個可持續(xù)良性循環(huán),那么將會大大增強(qiáng)學(xué)生的學(xué)習(xí)效果[24]。

      3.2 創(chuàng)新點

      1.通過關(guān)聯(lián)規(guī)則挖掘方法和聚類算法確定課程與課程之間的教學(xué)順序關(guān)系;

      2.通過決策樹生成算法完成學(xué)生就業(yè)滿意度與課程選擇之間關(guān)系的確定; 3.綜合上述兩方面,采用多種機(jī)器學(xué)習(xí)算法協(xié)同工作的方法完成課程推薦算法。

      四、研究方案及進(jìn)度安排,預(yù)期達(dá)到的目標(biāo)

      4.1 研究方案

      當(dāng)前各所高校都在如火如荼地創(chuàng)新教學(xué)理念,下大力度轉(zhuǎn)變教師為院系服務(wù)為教師為學(xué)生服務(wù),推廣以學(xué)生個人發(fā)展促進(jìn)學(xué)校發(fā)展的新思路。然而逐年的高校擴(kuò)招,激增的學(xué)生數(shù)量使得教育資源特別是教師資源捉襟見肘。面對求知若渴的學(xué)生,更需要經(jīng)驗豐富的教師來指導(dǎo)他們的學(xué)習(xí)之路,充分激發(fā)他們的學(xué)習(xí)欲望,造就一批批具有牢固專業(yè)知識的人才,使其能夠勝任今后的工作?!叭绾沃笇?dǎo)學(xué)生進(jìn)行課程選擇與進(jìn)度安排”正是擺在每一名教育工作者面前的重要問題。本文立足上述優(yōu)秀理論及實踐的基礎(chǔ)上,繼承和發(fā)揚(yáng)前人研究成果,意在將數(shù)據(jù)挖掘方法引入解決問題方案,使之能夠根據(jù)學(xué)生的就業(yè)滿意度等因素科學(xué)指導(dǎo)學(xué)生安排課程[49,50]。

      數(shù)據(jù)挖掘工作以數(shù)據(jù)為基礎(chǔ),以算法為核心目標(biāo)。為了完成學(xué)生指導(dǎo)工作,我們需要以下工作的定義:

      1.數(shù)據(jù)挖掘的目標(biāo)。本文目的是在綜合分析已畢業(yè)學(xué)生的就業(yè)滿意度與學(xué)生在2.3.4.5.6.校期間學(xué)科選擇、考試成績的關(guān)系,為在校學(xué)生制定符合其就業(yè)需求的學(xué)習(xí)計劃。經(jīng)過科學(xué)合理的總體計劃和扎實的分步實施,最終使學(xué)生能夠順利達(dá)到學(xué)科學(xué)習(xí)的整體要求,在畢業(yè)后的就業(yè)過程中能夠脫穎而出。

      數(shù)據(jù)挖掘的模型。為了達(dá)到預(yù)期目的,我們需要建立一個預(yù)測模型。該模型以學(xué)生以往學(xué)生的就業(yè)滿意度和實際學(xué)習(xí)情況作為參考,預(yù)測在校學(xué)生可能感興趣的學(xué)習(xí)點,為其提供適當(dāng)?shù)膶W(xué)習(xí)課程。這個預(yù)測過程伴隨學(xué)生整個在校學(xué)習(xí)期間,形成一個學(xué)生學(xué)習(xí)的發(fā)展路線圖。在模型實現(xiàn)過程中,本文將預(yù)測模型細(xì)化為若干過程,可分為課程相關(guān)性分析、學(xué)生成績分析、學(xué)生就業(yè)滿意度分析三個主要過程。

      數(shù)據(jù)挖掘所需數(shù)據(jù)的收集和整理。我們?yōu)閿?shù)據(jù)挖掘模型所提供數(shù)據(jù)的質(zhì)量直接影響其預(yù)測能力。一方面,準(zhǔn)確記錄的數(shù)據(jù)可以為模型提供正確的指導(dǎo),而噪音數(shù)據(jù)的存在則可能誤導(dǎo)預(yù)測模型。另一方面,并不是越多的數(shù)據(jù)就意味著越高的預(yù)測準(zhǔn)確率。在信息過載的今天,獲取數(shù)據(jù)絕非難事。但是無意義的或冗余的數(shù)據(jù)既提高了數(shù)據(jù)采集的代價,也延長了模型的構(gòu)造時間。為了給數(shù)據(jù)挖掘模型提供充足的有用的數(shù)據(jù),還需要在數(shù)據(jù)收集過程之后進(jìn)一步對原始數(shù)據(jù)進(jìn)行處理,去其糟粕取其精華。

      數(shù)據(jù)挖掘算法的訓(xùn)練方法。選擇什么樣的方法對數(shù)據(jù)挖掘模型進(jìn)行訓(xùn)練是論文整個工作的核心內(nèi)容。本文的工作是由多個部分共同組成的,在各個不同的部分需要不同的訓(xùn)練算法。這些算法可以分為兩類分類算法和聚類算法,其中分類算法主要用于學(xué)生成績分析、學(xué)生就業(yè)滿意度分析,聚類算法主要用于課程相關(guān)性分析。

      數(shù)據(jù)挖掘算法的測試。經(jīng)過對數(shù)據(jù)挖掘模型的訓(xùn)練,最終我們將得到一個用于學(xué)生課程選擇的輔助系統(tǒng)。系統(tǒng)不斷采集學(xué)生最新的就業(yè)滿意度、學(xué)習(xí)課程、學(xué)習(xí)成績信息加入數(shù)據(jù)庫,然后根據(jù)學(xué)生信息庫動態(tài)更新學(xué)生的學(xué)習(xí)計劃。

      數(shù)據(jù)挖掘的結(jié)果分析。該數(shù)據(jù)挖掘模型的優(yōu)劣,最終需要由學(xué)生自己做出主觀判斷,并輔以全院系學(xué)生的整體就業(yè)滿意度作為客觀判斷。最終綜合二者得出的結(jié)果是判斷“模型是否符合學(xué)生學(xué)習(xí)的要求”的主要依據(jù)。

      4.2 研究進(jìn)度安排

      2012-04-05~2012-05-04

      完成開題報告,提交指導(dǎo)教師。

      2012-05-05~2012-08-04

      收集相關(guān)資料,構(gòu)思并確定寫作大綱,請指導(dǎo)老師加

      以修改。

      2012-08-05~2012-10-04

      撰寫論文初稿。2012-10-05

      完成論文初稿。

      2012-10-06~2012-11-05

      請指導(dǎo)老師對初稿提出修改意見,完成二稿。2012-11-06~2012-11-19

      請指導(dǎo)老師對二稿進(jìn)行指導(dǎo)并按老師的建議進(jìn)行修

      改,完成最終稿。

      2012-11-20

      提交論文最終稿。2012-11-20~2012-12-10

      請評閱老師審閱,準(zhǔn)備論文答辯幻燈片(PPT)。

      4.3 預(yù)期達(dá)到的目標(biāo)

      1.得到課程與課程之間的序關(guān)系。根據(jù)課程度學(xué)科綜合考試的貢獻(xiàn)度確定哪些課程屬于學(xué)科基礎(chǔ)課程,哪些課程屬于專業(yè)基礎(chǔ)課程,哪些課程屬于專業(yè)選修課程。指導(dǎo)學(xué)生在學(xué)習(xí)過程中學(xué)習(xí)的先后順序。

      2.理解學(xué)生就業(yè)滿意度與課程選擇之間的關(guān)系。在課程選擇前先根據(jù)已畢業(yè)學(xué)生的就業(yè)狀況為學(xué)生的課程選擇提出合理化建議??傮w教學(xué)遵循針對性學(xué)習(xí)的思想,使學(xué)生能夠?qū)W以致用。

      3.建立一個可應(yīng)用于實踐的學(xué)生自動課程推薦體系。切實解決學(xué)生被指導(dǎo)需求量大,教師資源不足的實際情況。使學(xué)生在學(xué)分制體系下,可以充分發(fā)揮自己的主觀能動性,學(xué)有所長。

      五、為完成課題已具備和所需的條件

      5.1 已具備的條件

      為了完成本課題的研究,我們需要從三個方面入手?;蛘哒f,這三個方面是研究得以開展的必備條件。其中首要條件是研究的理論支持。研究不是空想,需要以成熟的理論作為研究指導(dǎo),否則就是空中樓閣。本文以目前廣泛應(yīng)用于各個領(lǐng)域的數(shù)據(jù)挖掘理論作為總的指導(dǎo)思想,并結(jié)合本課題的實際情況,輔以前人的優(yōu)秀科研成果,三者結(jié)合為論文研究工作的順利進(jìn)行提供了堅實的基礎(chǔ)。

      其次,研究的價值體現(xiàn)在其實用價值上,不具有可行性的研究是毫無意義的。本文的研究過程是伴隨著實驗過程進(jìn)行的。兩者相輔相成,理論研究指導(dǎo)實驗開展,實驗過程完善理論體系。前一階段的資料搜集和論文學(xué)習(xí)工作,目前本人已經(jīng)具備了完成研究的理論知識和相關(guān)實驗技能,這些都將成為完成論文研究的有力支撐。

      最后,在數(shù)據(jù)挖掘過程中,數(shù)據(jù)是整個過程中最重要的資源。我國教學(xué)體制改革多年來積累的學(xué)生數(shù)據(jù)正是我們完成本課題研究的重要保障。

      5.2 所需的條件

      一年多的時間過去了,目前關(guān)于數(shù)據(jù)挖掘理論知識的學(xué)習(xí),基本實驗方法的實踐和論文的搜集工作都已經(jīng)告一段落,可以說論文的前期準(zhǔn)備工作基本已經(jīng)結(jié)束了。接下來的工作主要從兩方面入手。第一,論文的寫作。本論文的寫作遵循提綱式寫作方法,因此需要我們在論文搜集工作的基礎(chǔ)上,進(jìn)一步對這些論文進(jìn)行整理,從而確定本論文的大體思路,列出論文提綱,為論文初稿寫作做準(zhǔn)備。第二,實驗的開展。實驗是本論文的重要組成部分,實驗結(jié)果的好壞直接影響到研究的進(jìn)展程度。因此,需要我們掌握扎實的實驗操作知識,以保證實驗工作的正確性。這些實驗知識涉及到機(jī)器學(xué)習(xí)算法的偽代碼編寫、計算機(jī)軟件設(shè)計與實現(xiàn)、程序的調(diào)試與排錯、以及軟件測試與算法分析。

      六、預(yù)計研究過程中可能遇到的困難和問題以及解決的措施

      在本課題的研究過程中,可能遇到存在的困難主要來源于實驗數(shù)據(jù)的準(zhǔn)備、算法的設(shè)計以及、實驗結(jié)果的分析。下列給出了主要的困難及相應(yīng)的解決辦法:

      1.實驗數(shù)據(jù)的準(zhǔn)備。本文的實驗數(shù)據(jù)全部來源于高校的教學(xué)系統(tǒng)。但由于我國教育體制的不斷改革,也使得系統(tǒng)所采用的數(shù)據(jù)記錄方式存在一定的差異。為了得到形式統(tǒng)一的數(shù)據(jù),還需要我們對一些未記錄數(shù)據(jù)進(jìn)行補(bǔ)充。在一定程度上,我們對數(shù)據(jù)的判斷能力,決定了實驗結(jié)果的可靠性。為此,我們首先要有嚴(yán)謹(jǐn)認(rèn)的科學(xué)態(tài)度,通過數(shù)據(jù)挖掘中數(shù)據(jù)預(yù)處理和手工處理相結(jié)合的方式,最大程度上保證數(shù)據(jù)的正確性。2.算法的設(shè)計。算法是軟件的靈魂。本文的算法設(shè)計包括算法的理論正確性和邏輯正確性。其中理論正確性是以本文的研究工作作為基礎(chǔ)的,而邏輯正確性是以計算機(jī)軟件設(shè)計方法作為基礎(chǔ)的。

      3.實驗結(jié)果分析。實驗結(jié)果直觀反映了研究工作的正確性。通過對實驗結(jié)果的分析,可以及時發(fā)現(xiàn)算法中存在的問題并做出調(diào)整。這其中一些的錯誤看似隨機(jī),影響了我們對算法的正確認(rèn)識,需要我們反復(fù)進(jìn)行實驗,觀察結(jié)果,認(rèn)真分析,將算法中的錯誤減少到最低。

      綜上所述,在研究過程中需要我們廣泛查閱文獻(xiàn)、反復(fù)動手實驗、積極深入思考,當(dāng)然也少不了老師的悉心指導(dǎo)和同學(xué)們的熱心幫助,才能更好地完成本課題的研究和本文的寫作。

      七、主要參考文獻(xiàn)

      [1] 張慶鋒, 鄭建明, 王育紅.社會信息化進(jìn)程測度指標(biāo)體系之構(gòu)建.情報科學(xué), 2000, 09: 772-775.[2] 謝俊貴.我國社會信息化的涵義、作用及推進(jìn)策略.情報理論與實踐, 2002, 04: 244-248.[3] 王旭東.論社會信息化的影響與沖擊——從當(dāng)代歷史進(jìn)程到世界史研究.世界歷史, 2007, 05: 43-52.[4] 羅晶.基于數(shù)據(jù)網(wǎng)格技術(shù)的遠(yuǎn)程教育系統(tǒng)的研究.南昌大學(xué)工學(xué)碩士論文, 2006.[5] 黃越嶺.可視化遠(yuǎn)程教育管理系統(tǒng)研究.西南大學(xué)工學(xué)碩士論文, 2007.[6] 南翔宇.農(nóng)村遠(yuǎn)程教育平臺建設(shè)和服務(wù)體系研究.西北農(nóng)林科技大學(xué)工學(xué)碩士論文,2008.[7] 李佳.基于IRT模型的題庫智能組卷策略.江西師范大學(xué)工學(xué)碩士論文, 2007.[8] 李軍.基于遺傳算法的智能組卷系統(tǒng)研究.天津大學(xué)工學(xué)碩士論文, 2008.[9] 劉貝貝.基于推理與遺傳算法的智能組卷模型與系統(tǒng)實現(xiàn).煙臺大學(xué)工學(xué)碩士論文,2009.[10] 賀敏之.基于遺傳蟻群算法的智能組卷系統(tǒng)設(shè)計與實現(xiàn).湖南大學(xué)工學(xué)碩士論文, 2010.[11] 趙志艷.基于遺傳與蟻群混合算法的智能組卷問題探究.安徽大學(xué)工學(xué)碩士論文, 2011.[12] 楊葳.基于OLAP的成績分析系統(tǒng)的研究.沈陽工業(yè)大學(xué)工學(xué)碩士論文, 2007.[13] 劉劍.改進(jìn)聚類分析算法及其在成績分析中的應(yīng)用研究.大連交通大學(xué)工學(xué)碩士論文,2008.[14] 牛文穎.改進(jìn)的ID3決策樹分類算法在成績分析中的應(yīng)用研究.大連交通大學(xué)工學(xué)碩士論文, 2008.[15] 黃芳.基于數(shù)據(jù)挖掘的決策樹技術(shù)在成績分析中的應(yīng)用研究.山東大學(xué)工學(xué)碩士論文,2009.[16] 劉海燕.基于決策樹分類算法的學(xué)習(xí)成績分析系統(tǒng)的設(shè)計與實現(xiàn).電子科技大學(xué)工學(xué)碩士論文, 2011.[17] 汪曉飛.基于多維編碼方案的遺傳算法在高校排課系統(tǒng)中的應(yīng)用.四川師范大學(xué)工學(xué)碩士論文, 2008.[18] 朱奉梅.遺傳算法在高校排課系統(tǒng)中的研究與應(yīng)用.東北大學(xué)工學(xué)碩士論文, 2009.[19] 王永剛.基于矩陣判別算法的高校自動排課系統(tǒng)設(shè)計與實現(xiàn).電子科技大學(xué)工學(xué)碩士論文, 2010.[20] 王霞.基于多策略算法排課系統(tǒng)研究.西北農(nóng)林科技大學(xué)工學(xué)碩士論文, 2010.[21] 劉震.基于關(guān)聯(lián)規(guī)則算法的排課系統(tǒng)的應(yīng)用研究.大連交通大學(xué)工學(xué)碩士論文, 2011.[22] Qinghua Hu, Lei Zhang, David Zhang, Wei Pan, Shuang An, Witold Pedrycz.Measuring relevance between discrete and continuous features based on neighborhood mutual information.Expert Systems with Applications, 2011, 38(9): 10737-10750.[23] Haihong Zhang, Cuntai Guan, Yuanqing Li.A linear discriminant analysis method based on mutual information maximization.Pattern Recognition, 2011, 44(4): 877-885.[24] Ai-Hua Jiang, Xiu-Chang Huang, Zhen-Hua Zhang, Jun Li, Zhi-Yi Zhang, Hong-Xin Hua.Mutual information algorithms Original.Mechanical Systems and Signal Processing, 2010, 24(8): 2947-2960.[25] Sombut Foithong, Ouen Pinngern, Boonwat Attachoo.Feature subset selection wrapper based on mutual information and rough sets.Expert Systems with Applications, 2012, 39(1): 574-584.[26] Ju Lynn Ong, Abd-Krim Seghouane.Feature selection using mutual information in CT colonography.Pattern Recognition Letters, 2011, 32(2): 337-341.[27] Sangjae Lee.Using data envelopment analysis and decision trees for efficiency analysis and recommendation of B2C controls.Decision Support Systems, 2010, 49(4): 486-497.[28] Fernando E.B.Otero, Alex A.Freitas, Colin G.Johnson.Inducing decision trees with an ant colony optimization algorithm.Applied Soft Computing, 2012, 12(11): 3615-3626.[29] Siva S.Sivatha Sindhu, S.Geetha, A.Kannan.Decision tree based light weight intrusion detection using a wrapper approach.Expert Systems with Applications, 2012, 39(1): 129-141.[30] Mehmet Ali Cavuslu, Cihan Karakuzu, Fuat Karakaya.Neural identification of dynamic systems on FPGA with improved PSO learning.Applied Soft Computing, 2012, 12(9): 2707-2718.[31] B.Vasumathi, S.Moorthi.Implementation of hybrid ANN–PSO algorithm on FPGA for harmonic estimation.Engineering Applications of Artificial Intelligence, 2012, 25(3): 476-483.[32] Haiyan Lu, Pichet Sriyanyong, Yong Hua Song, Tharam Dillon.Experimental study of a new hybrid PSO with mutation for economic dispatch with non-smooth cost function.International Journal of Electrical Power & Energy Systems, 2010, 32(9): 921-935.[33] Amitava Chatterjee, Fumitoshi Matsuno.A Geese PSO tuned fuzzy supervisor for EKF based solutions of simultaneous localization and mapping(SLAM)problems in mobile robots.Expert Systems with Applications, 2010, 37(8): 5542-5548.[34] U.Fayadd, Piatesky, G.Shapiro, and P.Smyth, From data mining to knowledge discovery in databases, AAAI Press / The MIT Press, Massachusetts Institute Of Technology.ISBN 0–262 56097–6, 1996.[35] J.Han and M.Kamber, “Data Mining: Concepts and Techniques,” Morgan Kaufmann, 2000.[36] S.T.Hijazi, and R.S.M.M.Naqvi, “Factors affecting student?s performance: A Case of Private Colleges”, Bangladesh e-Journal of Sociology, Vol.3, No.1, 2006.[37] Z.N.Khan, “Scholastic achievement of higher secondary students in science stream”, Journal of Social Sciences, Vol.1, No.2, pp.84-87, 2005..[38] Galit.et.al, “Examining online learning processes based on log files analysis: a case study”.Research, Reflection and Innovations in Integrating ICT in Education 2007.[39] Q.A.AI-Radaideh, E.W.AI-Shawakfa, and M.I.AI-Najjar, “Mining student data using decision trees”, International Arab Conference on Information Technology(ACIT'2006), Yarmouk University, Jordan, 2006.[40] U.K.Pandey, and S.Pal, “A Data mining view on class room teaching language”,(IJCSI)International Journal of Computer Science Issue, Vol.8, Issue 2, pp.277-282, ISSN:1694-0814, 2011.[41] Shaeela Ayesha, Tasleem Mustafa, Ahsan Raza Sattar, M.Inayat Khan, “Data mining model for higher education system”, Europen Journal of Scientific Research, Vol.43, No.1, pp.24-29, 2010.[42] M.Bray, The shadow education system: private tutoring and its implications for planners,(2nd ed.), UNESCO, PARIS, France, 2007.[43] Vashishta, S.(2011).Efficient Retrieval of Text for Biomedical Domain using Data Mining Algorithm.IJACSA-International Journal of Advanced Computer Science and Applications, 2(4), 77-80.[44] Collier, K., Carey, B., Sautter, D., and Marjaniemi, C., “A methodology for evaluating and selecting data mining software,” in Proceedings of the 32nd Annual Hawaii International Conference on System Sciences, IEEE, 1999.Orange, University of Ljubljana, Slovenia, [45] Luan, J., Zhao, C.-M., and Hayek, J., “Exploring a new frontier in higher education research: A case study analysis of using data mining techniques to create NSSE institutional typology,” Paper presented at the California Association for Institutional Research, Anaheim, California, November 17-19, 2004.[46] Bekele, R.and Menzel, W., “A Bayesian approach to predict performance of a student(BAPPS): A case with Ethiopian students,” in Proceedings of the International Conference on Artificial Intelligence and Applications(AIA-2005), Vienna, Austria, 2005.[47] Minaei-Bidgoli, B., Kashy, D.A., Kortemeyer, G., and Punch, W.F, “Predicting student performance: an application of data mining methods with an educational web-based system,” in Proceedings of 33rd Annual Conference on Frontiers in Education(FIE 2003), volume 1, 2003, pages 13–18.[48] Romero, C., Ventura, S.(2007).Educational Data Mining: A Survey from 1995 to 2005.Expert Systems with Applications 33, 2007, pp.135-146.[49] Ma, Y., Liu, B., Wong, C.K., Yu, P.S., Lee, S.M.(2000).Targeting the right students using data mining.Proceedings of the sixth ACM SIGKDD international conference on Knowledge discovery and data mining, Boston, pp 457-464.[50] Luan, J.(2002).Data Mining and Its Applications in Higher Education.New Directions for Institutional Research, Special Issue titled Knowledge Management: Building a Competitive Advantage in Higher Education, Vol.2002, Iss.113, pp.17–36.[51] Luan, J.(2004).Data Mining Applications in Higher Education.SPSS Executive Report, SPSS Inc.[52] Minaeli-Bidgoli, B., Kashy, D., Kortemeyer, G., Punch, W.(2003).Predicting Student Performance: An Application of Data Mining Methods with the Educational Web-Based System LON-CAPA.33rd ASEE/IEEE Frontiers in Education Conference, 5-8 Nov 2003, Boulder, CO.[53] Kotsiantis, S., Pierrakeas, C., Pintelas, P.(2004).Prediction of Student’s Performance in Distance Learning Using Machine Learning Techniques.Applied Artificial Intelligence, Vol.18, No.5, 2004, pp.411-426.[54] Pardos Z., Heffernan N., Anderson B., and Heffernan C.(2006).Using Fine-Grained Skill Models to Fit Student Performance with Bayesian Networks.In Proceedings of the Workshop in Educational Data Mining held at the 8th International Conference on Intelligent Tutoring Systems(ITS2006), June 26, 2006, Taiwan.[55] Superby, J.Vandamme, J., Meskens, N.(2006).Determination of factors influencing the achievement of the first-year university students using data mining methods.Proceedings of the Workshop on Educational Data Mining at the 8th International Conference on Intelligent Tutoring Systems(ITS 2006).Jhongli, Taiwan, pp37-44.[56] Vandamme, J., Meskens, N., Superby, J.(2007).Predicting Academic Performance by Data Mining Methods.Education Economics, 15(4), pp405-419.[57] Cortez, P., Silva, A.(2008).Using Data Mining to Predict Secondary School Student Performance.EUROSIS, A.Brito and J.Teixeira(Eds.), 2008, pp.5-12.Dekker, G., Pechenizkiy, M., Vleeshouwers, J.(2009).Predicting Students Drop Out: A Case Study.Conference Proceedings of the 2nd International Conference on Educational Data Mining(EDM’09), 1-3 July 2009, Cordoba, Spain, pp.41-50.

      第二篇:18大經(jīng)典數(shù)據(jù)挖掘算法小結(jié)

      18大經(jīng)典數(shù)據(jù)挖掘算法小結(jié)

      2015-03-05 CSDN大數(shù)據(jù) CSDN大數(shù)據(jù)

      csdnbigdataCSDN分享Hadoop、Spark、NoSQL/NewSQL、HBase、Impala、內(nèi)存計算、流計算、機(jī)器學(xué)習(xí)和智能算法等相關(guān)大數(shù)據(jù)觀點,提供云計算和大數(shù)據(jù)技術(shù)、平臺、實踐和產(chǎn)業(yè)信息等服務(wù)。本文所有涉及到的數(shù)據(jù)挖掘代碼的都放在了github上了。

      地址鏈接: https://github.com/linyiqun/DataMiningAlgorithm 大概花了將近2個月的時間,自己把18大數(shù)據(jù)挖掘的經(jīng)典算法進(jìn)行了學(xué)習(xí)并且進(jìn)行了代碼實現(xiàn),涉及到了決策分類,聚類,鏈接挖掘,關(guān)聯(lián)挖掘,模式挖掘等等方面。也算是對數(shù)據(jù)挖掘領(lǐng)域的小小入門了吧。下面就做個小小的總結(jié),后面都是我自己相應(yīng)算法的博文鏈接,希望能夠幫助大家學(xué)習(xí)。

      1.C4.5算法。C4.5算法與ID3算法一樣,都是數(shù)學(xué)分類算法,C4.5算法是ID3算法的一個改進(jìn)。ID3算法采用信息增益進(jìn)行決策判斷,而C4.5采用的是增益率。

      詳細(xì)介紹鏈接:http://blog.csdn.net/androidlushangderen/article/details/42395865 2.CART算法。CART算法的全稱是分類回歸樹算法,他是一個二元分類,采用的是類似于熵的基尼指數(shù)作為分類決策,形成決策樹后之后還要進(jìn)行剪枝,我自己在實現(xiàn)整個算法的時候采用的是代價復(fù)雜度算法,詳細(xì)介紹鏈接:http://blog.csdn.net/androidlushangderen/article/details/42558235 3.KNN(K最近鄰)算法。給定一些已經(jīng)訓(xùn)練好的數(shù)據(jù),輸入一個新的測試數(shù)據(jù)點,計算包含于此測試數(shù)據(jù)點的最近的點的分類情況,哪個分類的類型占多數(shù),則此測試點的分類與此相同,所以在這里,有的時候可以復(fù)制不同的分類點不同的權(quán)重。近的點的權(quán)重大點,遠(yuǎn)的點自然就小點。

      詳細(xì)介紹鏈接:http://blog.csdn.net/androidlushangderen/article/details/42613011 4.Naive Bayes(樸素貝葉斯)算法。樸素貝葉斯算法是貝葉斯算法里面一種比較簡單的分類算法,用到了一個比較重要的貝葉斯定理,用一句簡單的話概括就是條件概率的相互轉(zhuǎn)換推導(dǎo)。詳細(xì)介紹鏈接:http://blog.csdn.net/androidlushangderen/article/details/42680161 5.SVM(支持向量機(jī))算法。支持向量機(jī)算法是一種對線性和非線性數(shù)據(jù)進(jìn)行分類的方法,非線性數(shù)據(jù)進(jìn)行分類的時候可以通過核函數(shù)轉(zhuǎn)為線性的情況再處理。其中的一個關(guān)鍵的步驟是搜索最大邊緣超平面。

      詳細(xì)介紹鏈接:http://blog.csdn.net/androidlushangderen/article/details/42780439 6.EM(期望最大化)算法。期望最大化算法,可以拆分為2個算法,1個E-Step期望化步驟,和1個M-Step最大化步驟。他是一種算法框架,在每次計算結(jié)果之后,逼近統(tǒng)計模型參數(shù)的最大似然或最大后驗估計。

      詳細(xì)介紹鏈接:http://blog.csdn.net/androidlushangderen/article/details/42921789 7.Apriori算法。Apriori算法是關(guān)聯(lián)規(guī)則挖掘算法,通過連接和剪枝運(yùn)算挖掘出頻繁項集,然后根據(jù)頻繁項集得到關(guān)聯(lián)規(guī)則,關(guān)聯(lián)規(guī)則的導(dǎo)出需要滿足最小置信度的要求。

      詳細(xì)介紹鏈接:http://blog.csdn.net/androidlushangderen/article/details/43059211 8.FP-Tree(頻繁模式樹)算法。這個算法也有被稱為FP-growth算法,這個算法克服了Apriori算法的產(chǎn)生過多侯選集的缺點,通過遞歸的產(chǎn)生頻度模式樹,然后對樹進(jìn)行挖掘,后面的過程與Apriori算法一致。

      詳細(xì)介紹鏈接:http://blog.csdn.net/androidlushangderen/article/details/43234309 9.PageRank(網(wǎng)頁重要性/排名)算法。PageRank算法最早產(chǎn)生于Google,核心思想是通過網(wǎng)頁的入鏈數(shù)作為一個網(wǎng)頁好快的判定標(biāo)準(zhǔn),如果1個網(wǎng)頁內(nèi)部包含了多個指向外部的鏈接,則PR值將會被均分,PageRank算法也會遭到Link Span攻擊。

      詳細(xì)介紹鏈接:http://blog.csdn.net/androidlushangderen/article/details/43311943 10.HITS算法。HITS算法是另外一個鏈接算法,部分原理與PageRank算法是比較相似的,HITS算法引入了權(quán)威值和中心值的概念,HITS算法是受用戶查詢條件影響的,他一般用于小規(guī)模的數(shù)據(jù)鏈接分析,也更容易遭受到攻擊。

      詳細(xì)介紹鏈接:http://blog.csdn.net/androidlushangderen/article/details/43311943 11.K-Means(K均值)算法。K-Means算法是聚類算法,k在在這里指的是分類的類型數(shù),所以在開始設(shè)定的時候非常關(guān)鍵,算法的原理是首先假定k個分類點,然后根據(jù)歐式距離計算分類,然后去同分類的均值作為新的聚簇中心,循環(huán)操作直到收斂。

      詳細(xì)介紹鏈接:http://blog.csdn.net/androidlushangderen/article/details/43373159 12.BIRCH算法。BIRCH算法利用構(gòu)建CF聚類特征樹作為算法的核心,通過樹的形式,BIRCH算法掃描數(shù)據(jù)庫,在內(nèi)存中建立一棵初始的CF-樹,可以看做數(shù)據(jù)的多層壓縮。

      詳細(xì)介紹鏈接:http://blog.csdn.net/androidlushangderen/article/details/43532111 13.AdaBoost算法。AdaBoost算法是一種提升算法,通過對數(shù)據(jù)的多次訓(xùn)練得到多個互補(bǔ)的分類器,然后組合多個分類器,構(gòu)成一個更加準(zhǔn)確的分類器。

      詳細(xì)介紹鏈接:http://blog.csdn.net/androidlushangderen/article/details/43635115 14.GSP算法。GSP算法是序列模式挖掘算法。GSP算法也是Apriori類算法,在算法的過程中也會進(jìn)行連接和剪枝操作,不過在剪枝判斷的時候還加上了一些時間上的約束等條件。

      詳細(xì)介紹鏈接:http://blog.csdn.net/androidlushangderen/article/details/43699083 15.PreFixSpan算法。PreFixSpan算法是另一個序列模式挖掘算法,在算法的過程中不會產(chǎn)生候選集,給定初始前綴模式,不斷的通過后綴模式中的元素轉(zhuǎn)到前綴模式中,而不斷的遞歸挖掘下去。

      詳細(xì)介紹鏈接:http://blog.csdn.net/androidlushangderen/article/details/43766253 16.CBA(基于關(guān)聯(lián)規(guī)則分類)算法。CBA算法是一種集成挖掘算法,因為他是建立在關(guān)聯(lián)規(guī)則挖掘算法之上的,在已有的關(guān)聯(lián)規(guī)則理論前提下,做分類判斷,只是在算法的開始時對數(shù)據(jù)做處理,變成類似于事務(wù)的形式。

      詳細(xì)介紹鏈接:http://blog.csdn.net/androidlushangderen/article/details/43818787 17.RoughSets(粗糙集)算法。粗糙集理論是一個比較新穎的數(shù)據(jù)挖掘思想。這里使用的是用粗糙集進(jìn)行屬性約簡的算法,通過上下近似集的判斷刪除無效的屬性,進(jìn)行規(guī)制的輸出。

      詳細(xì)介紹鏈接:http://blog.csdn.net/androidlushangderen/article/details/43876001 18.gSpan算法。gSpan算法屬于圖挖掘算法領(lǐng)域。,主要用于頻繁子圖的挖掘,相較于其他的圖算法,子圖挖掘算法是他們的一個前提或基礎(chǔ)算法。gSpan算法用到了DFS編碼,和Edge五元組,最右路徑子圖擴(kuò)展等概念,算法比較的抽象和復(fù)雜。

      詳細(xì)介紹鏈接:http://blog.csdn.net/androidlushangderen/article/details/43924273

      第三篇:數(shù)據(jù)挖掘技術(shù)-畢業(yè)設(shè)計-開題報告-畢業(yè)論文

      數(shù)據(jù)挖掘技術(shù)綜述

      數(shù)據(jù)挖掘(Data Mining)是一項較新的數(shù)據(jù)庫技術(shù),它基于由日常積累的大量數(shù)據(jù)所構(gòu)成的數(shù)據(jù)庫,從中發(fā)現(xiàn)潛在的、有價值的信息——稱為知識,用于支持決策。數(shù)據(jù)挖掘是一項數(shù)據(jù)庫應(yīng)用技術(shù),本文首先對數(shù)據(jù)挖掘進(jìn)行概述,闡明什么是數(shù)據(jù)挖掘,數(shù)據(jù)挖掘的技術(shù)是什么,然后介紹數(shù)據(jù)挖掘的常用技術(shù),數(shù)據(jù)挖掘的主要過程, 如何進(jìn)行數(shù)據(jù)挖掘,主要應(yīng)用領(lǐng)域以及國內(nèi)外現(xiàn)狀分析。

      一.研究背景及意義

      近十幾年來,隨著數(shù)據(jù)庫系統(tǒng)的廣泛流行以及計算機(jī)技術(shù)的快速發(fā)展,人們利用信息技術(shù)生產(chǎn)和搜集數(shù)據(jù)的能力大幅度提高。千萬個數(shù)據(jù)庫被用于商業(yè)管理、政府辦公、科學(xué)研究和工程開發(fā)等,特別是網(wǎng)絡(luò)系統(tǒng)的流行,使得信息爆炸性增長。這一趨勢將持續(xù)發(fā)展下去。大量信息在給人們帶來方便的同時也帶來了一大堆的問題:第一是信息過量,難以消化;第二是信息真假難以辨認(rèn);第三是信息安全難以保證;第四是信息形式不一致,難以統(tǒng)一處理。面對這種狀況,一個新的挑戰(zhàn)被提出來:如何才能不被信息的汪洋大海所淹沒,從中及時發(fā)現(xiàn)有用的知識,提高信息利用率呢?這時出現(xiàn)了新的技術(shù)——數(shù)據(jù)挖掘(Data Mining)技術(shù)便應(yīng)用而生了。

      面對海量的存儲數(shù)據(jù),如何從中發(fā)現(xiàn)有價值的信息或知識,成為一項非常艱巨的任務(wù)。數(shù)據(jù)挖掘就是為迎合這種要求而產(chǎn)生并迅速發(fā)展起來的。數(shù)據(jù)挖掘研究的目的主要是發(fā)現(xiàn)知識、使數(shù)據(jù)可視化、糾正數(shù)據(jù)。

      二.概述

      1,數(shù)據(jù)挖掘

      數(shù)據(jù)挖掘(Data Mining)就是從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程。這些數(shù)據(jù)可以是結(jié)構(gòu)化的,如關(guān)系數(shù)據(jù)庫中的數(shù)據(jù),也可以是半結(jié)構(gòu)化的,如文本,圖形,圖像數(shù)據(jù),甚至是分布在網(wǎng)絡(luò)上的異構(gòu)型數(shù)據(jù)。發(fā)現(xiàn)知識的方法可以是數(shù)學(xué)的,也可以是非數(shù)學(xué)的,可以是演繹的,也可以是歸納的。發(fā)現(xiàn)了的知識可以被用于信息管理、查詢優(yōu)化、決策支持、過程控制等,還可以進(jìn)行數(shù)據(jù)自身的維護(hù)。數(shù)據(jù)挖掘借助了多年來數(shù)理統(tǒng)計技術(shù)和人工智能以及知識工程等領(lǐng)域的研究成果構(gòu)建自己的理論體系,是一個交叉學(xué)科領(lǐng)域,可以集成數(shù)據(jù)數(shù)據(jù)庫、人工智能、數(shù)理統(tǒng)計、可視化、并行計算等技術(shù)。2,數(shù)據(jù)挖掘技術(shù)

      數(shù)據(jù)挖掘就是對觀測到的數(shù)據(jù)集進(jìn)行分析,目的是發(fā)現(xiàn)未知的關(guān)系和以數(shù)據(jù)擁有者可以理解并對其有價值的新穎方式來總結(jié)數(shù)據(jù)。它利用各種分析方法和分析工具在大規(guī)模海量數(shù)據(jù)中建立模型和發(fā)現(xiàn)數(shù)據(jù)間關(guān)系的過程,這些模型和關(guān)系可以用來做出決策和預(yù)測。

      數(shù)據(jù)挖掘的過程就是知識發(fā)現(xiàn)的過程,其所能發(fā)現(xiàn)的知識有如下幾種:廣義型知識,反映同類事物共同性質(zhì)的知識;特征型知識,反映事物各方面的特征知識;差異型知識,反映不同事物之間屬性差別的知識;關(guān)聯(lián)型知識,反映事物之間依賴或關(guān)聯(lián)的知識;預(yù)測型知識,根據(jù)歷史的和當(dāng)前的數(shù)據(jù)推測未來數(shù)據(jù);偏離型知識,揭示事物偏離常規(guī)的異?,F(xiàn)象。所有這些知識都可以在不同的概念層次上被發(fā)現(xiàn),隨著概念樹的提升,從微觀到中觀再到宏觀,以滿足不同用戶、不同層次決策的需要。

      數(shù)據(jù)挖掘是涉及數(shù)據(jù)庫、人工智能、數(shù)理統(tǒng)計、機(jī)械學(xué)、人工神經(jīng)網(wǎng)絡(luò)、可視化、并行計算等的交叉學(xué)科,是目前國際上數(shù)據(jù)庫和決策支持領(lǐng)域的最前沿的研究方向之一。

      3,數(shù)據(jù)挖掘的功能

      數(shù)據(jù)挖掘通過預(yù)測未來趨勢及行為,做出預(yù)測性的、基于知識的決策。數(shù)據(jù)挖掘的目標(biāo)是從數(shù)據(jù)庫中發(fā)現(xiàn)隱含的、有意義的知識,按其功能可分為以 下幾類。

      3.1 關(guān)聯(lián)分析(Association Analysis)

      關(guān)聯(lián)分析能尋找到數(shù)據(jù)庫中大量數(shù)據(jù)的相關(guān)聯(lián)系,常用的一種技術(shù)為關(guān)聯(lián)規(guī)則和序列模式。關(guān)聯(lián)規(guī)則是發(fā)現(xiàn)一個事物與其他事物間的相互關(guān)聯(lián)性或相互依賴性。

      3.2 聚類

      輸入的數(shù)據(jù)并無任何類型標(biāo)記,聚類就是按一定的規(guī)則將數(shù)據(jù)劃分為合理的集合,即將對象分組為多個類或簇,使得在同一個簇中的對象之間具有較高的相似度,而在不同簇中的對象差別很大。聚類增強(qiáng)了人們對客觀現(xiàn)實的認(rèn)識,是概念描述和偏差分析的先決條件。聚類技術(shù)主要包括傳統(tǒng)的模式識別方法和數(shù)學(xué)分類學(xué)。

      3.3 自動預(yù)測趨勢和行為

      數(shù)據(jù)挖掘自動在大型數(shù)據(jù)庫中進(jìn)行分類和預(yù)測,尋找預(yù)測性信息,自動地提出描述重要數(shù)據(jù)類的模型或預(yù)測未來的數(shù)據(jù)趨勢,這樣以往需要進(jìn)行大量手工分析的問題如今可以迅速直接由數(shù)據(jù)本身得出結(jié)論。

      3.4 概念描述

      對于數(shù)據(jù)庫中龐雜的數(shù)據(jù),人們期望以簡潔的描述形式來描述匯集的數(shù)據(jù)集。概念描述就是對某類對象的內(nèi)涵進(jìn)行描述并概括出這類對象的有關(guān)特征。概念描述分為特征性描述和區(qū)別性描述,前者描述某類對象的共同特征,后者描述不同類對象之間的區(qū)別。生成一個類的特征性只涉及該類對象中所有對象的共性。生成區(qū)別性描述的方法很多,如決策樹方法、遺傳算法等。

      3.5 偏差檢測

      數(shù)據(jù)庫中的數(shù)據(jù)常有一些異常記錄,從數(shù)據(jù)庫中檢測這些偏差很有意義。偏差包括很多潛在的知識,如分類中的反常實例、不滿足規(guī)則的特例、觀測結(jié)果與模型預(yù)測值的偏差、量值隨時間的變化等。偏差檢測的基本方法是尋找觀測結(jié)果與參照值之間有意義的差別。這常用于金融銀行業(yè)中檢測欺詐行為,或市場分析中分析特殊消費者的消費習(xí)慣。

      三.目前的研究現(xiàn)狀及存在的主要問題

      自KDD一詞首次出現(xiàn)在1989年8月舉行的第11屆國際聯(lián)合人工智能學(xué)術(shù)會議以來。迄今為止,由美國人工智能協(xié)會主辦的KDD國際研討會已經(jīng)召開了13次,規(guī)模由原來的專題討論會發(fā)展到國際學(xué)術(shù)大會,人數(shù)由二三十人到超過千人,論文收錄數(shù)量也迅速增加,研究重點也從發(fā)現(xiàn)方法逐漸轉(zhuǎn)向系統(tǒng)應(yīng)用直到轉(zhuǎn)向大規(guī)模綜合系統(tǒng)的開發(fā),并且注重多種發(fā)現(xiàn)策略和技術(shù)的集成,以及多種學(xué)科之間的相互滲透。其他內(nèi)容的專題會議也把數(shù)據(jù)挖掘和知識發(fā)現(xiàn)列為議題之一,成為當(dāng)前計算機(jī)科學(xué)界的一大熱點。

      與國外相比,國內(nèi)對DMKD的研究稍晚,沒有形成整體力量。1993年國家自然科學(xué)基金首次支持我們對該領(lǐng)域的研究項目。目前,國內(nèi)的許多科研單位和高等院校競相開展知識發(fā)現(xiàn)的基礎(chǔ)理論及其應(yīng)用研究,這些單位包括清華大學(xué)、中科院計算技術(shù)研究所、空軍第三研究所、海軍裝備論證中心等。其中,北京系統(tǒng)工程

      研究所對模糊方法在知識發(fā)現(xiàn)中的應(yīng)用進(jìn)行了較深入的研究,北京大學(xué)也在開展對數(shù)據(jù)立方體代數(shù)的研究,華中理工大學(xué)、復(fù)旦大學(xué)、浙江大學(xué)、中國科技大學(xué)、中科院數(shù)學(xué)研究所、吉林大學(xué)等單位開展了對關(guān)聯(lián)規(guī)則開采算法的優(yōu)化和改造;南京大學(xué)、四川聯(lián)合大學(xué)和上海交通大學(xué)等單位探討、研究了非結(jié)構(gòu)化數(shù)據(jù)的知識發(fā)現(xiàn)以及Web數(shù)據(jù)挖掘。

      四.研究內(nèi)容

      1,數(shù)據(jù)挖掘的過程

      數(shù)據(jù)挖掘是指一個完整的過程,該過程從大型數(shù)據(jù)庫中挖掘先前未知的、有效的、可實用的信息,并使用這些信息做出決策或豐富知識。

      數(shù)據(jù)挖掘的一般過程如下流程圖所示:

      圖1,數(shù)據(jù)掘的一般過程

      2.1 神經(jīng)網(wǎng)絡(luò)

      神經(jīng)網(wǎng)絡(luò)方法是模擬人腦神經(jīng)元結(jié)構(gòu),以MP模型和Hebb學(xué)習(xí)規(guī)則為基礎(chǔ)。它主要有三種神經(jīng)網(wǎng)絡(luò)模型:前饋式網(wǎng)絡(luò)、反饋式網(wǎng)絡(luò)、自組織網(wǎng)絡(luò)。為

      2.2決策樹

      決策樹學(xué)習(xí)著眼于從一組無次序、無規(guī)則的事中推理出決策樹表示形式的分類規(guī)則。它采用自頂向下的遞歸方式,在決策樹的內(nèi)部結(jié)點進(jìn)行屬性值的比較并根據(jù)不同的屬性值判斷從該結(jié)點向下的分支,在決策樹的葉結(jié)點得到結(jié)論。

      2.3 遺傳算法

      遺傳算法是一種優(yōu)化技術(shù),是模擬生物進(jìn)化過程的算法。基于進(jìn)化理論,并采用遺傳結(jié)合、遺傳變異以及自然選擇等設(shè)計方法。由三個基本算子組成:繁殖、交叉、變異。

      2.4 傳統(tǒng)統(tǒng)計分析

      這類技術(shù)建立在傳統(tǒng)的數(shù)理統(tǒng)計的基礎(chǔ)上。在數(shù)據(jù)庫字段項之間存在兩種關(guān)系:函數(shù)關(guān)系(能用函數(shù)公式表示的確定性關(guān)系)和相關(guān)關(guān)系(不能用函數(shù)公式表示,但仍是相關(guān)確定性關(guān)系),對它們的分析可采用判別分析、因子分析、相關(guān)分析、多元回歸分

      析及偏最小二乘回歸方法等。

      2.5 關(guān)聯(lián)規(guī)則

      關(guān)聯(lián)規(guī)則是發(fā)現(xiàn)一個事物與其他事物間的相互關(guān)聯(lián)性或相互依賴性。關(guān)聯(lián)規(guī)則是展示屬性: 值頻繁地在給定數(shù)據(jù)集中一起出現(xiàn)的條件,是數(shù)據(jù)挖掘中作用比較廣泛的知識之一。

      2.6 可視化技術(shù)

      可視化技術(shù)是利用計算機(jī)圖形學(xué)和圖像技術(shù),將數(shù)據(jù)轉(zhuǎn)換成圖形或圖像在屏幕上顯示出來,并進(jìn)行交互處理的理論、方法和技術(shù)??梢暬瘮?shù)據(jù)挖掘技術(shù)將可視化有機(jī)地融合到數(shù)

      據(jù)挖掘之中,使用戶對于數(shù)據(jù)挖掘有一個更加直接直觀清晰的了解,提供讓用戶有效、主動參與數(shù)據(jù)挖掘過程的方法。

      3,數(shù)據(jù)挖掘的應(yīng)用領(lǐng)域

      數(shù)據(jù)挖掘技術(shù)從一開始就是面向應(yīng)用的。它不僅是面向特定數(shù)據(jù)庫的簡單檢索查詢調(diào)用,而且要對這些數(shù)據(jù)進(jìn)行微觀、中觀乃至宏觀的統(tǒng)計,分析,綜合和推理,以指導(dǎo)實際問題的求解,企圖發(fā)現(xiàn)事件間的相互關(guān)聯(lián),甚至利用已有的數(shù)據(jù)對未來的活動

      進(jìn)行預(yù)測。

      一般Data Mining較長被應(yīng)用的領(lǐng)域包括金融業(yè)、保險業(yè)、零售業(yè)、直效行銷業(yè)、通訊業(yè)、制造業(yè)以及醫(yī)療服務(wù)業(yè)等。更廣義的說法是:數(shù)據(jù)挖掘意味著在一些事實或觀察數(shù)據(jù)的集合中尋找模式的決策支持過程。

      4,數(shù)據(jù)挖掘的發(fā)展方向

      目前,數(shù)據(jù)挖掘的研究方面主要有:數(shù)據(jù)庫知識發(fā)現(xiàn)方面,將知識發(fā)現(xiàn)(KDD)與數(shù)據(jù)庫系統(tǒng)、數(shù)據(jù)倉庫系統(tǒng)和Web數(shù)據(jù)庫系統(tǒng)緊密結(jié)合,力圖充分利用Web中的豐富資源;機(jī)器學(xué)習(xí)方面,進(jìn)一步研究知識發(fā)現(xiàn)方法,希望克服現(xiàn)存算法的計算性瓶頸,如注重對Bayes(貝葉斯)方法以及Boosting算法的研究和提高;統(tǒng)計領(lǐng)域,加大傳統(tǒng)統(tǒng)計方法在數(shù)據(jù)挖掘中的應(yīng)用。數(shù)據(jù)挖掘研究正蓬勃開展,在今后還會掀起更大的波瀾,其研究焦點集中到以下幾個方面:研究專門用于知識發(fā)現(xiàn)的數(shù)據(jù)挖掘語言,也許會像SQL語言一樣走向形式化和標(biāo)準(zhǔn)化;尋求數(shù)據(jù)挖掘過程中的可視化方法,使得知識發(fā)現(xiàn)的過程能夠被用戶理解,也便于在知識發(fā)現(xiàn)過程中的人機(jī)交互;研究在網(wǎng)絡(luò)環(huán)境下的數(shù)據(jù)挖掘技術(shù),特別是在Internet上建立數(shù)據(jù)挖掘服務(wù)器,與數(shù)據(jù)庫服務(wù)器配合,實現(xiàn)數(shù)據(jù)挖掘;加強(qiáng)對各種非結(jié)構(gòu)化數(shù)據(jù)的挖掘,如文本數(shù)據(jù)、圖形圖像數(shù)據(jù)、多媒體數(shù)據(jù)。

      5,數(shù)據(jù)挖掘的新技術(shù)

      Web數(shù)據(jù)挖掘技術(shù)首要解決半結(jié)構(gòu)化數(shù)據(jù)源模型和半結(jié)構(gòu)化數(shù)據(jù)模型的查詢與集成問題。這就必須要有一個模型來清晰地描述Web上的數(shù)據(jù),而尋找一個半結(jié)構(gòu)化的數(shù)據(jù)模型是解決問題的關(guān)鍵所在。除此之外,還需要一種半結(jié)構(gòu)化模型抽取技術(shù),即自動地從現(xiàn)有數(shù)據(jù)中抽取半結(jié)構(gòu)化模型的技術(shù)。

      XML可看作一種半結(jié)構(gòu)化的數(shù)據(jù)模型,可以很容易地將XML的文檔描述與關(guān)系數(shù)據(jù)庫中的屬性對應(yīng)起來,實施精確地查詢與模型抽取。利用XML.Web設(shè)計人員不僅能創(chuàng)建文字和圖形,而且還能構(gòu)建文檔類型定義的多層次、相互依存的系統(tǒng)、數(shù)據(jù)樹、元數(shù)據(jù)、超鏈接結(jié)構(gòu)和樣式表。

      6,數(shù)據(jù)挖掘面臨的問題和挑戰(zhàn)

      雖然數(shù)據(jù)挖掘技術(shù)已經(jīng)在各方面都得到了廣泛的應(yīng)用,但數(shù)據(jù)挖掘技術(shù)的研究還不夠成熟,在應(yīng)用上有很大的局限性。正是這些局限性,促使數(shù)據(jù)挖掘技術(shù)進(jìn)一步的發(fā)展:

      (1)挖掘的對象 數(shù)據(jù)庫更大,維數(shù)更高,屬性之間更復(fù)雜,數(shù)據(jù)挖掘處理的數(shù)據(jù)通

      常十分巨大。

      (2)數(shù)據(jù)丟失問題 因大部分?jǐn)?shù)據(jù)庫不是為知識發(fā)現(xiàn)而定做的,那么它就有可能會存在一些重要的數(shù)據(jù)和屬性丟失的問題。

      (3)多種形式的輸入數(shù)據(jù) 目前數(shù)據(jù)挖掘工具能處理的數(shù)據(jù)形式有限,一般只能處理數(shù)值型的結(jié)構(gòu)化數(shù)據(jù)。

      (4)網(wǎng)絡(luò)與分布式環(huán)境的KDD問題 隨網(wǎng)絡(luò)的發(fā)展,資源的豐富,技術(shù)人員各自獨立處理分離數(shù)據(jù)庫的工作方式應(yīng)是可協(xié)作的。

      五.研究達(dá)到的預(yù)期結(jié)果

      系統(tǒng)的介紹數(shù)據(jù)挖掘技術(shù),使更多的研究人員在數(shù)據(jù)庫中發(fā)現(xiàn)有用的,有潛在價

      值的數(shù)據(jù)知識。

      六.小結(jié)

      通過各方面資料的查找,理解了基本的數(shù)據(jù)挖掘概念、數(shù)據(jù)挖掘技術(shù)、數(shù)據(jù)挖掘的實際應(yīng)用及國內(nèi)外現(xiàn)狀。在論文中將對數(shù)據(jù)挖掘的概念以及發(fā)展概況進(jìn)行介紹,并總結(jié)數(shù)據(jù)挖掘中使用的技術(shù),主要結(jié)合當(dāng)前的研究成果,分析了數(shù)據(jù)挖掘領(lǐng)域的。研究領(lǐng)域方面,可能主要集中在網(wǎng)絡(luò)信息中的主要應(yīng)用。

      七.畢業(yè)論文進(jìn)程安排

      序號 論文各階段安排內(nèi)容 日期資料調(diào)研及方案設(shè)計 1.4-1.10數(shù)據(jù)挖掘的概論研究 1.11-1.25數(shù)據(jù)挖掘常用技術(shù)研究 1.26-2.15數(shù)據(jù)挖掘的應(yīng)用研究 2.15-3.1(中期檢查)數(shù)據(jù)挖掘的新技術(shù)研究 3.1-3.10數(shù)據(jù)挖掘的發(fā)展方向 3.11-3.16撰寫論文 3.16-4.10論文修改 4.11-4.30準(zhǔn)備答辯,交老師審閱 5.1-5.5畢業(yè)論文答辯 5.6-?

      第四篇:數(shù)據(jù)挖掘研究現(xiàn)狀

      一、時代的挑戰(zhàn)

      近十幾年來,人們利用信息技術(shù)生產(chǎn)和搜集數(shù)據(jù)的能力大幅度提高,千萬萬個數(shù)據(jù)庫被用于商業(yè)管理、政府辦公、科學(xué)研究和工程開發(fā)等等,這一勢頭仍將持續(xù)發(fā)展下去。于是,一個新的挑戰(zhàn)被提了出來:在這被稱之為信息爆炸的時代,信息過量幾乎成為人人需要面對的問題。如何才能不被信息的汪洋大海所淹沒,從中及時發(fā)現(xiàn)有用的知識,提高信息利用率呢?要想使數(shù)據(jù)真正成為一個公司的資源,只有充分利用它為公司自身的業(yè)務(wù)決策和戰(zhàn)略發(fā)展服務(wù)才行,否則大量的數(shù)據(jù)可能成為包袱,甚至成為垃圾。因此,面對“人們被數(shù)據(jù)淹沒,人們卻饑餓于知識”的挑戰(zhàn),數(shù)據(jù)挖掘和知識發(fā)現(xiàn)(DMKD)技術(shù)應(yīng)運(yùn)而生,并得以蓬勃發(fā)展,越來越顯示出其強(qiáng)大的生命力。

      數(shù)據(jù)挖掘(Data Mining)就是從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程。還有很多和這一術(shù)語相近似的術(shù)語,如從數(shù)據(jù)庫中發(fā)現(xiàn)知識(KDD)、數(shù)據(jù)分析、數(shù)據(jù)融合(Data Fusion)以及決策支持等。人們把原始數(shù)據(jù)看作是形成知識的源泉,就像從礦石中采礦一樣。原始數(shù)據(jù)可以是結(jié)構(gòu)化的,如關(guān)系數(shù)據(jù)庫中的數(shù)據(jù),也可以是半結(jié)構(gòu)化的,如文本、圖形、圖像數(shù)據(jù),甚至是分布在網(wǎng)絡(luò)上的異構(gòu)型數(shù)據(jù)。發(fā)現(xiàn)知識的方法可以是數(shù)學(xué)的,也可以是非數(shù)學(xué)的;可以是演繹的,也可以是歸納的。發(fā)現(xiàn)了的知識可以被用于信息管理、查詢優(yōu)化、決策支持、過程控制等,還可以用于數(shù)據(jù)自身的維護(hù)。因此,數(shù)據(jù)挖掘是一門很廣義的交叉學(xué)科,它匯聚了不同領(lǐng)域的研究者,尤其是數(shù)據(jù)庫、人工智能、數(shù)理統(tǒng)計、可視化、并行計算等方面的學(xué)者和工程技術(shù)人員。

      特別要指出的是,數(shù)據(jù)挖掘技術(shù)從一開始就是面向應(yīng)用的。它不僅是面向特定數(shù)據(jù)庫的簡單檢索查詢調(diào)用,而且要對這些數(shù)據(jù)進(jìn)行微觀、中觀乃至宏觀的統(tǒng)計、分析、綜合和推理,以指導(dǎo)實際問題的求解,企圖發(fā)現(xiàn)事件間的相互關(guān)聯(lián),甚至利用已有的數(shù)據(jù)對未來的活動進(jìn)行預(yù)測。

      二、研究現(xiàn)狀

      KDD一詞首次出現(xiàn)在1989年8月舉行的第11屆國際聯(lián)合人工智能學(xué)術(shù)會議上。迄今為止,由美國人工智能協(xié)會主辦的KDD國際研討會已經(jīng)召開了7次,規(guī)模由原來的專題討論會發(fā)展到國際學(xué)術(shù)大會,人數(shù)由二三十人到七八百人,論文收錄比例從2X1到6X1,研究重點也逐漸從發(fā)現(xiàn)方法轉(zhuǎn)向系統(tǒng)應(yīng)用,并且注重多種發(fā)現(xiàn)策略和技術(shù)的集成,以及多種學(xué)科之間的相互滲透。其 諶蕕淖ㄌ饣嵋橐舶咽萃誥蠔橢斗⑾至形樘庵?成為當(dāng)前計算機(jī)科學(xué)界的一大熱點。

      此外,數(shù)據(jù)庫、人工智能、信息處理、知識工程等領(lǐng)域的國際學(xué)術(shù)刊物也紛紛開辟了 KDD專題或?qū)?EEE的Knowledge and Data Engineering 會刊領(lǐng)先在1993年出版了KD D技術(shù)???所發(fā)表的5篇論文代表了當(dāng)時KDD研究的最新成果和動態(tài),較全面地論述了KDD 系統(tǒng)方法論、發(fā)現(xiàn)結(jié)果的評價、KDD系統(tǒng)設(shè)計的邏輯方法,集中討論了鑒于數(shù)據(jù)庫的動態(tài)性冗余、高噪聲和不確定性、空值等問題,KDD系統(tǒng)與其它傳統(tǒng)的機(jī)器學(xué)習(xí)、專家系統(tǒng)、人工神經(jīng)網(wǎng)絡(luò)、數(shù)理統(tǒng)計分析系統(tǒng)的聯(lián)系和區(qū)別,以及相應(yīng)的基本對策。6篇論文摘要展示了KDD在從建立分子模型到設(shè)計制造業(yè)的具體應(yīng)用。

      不僅如此,在Internet上還有不少KDD電子出版物,其中以半月刊Knowledge Discove

      ryNuggets最為權(quán)威,另一份在線周刊為DS*(DS代表決策支持),1997年10月7日開始出版。在網(wǎng)上,還有一個自由論壇 DM Email Club, 人們通過電子郵件相互討論DMKD的熱點問題。而領(lǐng)導(dǎo)整個潮流的DMKD開發(fā)和研究中心,當(dāng)數(shù)設(shè)在美國EMDEN的IBM公司開發(fā)部。至于DMKD書籍,可以在任何計算機(jī)書店找到十多本,但大多帶有商業(yè)色彩。

      三、內(nèi)容和本質(zhì)

      隨著DMKD研究逐步走向深入,人們越來越清楚地認(rèn)識到,DMKD的研究主要有3個技術(shù)支柱,即數(shù)據(jù)庫、人工智能和數(shù)理統(tǒng)計。

      數(shù)據(jù)庫技術(shù)在經(jīng)過了80年代的輝煌之后,已經(jīng)在各行各業(yè)成為一種數(shù)據(jù)庫文化或時尚,數(shù)據(jù)庫界目前除了關(guān)注萬維網(wǎng)數(shù)據(jù)庫、分布式數(shù)據(jù)庫、面向?qū)ο髷?shù)據(jù)庫、多媒體數(shù)據(jù)庫、查詢優(yōu)化和并行計算等技術(shù)外,已經(jīng)在開始反思。數(shù)據(jù)庫最實質(zhì)的應(yīng)用僅僅是查詢嗎?理論根基最深的關(guān)系數(shù)據(jù)庫最本質(zhì)的技術(shù)進(jìn)步點,就是數(shù)據(jù)存放和數(shù)據(jù)使用之間的相互分離。查詢是數(shù)據(jù)庫的奴隸,發(fā)現(xiàn)才是數(shù)據(jù)庫的主人;數(shù)據(jù)只為職員服務(wù),不為老板服務(wù)!這是很多單位的領(lǐng)導(dǎo)在熱心數(shù)據(jù)庫建設(shè)后發(fā)出的感嘆。

      由于數(shù)據(jù)庫文化的迅速普及,用數(shù)據(jù)庫作為知識源具有堅實的基礎(chǔ);另一方面,對于一個感興趣的特定領(lǐng)域——客觀世界,先用數(shù)據(jù)庫技術(shù)將其形式化并組織起來,就會大大提高知識獲取起點,以后從中發(fā)掘或發(fā)現(xiàn)的所有知識都是針對該數(shù)據(jù)庫而言的。因此,在需求的驅(qū)動下,很多數(shù)據(jù)庫學(xué)者轉(zhuǎn)向?qū)?shù)據(jù)倉庫和數(shù)據(jù)挖掘的研究,從對演繹數(shù)據(jù)庫的研究轉(zhuǎn)向?qū)w納數(shù)據(jù)庫的研究。

      專家系統(tǒng)曾經(jīng)是人工智能研究工作者的驕傲。專家系統(tǒng)實質(zhì)上是一個問題求解系統(tǒng) ,目前的主要理論工具是基于謂詞演算的機(jī)器定理證明技術(shù)——二階演繹系統(tǒng)。領(lǐng)域?qū)<议L期以來面向一個特定領(lǐng)域的經(jīng)驗世界,通過人腦的思維活動積累了大量有用信息。

      在研制一個專家系統(tǒng)時,知識工程師首先要從領(lǐng)域?qū)<夷抢铽@取知識,這一過程實質(zhì)上是歸納過程,是非常復(fù)雜的個人到個人之間的交互過程,有很強(qiáng)的個性和隨機(jī)性。因此 ,知識獲取成為專家系統(tǒng)研究中公認(rèn)的瓶頸問題。

      其次,知識工程師在整理表達(dá)從領(lǐng)域?qū)<夷抢铽@得的知識時,用if-then等類的規(guī)則表達(dá),約束性太大,用常規(guī)數(shù)理邏輯來表達(dá)社會現(xiàn)象和人的思維活動局限性太大,也太困難, 勉強(qiáng)抽象出來的規(guī)則有很強(qiáng)的工藝色彩,差異性極大,知識表示又成為一大難題。

      此外,即使某個領(lǐng)域的知識通過一定手段獲取并表達(dá)了,但這樣做成的專家系統(tǒng)對常識和百科知識出奇地貧乏,而人類專家的知識是以擁有大量常識為基礎(chǔ)的。人工智能學(xué)家 Feigenbaum估計,一般人擁有的常識存入計算機(jī)大約有100萬條事實和抽象經(jīng)驗法則,離開常識的專家系統(tǒng)有時會比傻子還傻。例如戰(zhàn)場指揮員會根據(jù)“在某地發(fā)現(xiàn)一只剛死的波斯貓”的情報很快斷定敵高級指揮所的位置,而再好的軍事專家系統(tǒng)也難以顧全到如此的信息。

      以上這3大難題大大限制了專家系統(tǒng)的應(yīng)用,使得專家系統(tǒng)目前還停留在構(gòu)造諸如發(fā)動機(jī)故障論斷一類的水平上。人工智能學(xué)者開始著手基于案例的推理,尤其是從事機(jī)器學(xué)習(xí)的科學(xué)家們,不再滿足自己構(gòu)造的小樣本學(xué)習(xí)模式的象牙塔,開始正視現(xiàn)實生活中大量的、不完全的、有噪聲的、模糊的、隨機(jī)的大數(shù)據(jù)樣本,也走上了數(shù)據(jù)挖掘的道路。

      數(shù)理統(tǒng)計是應(yīng)用數(shù)學(xué)中最重要、最活躍的學(xué)科之一,它在計算機(jī)發(fā)明之前就誕生了, 迄今已有幾百年的發(fā)展歷史。如今相當(dāng)強(qiáng)大有效的數(shù)理統(tǒng)計方法和工具,已成為信息咨詢業(yè)的基礎(chǔ)。信息時代,咨詢業(yè)更為發(fā)達(dá)。然而,數(shù)理統(tǒng)計和數(shù)據(jù)庫技術(shù)結(jié)合得并不算快,數(shù)據(jù)庫查詢語言SQL中的聚合函數(shù)功能極其簡單,就是一個證明。咨詢業(yè)用數(shù)據(jù)庫查詢數(shù)據(jù)還遠(yuǎn)遠(yuǎn)不夠。一旦人們有了從數(shù)據(jù)查詢到知識發(fā)現(xiàn)、從數(shù)據(jù)演繹到數(shù)據(jù)歸納的要求,概率論和數(shù)理統(tǒng)計就獲得了新的生命力,所以才會在DMKD這個結(jié)合點上,立即呈現(xiàn)出“忽如一夜春風(fēng)來,千樹萬樹梨花開”的繁榮景象。一向以數(shù)理統(tǒng)計工具和可視化計算聞名的美國SA S公司,領(lǐng)先宣布進(jìn)入DMKD行列。

      數(shù)據(jù)挖掘所能發(fā)現(xiàn)的知識有如下幾種:廣義型知識,反映同類事物共同性質(zhì)的知識;特征型知識,反映事物各方面的特征知識;差異型知識,反映不同事物之間屬性差別的知識;關(guān)聯(lián)型知識,反映事物之間依賴或關(guān)聯(lián)的知識;預(yù)測型知識,根據(jù)歷史的和當(dāng)前的數(shù)據(jù)推測未來數(shù)據(jù);偏離型知識,揭示事物偏離常規(guī)的異?,F(xiàn)象。所有這些知識都可以在不同的概念層次上被發(fā)現(xiàn),隨著概念樹的提升,從微觀到中觀再到宏觀,以滿足不同用戶、不同層次決策的需要。

      四、發(fā)展方向

      當(dāng)前,DMKD研究正方興未艾,預(yù)計在21世紀(jì)還會形成更大的高潮,研究焦點可能會集中到以下幾個方面:研究專門用于知識發(fā)現(xiàn)的數(shù)據(jù)挖掘語言,也許會像SQL語言一樣走向形式化和標(biāo)準(zhǔn)化;尋求數(shù)據(jù)挖掘過程中的可視化方法,使得知識發(fā)現(xiàn)的過程能夠被用戶理解 ,也便于在知識發(fā)現(xiàn)過程中的人機(jī)交互;研究在網(wǎng)絡(luò)環(huán)境下的數(shù)據(jù)挖掘技術(shù),特別是在Int ernet上建立DMKD服務(wù)器,與數(shù)據(jù)庫服務(wù)器配合,實現(xiàn)數(shù)據(jù)挖掘;加強(qiáng)對各種非結(jié)構(gòu)化數(shù)據(jù)的挖掘,如文本數(shù)據(jù)、圖形圖像數(shù)據(jù)、多媒體數(shù)據(jù)。但是,無論怎樣,需求牽引,市場驅(qū)動是永恒的,DMKD將首先滿足信息時代用戶的急需,大量基于DMKD的決策支持軟件工具產(chǎn)品將會問世

      第五篇:開題報告信用卡申請評分模型研究 數(shù)據(jù)挖掘

      一、論文題目

      基于數(shù)據(jù)挖掘技術(shù)的信用卡信用評分模型研究

      二、論文選題理論意義、實用價值

      近十年來,受經(jīng)濟(jì)的飛速發(fā)展,中國的信貸消費特別是面向消費者個人的信用消費蓬勃發(fā)展,汽車貸款、住房按揭、助學(xué)貸款、信用卡消費等逐漸走入人們的生活中。個人消費信貸的蓬勃發(fā)展以及消費信貸業(yè)務(wù)風(fēng)險與回報相對應(yīng)的客觀規(guī)律,使商業(yè)銀行等授信機(jī)構(gòu)在追逐巨額利潤的同時,不得不面對巨大的潛在不良信貸風(fēng)險,從而信用風(fēng)險管理逐漸成為商業(yè)銀行個人消費信貸管理的一個核心領(lǐng)域。商業(yè)銀行需要客觀、全面、準(zhǔn)確地評估消費者的還款能力和還款意愿,以避免、控制、減少壞賬損失。

      信用評分模型技術(shù)的發(fā)展和應(yīng)用,就是應(yīng)個人消費信貸金融機(jī)構(gòu)風(fēng)險管理的需要而誕生的。信用評分模型是歐美消費信貸管理廣泛應(yīng)用的技術(shù)手段。它運(yùn)用先進(jìn)的數(shù)據(jù)挖掘技術(shù)和統(tǒng)計分析方法,通過對消費者的人口特征、信用歷史記錄和行為記錄等大量的數(shù)據(jù)進(jìn)行系統(tǒng)的分析,挖掘數(shù)據(jù)中蘊(yùn)含的行為模式、信用特征,捕捉歷史信息和未來信用表現(xiàn)之間的關(guān)系,發(fā)展出預(yù)測性的模型,以一個信用評分來綜合評估消費者未來的某種信用表現(xiàn),作為消費信貸管理的決策依據(jù)。

      歐美國家的使用經(jīng)驗表明,個人信用評分具有處理客戶貸款申請速度快、成本低、處理的標(biāo)準(zhǔn)一致和客觀等特點,在消費者信用風(fēng)險管理中發(fā)揮著重要的作用,同時個人信用技術(shù)不僅被廣泛地應(yīng)用于信用卡等消費信貸、住房按揭貸款等領(lǐng)域,也被成功地應(yīng)用于中小企業(yè)貸款申請評估、信用卡欺詐預(yù)防、基于風(fēng)險的利率定價、直銷相應(yīng)評分及資產(chǎn)證券化等領(lǐng)域,因而信用評分模型具有很強(qiáng)的應(yīng)用潛力。

      然而,對于這樣一個在西方發(fā)達(dá)國家行之有效的信用風(fēng)險管理技術(shù),國內(nèi)銀行使用的不多,學(xué)術(shù)的研究也很落后。國內(nèi)銀行信用風(fēng)險控制和管理能力還比較弱,個人信用評價工作相當(dāng)不完善,缺乏科學(xué)統(tǒng)一的風(fēng)險度量方法和工具,無法準(zhǔn)確地度量借款人風(fēng)險和產(chǎn)品風(fēng)險,還不能對信用額度實施有效的科學(xué)管理。造成這方面的原因是多方面的,首先由于我國的信用建設(shè)起步比較晚,社會征信體系不完善,缺乏與個人信用評估相關(guān)的資料。其次缺乏專業(yè)的個人信用研究人員和專業(yè)的個人信用評估機(jī)構(gòu),致使沒有相對統(tǒng)一合理的評估標(biāo)準(zhǔn)、評估方法和指標(biāo)體系。因此借鑒國外先進(jìn)經(jīng)驗,在現(xiàn)有的條件下,利用信息系統(tǒng)中的數(shù)據(jù)和信息,建立一個具有一定預(yù)測能力、在信貸決策中具有一定參考價值、符合我國國情的個人信用評分模型將有助于銀行拓展個人消費信貸業(yè)務(wù),提高其綜合競爭力,保障我國金融秩序穩(wěn)定,具有很強(qiáng)的理論價值和現(xiàn)實意義。

      個人信用評分模型的必要性具體體現(xiàn)在如下四個方面:

      首先,使用個人信用評分模型,可以幫助銀行減少貸款審批時間,爭取放款實效。據(jù)美國消費銀行協(xié)會的一份資料,以前不使用個人信用評分模型,小額消費信貸的審批平均需要12小時,如今這類貸款的審批縮短到15分鐘。使用個人信用評分模型后,信用卡的審批只要一兩分鐘,60%的汽車貸款的審批可以在l小時內(nèi)完成。

      其次,個人信用評分可以作為核定信用額度及收帳策略的參考。利用信用評分的結(jié)果,可以核定信用條件、交易條件及信用額度,例如什么范圍的評分結(jié)果,必須提供擔(dān)?;虮WC人;達(dá)到哪一標(biāo)準(zhǔn)以上,才可授予多少信用額度等;還可以預(yù)測客戶履行債務(wù)的情況,根據(jù)信用得分決定該客戶的收款方法與收款時間。

      此外,個人信用評分能夠幫助金融機(jī)構(gòu)確定消費貸款利率,對高風(fēng)險的客戶提供較高的利率,反之亦然。這些都可以幫助金融機(jī)構(gòu)更為有效地和有利地管理他們的賬戶,而且利潤評分可用于在一系列金融產(chǎn)品中追求利潤最大化。

      最后,個人信用評分不僅為銀行等金融機(jī)構(gòu)進(jìn)行消費貸款風(fēng)險控制提供準(zhǔn)確、客觀的依據(jù),而且加快了消費信貸的業(yè)務(wù)速度,降低了消費信貸的操作成本,在模型出現(xiàn)誤差時也可

      以快速地找出原因,并對模型的參數(shù)進(jìn)行調(diào)整。

      綜上所述,可以得出結(jié)論:個人信用評分模型是有效控制信用風(fēng)險、擴(kuò)大信貸規(guī)模的有力武器,建立個人信用模型,對消費貸款的申請人的信用進(jìn)行科學(xué)的度量,小到銀行對個人信用風(fēng)險的控制,大到保障我國金融秩序的穩(wěn)定都具有積極而重要的意義。

      論文在探討各種信用技術(shù)的前提下,試圖研究該技術(shù)的具體實現(xiàn),為該技術(shù)的應(yīng)用提供一定的參考。

      二 國內(nèi)外研究現(xiàn)狀與發(fā)展趨勢

      1.國外的研究狀況

      國外幾代學(xué)者經(jīng)過長達(dá)幾十年的探索研究,信用評分模型在技術(shù)上基本成熟。

      杜爾蘭德(Durand)第一個將Fisher提出的判別分析法用于信用評分,用來區(qū)分“好“的貸款和“壞”的貸款。需要注意的是線性判別法進(jìn)行信用分析時,對數(shù)據(jù)有嚴(yán)格假定。數(shù)據(jù)需服從正態(tài)分布,各總體協(xié)方差陣必須相等,而這些要求在現(xiàn)實中是很難滿足的。同二次判別函數(shù)相比,線性判別函數(shù)具有更多優(yōu)點,多數(shù)學(xué)者在用判別分析法建立信用模型時,往往忽略假設(shè)依然選用線性判別函數(shù),這使得線性判別分析成為信用評分領(lǐng)域最為廣泛的方法之一。

      Wiginton,1980年首次在信用評分模型中采用Logistic回歸方法,并把它與判別分析法進(jìn)行比較。與判別分析法 相反,Logistic回歸法不要求變量必須滿足正態(tài)性的假設(shè),理論基礎(chǔ)比較好:再加上Logistic回歸法在應(yīng)用時,準(zhǔn)確性和穩(wěn)定性方面表現(xiàn)上佳,因此被學(xué)者認(rèn)為是最適合發(fā)展信用評分模型的理論。

      20世紀(jì)80年代,決策樹方法開始應(yīng)用于信用評分領(lǐng)域,之后有學(xué)者將決策樹方法與判別分析方法進(jìn)行了比較,認(rèn)為兩者旗鼓相當(dāng),在有些情況下,決策樹方法的表現(xiàn)或許更佳。

      在非統(tǒng)計學(xué)方法中,線性規(guī)劃方法應(yīng)用的比較早,20世紀(jì)60年代就有線性規(guī)劃在信用評分領(lǐng)域的文獻(xiàn)報道。盡管有部分學(xué)者認(rèn)為統(tǒng)計學(xué)方法要比線性規(guī)劃方法好,但是大部分文獻(xiàn)都認(rèn)為線性規(guī)劃與統(tǒng)計學(xué)方法的效果相當(dāng)。

      20世紀(jì)90年代,人工神經(jīng)網(wǎng)絡(luò)應(yīng)用于信用評分模型中。當(dāng)然大部分神經(jīng)網(wǎng)絡(luò)模型用于對公司的信用評分,在個人信用評分領(lǐng)域的應(yīng)用相對比較少,得出的結(jié)論是在各種特征變量呈復(fù)雜非線性關(guān)系的情況下,神經(jīng)網(wǎng)絡(luò)方法具有明顯的優(yōu)勢。也有少部分學(xué)者將遺傳算法應(yīng)用于個人信用評分領(lǐng)域,但是相比較其他方法,效果不佳,在實際中不被推崇。

      在消費者個人信用評分的實務(wù)方面,美國的Equifax公司和環(huán)聯(lián)(”EransUnion)以及英國的益百利(Experian)等是世界上最大的三家個人征信機(jī)構(gòu)。平均每家公司擁有2億份個人信息文件,覆蓋全美、加拿大和歐洲部分地區(qū)。三家征信公司一天提供480多萬份消費者信用報告。

      2.國內(nèi)研究狀況

      從國內(nèi)研究來看,由于我國社會征信體系建設(shè)的落后,理論研究和實務(wù)方面都相當(dāng)落后。在理論研究領(lǐng)域,雖說成果不多,但也有部分專家學(xué)者利用國內(nèi)銀行的數(shù)據(jù)開發(fā)信用評分模型,取得了一定的研究成果。

      1999年下半年,中國建設(shè)銀行濟(jì)南分行出臺的<個人信用等級評定辦法》是我國首部消費信貸個人信用等級評定方法。該辦法規(guī)定,銀行將持卡人的年齡、學(xué)歷、職業(yè)、收入和家庭資產(chǎn)等信息資料匯集起來形成14個指標(biāo),針對個人客戶個人還款能力和資信狀況,設(shè)立7類個人信用等級,為AAA、AA、A、BBB、BB、B、C七個等級,不同信用等級的客戶享受的透支額度不同。但該方法僅能判斷一個人在該行的信用情況,而對其在其他銀行的信用狀況不清楚.隨著2005年,央行個人征信系統(tǒng)的聯(lián)網(wǎng)運(yùn)行,個人信用評估工作逐步邁向規(guī)范化發(fā)展,越來越多的商業(yè)銀行利用征信系統(tǒng)開展信用評分工作,建立自己的信用評分系統(tǒng)。

      李曙光(2003)在《個人信用評估研究》中將個人信用評分分為個人行為評分、利潤評分、考慮經(jīng)濟(jì)環(huán)境因素的評分三類,并對國內(nèi)外亟待解決的問題進(jìn)行總結(jié),認(rèn)為個人信用評分模型中應(yīng)包括對宏觀經(jīng)濟(jì)因素的考慮.

      魯煒(2004)在《基于中國現(xiàn)實個人信用數(shù)據(jù)的信用評分方法比較研究》中基于數(shù)據(jù)的時間跨度分布的分析,發(fā)現(xiàn)個人信用評分的模型壽命周期在我國較短,認(rèn)為基于我國數(shù)據(jù)開發(fā)的實用模型至少每年更新一次.這就對個人信用評分模型的研究提出了可更新性要強(qiáng)的要求。

      潘雅瓊、左相國(2004)在《消費信貸信用等級評分值與期望壞賬率的關(guān)系模型》中引用英國某著名商業(yè)銀行在不同風(fēng)險指數(shù)下的壞賬率作為期望壞賬率,得到符合我國國情的信用等級評分值與壞賬率之間的對應(yīng)關(guān)系模型。

      總體來看,國外對消費者個人信用風(fēng)險的研究已有多年的歷史,對已使用的和正在開發(fā)的預(yù)測消費信貸風(fēng)險各種技術(shù)的研究取得了重大進(jìn)展,為商業(yè)銀行金融風(fēng)險的管理決策提供了有效的方法與工具。國內(nèi)關(guān)于這方面的研究和應(yīng)用還處于初級階段,一個十分重要的原因是理論研究與實際應(yīng)用結(jié)合的問題,因為建立信用評分模型需要大量的銀行歷史經(jīng)營數(shù)據(jù)和客戶信息,同時要有復(fù)雜的計算機(jī)系統(tǒng)支持,這些都涉及銀行的商業(yè)機(jī)密,無法對研究者開放,使得應(yīng)用研究受到限制;另一方面,如國外Fair Isaac等信用風(fēng)險評估模型公司的產(chǎn)品還無法直接應(yīng)用于中國的銀行業(yè),這是因為各國的信用環(huán)境、客戶自身的狀況和行為習(xí)慣都存在較大差異,而這些是信用評分模型開發(fā)和應(yīng)用的基礎(chǔ),信用評分模型需要有針對性的開發(fā)、訓(xùn)練、優(yōu)化和應(yīng)用。特別是我國商業(yè)銀行正處改制和經(jīng)營轉(zhuǎn)型期,個人銀行業(yè)務(wù)快速發(fā)展,客戶的總體樣本特征具有相對的不確定性,人們的信用意識、提前消費的信貸意識在不斷改變,個人消費行為也在不斷發(fā)生變化;同時個人征信體系還很不完善,客戶信息不對稱給銀行信貸審批決策的準(zhǔn)確性造成嚴(yán)重影響,這些都是信用評分和風(fēng)險控制方面亟待解決的現(xiàn)實問題。

      三、研究內(nèi)容范圍

      論文希望通過對個人信用評分的基本概念和建立信用評分模型方法的研究,以及對我國銀行業(yè)個人信用方面的深入調(diào)查,明確應(yīng)用先進(jìn)的數(shù)據(jù)挖掘技術(shù)建立客觀信用評分模型的必要性、緊迫性、科學(xué)性以及在信用領(lǐng)域中數(shù)據(jù)挖掘方法的強(qiáng)大的應(yīng)用價值。論文的重點是對信用卡風(fēng)險管理的征信環(huán)節(jié)中信用卡申請者的信用評分模型進(jìn)行研究,以征信系統(tǒng)的部分征信數(shù)據(jù)為基礎(chǔ),就國外信用評分領(lǐng)域使用最多的決策樹、神經(jīng)網(wǎng)絡(luò)方法,按照數(shù)據(jù)挖掘技術(shù)解決問題的一般步驟,詳細(xì)探討如何建立信用評分模型的一個完整的流程,建立一個基于我國實際的決策樹、神經(jīng)網(wǎng)絡(luò)個人信用評分模型,并對模型進(jìn)行評估,從建模結(jié)果、預(yù)測精度、運(yùn)行效率等角度進(jìn)行對比分析,并利用實際數(shù)據(jù)對模型進(jìn)行驗證,試圖找到最佳模型,得到區(qū)客戶信用的最佳分類途徑,以便使銀行能高效的應(yīng)對大量的信用卡申請者,快速地做出判斷。最后希望利用數(shù)據(jù)挖掘技術(shù)與信息系統(tǒng)開發(fā)技術(shù)開發(fā)信用評分管理系統(tǒng)的部分功能,探討如何將數(shù)據(jù)挖掘的結(jié)果應(yīng)用到實際的輔助決策系統(tǒng)當(dāng)中。

      總體上來說,現(xiàn)今數(shù)據(jù)挖掘技術(shù)在信用卡業(yè)務(wù)的應(yīng)用和研究僅僅處在初始階段,有很多工作需要去完成。希望本文的研究能為中國銀行業(yè)在信用卡風(fēng)險管理方面提供一些參考和幫助。

      四、主要參考文獻(xiàn)

      下載開題報告_基于數(shù)據(jù)挖掘方法的學(xué)生課程推薦算法研究word格式文檔
      下載開題報告_基于數(shù)據(jù)挖掘方法的學(xué)生課程推薦算法研究.doc
      將本文檔下載到自己電腦,方便修改和收藏,請勿使用迅雷等下載。
      點此處下載文檔

      文檔為doc格式


      聲明:本文內(nèi)容由互聯(lián)網(wǎng)用戶自發(fā)貢獻(xiàn)自行上傳,本網(wǎng)站不擁有所有權(quán),未作人工編輯處理,也不承擔(dān)相關(guān)法律責(zé)任。如果您發(fā)現(xiàn)有涉嫌版權(quán)的內(nèi)容,歡迎發(fā)送郵件至:645879355@qq.com 進(jìn)行舉報,并提供相關(guān)證據(jù),工作人員會在5個工作日內(nèi)聯(lián)系你,一經(jīng)查實,本站將立刻刪除涉嫌侵權(quán)內(nèi)容。

      相關(guān)范文推薦

        電子商務(wù)數(shù)據(jù)挖掘方法論文

        摘要: 電子商務(wù)是現(xiàn)代商業(yè)的主流趨勢,如何充分利用網(wǎng)絡(luò)技術(shù)和數(shù)據(jù)庫技術(shù)發(fā)揮企業(yè)優(yōu)勢,成為企業(yè)制勝的法寶。本文介紹了常用的數(shù)據(jù)挖掘方法,以及在電子商務(wù)領(lǐng)域的應(yīng)用,分析了利用......

        數(shù)據(jù)挖掘教學(xué)方法研究論文

        摘要:在本科高年級學(xué)生中開設(shè)符合學(xué)術(shù)研究和工業(yè)應(yīng)用熱點的進(jìn)階課程是十分必要的。以數(shù)據(jù)挖掘課程為例,本科高年級學(xué)生了解并掌握數(shù)據(jù)挖掘的相關(guān)技術(shù),對于其今后的工作、學(xué)習(xí)不......

        15年開題報告研究方法

        15年開題報告研究方法 隨著新課程改革的不斷深人,“教師成為研究者”的觀念逐漸深人人心。開展和參與課題研究是教師獲得自我持續(xù)發(fā)展能力的最佳途徑。事實證明,通過開展課題......

        教育研究方法開題報告

        桂林市農(nóng)村留守兒童教育問題研究”課題 開題報告 數(shù)學(xué)科學(xué)學(xué)院 數(shù)學(xué)與應(yīng)用數(shù)學(xué) 201010700015 徐小鴻 一.研究的背景 所謂留守兒童,是指父母雙方或一方流動到其他地區(qū)工作,孩子......

        數(shù)據(jù)挖掘課程體會[五篇模版]

        數(shù)據(jù)挖掘課程體會 學(xué)習(xí)數(shù)據(jù)挖掘這門課程已經(jīng)有一個學(xué)期了,在這十余周的學(xué)習(xí)過程中,我對數(shù)據(jù)挖掘這門課程的一些技術(shù)有了一定的了解,并明確了一些容易混淆的概念,以下主要談一下......

        《數(shù)據(jù)挖掘?qū)д摗纷x書報告

        數(shù)據(jù)收集和數(shù)據(jù)存儲技術(shù)的快速進(jìn)步使得各組織機(jī)構(gòu)可以積累海量數(shù)據(jù)。然而,提取有用的信息已經(jīng)成為巨大的挑戰(zhàn)。通常,由于數(shù)據(jù)量太大,無法使用傳統(tǒng)的數(shù)據(jù)分析丁具和技術(shù)處理它們......

        關(guān)于學(xué)生讀的方法、途徑的研究開題報告

        蓮塘三小市級課題《關(guān)于學(xué)生讀的方法、途徑的研究》 開題報告 《關(guān)于學(xué)生讀的方法、途徑的研究》這一課題于2009年9月被確認(rèn)為南昌市教育科學(xué)規(guī)劃領(lǐng)導(dǎo)小組辦公室總課題《數(shù)......

        教育研究方法開題報告材料

        有關(guān)大學(xué)生考試作弊現(xiàn)象的研究 (一)研究背景分析 1.選題背景 在當(dāng)今社會上,應(yīng)試教育已經(jīng)是普遍的一種選拔人才的教育制度,不論中小學(xué)生,還是高中生,甚至是大學(xué)生,都必須面臨考試。而......