第一篇:基于數(shù)據(jù)挖掘的電信行業(yè)客戶流失管理研究
DUFE
信息系統(tǒng)研究方法與問題
學(xué)號: 專業(yè): 姓名:
基于數(shù)據(jù)挖掘的電信行業(yè)客戶流失管理研究
一、研究背景
2008年中國對電信運營企業(yè)進(jìn)行了重組,中國移動和中國聯(lián)通合并運
營TD—SCDMA網(wǎng)絡(luò),中國電信與中國聯(lián)通C網(wǎng)合并運營CDMA2000網(wǎng)絡(luò),中國聯(lián)通G網(wǎng)和中國網(wǎng)通合并運營WCDMA網(wǎng)絡(luò),從而形成了移動、電信、聯(lián)通三足鼎立的局面,電信公司之間的競爭也越來越激烈。
對電信企業(yè)來說,客戶是最重要的資源,也是生存和發(fā)展的必需品。客
戶資源是電信運營企業(yè)的根本,保留并鞏固客戶資源意義重大。而在當(dāng)前中
國電信市場下,電信運營商為了爭奪客戶,除了通過簡單的價格競爭以外,還不斷推出各種新的套餐和新的業(yè)務(wù)來優(yōu)先獲得客戶資源,雙卡情況越來越
嚴(yán)峻,這就在很大程度上加大了客戶的不穩(wěn)定性,使得客戶在三家運營商之
間不斷做出選擇的現(xiàn)象頻繁發(fā)生。據(jù)官方統(tǒng)計,中國移動客戶的離網(wǎng)率近幾
年不斷攀升,2013年全年離網(wǎng)率高達(dá)50%左右。從客戶關(guān)系管理理論上看,開發(fā)一個新用戶的成本是保留一個有價值老用戶的5-10倍,因此在新增電
信客戶不斷下降的時候,想要保持企業(yè)持續(xù)增長的利潤就需要在挽留老客戶
這一相對低成本高收益上想辦法。
二、研究的目的和意義
本文的研究目的就是在對電信客戶流失等業(yè)務(wù)知識的理解和研究一些
常用的數(shù)據(jù)挖掘方法上,依據(jù)數(shù)據(jù)挖掘建模流程,研究并實現(xiàn)一個準(zhǔn)確實用的的客戶流失預(yù)測模型和流失客戶分類模型,并結(jié)合廣豐縣移動客戶數(shù)據(jù)進(jìn)
行分析,對分析結(jié)果進(jìn)行評估驗證。在對客戶流失預(yù)測模型和流失客戶分類
模型進(jìn)行評估和結(jié)果分析的基礎(chǔ)上,得到了有效的客戶流失規(guī)則集,并給出
預(yù)測的準(zhǔn)確率,同時依據(jù)流失客戶分類結(jié)果對客戶的挽留策略提出一些意見
和建議。最后對所做的理論研究工作、實驗工作和實驗中所遇到的問題以及
下一步工作進(jìn)行總結(jié)。
三、研究的主要方法和手段
1、數(shù)據(jù)挖掘的定義
數(shù)據(jù)挖掘技術(shù)是數(shù)據(jù)庫知識發(fā)現(xiàn)的核心技術(shù),產(chǎn)生于二十世紀(jì)八十年末,至今大約經(jīng)歷了 30年的發(fā)展歷史,但它的定義卻沒有一個被完全認(rèn)同。因為
數(shù)據(jù)挖掘技術(shù)被廣泛地應(yīng)用到互聯(lián)網(wǎng)、電子商務(wù)、零售、電信等各個領(lǐng)域在不同的領(lǐng)域應(yīng)用也不同,因此各專家及學(xué)者也分別對數(shù)據(jù)挖掘進(jìn)行定義:數(shù)據(jù)
挖掘就是從眾多的、不完整的、有雜質(zhì)的數(shù)據(jù)中,挖出隱含在里面的、人們以
前不清楚的、但又是潛在存在的有用信息的過程。簡單地說,數(shù)據(jù)挖掘就是從
眾多的數(shù)據(jù)中找出有用的信息,如圖所示,數(shù)據(jù)挖掘被認(rèn)為是知識發(fā)現(xiàn)過程中的一個步驟。
圖1數(shù)據(jù)挖掘的過程
2、數(shù)據(jù)挖掘的任務(wù)
數(shù)據(jù)挖掘的任務(wù)主要是關(guān)聯(lián)分析、聚類分析、分類、預(yù)測、時序模式和偏差
分析等。
(1)關(guān)聯(lián)分析(AssociationAnalysis)
關(guān)聯(lián)規(guī)則挖掘是由Rakesh Apwal等人首先提出的。兩個或兩個以上變量的取值之間存在某種規(guī)律性,就稱為關(guān)聯(lián)。數(shù)據(jù)關(guān)聯(lián)是數(shù)據(jù)庫中存在的一類重要的、可被發(fā)現(xiàn)的知識。關(guān)聯(lián)分為簡單關(guān)聯(lián)、時序關(guān)聯(lián)和因果關(guān)聯(lián)。關(guān)聯(lián)分析的目的是
找出數(shù)據(jù)庫中隱藏的關(guān)聯(lián)網(wǎng)。一般用支持度和可信度兩個閥值來度量關(guān)聯(lián)規(guī)則的相關(guān)性,還不斷引入興趣度、相關(guān)性等參數(shù),使得所挖掘的規(guī)則更符合需求。
(2)聚類分析(Clustering)
所謂聚類[55],就是按照事物的某些屬性聚集成類,使得類間的相似性盡可
能的小,類間的相似性盡可能的大。聚類分析可以建立宏觀的概念,發(fā)現(xiàn)數(shù)據(jù)的分
布模式,以及可能的數(shù)據(jù)屬性之間的相互關(guān)系。聚類分析的算法可以分為以下幾
大類:分裂法、層次法、基于密度的方法、基于網(wǎng)格的方法和基于模型的方法等。
(3)分類(Classification)
分類就是找出一個類別的概念描述,它代表了這類數(shù)據(jù)的整體信息,即該類的內(nèi)涵描述,并用這種描述來構(gòu)造模型,一般用規(guī)則或決策樹模式表示。分類可被
用于規(guī)則描述和預(yù)測。
(4)預(yù)測(Predication)
預(yù)測是利用歷史業(yè)務(wù)數(shù)據(jù)找出變化規(guī)律,建立模型,并由此模型對未來數(shù)據(jù)的種類及特征進(jìn)行預(yù)測。預(yù)測關(guān)心的是精度和不確定性,通常使用預(yù)測方差來度
量。
(5)時序模式(Time-series Pattern)
時序模式是指通過時間序列搜索出的重復(fù)發(fā)生概率較高的模式。與回歸一樣,它也是用己知的數(shù)據(jù)預(yù)測未來的值,但這些數(shù)據(jù)的區(qū)別是變量所處時間的不同。
(6)偏差分析(Deviation)
在偏差中包括很多有用的知識,數(shù)據(jù)庫中的數(shù)據(jù)存在很多異常情況,發(fā)現(xiàn)數(shù)
據(jù)庫中數(shù)據(jù)存在的異常情況是非常重要的。偏差檢驗的基本方法就是尋找觀察結(jié)
果與參照之問的差別。
在本文中需要數(shù)據(jù)挖掘完成的任務(wù)主要是對電信客戶流失數(shù)據(jù)的分類及預(yù)
測。
3、數(shù)據(jù)挖掘過程模型
本文準(zhǔn)備采用CRISP-DM模型來進(jìn)行數(shù)據(jù)挖掘。CRISP-DM模型定義了 6個階
段,分別是:商業(yè)理解(Business Understanding)、數(shù)據(jù)理解(Data
Understanding)、數(shù)據(jù)準(zhǔn)備(Data Preparation)、建立模型(Modeling)、模型評
估(Evaluation)、發(fā)布模型(Deployment)。CR1SP-DM模型如圖2所示:
圖2CRISP-DM模型
4、數(shù)據(jù)挖掘工具
SPSS Clementine是一個開放式數(shù)據(jù)挖掘工具,它不但支持整個數(shù)據(jù)挖掘過
程,從數(shù)據(jù)獲取、轉(zhuǎn)化、建模、評估到最終部署的全部過程,還支持?jǐn)?shù)據(jù)挖掘的行
業(yè)標(biāo)準(zhǔn)CRISP-DM,提供了完善的項目管理功能。SPSS Clementine的可視化數(shù)據(jù)
挖掘使得“思路”分析成為可能,有助于把有限的精力放在對商業(yè)的理解、數(shù)據(jù)的處理和模型選優(yōu)等關(guān)鍵問題上,即將精力集中在要解決問題的本身,而不是局
限于完成一些技術(shù)性的工作(比如編寫代碼)。提供了多種圖形化技術(shù),有助于理
解數(shù)據(jù)間的關(guān)鍵性聯(lián)系,指導(dǎo)用戶以最便捷的途徑找到問題的最終解決辦法,根
據(jù)公布的用戶基準(zhǔn)測試,它在可伸縮性、預(yù)測準(zhǔn)確率和處理的時間方面都表現(xiàn)得
很好。本文研究使用通用CRISP-DM標(biāo)準(zhǔn)的SPSS Clementine數(shù)據(jù)挖掘軟件建立
電信企業(yè)的客戶流失預(yù)測模型。
5、預(yù)測模型技術(shù)
決策樹算法是二十世紀(jì)中期J.Ross Quinlan開發(fā)出來的一種算法,因其結(jié)
構(gòu)就像一顆樹,因此被稱為“決策樹”。目前決策樹算法己經(jīng)被廣泛地應(yīng)用于分類
識別問題的數(shù)據(jù)挖掘,它是利用分割前后信息熵來計算信息增益,并將其作為判
斷能力的度量準(zhǔn)則。
決策樹算法是一種基于概率供給的分類方法,它是通過從一個空白的樹開始,不斷增加結(jié)點,逐步精確化的數(shù)據(jù)挖掘方法。決策樹中每一條從根到葉結(jié)點的途
昆明理工大學(xué)碩士學(xué)位論文徑即為一條合取規(guī)則,其整棵樹則為析取規(guī)則的集合體。決策樹算法的目的是通過向數(shù)據(jù)學(xué)習(xí),獲得輸入變量和輸出變量不同取值下的數(shù)據(jù)分類和預(yù)測規(guī)律,并用于對新數(shù)據(jù)對象的分類預(yù)測。屆時,決策樹能夠依據(jù)
新數(shù)據(jù)輸入變量的取值,推斷其輸出變量的分類取值。決策樹算法屬于有指導(dǎo)的學(xué)習(xí),要求數(shù)據(jù)既包含輸入變量也包含輸出變量。決策樹主要圍繞兩大核心問題
展開:第一,決策樹的生長問題,即利用訓(xùn)練樣本集來完成決策樹的建立過程;第二,決策樹的剪枝問題,即利用檢驗樣本集對形成的決策樹進(jìn)行精簡。不同決策樹
算法采用不同的分枝生長及剪枝策略。
四、研究的重點和創(chuàng)新點
本文研究的重點在尋找用于挖掘的最優(yōu)算法,準(zhǔn)備通過以下模型來尋找最優(yōu)
算法。
圖3應(yīng)用數(shù)據(jù)挖掘建立最優(yōu)模型
本文的創(chuàng)新點準(zhǔn)備放在對算法的優(yōu)化上面。
參考文獻(xiàn)
[1]楊樹蓮.數(shù)據(jù)挖掘在電信行業(yè)客戶流失分析中的應(yīng)用[J].計算機(jī)與現(xiàn)代
化,2005,02:109-111.[2]高洋.基于數(shù)據(jù)挖掘的電信客戶流失預(yù)測系統(tǒng)研究[D].昆明理工大學(xué),2013.[3]隆曼.基于數(shù)據(jù)挖掘的電信行業(yè)客戶流失管理研究[D].西南財經(jīng)大學(xué),2013.[4]肖仲東.數(shù)據(jù)挖掘在預(yù)測電信客戶流失中的研究與應(yīng)用[D].湖南師范大學(xué),2012.[5]梁循.數(shù)據(jù)挖掘算法與應(yīng)用.北京大學(xué)出版社,2006.[6]馬鋼.商務(wù)智能.東北財經(jīng)大學(xué)出版社,2010.
第二篇:數(shù)據(jù)挖掘研究現(xiàn)狀
一、時代的挑戰(zhàn)
近十幾年來,人們利用信息技術(shù)生產(chǎn)和搜集數(shù)據(jù)的能力大幅度提高,千萬萬個數(shù)據(jù)庫被用于商業(yè)管理、政府辦公、科學(xué)研究和工程開發(fā)等等,這一勢頭仍將持續(xù)發(fā)展下去。于是,一個新的挑戰(zhàn)被提了出來:在這被稱之為信息爆炸的時代,信息過量幾乎成為人人需要面對的問題。如何才能不被信息的汪洋大海所淹沒,從中及時發(fā)現(xiàn)有用的知識,提高信息利用率呢?要想使數(shù)據(jù)真正成為一個公司的資源,只有充分利用它為公司自身的業(yè)務(wù)決策和戰(zhàn)略發(fā)展服務(wù)才行,否則大量的數(shù)據(jù)可能成為包袱,甚至成為垃圾。因此,面對“人們被數(shù)據(jù)淹沒,人們卻饑餓于知識”的挑戰(zhàn),數(shù)據(jù)挖掘和知識發(fā)現(xiàn)(DMKD)技術(shù)應(yīng)運而生,并得以蓬勃發(fā)展,越來越顯示出其強(qiáng)大的生命力。
數(shù)據(jù)挖掘(Data Mining)就是從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程。還有很多和這一術(shù)語相近似的術(shù)語,如從數(shù)據(jù)庫中發(fā)現(xiàn)知識(KDD)、數(shù)據(jù)分析、數(shù)據(jù)融合(Data Fusion)以及決策支持等。人們把原始數(shù)據(jù)看作是形成知識的源泉,就像從礦石中采礦一樣。原始數(shù)據(jù)可以是結(jié)構(gòu)化的,如關(guān)系數(shù)據(jù)庫中的數(shù)據(jù),也可以是半結(jié)構(gòu)化的,如文本、圖形、圖像數(shù)據(jù),甚至是分布在網(wǎng)絡(luò)上的異構(gòu)型數(shù)據(jù)。發(fā)現(xiàn)知識的方法可以是數(shù)學(xué)的,也可以是非數(shù)學(xué)的;可以是演繹的,也可以是歸納的。發(fā)現(xiàn)了的知識可以被用于信息管理、查詢優(yōu)化、決策支持、過程控制等,還可以用于數(shù)據(jù)自身的維護(hù)。因此,數(shù)據(jù)挖掘是一門很廣義的交叉學(xué)科,它匯聚了不同領(lǐng)域的研究者,尤其是數(shù)據(jù)庫、人工智能、數(shù)理統(tǒng)計、可視化、并行計算等方面的學(xué)者和工程技術(shù)人員。
特別要指出的是,數(shù)據(jù)挖掘技術(shù)從一開始就是面向應(yīng)用的。它不僅是面向特定數(shù)據(jù)庫的簡單檢索查詢調(diào)用,而且要對這些數(shù)據(jù)進(jìn)行微觀、中觀乃至宏觀的統(tǒng)計、分析、綜合和推理,以指導(dǎo)實際問題的求解,企圖發(fā)現(xiàn)事件間的相互關(guān)聯(lián),甚至利用已有的數(shù)據(jù)對未來的活動進(jìn)行預(yù)測。
二、研究現(xiàn)狀
KDD一詞首次出現(xiàn)在1989年8月舉行的第11屆國際聯(lián)合人工智能學(xué)術(shù)會議上。迄今為止,由美國人工智能協(xié)會主辦的KDD國際研討會已經(jīng)召開了7次,規(guī)模由原來的專題討論會發(fā)展到國際學(xué)術(shù)大會,人數(shù)由二三十人到七八百人,論文收錄比例從2X1到6X1,研究重點也逐漸從發(fā)現(xiàn)方法轉(zhuǎn)向系統(tǒng)應(yīng)用,并且注重多種發(fā)現(xiàn)策略和技術(shù)的集成,以及多種學(xué)科之間的相互滲透。其 諶蕕淖ㄌ饣嵋橐舶咽萃誥蠔橢斗⑾至形樘庵?成為當(dāng)前計算機(jī)科學(xué)界的一大熱點。
此外,數(shù)據(jù)庫、人工智能、信息處理、知識工程等領(lǐng)域的國際學(xué)術(shù)刊物也紛紛開辟了 KDD專題或?qū)??。IEEE的Knowledge and Data Engineering 會刊領(lǐng)先在1993年出版了KD D技術(shù)???所發(fā)表的5篇論文代表了當(dāng)時KDD研究的最新成果和動態(tài),較全面地論述了KDD 系統(tǒng)方法論、發(fā)現(xiàn)結(jié)果的評價、KDD系統(tǒng)設(shè)計的邏輯方法,集中討論了鑒于數(shù)據(jù)庫的動態(tài)性冗余、高噪聲和不確定性、空值等問題,KDD系統(tǒng)與其它傳統(tǒng)的機(jī)器學(xué)習(xí)、專家系統(tǒng)、人工神經(jīng)網(wǎng)絡(luò)、數(shù)理統(tǒng)計分析系統(tǒng)的聯(lián)系和區(qū)別,以及相應(yīng)的基本對策。6篇論文摘要展示了KDD在從建立分子模型到設(shè)計制造業(yè)的具體應(yīng)用。
不僅如此,在Internet上還有不少KDD電子出版物,其中以半月刊Knowledge Discove
ryNuggets最為權(quán)威,另一份在線周刊為DS*(DS代表決策支持),1997年10月7日開始出版。在網(wǎng)上,還有一個自由論壇 DM Email Club, 人們通過電子郵件相互討論DMKD的熱點問題。而領(lǐng)導(dǎo)整個潮流的DMKD開發(fā)和研究中心,當(dāng)數(shù)設(shè)在美國EMDEN的IBM公司開發(fā)部。至于DMKD書籍,可以在任何計算機(jī)書店找到十多本,但大多帶有商業(yè)色彩。
三、內(nèi)容和本質(zhì)
隨著DMKD研究逐步走向深入,人們越來越清楚地認(rèn)識到,DMKD的研究主要有3個技術(shù)支柱,即數(shù)據(jù)庫、人工智能和數(shù)理統(tǒng)計。
數(shù)據(jù)庫技術(shù)在經(jīng)過了80年代的輝煌之后,已經(jīng)在各行各業(yè)成為一種數(shù)據(jù)庫文化或時尚,數(shù)據(jù)庫界目前除了關(guān)注萬維網(wǎng)數(shù)據(jù)庫、分布式數(shù)據(jù)庫、面向?qū)ο髷?shù)據(jù)庫、多媒體數(shù)據(jù)庫、查詢優(yōu)化和并行計算等技術(shù)外,已經(jīng)在開始反思。數(shù)據(jù)庫最實質(zhì)的應(yīng)用僅僅是查詢嗎?理論根基最深的關(guān)系數(shù)據(jù)庫最本質(zhì)的技術(shù)進(jìn)步點,就是數(shù)據(jù)存放和數(shù)據(jù)使用之間的相互分離。查詢是數(shù)據(jù)庫的奴隸,發(fā)現(xiàn)才是數(shù)據(jù)庫的主人;數(shù)據(jù)只為職員服務(wù),不為老板服務(wù)!這是很多單位的領(lǐng)導(dǎo)在熱心數(shù)據(jù)庫建設(shè)后發(fā)出的感嘆。
由于數(shù)據(jù)庫文化的迅速普及,用數(shù)據(jù)庫作為知識源具有堅實的基礎(chǔ);另一方面,對于一個感興趣的特定領(lǐng)域——客觀世界,先用數(shù)據(jù)庫技術(shù)將其形式化并組織起來,就會大大提高知識獲取起點,以后從中發(fā)掘或發(fā)現(xiàn)的所有知識都是針對該數(shù)據(jù)庫而言的。因此,在需求的驅(qū)動下,很多數(shù)據(jù)庫學(xué)者轉(zhuǎn)向?qū)?shù)據(jù)倉庫和數(shù)據(jù)挖掘的研究,從對演繹數(shù)據(jù)庫的研究轉(zhuǎn)向?qū)w納數(shù)據(jù)庫的研究。
專家系統(tǒng)曾經(jīng)是人工智能研究工作者的驕傲。專家系統(tǒng)實質(zhì)上是一個問題求解系統(tǒng) ,目前的主要理論工具是基于謂詞演算的機(jī)器定理證明技術(shù)——二階演繹系統(tǒng)。領(lǐng)域?qū)<议L期以來面向一個特定領(lǐng)域的經(jīng)驗世界,通過人腦的思維活動積累了大量有用信息。
在研制一個專家系統(tǒng)時,知識工程師首先要從領(lǐng)域?qū)<夷抢铽@取知識,這一過程實質(zhì)上是歸納過程,是非常復(fù)雜的個人到個人之間的交互過程,有很強(qiáng)的個性和隨機(jī)性。因此 ,知識獲取成為專家系統(tǒng)研究中公認(rèn)的瓶頸問題。
其次,知識工程師在整理表達(dá)從領(lǐng)域?qū)<夷抢铽@得的知識時,用if-then等類的規(guī)則表達(dá),約束性太大,用常規(guī)數(shù)理邏輯來表達(dá)社會現(xiàn)象和人的思維活動局限性太大,也太困難, 勉強(qiáng)抽象出來的規(guī)則有很強(qiáng)的工藝色彩,差異性極大,知識表示又成為一大難題。
此外,即使某個領(lǐng)域的知識通過一定手段獲取并表達(dá)了,但這樣做成的專家系統(tǒng)對常識和百科知識出奇地貧乏,而人類專家的知識是以擁有大量常識為基礎(chǔ)的。人工智能學(xué)家 Feigenbaum估計,一般人擁有的常識存入計算機(jī)大約有100萬條事實和抽象經(jīng)驗法則,離開常識的專家系統(tǒng)有時會比傻子還傻。例如戰(zhàn)場指揮員會根據(jù)“在某地發(fā)現(xiàn)一只剛死的波斯貓”的情報很快斷定敵高級指揮所的位置,而再好的軍事專家系統(tǒng)也難以顧全到如此的信息。
以上這3大難題大大限制了專家系統(tǒng)的應(yīng)用,使得專家系統(tǒng)目前還停留在構(gòu)造諸如發(fā)動機(jī)故障論斷一類的水平上。人工智能學(xué)者開始著手基于案例的推理,尤其是從事機(jī)器學(xué)習(xí)的科學(xué)家們,不再滿足自己構(gòu)造的小樣本學(xué)習(xí)模式的象牙塔,開始正視現(xiàn)實生活中大量的、不完全的、有噪聲的、模糊的、隨機(jī)的大數(shù)據(jù)樣本,也走上了數(shù)據(jù)挖掘的道路。
數(shù)理統(tǒng)計是應(yīng)用數(shù)學(xué)中最重要、最活躍的學(xué)科之一,它在計算機(jī)發(fā)明之前就誕生了, 迄今已有幾百年的發(fā)展歷史。如今相當(dāng)強(qiáng)大有效的數(shù)理統(tǒng)計方法和工具,已成為信息咨詢業(yè)的基礎(chǔ)。信息時代,咨詢業(yè)更為發(fā)達(dá)。然而,數(shù)理統(tǒng)計和數(shù)據(jù)庫技術(shù)結(jié)合得并不算快,數(shù)據(jù)庫查詢語言SQL中的聚合函數(shù)功能極其簡單,就是一個證明。咨詢業(yè)用數(shù)據(jù)庫查詢數(shù)據(jù)還遠(yuǎn)遠(yuǎn)不夠。一旦人們有了從數(shù)據(jù)查詢到知識發(fā)現(xiàn)、從數(shù)據(jù)演繹到數(shù)據(jù)歸納的要求,概率論和數(shù)理統(tǒng)計就獲得了新的生命力,所以才會在DMKD這個結(jié)合點上,立即呈現(xiàn)出“忽如一夜春風(fēng)來,千樹萬樹梨花開”的繁榮景象。一向以數(shù)理統(tǒng)計工具和可視化計算聞名的美國SA S公司,領(lǐng)先宣布進(jìn)入DMKD行列。
數(shù)據(jù)挖掘所能發(fā)現(xiàn)的知識有如下幾種:廣義型知識,反映同類事物共同性質(zhì)的知識;特征型知識,反映事物各方面的特征知識;差異型知識,反映不同事物之間屬性差別的知識;關(guān)聯(lián)型知識,反映事物之間依賴或關(guān)聯(lián)的知識;預(yù)測型知識,根據(jù)歷史的和當(dāng)前的數(shù)據(jù)推測未來數(shù)據(jù);偏離型知識,揭示事物偏離常規(guī)的異常現(xiàn)象。所有這些知識都可以在不同的概念層次上被發(fā)現(xiàn),隨著概念樹的提升,從微觀到中觀再到宏觀,以滿足不同用戶、不同層次決策的需要。
四、發(fā)展方向
當(dāng)前,DMKD研究正方興未艾,預(yù)計在21世紀(jì)還會形成更大的高潮,研究焦點可能會集中到以下幾個方面:研究專門用于知識發(fā)現(xiàn)的數(shù)據(jù)挖掘語言,也許會像SQL語言一樣走向形式化和標(biāo)準(zhǔn)化;尋求數(shù)據(jù)挖掘過程中的可視化方法,使得知識發(fā)現(xiàn)的過程能夠被用戶理解 ,也便于在知識發(fā)現(xiàn)過程中的人機(jī)交互;研究在網(wǎng)絡(luò)環(huán)境下的數(shù)據(jù)挖掘技術(shù),特別是在Int ernet上建立DMKD服務(wù)器,與數(shù)據(jù)庫服務(wù)器配合,實現(xiàn)數(shù)據(jù)挖掘;加強(qiáng)對各種非結(jié)構(gòu)化數(shù)據(jù)的挖掘,如文本數(shù)據(jù)、圖形圖像數(shù)據(jù)、多媒體數(shù)據(jù)。但是,無論怎樣,需求牽引,市場驅(qū)動是永恒的,DMKD將首先滿足信息時代用戶的急需,大量基于DMKD的決策支持軟件工具產(chǎn)品將會問世
第三篇:基于數(shù)據(jù)挖掘粗糙集技術(shù)的電信運營商客戶價值評價
龍源期刊網(wǎng) http://.cn
基于數(shù)據(jù)挖掘粗糙集技術(shù)的電信運營商客戶價值評價
作者:譚耀武
來源:《沿海企業(yè)與科技》2006年第01期
[摘 要]電信行業(yè)競爭激烈,國內(nèi)電信運營商對有效的客戶價值評價體系需求極為緊迫。文章結(jié)合電信行業(yè)實際,通過研究數(shù)據(jù)挖掘粗糙集技術(shù),提出了電信運營商客戶價值評價系統(tǒng),以提高我國電信運營商的客戶關(guān)系管理水平,增強(qiáng)競爭力。
[關(guān)鍵詞]數(shù)據(jù)挖掘;粗糙集;客戶價值評價;電信行業(yè)
[中圖分類號]TN943.6;TN914.3
[文獻(xiàn)標(biāo)識碼]A
第四篇:數(shù)據(jù)挖掘教學(xué)方法研究論文
摘要:在本科高年級學(xué)生中開設(shè)符合學(xué)術(shù)研究和工業(yè)應(yīng)用熱點的進(jìn)階課程是十分必要的。以數(shù)據(jù)挖掘課程為例,本科高年級學(xué)生了解并掌握數(shù)據(jù)挖掘的相關(guān)技術(shù),對于其今后的工作、學(xué)習(xí)不無裨益。著重闡述數(shù)據(jù)挖掘等進(jìn)階課程在本科高年級學(xué)生中的教學(xué)方法,基于本科高年級學(xué)生的實際情況,以及進(jìn)階課程的知識體系特點,提出有針對性的教學(xué)方法參考,從而提高進(jìn)階課程的教學(xué)效果。
關(guān)鍵詞:數(shù)據(jù)挖掘;進(jìn)階課程;教學(xué)方法研究;本科高年級
學(xué)生在本科高年級學(xué)生中開設(shè)數(shù)據(jù)挖掘等進(jìn)階課程是十分必要的,以大數(shù)據(jù)、數(shù)據(jù)挖掘為例,其相關(guān)技術(shù)不僅是當(dāng)前學(xué)術(shù)界的研究熱點,也是各家企事業(yè)單位招聘中重要崗位的要求之一。對于即將攻讀碩士或博士學(xué)位的學(xué)生,對于即將走上工作崗位的學(xué)生,了解并掌握一些大數(shù)據(jù)相關(guān)技術(shù),尤其是數(shù)據(jù)挖掘技術(shù),都是不無裨益的。在目前本科教學(xué)中,對于數(shù)據(jù)挖掘等課程的教學(xué),由于前序課程的要求,往往是放在本科四年級進(jìn)行。如何激發(fā)本科四年級學(xué)生在考研,找工作等繁雜事務(wù)中的學(xué)習(xí)興趣,從而更好地掌握數(shù)據(jù)挖掘的相關(guān)技術(shù)是本課程面臨的主要挑戰(zhàn),也是所有本科進(jìn)階課程所面臨的難題之一。
1數(shù)據(jù)挖掘等進(jìn)階課程所面臨的問題
1.1進(jìn)階課程知識體系的綜合性
進(jìn)階課程由于其理論與技術(shù)的先進(jìn)性,往往是學(xué)術(shù)研究的前沿,工業(yè)應(yīng)用的熱點,是綜合多方面知識的課程。以數(shù)據(jù)挖掘課程為例,其中包括數(shù)據(jù)庫、機(jī)器學(xué)習(xí)、模式識別、統(tǒng)計、可視化、高性能技術(shù),算法等多方面的知識內(nèi)容。雖然學(xué)生在前期的本科學(xué)習(xí)中已經(jīng)掌握了部分相關(guān)內(nèi)容,如數(shù)據(jù)庫、統(tǒng)計、算法等,但對于其他內(nèi)容如機(jī)器學(xué)習(xí)、人工智能、模式識別、可視化等,有的是與數(shù)據(jù)挖掘課程同時開設(shè)的進(jìn)階課程,有的已經(jīng)是研究生的教學(xué)內(nèi)容。對于進(jìn)階課程繁雜的知識體系,應(yīng)該如何把握廣度和深度的關(guān)系尤為重要。
1.2進(jìn)階課程的教學(xué)的目的要求
進(jìn)階課程的知識體系的綜合性體現(xiàn)在知識點過多、技術(shù)特征復(fù)雜。從教學(xué)效益的角度出發(fā),進(jìn)階課程的教學(xué)目的是在有限的課時內(nèi)最大化學(xué)生的知識收獲。從教學(xué)結(jié)果的可測度出發(fā),進(jìn)階課程的教學(xué)需要能夠有效驗證學(xué)生掌握重點知識的學(xué)習(xí)成果。1.3本科高年級學(xué)生的實際情況本科高年級學(xué)生需要處理考研復(fù)習(xí),找工作等繁雜事務(wù),往往對于剩余本科階段的學(xué)習(xí)不重視,存在得過且過的心態(tài)。進(jìn)階課程往往是專業(yè)選修課程,部分學(xué)分已經(jīng)修滿的學(xué)生往往放棄這部分課程的學(xué)習(xí),一來沒有時間,二來怕拖累學(xué)分。
2數(shù)據(jù)挖掘等進(jìn)階課程的具體教學(xué)方法
進(jìn)階課程的教學(xué)理念是在有限的課時內(nèi),盡可能地提高課程的廣度,增加介紹性內(nèi)容,在授課中著重講解1~2個關(guān)鍵技術(shù),如在數(shù)據(jù)挖掘課程中,著重講解分類中的決策樹算法,聚類中的K-Means算法等復(fù)雜度一般,應(yīng)用廣泛的重要知識點,并利用實踐來檢驗學(xué)習(xí)成果。
2.1進(jìn)階課程的課堂教學(xué)
數(shù)據(jù)挖掘等進(jìn)階課程所涉及的知識點眾多,在課堂上則采用演示和講授相結(jié)合的方法,對大部分知識點做廣度介紹,而對需要重點掌握知識點具體講授,結(jié)合實踐案例及板書。在介紹工業(yè)實踐案例的過程中,對于具體數(shù)據(jù)挖掘任務(wù)的來龍去脈解釋清楚,尤其是對于問題的歸納,數(shù)據(jù)的處理,算法的選擇等步驟,并在不同的知識點的教學(xué)中重復(fù)介紹和總結(jié)數(shù)據(jù)挖掘的一般性流程,可以加深學(xué)生對于數(shù)據(jù)挖掘的深入理解。對于一些需要記憶的知識點,在課堂上采用隨機(jī)問答的方式,必要的時候可以在每堂課的開始重復(fù)提問,提高學(xué)習(xí)的效果。
2.2進(jìn)階課程的課后教學(xué)
對于由于時間限制無法在課上深入討論的知識點,只能依靠學(xué)生在課后自學(xué)掌握。本科高年級學(xué)生的課后自學(xué)的動力不像低年級學(xué)生那么充足,可以布置需要動手實踐并涵蓋相關(guān)知識點的課后實踐,但盡量降低作業(yè)的工程量。鼓勵學(xué)生利用開源軟件和框架,基于提供的數(shù)據(jù)集,實際解決一些簡單的數(shù)據(jù)挖掘任務(wù),讓學(xué)生掌握相關(guān)算法技術(shù)的使用,并對算法有一定的了解。利用學(xué)院與大數(shù)據(jù)相關(guān)企業(yè)建立的合作關(guān)系,在課后通過參觀,了解大數(shù)據(jù)技術(shù)在當(dāng)前企業(yè)實踐中是如何應(yīng)用的,激發(fā)學(xué)生的學(xué)習(xí)興趣。
2.3進(jìn)階課程的教學(xué)效果考察進(jìn)階課程的考察不宜采取考試的形式,可以采用大作業(yè)的形式。從具體的數(shù)據(jù)挖掘?qū)嵺`中檢驗教學(xué)的成果,力求是學(xué)生在上完本課程后可以解決一些簡單的數(shù)據(jù)挖掘任務(wù),將較復(fù)雜的數(shù)據(jù)挖掘技術(shù)的學(xué)習(xí)留給學(xué)生自己。
3結(jié)語
數(shù)據(jù)挖掘是來源于實踐的科學(xué),學(xué)習(xí)完本課程的學(xué)生需要真正理解,掌握相關(guān)的數(shù)據(jù)挖掘技術(shù),并能夠在實際數(shù)據(jù)挖掘任務(wù)中應(yīng)用相關(guān)算法解決問題。這也對教師的教學(xué)水平提出了挑戰(zhàn),并直接與教師的科研水平相關(guān)。在具體的教學(xué)過程中,發(fā)現(xiàn)往往是在講授實際科研中遇到的問題時,學(xué)生的興趣較大,對于書本上的例子則反映一般。進(jìn)階課程在注重教學(xué)方法的基礎(chǔ)上,對于教師的科研水平提出了新的要求,這也是對于教師科研的反哺,使教學(xué)過程變成了教學(xué)相長的過程。
參考文獻(xiàn):
[1]孫宇,梁俊斌,鐘淑瑛.面向工程的《數(shù)據(jù)挖掘》課程教學(xué)方法探討[J].現(xiàn)代計算機(jī),2014(13).[2]蔣盛益,李霞,鄭琪.研究性學(xué)習(xí)和研究性教學(xué)的實證研究———以數(shù)據(jù)挖掘課程為例[J].計算機(jī)教育,2014(24).[3]張曉芳,王芬,黃曉.國內(nèi)外大數(shù)據(jù)課程體系與專業(yè)建設(shè)調(diào)查研究[C].2ndInternationalConferenceonEducation,ManagementandSocialScience(ICEMSS2014),2014.[4]郝潔.《無線傳感器網(wǎng)絡(luò)》課程特點、挑戰(zhàn)和解決方案[J].現(xiàn)代計算機(jī),2016(35).[5]王永紅.計算機(jī)類專業(yè)剖析中課程分析探討[J].現(xiàn)代計算機(jī),2011(04).
第五篇:高校管理中數(shù)據(jù)挖掘技術(shù)的研究論文
摘要:近年來,數(shù)據(jù)庫挖掘技術(shù)的普遍應(yīng)用,使數(shù)據(jù)價值實現(xiàn)最大化,在我國金融、商業(yè)、市場營銷等領(lǐng)域得到廣泛應(yīng)用。然而在我國高校管理中并沒有得到推廣,為使高校管理系統(tǒng)中的數(shù)據(jù)充分發(fā)揮應(yīng)有價值,在該系統(tǒng)中使用數(shù)據(jù)庫挖掘技術(shù)意義深遠(yuǎn)。本文首先介紹了數(shù)據(jù)挖掘技術(shù)的流程,然后在教師教學(xué)質(zhì)量評估中應(yīng)用數(shù)據(jù)庫挖掘技術(shù),充分證明數(shù)據(jù)庫挖掘技術(shù)在高校管理中能發(fā)揮重大作用。
關(guān)鍵詞:管理;決策樹;數(shù)據(jù)挖掘技術(shù)
當(dāng)前,大部分高校都擁有配套的管理系統(tǒng),該系統(tǒng)具備海量數(shù)據(jù)儲存和管理功能,徹底告別了手工記錄信息和數(shù)據(jù)的年代。不但節(jié)約了紙張,更有效提高了高校管理數(shù)據(jù)和信息的效率。然而我國高校沒有有效利用應(yīng)用數(shù)據(jù)挖掘技術(shù),因此研究數(shù)據(jù)庫挖掘技術(shù)在高校管理中的應(yīng)用十分必要。
1數(shù)據(jù)挖掘技術(shù)的流程
數(shù)據(jù)挖掘技術(shù)能夠?qū)⒑A繑?shù)據(jù)展開分析和處理,再把整體數(shù)據(jù)庫中存在規(guī)律的數(shù)據(jù)整合起來,實施該技術(shù)主要包括以下五個環(huán)節(jié)。目標(biāo)定義:該環(huán)節(jié)中要與有關(guān)領(lǐng)域的背景知識相結(jié)合,清晰、精確的定義出數(shù)據(jù)挖掘目標(biāo)。數(shù)據(jù)準(zhǔn)備:在該環(huán)節(jié)中要搜集、選取數(shù)據(jù)源中的數(shù)據(jù),處理已選數(shù)據(jù),將其轉(zhuǎn)換為適合數(shù)據(jù)挖掘的形態(tài)。數(shù)據(jù)挖掘:該環(huán)節(jié)是數(shù)據(jù)挖掘技術(shù)的核心,即采用關(guān)聯(lián)規(guī)則法、分類分析法等各種數(shù)據(jù)挖掘方法把數(shù)據(jù)中隱藏的知識和規(guī)律發(fā)掘出來。結(jié)果表示:在該環(huán)節(jié)中可以以用戶需求為依據(jù),將挖掘出來的知識和規(guī)律轉(zhuǎn)變?yōu)橛脩裟芙邮芎屠斫獾男螒B(tài)。知識吸收:該環(huán)節(jié)中,主要是把挖掘結(jié)果與指定領(lǐng)域中的需求相結(jié)合,在該領(lǐng)域中應(yīng)用發(fā)掘出來的結(jié)果,為決策者提供知識,是數(shù)據(jù)挖掘的終極目標(biāo)。
2數(shù)據(jù)挖掘技術(shù)在教學(xué)質(zhì)量評估中的應(yīng)用
2.1運用關(guān)聯(lián)規(guī)則法挖掘數(shù)據(jù)庫中的信息
評估老師教學(xué)質(zhì)量不但是評定教學(xué)效果的重要部分,也是評定教師職稱的重要根據(jù),因此是高校管理工作中不可或缺的部分。目前評估教學(xué)質(zhì)量的主要措施是搜集、統(tǒng)計學(xué)生的成績和以及對老師的評價,然后加權(quán)算出老師的總得分,作為評估該老師教學(xué)質(zhì)量指標(biāo)。這種方法非但不科學(xué),其權(quán)威性也較低,因此需要深挖數(shù)據(jù)的相關(guān)性,本文采用了數(shù)據(jù)挖掘技術(shù)中的關(guān)聯(lián)規(guī)法挖掘數(shù)據(jù)中的規(guī)律和知識,為評估老師教學(xué)質(zhì)量提供有力根據(jù)。運用關(guān)聯(lián)規(guī)則法挖掘數(shù)據(jù),其規(guī)則方法為“XY,置信度為c%,支持度為s%”。關(guān)聯(lián)規(guī)則中置信度為c%:在整體事件D集合中,如果既能夠符合事件X中擁有c%的需求,也能夠符合Y的要求。那么就用置信度來表示關(guān)聯(lián)規(guī)則的強(qiáng)度,被記錄為confidence(XY),置信度最小值用minConf來表示,通常置信度最小數(shù)值由客戶提供。關(guān)聯(lián)規(guī)則中置信度為s%:在整體事件D集合中,如果既能夠符合事件Y中的s%的需求,又能夠符合X要求。用支持度來表示關(guān)聯(lián)規(guī)則的頻度,把支持度的最小數(shù)記錄用minsup(X)來表示,通常支持度最小數(shù)值由客戶提供。頻繁項集合:當(dāng)X項集的支持度大于等于用戶設(shè)定好的最小支持度時,那么頻繁項集是X。通常關(guān)聯(lián)規(guī)則包含兩個環(huán)節(jié):①把全部頻繁項集從整體事件集中選出;②運用頻繁項集產(chǎn)生關(guān)聯(lián)規(guī)則。在這兩個環(huán)節(jié)中關(guān)聯(lián)規(guī)則效果和性能是否良好取決于第一個環(huán)節(jié)。
2.2關(guān)聯(lián)規(guī)則分析在評估教學(xué)質(zhì)量中的運用
第一步是準(zhǔn)備數(shù)據(jù)期,在某大學(xué)的教學(xué)管理系統(tǒng)中將五百條與教學(xué)評價有關(guān)的記錄從數(shù)據(jù)庫中隨機(jī)抽取,并挑選出老師編號、學(xué)歷、性別、教齡、評估分和職稱這六個屬性,并將相關(guān)數(shù)據(jù)從數(shù)據(jù)庫中提取。比如把講師、副教授和教授等職稱轉(zhuǎn)化成11、01、00等編碼,表1就是制定的評價教師教學(xué)記錄表。第二步采用關(guān)聯(lián)規(guī)則分析法把90分以上評價分?jǐn)?shù)作為檢索目標(biāo)和判斷標(biāo)準(zhǔn),也就是將≥90分作為判斷是否是高教學(xué)質(zhì)量闕值。通過檢索有143條記錄符合標(biāo)準(zhǔn),即設(shè)定最小的支持度為10%,置信度則為15%,得出下表2的關(guān)聯(lián)規(guī)則。最后一步評價本次實驗的結(jié)果。由上表得知,學(xué)生喜歡男老師和女老師的程度大致相同;學(xué)歷愈高的老師,給予他們的教學(xué)評價也就愈高,即學(xué)歷和教學(xué)評價成正比,這也說明了學(xué)歷高的老師其基本功與學(xué)歷低的老師相比,前者基本功更為穩(wěn)固,也有較高的科學(xué)研究水平;有較長教齡和較高職稱的老師,其教學(xué)質(zhì)量也越高;此外,在支持度中可以看出,高校教授和高學(xué)歷人才越多,說明其辦學(xué)能力也就越高。
3結(jié)語
高校管理系統(tǒng)作為教學(xué)信息化的重要舉措,只是起到搜集和儲存海量教學(xué)信息的作用,并沒有挖掘出海量數(shù)據(jù)之間的相關(guān)性,而在本文中把關(guān)聯(lián)規(guī)則法運用在教師教學(xué)質(zhì)量評估中,在數(shù)據(jù)中挖掘有價值的知識和規(guī)律,使評估教師教學(xué)質(zhì)量更具有科學(xué)性,因此在高校管理中全面應(yīng)用數(shù)據(jù)挖掘技術(shù),能為高校深化教學(xué)改革提供新的契機(jī)。
參考文獻(xiàn)
[1]江敏,徐艷。數(shù)據(jù)挖掘技術(shù)在高校教學(xué)管理中的應(yīng)用[J]。電腦知識與技術(shù),2012,(24):541—545+560。
[2]楊雪霞。數(shù)據(jù)挖掘技術(shù)在高校圖書館管理系統(tǒng)中的應(yīng)用研究[J]。軟件,2011(04):16—18。