欧美色欧美亚洲高清在线观看,国产特黄特色a级在线视频,国产一区视频一区欧美,亚洲成a 人在线观看中文

  1. <ul id="fwlom"></ul>

    <object id="fwlom"></object>

    <span id="fwlom"></span><dfn id="fwlom"></dfn>

      <object id="fwlom"></object>

      數(shù)據(jù)挖掘在房地產(chǎn)營(yíng)銷中的應(yīng)用

      時(shí)間:2019-05-13 09:13:57下載本文作者:會(huì)員上傳
      簡(jiǎn)介:寫寫幫文庫(kù)小編為你整理了多篇相關(guān)的《數(shù)據(jù)挖掘在房地產(chǎn)營(yíng)銷中的應(yīng)用》,但愿對(duì)你工作學(xué)習(xí)有幫助,當(dāng)然你在寫寫幫文庫(kù)還可以找到更多《數(shù)據(jù)挖掘在房地產(chǎn)營(yíng)銷中的應(yīng)用》。

      第一篇:數(shù)據(jù)挖掘在房地產(chǎn)營(yíng)銷中的應(yīng)用

      文章摘要:信息資源的分析、整合在房地產(chǎn)行業(yè)的競(jìng)爭(zhēng)中起著越來越重要的作用。數(shù)據(jù)挖掘作為一種系統(tǒng)地檢查和理解大量數(shù)據(jù)的工具,能有效地幫助房地產(chǎn)企業(yè)從不斷積累與更新的數(shù)據(jù)中提取有價(jià)值的信息。因此,數(shù)據(jù)挖掘被引入到房地產(chǎn)市場(chǎng)研究領(lǐng)域,并日益受到重視。本文從數(shù)據(jù)挖掘在房地產(chǎn)行業(yè)中的市場(chǎng)研究?jī)r(jià)值入手,分析了數(shù)據(jù)挖掘在房地產(chǎn)市場(chǎng)研究尤其是客戶信息中的應(yīng)用,并加以舉例說明。關(guān)鍵詞:數(shù)據(jù)挖掘 關(guān)聯(lián)分析 分類

      一、房地產(chǎn)行業(yè)需要數(shù)據(jù)挖掘技術(shù)的支持

      隨著房地產(chǎn)行業(yè)競(jìng)爭(zhēng)的加劇,房地產(chǎn)企業(yè)要想在競(jìng)爭(zhēng)中制勝,必然需要充分的信息支持和準(zhǔn)確的市場(chǎng)判斷。房地產(chǎn)行業(yè)擁有大量的數(shù)據(jù)積累,包括行業(yè)信息、經(jīng)濟(jì)環(huán)境信息、客戶信息等。這些數(shù)據(jù)是房地產(chǎn)企業(yè)市場(chǎng)運(yùn)作的重要參考。面對(duì)快速增長(zhǎng)的海量數(shù)據(jù)收集,企業(yè)需要有力的數(shù)據(jù)分析工具將“豐富的數(shù)據(jù)”轉(zhuǎn)換成“有價(jià)值的知識(shí)”,否則大量的數(shù)據(jù)將成為“數(shù)據(jù)豐富,但信息貧乏”的“數(shù)據(jù)墳?zāi)埂薄?/p>

      數(shù)據(jù)挖掘(Data Mining)是從大量數(shù)據(jù)中發(fā)現(xiàn)潛在關(guān)聯(lián)、模式,做出預(yù)測(cè)性分析的有效工具,它是現(xiàn)有的一些人工智能、統(tǒng)計(jì)學(xué)等技術(shù)在數(shù)據(jù)庫(kù)領(lǐng)域中的應(yīng)用。應(yīng)用數(shù)據(jù)挖掘有助于發(fā)現(xiàn)業(yè)務(wù)發(fā)展的趨勢(shì),揭示已知的事實(shí),預(yù)測(cè)未知的結(jié)果,并幫助企業(yè)分析出解決問題所需要的關(guān)鍵因素,使企業(yè)處于更有利的競(jìng)爭(zhēng)位置。

      二、數(shù)據(jù)挖掘在房地產(chǎn)行業(yè)的應(yīng)用

      1.?dāng)?shù)據(jù)挖掘的概念

      對(duì)于企業(yè)的海量信息存儲(chǔ),數(shù)據(jù)挖掘是一種系統(tǒng)地檢查和理解大量數(shù)據(jù)的工具。數(shù)據(jù)挖掘根據(jù)預(yù)定義的商業(yè)目標(biāo),對(duì)大量的企業(yè)數(shù)據(jù)進(jìn)行探索和分析,揭示其中隱含的商業(yè)規(guī)律,并進(jìn)一步生成相應(yīng)的分析、預(yù)測(cè)模型。

      數(shù)據(jù)挖掘發(fā)現(xiàn)的是以前未知的、可理解的、可執(zhí)行的信息,所以也被稱為“知識(shí)發(fā)現(xiàn)”(Knowledge Discovery in Databases)。與統(tǒng)計(jì)分析技術(shù)相比,數(shù)據(jù)挖掘技術(shù)能很好地和數(shù)據(jù)庫(kù)技術(shù)相結(jié)合,而且數(shù)據(jù)挖掘工具用以發(fā)現(xiàn)數(shù)據(jù)中隱含的商業(yè)規(guī)律的方法已不局限于統(tǒng)計(jì)技術(shù),還包括神經(jīng)網(wǎng)絡(luò)、遺傳算法、自組織圖、神經(jīng)模糊系統(tǒng)等統(tǒng)計(jì)學(xué)科以外的方法。數(shù)據(jù)挖掘發(fā)現(xiàn)的“知識(shí)”一方面可以用于構(gòu)建預(yù)測(cè)模型,另一方面可以被用于豐富統(tǒng)計(jì)分析師的背景知識(shí),再被統(tǒng)計(jì)分析師應(yīng)用到數(shù)據(jù)分析中。

      數(shù)據(jù)挖掘任務(wù)一般可以分兩類:描述和預(yù)測(cè)。描述性挖掘任務(wù)刻劃數(shù)據(jù)庫(kù)中數(shù)據(jù)的一般特性。預(yù)測(cè)性挖掘任務(wù)在當(dāng)前數(shù)據(jù)上進(jìn)行推斷,以進(jìn)行預(yù)測(cè)。具體來講,數(shù)據(jù)挖掘主要用于解決以下幾種不同事情:

      (1)關(guān)聯(lián)分析(Association analysis),是尋找屬性間的相關(guān)性。兩種常用的技術(shù)是關(guān)聯(lián)規(guī)則和序列模式。關(guān)聯(lián)規(guī)則是尋找在同一事件中出現(xiàn)的不同項(xiàng)的相關(guān)性,比如某個(gè)住宅項(xiàng)目的目標(biāo)客戶對(duì)該項(xiàng)目各方面評(píng)價(jià)之間的相關(guān)性序列分析尋找的是事件之間時(shí)間上的相關(guān)性,如對(duì)股票漲跌、房地產(chǎn)周期的分析。

      (2)分類(Classification)和預(yù)測(cè)(Prediction)。分類根據(jù)某種標(biāo)準(zhǔn)將數(shù)據(jù)庫(kù)記錄分類到許多預(yù)先定義好的類別中。例如,將房地產(chǎn)企業(yè)客戶根據(jù)消費(fèi)決策模式進(jìn)行分類;同時(shí)可以建立預(yù)測(cè)模型,給定潛在客戶的收入、職業(yè)、家庭構(gòu)成等個(gè)人屬性,預(yù)測(cè)他們?cè)谫?gòu)房支出;如將房地產(chǎn)企業(yè)客戶分為潛在客戶、購(gòu)買者和實(shí)際客戶。分類系統(tǒng)可以產(chǎn)生這樣的規(guī)則:“如果客戶可以并且愿意承擔(dān)每月2000元的月供,計(jì)劃在1年內(nèi)在某地區(qū)買房,那么他/她是一個(gè)潛在客戶;如果客戶至少進(jìn)行過一次業(yè)務(wù)訪問,那么他/她是一個(gè)購(gòu)買者。”

      (3)聚類(Clustering)是把整個(gè)數(shù)據(jù)庫(kù)分成不同的群組。它的目的是要群與群之間差別明顯,而同一群之間的數(shù)據(jù)盡量相似。聚類與分類不同:分類之前已經(jīng)知道要把數(shù)據(jù)分成哪幾類,每個(gè)類的性質(zhì)是什么;聚類則恰恰相反。

      (4)演變分析(evolution analysis)描述行為隨時(shí)間變化的對(duì)象的規(guī)律或趨勢(shì),并對(duì)其建模。例如,結(jié)合人口構(gòu)成變動(dòng)趨勢(shì)、教育水平發(fā)展趨勢(shì)、社會(huì)經(jīng)濟(jì)發(fā)展趨勢(shì)進(jìn)行房地產(chǎn)消費(fèi)趨向的分析。

      (5)描述和可視化(Description and Visualization),對(duì)數(shù)據(jù)進(jìn)行歸約、概化或圖形描述等。例如,通過空間聚集和近似計(jì)算對(duì)一些具體的地理位置概化聚類,形成對(duì)某區(qū)域的形象化描述。

      2.?dāng)?shù)據(jù)挖掘的市場(chǎng)研究?jī)r(jià)值

      數(shù)據(jù)挖掘技術(shù)在商業(yè)上實(shí)際應(yīng)用十分豐富。應(yīng)用數(shù)據(jù)挖掘技術(shù),可以幫助房地產(chǎn)行業(yè)找出有價(jià)值的信息,十分有助于企業(yè)發(fā)現(xiàn)商機(jī)、制定開發(fā)計(jì)劃與營(yíng)銷策略。對(duì)于房地產(chǎn)市場(chǎng)研究,數(shù)據(jù)挖掘可以應(yīng)用于宏觀經(jīng)濟(jì)形勢(shì)研究、市場(chǎng)發(fā)展趨勢(shì)研究、樓盤供應(yīng)研究、競(jìng)爭(zhēng)對(duì)手研究、客戶研究。包括但不局限于以下幾個(gè)方面:

      (1)宏觀經(jīng)濟(jì)形勢(shì)研究——1)房地產(chǎn)周期時(shí)序分析中的相似搜索:可找出已有房地產(chǎn)周期數(shù)據(jù)庫(kù)中與給定查詢序列最接近的數(shù)據(jù)序列。比較識(shí)別兩個(gè)相似時(shí)間段間數(shù)據(jù)系列的主要差異,對(duì)房地產(chǎn)市場(chǎng)的宏觀分析很有參考價(jià)值。2)宏觀經(jīng)濟(jì)形勢(shì)研究——房地產(chǎn)周期一般性因素關(guān)聯(lián)分析:一般而言,房地產(chǎn)周期是影響不動(dòng)產(chǎn)收益的一系列因素組成的總體概念。各因素均會(huì)對(duì)總體房地產(chǎn)周期起決定作用。關(guān)聯(lián)分析方法可用于幫助發(fā)現(xiàn)各因素和房地產(chǎn)周期間的交叉與聯(lián)系。

      (2)市場(chǎng)發(fā)展趨勢(shì)研究——1)銷售量的增長(zhǎng)與人均可支配收入的回歸分析;2)個(gè)人購(gòu)買與集團(tuán)購(gòu)買房地產(chǎn)比重的擬合與分析;3)對(duì)房地產(chǎn)銷售波動(dòng)率的回歸分析。通過對(duì)市場(chǎng)總體狀況、市場(chǎng)占有率、發(fā)展水平等動(dòng)態(tài)的分析、總結(jié)和評(píng)價(jià),及時(shí)獲得準(zhǔn)確數(shù)據(jù),輔助經(jīng)營(yíng)決策。

      (3)樓盤供應(yīng)研究——地理發(fā)展空間的多維分析:綜合人口住房條件及分布、土地利用現(xiàn)狀及政府規(guī)劃、交通現(xiàn)狀分布信息,通過聚集及層次化描述,發(fā)掘區(qū)域內(nèi)需建立的高檔別墅、高、中、低檔公寓的數(shù)量及各自的地理位置和發(fā)展計(jì)劃。

      (4)客戶研究——客戶信息的多維關(guān)聯(lián)和序列模式分析:關(guān)聯(lián)分析可在客戶信息中發(fā)現(xiàn)客戶的消費(fèi)行為模式,幫助營(yíng)銷人員找出影響消費(fèi)者的機(jī)會(huì)與方式。

      目前,專業(yè)市場(chǎng)研究公司對(duì)房地產(chǎn)行業(yè)的調(diào)研主要集中在客戶需求分析方面,并積累了一定的經(jīng)驗(yàn),因此,本文主要探討房地產(chǎn)客戶信息的數(shù)據(jù)挖掘。

      3.?dāng)?shù)據(jù)挖掘在房地產(chǎn)客戶研究中有著廣泛的應(yīng)用

      房地產(chǎn)行業(yè)的客戶信息有許多特點(diǎn),如下圖所示,一方面房地產(chǎn)行業(yè)面對(duì)的客戶群廣泛,而且客戶的特征描述的結(jié)構(gòu)復(fù)雜,另一方面房地產(chǎn)客戶需求的層次不一,且易受外界因素影響,具有多層次性和多變性。

      對(duì)于復(fù)雜、多樣而且擅變的客戶信息,房地產(chǎn)行業(yè)客戶信息的數(shù)據(jù)挖掘有助于識(shí)別客戶購(gòu)買行為,發(fā)現(xiàn)客戶購(gòu)買模式和趨勢(shì)。從而,幫助房地產(chǎn)企業(yè)改進(jìn)服務(wù)質(zhì)量,取得更好的客戶關(guān)系和滿意程度,設(shè)計(jì)更好的營(yíng)銷方案,減少商業(yè)成本。根據(jù)已有的數(shù)據(jù)挖掘經(jīng)驗(yàn),數(shù)據(jù)挖掘在房地產(chǎn)行業(yè)的應(yīng)用可以歸納成以下幾個(gè)方面:

      4.明確商業(yè)目標(biāo)

      三、如何在房地產(chǎn)行業(yè)應(yīng)用數(shù)據(jù)挖掘技術(shù)

      應(yīng)用數(shù)據(jù)挖掘的首要任務(wù)就是明確需要達(dá)到什么樣的商業(yè)目標(biāo),并描述出需要解決的問題。目標(biāo)的描述應(yīng)該細(xì)化、清楚,以便于選擇合適的挖掘方法,也方便檢測(cè)數(shù)據(jù)挖掘效果,判斷建立的模型的有效性。例如,下列目標(biāo)是大而空的目標(biāo):獲得客戶行為的了解;在數(shù)據(jù)中發(fā)現(xiàn)有用的模型;發(fā)現(xiàn)一些有意思得東西。而另外一些目標(biāo)有較強(qiáng)操作性:發(fā)現(xiàn)哪些客戶不受某種促銷手段的影響;找出項(xiàng)目封頂時(shí)哪類客戶成交率增加。

      5.?dāng)?shù)據(jù)準(zhǔn)備

      基于數(shù)據(jù)挖掘的商業(yè)目標(biāo),提取所需要的數(shù)據(jù)。為了保證數(shù)據(jù)的質(zhì)量,除了對(duì)數(shù)據(jù)進(jìn)行必要地檢查和修正外,還需要考慮不同源之間數(shù)據(jù)的一致性問題。

      如果數(shù)據(jù)集包含過多的字段,需采用一定的方法找到對(duì)模型輸出影響最大的字段,適當(dāng)?shù)臏p少輸入的字段。常用的方法包括:“描述型數(shù)據(jù)挖掘”、連結(jié)分析等。

      很多變量如果組合起來(加、減、比率等)會(huì)比這些變量自身影響力更大。一些變量如果擴(kuò)大它的范圍會(huì)成為一個(gè)非常好的預(yù)測(cè)變量,比如用一段時(shí)間內(nèi)收入變化情況代替一個(gè)單一的收入數(shù)據(jù)。因此,在數(shù)據(jù)準(zhǔn)備階段需考慮是否創(chuàng)建一些新的變量。

      處理缺失數(shù)據(jù)也是數(shù)據(jù)準(zhǔn)備階段的一個(gè)重要工作。有些缺值本身就非常有意義。例如:富有的顧客會(huì)忽略“收入”,或者不在乎價(jià)格的影響。

      6.建立模型

      建立模型是一個(gè)反復(fù)的過程。首先需要選擇適合解決當(dāng)前問題的模型。對(duì)模型的選擇過程可能會(huì)啟發(fā)對(duì)數(shù)據(jù)的理解并加以修改,甚至改變最初對(duì)問題的定義。

      一旦選擇了模型的類型及應(yīng)用的方法,所選擇的模型將決定對(duì)數(shù)據(jù)的預(yù)處理工作。例如,神經(jīng)網(wǎng)絡(luò)需要做數(shù)據(jù)轉(zhuǎn)換,有些數(shù)據(jù)挖掘工具可能對(duì)輸入數(shù)據(jù)的格式有特定的限制等。

      接下來是建立模型的工作。對(duì)于通過數(shù)據(jù)挖掘建立的模型需要有一定的數(shù)據(jù)來測(cè)試和驗(yàn)證。對(duì)于預(yù)測(cè)性任務(wù),需通過反復(fù)的測(cè)試、驗(yàn)證、訓(xùn)練,才能不斷提高模型的準(zhǔn)確率。

      大部分?jǐn)?shù)據(jù)挖掘模型不是專為解決某個(gè)問題而特制的,模型之間也并不相互排斥。不能說一個(gè)問題一定要采用某種模型,別的就不行。例如:Cart決策樹算法、神經(jīng)網(wǎng)絡(luò)既可以用于建立分類樹,也可建立回歸樹。

      7.輸出結(jié)果的評(píng)價(jià)和解釋

      模型建立好之后,必須評(píng)價(jià)其結(jié)果,解釋其價(jià)值。在實(shí)際應(yīng)用中,模型的準(zhǔn)確率會(huì)隨著應(yīng)用數(shù)據(jù)的不同發(fā)生變化。但準(zhǔn)確度自身并不一定是選擇模型的正確評(píng)價(jià)方法。對(duì)輸出結(jié)果的理解需要進(jìn)一步了解錯(cuò)誤的類型和由此帶來的相關(guān)費(fèi)用的多少。如果模型每個(gè)不同的預(yù)測(cè)錯(cuò)誤所需付出的代價(jià)(費(fèi)用)也不同的話,代價(jià)最小的模型(而不一定是錯(cuò)誤率最小的模型)將是較好的選擇。

      直接在現(xiàn)實(shí)世界中測(cè)試模型很重要。先在小范圍內(nèi)應(yīng)用,取得測(cè)試數(shù)據(jù),覺得滿意后再向大范圍推廣。

      8.實(shí)施

      模型在建立并經(jīng)驗(yàn)證之后,可以有兩種主要的使用方法。一種是提供給分析人員做參考,由他通過查看和分析這個(gè)模型輸出,并做出解釋和方案建議;另一種是把模型應(yīng)用到不同的數(shù)據(jù)集上。模型可以用來標(biāo)示一個(gè)事例的類別,給一類客戶打分等,還可以用模型在數(shù)據(jù)庫(kù)中選擇符合特定要求的記錄,以用其他工具做進(jìn)一步分析。

      在應(yīng)用模型之后,還要不斷監(jiān)控模型的效果。即使模型的運(yùn)用很成功,也不能放棄監(jiān)控。因?yàn)槭挛镌诓粩喟l(fā)展變化,很可能過一段時(shí)間之后,隨著購(gòu)買方式、消費(fèi)觀點(diǎn)的變化,模型就不再起作用。因此隨著模型使用時(shí)間的增加,要不斷的對(duì)模型做重新測(cè)試,有時(shí)甚至需要更新建立模型。

      四、應(yīng)用舉例:基于客戶分類的關(guān)聯(lián)分析

      1.商業(yè)目標(biāo)

      為了更詳盡地了解客戶的消費(fèi)決策,本案例設(shè)計(jì)的問題是:“給客戶分類,并了解不同類的客戶有什么特點(diǎn)?”針對(duì)此類問題挖掘出的結(jié)果可以被用于預(yù)測(cè)性分析,例如預(yù)測(cè)客戶最傾向于做出哪種購(gòu)買行為。2.?dāng)?shù)據(jù)準(zhǔn)備

      本案例中采用某一時(shí)點(diǎn)上的房地產(chǎn)消費(fèi)者需求抽樣調(diào)查,取出描述消費(fèi)者個(gè)人屬性和消費(fèi)特點(diǎn)的字段。

      3.建立模型

      (1)對(duì)數(shù)據(jù)進(jìn)行分類

      本案例中由購(gòu)房者選擇最多五個(gè)自己在購(gòu)房決策過程中比較看重的因素,并以總評(píng)分100分為前提給出每個(gè)因素的看重程度的評(píng)分。

      案例得到的抽樣數(shù)據(jù)顯示,盡管地理位置是影響一個(gè)房地產(chǎn)項(xiàng)目定位的重要因素,人們對(duì)地理位置的看重程度仍有較大的差異。因此,以客戶對(duì)地理位置的關(guān)注程度為分類標(biāo)準(zhǔn),構(gòu)建了一個(gè)簡(jiǎn)單的決策樹。決策樹中根據(jù)購(gòu)房者對(duì)地理位置的看重程度,將購(gòu)房者分為:地理位置決定型、地理位置重要參考型、地理位置參考型、地理位置不重要型、地理位置無關(guān)型五種類型。下表是應(yīng)用決策樹得到的客戶分類結(jié)果。從各客戶群評(píng)分的均值和標(biāo)準(zhǔn)差可以看出,各客戶群具有較好的組內(nèi)相似性和組間差異性,說明所構(gòu)建的決策樹的分類結(jié)果比較理想,可用于進(jìn)一步的分析。

      (2)關(guān)聯(lián)分析運(yùn)用關(guān)聯(lián)分析的目的是尋找數(shù)據(jù)庫(kù)中值的相關(guān)性。本例采用基于興趣度的關(guān)聯(lián)規(guī)則挖掘算法,挖掘每類客戶不同屬性間的相關(guān)性。經(jīng)過挖掘,發(fā)現(xiàn)一些值得深入探討的關(guān)聯(lián),見下表:

      注:a)支持率反映了關(guān)聯(lián)是否是普遍存在的規(guī)律。例如:支持率=5%,表示在1000個(gè)客戶中有50個(gè)客戶符合關(guān)聯(lián)規(guī)則描述。

      b)可信度反映了關(guān)聯(lián)規(guī)則前提成立的條件下結(jié)果成例的概率。本例中,可信度=15%可以解釋為,對(duì)應(yīng)的客戶群中有15個(gè)人符合關(guān)聯(lián)規(guī)則的描述。

      c)興趣度反映了關(guān)聯(lián)規(guī)則中元素的關(guān)系的密切程度。興趣度越大于1說明該規(guī)則中的元素的關(guān)系越密切,該規(guī)則的實(shí)際利用價(jià)值越大。

      d)最小支持度閾值、最小可信度和最小興趣度的閾值可以由用戶和領(lǐng)域?qū)<以O(shè)定。此例中以支持度>3.5%,可信度>15%,興趣度>2為閾值。

      上表中列出的關(guān)聯(lián)規(guī)則均有較高的支持率、可信度和興趣度。為了更加準(zhǔn)確地挖掘關(guān)聯(lián)規(guī)則。對(duì)挖掘出的關(guān)聯(lián)規(guī)則更換因果關(guān)系,形成新的關(guān)聯(lián)規(guī)則與之進(jìn)行對(duì)比。如下例:

      關(guān)聯(lián)規(guī)則A1:地理位置無關(guān)型客戶=≥重視物業(yè)管理

      支持率=9.7% 可信度=30.3% 興趣度=2.4與

      關(guān)聯(lián)規(guī)則B1:重視物業(yè)管理 =≥地理位置無關(guān)型客戶

      支持率=9.7% 可信度=76.9% 興趣度=2.4

      對(duì)比兩個(gè)關(guān)聯(lián)規(guī)則將發(fā)現(xiàn),“重視物業(yè)管理的人不關(guān)心地理位置”的可能性(76.9%)高于“不關(guān)心地理位置的人重視物業(yè)管理”的可能性(30.3%)。說明關(guān)聯(lián)規(guī)則B1:重視物業(yè)管理=≥地理位置無關(guān)型客戶是一條更有意義的關(guān)聯(lián)規(guī)則。

      其他被發(fā)掘的關(guān)聯(lián)也可以通過類似的比較,進(jìn)行深一步的挖掘。在此不再全部做出詳細(xì)分析。從本例挖掘出的信息可以看到,如果僅依賴于已有行業(yè)經(jīng)驗(yàn)進(jìn)行統(tǒng)計(jì)分析,往往會(huì)因?yàn)榉治鋈藛T的主觀性或者數(shù)據(jù)量太大難以實(shí)施而存在信息提取的局限性。而通過數(shù)據(jù)挖掘得到的信息,一方面能彌補(bǔ)直接應(yīng)用統(tǒng)計(jì)分析時(shí)的局限性,開拓分析人員的思維,豐富分析人員的行業(yè)背景知識(shí);另一方面可以通過反復(fù)的驗(yàn)證、機(jī)器學(xué)習(xí)建立模型,直接成為分析人員的分析、預(yù)測(cè)的工具。

      需要說明:

      a)本案例的目的在于說明數(shù)據(jù)挖掘算法的應(yīng)用價(jià)值,得到的結(jié)果僅供參考,并不作為定論,而且數(shù)據(jù)挖掘的結(jié)果需要由行業(yè)內(nèi)的商業(yè)分析人員判斷:是否真的具有意義,是否有進(jìn)一步分析、探討的價(jià)值。也就是說數(shù)據(jù)挖掘作為信息提取的工具,其輸出是決策分析的參考,不能代替行業(yè)內(nèi)商業(yè)分析人員的分析工作。

      b)案例中的數(shù)據(jù)挖掘作為方法應(yīng)用的探討,如要生成一個(gè)可操作的模型工具還需足夠的數(shù)據(jù)集支持進(jìn)行測(cè)試、驗(yàn)證、訓(xùn)練才能不斷提高模型的準(zhǔn)確率。

      c)本案例中解決問題的方法不是唯一的,可能應(yīng)用其他的分類手段、分類標(biāo)準(zhǔn)能得到更好的結(jié)果。具體方法的應(yīng)用要取決于實(shí)施人員的建模能力、行業(yè)經(jīng)驗(yàn)。也就是說,數(shù)據(jù)挖掘?qū)θ藛T有較高的要求。數(shù)據(jù)挖掘的人員不僅要有良好的統(tǒng)計(jì)概念、建模能力,還要懂得基本的商業(yè)和行業(yè)概念。

      五、房地產(chǎn)行業(yè)數(shù)據(jù)挖掘的應(yīng)用前景

      隨著IT/Internet等新技術(shù)發(fā)展,市場(chǎng)研究在房地產(chǎn)行業(yè)的應(yīng)用已經(jīng)不再局限于數(shù)據(jù)采集和簡(jiǎn)單的歸納、數(shù)據(jù)分析。更高的決策服務(wù)是建立在更大量的“數(shù)據(jù)——信息——知識(shí)”的基礎(chǔ)上的,因此數(shù)據(jù)挖掘、商業(yè)智能等概念與技術(shù)的引入促進(jìn)了數(shù)據(jù)挖掘在房地產(chǎn)行業(yè)的應(yīng)用。與此同時(shí),隨著房地產(chǎn)企業(yè)數(shù)據(jù)挖掘應(yīng)用的深入,數(shù)據(jù)、數(shù)據(jù)挖掘的任務(wù)和數(shù)據(jù)挖掘方法的多樣性將給數(shù)據(jù)挖掘提出了許多挑戰(zhàn)性的課題。例如:

      1、應(yīng)用地理信息系統(tǒng)(GIS)尋求數(shù)據(jù)挖掘過程中的可視化方法,使得知識(shí)發(fā)現(xiàn)的過程能夠被用戶理解,也便于在知識(shí)發(fā)現(xiàn)過程中的人機(jī)交互。

      2、web挖掘:由于web上存在大量信息,隨著web的發(fā)展,有關(guān)web內(nèi)容挖掘、web日志挖掘等網(wǎng)絡(luò)上的數(shù)據(jù)挖掘?qū)⒊蔀閿?shù)據(jù)挖掘中一個(gè)最為重要和繁榮的應(yīng)用領(lǐng)域。房地產(chǎn)公司的企業(yè)形象宣傳、營(yíng)銷、客戶維護(hù)等工作都將離不開網(wǎng)絡(luò),也必然將需要web挖掘數(shù)據(jù)支持。

      第二篇:數(shù)據(jù)挖掘在保險(xiǎn)精準(zhǔn)營(yíng)銷中的應(yīng)用-開題報(bào)告

      全日制工學(xué)(工程)碩士學(xué)位論文開題報(bào)告

      課題來源及研究的目的和意義

      1.1 課題來源

      自選課題

      1.2 選題價(jià)值及意義

      大型的保險(xiǎn)公司已將數(shù)據(jù)挖掘應(yīng)用到保險(xiǎn)業(yè)務(wù)中,但由于應(yīng)用在保險(xiǎn)行業(yè)的分析模型不是很健全,目前在實(shí)際操作中一般都采用套用現(xiàn)成算法的方式,導(dǎo)致其結(jié)果不是特別的理想。數(shù)據(jù)挖掘不只是數(shù)據(jù)的組織和呈現(xiàn),而是一個(gè)從理解業(yè)務(wù)需求,尋求解決方案到接受實(shí)踐檢驗(yàn)的完整過程,過程中的每個(gè)階段都需要建立科學(xué)的方法。數(shù)據(jù)挖掘是精準(zhǔn)營(yíng)銷創(chuàng)造商業(yè)價(jià)值的關(guān)鍵,也應(yīng)該是精準(zhǔn)營(yíng)銷重要組成部分。

      在保險(xiǎn)企業(yè)中,應(yīng)用數(shù)據(jù)挖掘有以下好處:從業(yè)務(wù)數(shù)據(jù)方面看,利用企業(yè)經(jīng)營(yíng)積累起來的海量數(shù)據(jù),經(jīng)過數(shù)據(jù)預(yù)處理等操作后,并最終挖掘出有用的信息、規(guī)則,用來幫助企業(yè)的管理者進(jìn)行正確的決策。站在未來的角度上看,數(shù)據(jù)挖掘通過對(duì)業(yè)務(wù)數(shù)據(jù)進(jìn)行研究與分析,可以預(yù)測(cè)出企業(yè)相關(guān)經(jīng)營(yíng)方面未來的發(fā)展趨勢(shì),基于對(duì)客戶群體進(jìn)行分類,推出滿足客戶需求的相關(guān)商業(yè)產(chǎn)品,并挖掘出潛在客戶群體等。另外,從目前的發(fā)展和運(yùn)用現(xiàn)狀來看,數(shù)據(jù)挖掘技術(shù)未來發(fā)展市場(chǎng)十分廣闊。而且數(shù)據(jù)挖掘技術(shù)與保險(xiǎn)企業(yè)商業(yè)問題的結(jié)合也應(yīng)當(dāng)是一個(gè)必然的過程。隨著保險(xiǎn)企業(yè)自身經(jīng)營(yíng)管理的不斷完善,從海量的業(yè)務(wù)數(shù)據(jù)中,獲取有價(jià)值的信息和知識(shí),分析并研究客戶喜好及消費(fèi)行為特征,并推出適合客戶需求的產(chǎn)品,針對(duì)客戶進(jìn)行具體的營(yíng)銷,贏得市場(chǎng)地位,對(duì)于保險(xiǎn)企業(yè)來說,是未來快速發(fā)展、贏得企業(yè)生存的關(guān)鍵。因此,學(xué)習(xí)與運(yùn)用數(shù)據(jù)挖掘技術(shù),也是保險(xiǎn)企業(yè)未來人才培養(yǎng)的一個(gè)重要方面。

      2.國(guó)內(nèi)外在該方向的研究現(xiàn)狀及分析

      2.1 精準(zhǔn)營(yíng)銷國(guó)內(nèi)外現(xiàn)狀

      精準(zhǔn)營(yíng)銷在國(guó)外發(fā)達(dá)國(guó)家已經(jīng)有幾十年的歷史,己經(jīng)成為各類型企業(yè)的常規(guī)營(yíng)銷方式。杰羅姆·麥卡錫(E.Jerome McCarthy)于1960年在其《基礎(chǔ)營(yíng)銷》(Basic Marketing)一書中第一次將企業(yè)的營(yíng)銷要素歸結(jié)四個(gè)基本策略的組合,即著名的“4P’s”理論:產(chǎn)品(Product)、價(jià)格(Price)、渠道(Place)、促銷(Promotion),由于這四個(gè)詞的英文字頭都是P,再加上策略(Strategy),所以簡(jiǎn)稱為“4P’s”。在1976年,“現(xiàn)在營(yíng)銷學(xué)之父” 菲利普·科特勒在其代表作《營(yíng)銷管理》進(jìn)一步確認(rèn)了以4P為核心的營(yíng)銷組合方法論。

      全日制工學(xué)(工程)碩士學(xué)位論文開題報(bào)告

      1990年,美國(guó)學(xué)者羅伯特·勞朋特(RobertLauterborn)教授提出了與傳統(tǒng)營(yíng)銷的4P相對(duì)應(yīng)的4C營(yíng)銷理論。4C(Customer、Cost、Convenience、Communication)營(yíng)銷理論以消費(fèi)者需求為導(dǎo)向,重新設(shè)定了市場(chǎng)營(yíng)銷組合的四個(gè)基本要素:瞄準(zhǔn)消費(fèi)者的需求和期望(Customer)。首先要了解、研究、分析消費(fèi)者的需要與欲求,而不是先考慮企業(yè)能生產(chǎn)什么產(chǎn)品;消費(fèi)者所愿意支付的成本(Cost)??偟膩碚f,4C理論認(rèn)為,對(duì)現(xiàn)代企業(yè)來講,重視產(chǎn)品,更要重視顧客;追求成本,更要追求價(jià)格;提供消費(fèi)者的便利比營(yíng)銷渠道更重要;營(yíng)銷活動(dòng)不單純是在促銷,而是與客戶有效的溝通。4C理論以顧客的便利與滿意為企業(yè)營(yíng)銷的根基,企業(yè)必須從消費(fèi)者的角度出發(fā),為消費(fèi)者提供滿意的產(chǎn)品和服務(wù),才能在競(jìng)爭(zhēng)中立于不敗之地。

      目前,最為流行的營(yíng)銷模式是3P3C,Probability(概率):營(yíng)銷、運(yùn)營(yíng)活動(dòng)以概率為核心,追求精細(xì)化和精準(zhǔn)率。Product(產(chǎn)品):注重產(chǎn)品功能,強(qiáng)調(diào)產(chǎn)品賣點(diǎn)。Prospects(消費(fèi)者,目標(biāo)用戶)。Creative(創(chuàng)意,包括文案、活動(dòng)等)。Channel(渠道)。Cost/Price(成本/價(jià)格)。而在這其中,以數(shù)據(jù)分析挖掘所支撐的目標(biāo)響應(yīng)概率(Probability)是核心,在此基礎(chǔ)上將會(huì)圍繞產(chǎn)品功能優(yōu)化,目標(biāo)用戶細(xì)分,活動(dòng)創(chuàng)意,渠道優(yōu)化,成本的調(diào)整等重要環(huán)節(jié)和要素,共同促進(jìn)數(shù)據(jù)化運(yùn)營(yíng)持續(xù)完善,甚至成功。

      相對(duì)于發(fā)達(dá)國(guó)家,精準(zhǔn)營(yíng)銷在中國(guó)的發(fā)展起步較晚,但是發(fā)展速度非???。三十年改革開放,中國(guó)營(yíng)銷經(jīng)歷了一個(gè)從“無到有”從“有到強(qiáng)”的過程;三十年市場(chǎng)營(yíng)銷的實(shí)踐磨練,中國(guó)企業(yè)積累了很多營(yíng)銷經(jīng)驗(yàn)、也培養(yǎng)了很多營(yíng)銷人才、形成了較為系統(tǒng)的營(yíng)銷理論,從整個(gè)大的層面還是積極的、卓有成效的。但是真正意義上的精準(zhǔn)營(yíng)銷在國(guó)內(nèi)的發(fā)展起步比較晚,中國(guó)企業(yè)對(duì)于數(shù)據(jù)庫(kù)營(yíng)銷的核心,包括“客戶識(shí)別”“客戶分析”“客戶互動(dòng)”“客戶體驗(yàn)”的數(shù)據(jù)庫(kù)營(yíng)銷專業(yè)領(lǐng)域,往往知之甚少,因此中國(guó)企業(yè)普遍較為缺少精準(zhǔn)營(yíng)銷的意識(shí),與這種現(xiàn)象在一定程度上也體現(xiàn)了精準(zhǔn)營(yíng)銷在中國(guó)發(fā)展的不成熟。2.2 數(shù)據(jù)挖掘國(guó)內(nèi)外現(xiàn)狀

      在保險(xiǎn)業(yè)中,美國(guó)進(jìn)行數(shù)據(jù)挖掘系統(tǒng)研究最為著名的公司是艾克國(guó)際科技有限公司(AkuP),其研發(fā)的數(shù)據(jù)挖掘系統(tǒng)能夠提供前后端分析的完整功能,且可以做到對(duì)保險(xiǎn)客戶進(jìn)行一對(duì)一行銷(One to One Mar-keting)??傮w上,其主要功能涵蓋了策略層、戰(zhàn)術(shù)層、執(zhí)行層,詳細(xì)包括保險(xiǎn)客戶的組成、成長(zhǎng)潛力、穩(wěn)定度,防患客戶流失、進(jìn)行客戶風(fēng)險(xiǎn)管理,幫助業(yè)務(wù)人員掌握客戶信息等。根據(jù)國(guó)外相關(guān)研究報(bào)告的數(shù)據(jù)顯示,數(shù)據(jù)挖掘在國(guó)際市場(chǎng)上的營(yíng)業(yè)份額已經(jīng)遠(yuǎn)遠(yuǎn)超過了數(shù)百億美元。在國(guó)外,保險(xiǎn)、零售、銀行等企業(yè)引入數(shù)據(jù)挖掘系統(tǒng)相關(guān)工具所占的比例最高,這些企業(yè)在成功引進(jìn)數(shù)據(jù)挖掘

      全日制工學(xué)(工程)碩士學(xué)位論文開題報(bào)告

      工具以后,銷售營(yíng)業(yè)額、市場(chǎng)份額等相比以前都有大幅提升。因此,基于數(shù)據(jù)挖掘的應(yīng)用系統(tǒng)與工具也相繼延伸到國(guó)外各行各業(yè)的相關(guān)領(lǐng)域,發(fā)揮著其作用。

      20世紀(jì)末,數(shù)據(jù)挖掘在進(jìn)入中國(guó)后,起先在證券業(yè)、銀行業(yè)得到廣泛的應(yīng)用與實(shí)踐,而保險(xiǎn)業(yè)是繼前二者之后,才逐漸引入數(shù)據(jù)挖掘進(jìn)行海量數(shù)據(jù)的分析與研究,隨后,采用信息化技術(shù)來提高各保險(xiǎn)公司的競(jìng)爭(zhēng)力也成為共識(shí)。國(guó)內(nèi)的多數(shù)企業(yè),為了追上這股浪潮,緊跟信息化革命的步伐,也投入了相當(dāng)大的人力、物力、財(cái)力等來引進(jìn)數(shù)據(jù)挖掘技術(shù)。特別是在我國(guó)的許多大型國(guó)有企業(yè)中,比如保險(xiǎn)、銀行、證券、電信等,這些企業(yè)都擁有海量的數(shù)據(jù)資源,且企業(yè)經(jīng)濟(jì)實(shí)力強(qiáng)大,行業(yè)規(guī)模擴(kuò)展快速等特點(diǎn),其在數(shù)據(jù)挖掘系統(tǒng)應(yīng)用方面已經(jīng)邁出了堅(jiān)實(shí)的一步.2.3數(shù)據(jù)挖掘在保險(xiǎn)精準(zhǔn)營(yíng)銷中的應(yīng)用

      保險(xiǎn)領(lǐng)域的數(shù)據(jù)挖掘就是從保險(xiǎn)行業(yè)所積累的大量數(shù)據(jù)信息中,通過知識(shí)發(fā)現(xiàn)技術(shù),發(fā)掘感興趣的模式或知識(shí),來滿足保險(xiǎn)行業(yè)和監(jiān)管部門的應(yīng)用要求。數(shù)據(jù)挖掘技術(shù)在保險(xiǎn)精準(zhǔn)營(yíng)銷系統(tǒng)中所發(fā)揮的重要作用己經(jīng)逐漸被認(rèn)同。數(shù)據(jù)挖掘一開始就是面向應(yīng)用而誕生的,所要涉及到的挖掘問題主要分為以下倆類:

      1.關(guān)聯(lián)問題。關(guān)聯(lián)規(guī)則研究主要有兩個(gè)方向:一是在研究的問題中,假定用戶購(gòu)買的所有產(chǎn)品是同時(shí)一次性購(gòu)買的,分析的重點(diǎn)就是所有用戶購(gòu)買的產(chǎn)品之間關(guān)聯(lián)性;二是序列問題,即假定一個(gè)用戶購(gòu)買的產(chǎn)品的時(shí)間是不同的,而且分析時(shí)需要突出時(shí)間先后上的關(guān)聯(lián),這是關(guān)聯(lián)問題的一種特殊情況。

      2.分類問題。分類問題屬于預(yù)測(cè)性的問題,但又區(qū)別于普通的預(yù)測(cè)問題,其預(yù)測(cè)的結(jié)果是類別而不是具體的數(shù)值。例如:對(duì)客戶進(jìn)行分層,基于一個(gè)客戶的相關(guān)信息,判斷出他屬于哪一層的客戶,未來一段時(shí)間是否會(huì)購(gòu)買某類保險(xiǎn)?將來是否會(huì)成為保險(xiǎn)公司的高價(jià)值客戶?

      圍繞保險(xiǎn)領(lǐng)域的不同需求,可將其歸納為:保險(xiǎn)產(chǎn)品的設(shè)計(jì)、營(yíng)銷方式創(chuàng)新。1.保險(xiǎn)產(chǎn)品設(shè)計(jì)。從保險(xiǎn)產(chǎn)品設(shè)計(jì)與開發(fā)的角度出發(fā),分析對(duì)于保險(xiǎn)條款、保險(xiǎn)費(fèi)率具有重大影響的產(chǎn)品結(jié)構(gòu)、技術(shù)結(jié)構(gòu)及所有者結(jié)構(gòu)等因素,滿足市場(chǎng)的實(shí)際需要。在研制開發(fā)保險(xiǎn)產(chǎn)品的過程中,需要充分注意適應(yīng)這些因素的變化,積極開發(fā)各種保險(xiǎn)產(chǎn)品;通過分析已購(gòu)買某種保險(xiǎn)的人是否同時(shí)購(gòu)買另一種保險(xiǎn),從而可以推進(jìn)保險(xiǎn)產(chǎn)品的創(chuàng)新,行交叉銷售和增量銷售,提高客戶滿意度。未來的保險(xiǎn)市場(chǎng)必將是保險(xiǎn)產(chǎn)品不斷得到創(chuàng)新的市場(chǎng)。

      2.營(yíng)銷方式創(chuàng)新。通過對(duì)客戶信息的挖掘來支持目標(biāo)市場(chǎng)的細(xì)分和目標(biāo)客戶群的

      全日制工學(xué)(工程)碩士學(xué)位論文開題報(bào)告

      定位,制定有針對(duì)性的營(yíng)銷措施,包括保險(xiǎn)公司的專職人員、代理人員等傳統(tǒng)渠道以及經(jīng)紀(jì)人、電話、計(jì)算機(jī)網(wǎng)絡(luò)和銀行等輔助渠道,提高客戶響應(yīng)統(tǒng)率,降低營(yíng)銷成本。

      3.主要研究?jī)?nèi)容

      3.1 技術(shù)方案

      保險(xiǎn)行業(yè)在海量數(shù)據(jù)信息的時(shí)代,傳統(tǒng)的營(yíng)銷模式缺乏針對(duì)性。當(dāng)客戶數(shù)量提高、相應(yīng)的信息量增多、所需保險(xiǎn)種類復(fù)雜化,如果只依靠傳統(tǒng)的營(yíng)銷模式來解決問題,那必定帶來很大的人力和財(cái)力的損傷,同時(shí)會(huì)降低工作效率。如此下去,隨著需求的不斷增加或變更,傳統(tǒng)的營(yíng)銷模式?jīng)]有從根本上解決海量信息帶來的挑戰(zhàn),甚至?xí)魇б徊糠值目蛻簟a槍?duì)精準(zhǔn)營(yíng)銷的主要研究?jī)?nèi)容如下: 3.1.1 ETL數(shù)據(jù)預(yù)處理

      我們要對(duì)保險(xiǎn)公司提供的原始數(shù)據(jù)進(jìn)行預(yù)處理后,在可以加載到我們的處理平臺(tái)上,這個(gè)過程,我們需要做到以下幾部:

      (1)數(shù)據(jù)清洗。數(shù)據(jù)清洗主要處理空缺值、噪聲數(shù)據(jù)。針對(duì)于空缺值的處理,我們可以采用回歸、貝葉斯形式化方法工具或判定樹歸納等確定空缺值。依靠現(xiàn)有的數(shù)據(jù)信息來推測(cè)空缺值,使空缺值有很大的機(jī)會(huì)保持與其他屬性之間的聯(lián)系。還可以用全部變量來替換空缺值、或是用平均值來填充。針對(duì)于噪聲數(shù)據(jù),我們可以采用分相或是回歸的辦法來處理。

      (2)數(shù)據(jù)集成。我們從保險(xiǎn)公司拿回來的數(shù)據(jù),不可能是統(tǒng)一的格式,針對(duì)于不同來源的數(shù)據(jù),我們要把它合成同一的模式。首先要做到模式集成,即把不同信息源中的實(shí)體匹配來進(jìn)行模式集成。在集成過程,會(huì)出現(xiàn)一個(gè)屬性多次出現(xiàn)或一個(gè)屬性命名不一致的問題,針對(duì)屬性冗余的問題,可以用相關(guān)分析監(jiān)測(cè),然后刪除冗余的屬性。

      (3)數(shù)據(jù)轉(zhuǎn)換。數(shù)據(jù)轉(zhuǎn)換的目的就是把數(shù)據(jù)轉(zhuǎn)換成有利于進(jìn)行數(shù)據(jù)挖掘的形式。針對(duì)于數(shù)據(jù)屬性,我們可以刪除一些無關(guān)的屬性、也可以把一些屬性進(jìn)行維歸約,甚至針對(duì)于一些關(guān)鍵性的屬性,我們可以細(xì)化它的屬性。

      3.1.2 并行數(shù)據(jù)庫(kù)運(yùn)算環(huán)境下,提出客戶精確分類和客戶與產(chǎn)品關(guān)聯(lián)分析組合算法

      本文的目的是尋找一種適合保險(xiǎn)營(yíng)銷的算法,來解決目前營(yíng)銷的困難,營(yíng)銷的最大的困難就是客戶以及針對(duì)于客戶的產(chǎn)品設(shè)計(jì)。針對(duì)于客戶的管理,我們要做到對(duì)客戶的分層,分類管理,把客戶按照現(xiàn)居住地,性別,家庭狀況,以及收入情況等屬性進(jìn)行細(xì)分。針對(duì)以購(gòu)買保險(xiǎn)的客戶,關(guān)聯(lián)出已購(gòu)買的保險(xiǎn)種類與細(xì)分的屬性之間的

      全日制工學(xué)(工程)碩士學(xué)位論文開題報(bào)告

      關(guān)系,將關(guān)聯(lián)出的關(guān)系應(yīng)用到潛在客戶,替潛在客戶找到適合自己的產(chǎn)品;根據(jù)客戶的生活狀態(tài)、家庭狀態(tài),找出適合客戶的隱藏產(chǎn)品,實(shí)現(xiàn)針對(duì)性、交叉性銷售。3.1.3對(duì)挖掘出的結(jié)果進(jìn)行驗(yàn)證

      數(shù)據(jù)挖掘的模型,是要經(jīng)過驗(yàn)證,一般的情況下,置信度在80%以上就可以投入應(yīng)用中。挖掘結(jié)果驗(yàn)證的方法有兩個(gè),一是對(duì)現(xiàn)有數(shù)據(jù)進(jìn)行抽樣觀察,用具體的結(jié)果支持我們的計(jì)算結(jié)果,這個(gè)是驗(yàn)證;另一個(gè)更重要和更有價(jià)值,需要保險(xiǎn)公司的業(yè)務(wù)部門根據(jù)我們計(jì)算的結(jié)果,對(duì)客戶進(jìn)行深入的精準(zhǔn)營(yíng)銷作業(yè),然后搜集指導(dǎo)作業(yè)的結(jié)果,分析精準(zhǔn)定向銷售的成功率的提升情況,用實(shí)際業(yè)績(jī)的數(shù)據(jù)來驗(yàn)證我們的研究成果。

      3.2 關(guān)鍵技術(shù)方法

      關(guān)鍵問題一:產(chǎn)品分類、客戶分層,客戶分類。特別是客戶分類是精準(zhǔn)營(yíng)銷的前提。當(dāng)前壽險(xiǎn)行業(yè)(我們目前能拿到主要就是壽險(xiǎn)企業(yè)數(shù)據(jù))的客戶的分類,一般是基于下面幾個(gè)分類模式的:地理變量、人口統(tǒng)計(jì)變量、心理變量、行為變量。由于是本地保險(xiǎn)企業(yè)某個(gè)范圍內(nèi)的數(shù)據(jù),地理變量的影響很小,人口統(tǒng)計(jì)變量對(duì)壽險(xiǎn)的影響特別大,是本課題的研究重點(diǎn)。中國(guó)人對(duì)保險(xiǎn)產(chǎn)品的認(rèn)知和偏好,明顯與西方不同,而保險(xiǎn)行業(yè)在中國(guó)的真正的發(fā)展時(shí)間還很短,很多與中國(guó)國(guó)情和文化有關(guān)聯(lián)的問題都沒有得到比較深入的研究。比如,提出兩個(gè)有關(guān)客戶分類的問題,一是“代溝”,二是“家庭關(guān)系”。代溝問題是大家常談的社會(huì)問題,中國(guó)最近30年發(fā)生劇烈的社會(huì)變革,年齡跨度幾年的人,其對(duì)社會(huì)的認(rèn)知模式和消費(fèi)習(xí)慣就可能有重大的區(qū)別,必然影響保險(xiǎn)產(chǎn)品的銷售趨向,那么如何在保險(xiǎn)客戶數(shù)據(jù)中,找到并比較準(zhǔn)確的“代溝分類閾值”?另一個(gè)“家庭關(guān)系”,建立穩(wěn)定家庭的客戶顯然是購(gòu)買人壽類保險(xiǎn)產(chǎn)品的主力,而購(gòu)買保險(xiǎn)產(chǎn)品的過程中,中國(guó)體現(xiàn)了很強(qiáng)的“家主決策權(quán)”,在客戶分類的過程中,家庭關(guān)系作為一個(gè)特殊的、多指向的、數(shù)據(jù)元內(nèi)部有交叉關(guān)系的變量組,必然會(huì)深刻影響客戶的分類方法,以及在后面依附于分類計(jì)算結(jié)果之上的關(guān)聯(lián)計(jì)算方法和計(jì)算結(jié)果。這是本課題研究的另一個(gè)重要問題。本課題對(duì)保險(xiǎn)用戶的分類方法雖然還屬于當(dāng)前流行的大類分析方法中的類型,但相比一般粗糙的分類方式,我們采用了更精細(xì)、更深入的分類方法,當(dāng)然對(duì)分類算法就需要進(jìn)行深入的定制、優(yōu)化研究。

      關(guān)鍵問題二:根據(jù)前面對(duì)客戶分類的設(shè)想,在分類中出現(xiàn)用關(guān)系表來描述的客戶種類屬性的情況下,客戶屬性要體現(xiàn)“家庭單位和成員關(guān)系的客戶分類屬性”,本身可能是一個(gè)多維表,那么當(dāng)下普遍采用的關(guān)聯(lián)關(guān)系的二維計(jì)算方法都是用來分析兩個(gè)一

      全日制工學(xué)(工程)碩士學(xué)位論文開題報(bào)告

      維數(shù)據(jù)屬性之間的關(guān)系,比如當(dāng)前主流的Apriori算法。當(dāng)前通用的算法如果不進(jìn)行改進(jìn)和局部的特殊設(shè)計(jì),顯然不能滿足對(duì)本課題對(duì)應(yīng)的保險(xiǎn)客戶數(shù)據(jù)屬性表與產(chǎn)品表之間進(jìn)行關(guān)聯(lián)分析的運(yùn)算要求。這就要求我們對(duì)關(guān)聯(lián)算法的具體定制和完善,進(jìn)行研究和創(chuàng)新。3.3技術(shù)、實(shí)驗(yàn)條件

      如果采用傳統(tǒng)的數(shù)據(jù)庫(kù)進(jìn)行海量數(shù)據(jù)的存儲(chǔ)、并在其基礎(chǔ)上進(jìn)行查詢分析操作時(shí),會(huì)出現(xiàn)檢索速度慢以及不易擴(kuò)展的問題,提出基于GP的分布式存儲(chǔ)模型(如圖所示)。

      Segment hostSegment hostSegment hostSegment hostETLSegment hostSegment hostLANSQL MapReduce外部數(shù)據(jù)源并行裝載或?qū)С鯩aster 節(jié)點(diǎn)Network Interconnect

      圖1.1 GP的系統(tǒng)結(jié)構(gòu)

      采用成熟的商用并行數(shù)據(jù)庫(kù)平臺(tái)Greenplum作為本項(xiàng)目的主要數(shù)據(jù)庫(kù)和分析挖掘運(yùn)算環(huán)境。該系統(tǒng)是基于postgreSQL發(fā)展的商業(yè)系統(tǒng),特點(diǎn)是采用一組分布式多節(jié)點(diǎn)服務(wù)器組成并行運(yùn)算結(jié)構(gòu),特別適合進(jìn)行頻繁的高密度表關(guān)聯(lián)計(jì)算。

      系統(tǒng)平臺(tái)的基本配置是一個(gè)核心管理服務(wù)器管理一組運(yùn)算節(jié)點(diǎn)單元服務(wù)器,運(yùn)算節(jié)點(diǎn)單元服務(wù)器可以根據(jù)數(shù)據(jù)量和運(yùn)算要求的增長(zhǎng)擴(kuò)容。目前實(shí)驗(yàn)室提供的環(huán)境可以存儲(chǔ)大約2億條數(shù)據(jù),由于運(yùn)算過程中需要產(chǎn)生大量的中間結(jié)果,因此推測(cè)可以對(duì)大約100萬條保險(xiǎn)客戶和業(yè)務(wù)數(shù)據(jù)進(jìn)行分析。3.4 預(yù)計(jì)目標(biāo)

      (1)適用于本地壽險(xiǎn)行業(yè)的精準(zhǔn)營(yíng)銷分析方法,能夠用一種以上方法對(duì)客戶進(jìn)行精確分類,并根據(jù)分類屬性確定保險(xiǎn)產(chǎn)品的關(guān)聯(lián)選擇度,以指導(dǎo)保險(xiǎn)行業(yè)提升客戶價(jià)值; 基于保險(xiǎn)數(shù)據(jù)的挖掘處理方法以及增量挖掘問題的處理方法

      (2)在核心期刊上發(fā)表1-2篇論文

      全日制工學(xué)(工程)碩士學(xué)位論文開題報(bào)告

      4研究方案及進(jìn)度安排,預(yù)期達(dá)到的目標(biāo)

      2014年 9月 1日——2014年10月30日:調(diào)研、準(zhǔn)備開題

      2014年11月1日——2014年11月30日:去保險(xiǎn)企業(yè)搜集數(shù)據(jù),分析其數(shù)據(jù)特點(diǎn),實(shí)驗(yàn)方案再論證

      2014年12月1日——2015年1月15日:建立模型與建立實(shí)驗(yàn)環(huán)境

      2015年2月10日——2015年5月30日:編碼、收集與分析實(shí)驗(yàn)數(shù)據(jù),完成一篇論文 2015年 6月1日——2015年 9月10日:進(jìn)一步的對(duì)精準(zhǔn)營(yíng)銷系統(tǒng)進(jìn)行優(yōu)化 2015年 9月11日——2015年11月30日:碩士論文編寫 2015年12月1日——2015年 12月31日:碩士論文答辯

      第三篇:關(guān)于數(shù)據(jù)挖掘在出口退稅中的應(yīng)用

      關(guān)于數(shù)據(jù)挖掘在出口退稅中的應(yīng)用引言

      出口貨物退(免)稅,簡(jiǎn)稱 出口退稅,其基本含義是一個(gè)國(guó)家或地區(qū)對(duì)已報(bào)送離境的出口貨物,由稅務(wù)機(jī)關(guān)將其在出口前的生產(chǎn)和流通的各環(huán)節(jié)已經(jīng)繳納的國(guó)內(nèi)產(chǎn)品稅、增值稅、營(yíng)業(yè)稅和特別消費(fèi)稅等間接稅稅款退還給出口企業(yè)的一項(xiàng)稅收制度。出口退稅 主要是通過退還出口貨物的國(guó)內(nèi)已納稅款來平衡國(guó)內(nèi)產(chǎn)品的稅收負(fù)擔(dān),使本國(guó)產(chǎn)品以不含稅成本進(jìn)入國(guó)際市場(chǎng),與國(guó)外產(chǎn)品在同等條件下進(jìn)行競(jìng)爭(zhēng),從而增強(qiáng)競(jìng)爭(zhēng)能力,擴(kuò)大出口創(chuàng)匯[1]。

      我國(guó)從1985年開始,全面地實(shí)行了 出口退稅 政策,并從1995年開始全面實(shí)行電子化管理,它是全國(guó)稅務(wù)系統(tǒng)第一個(gè)全面推廣應(yīng)用的稅收管理軟件,是金關(guān)工程和金稅工程的一個(gè)子系統(tǒng),在強(qiáng)化出口退稅管理,提高出口退稅工作效率,防范和打擊騙稅上發(fā)揮了巨大的作用[2]。但是,目前的出口退稅電子化管理只完成了出口退稅業(yè)務(wù)的電子化操作,還未在決策的電子化方面取得較大進(jìn)展。經(jīng)過十多年的發(fā)展,積累了大量涉稅信息,如何將這些“歷史的、靜態(tài)的”數(shù)據(jù)變成動(dòng)態(tài)的、具有分析決策性質(zhì)的信息已成為當(dāng)前急需研究的課題[3],數(shù)據(jù)挖掘技術(shù)的出現(xiàn)使這種應(yīng)用成為現(xiàn)實(shí)。出口退稅數(shù)據(jù)挖掘的目的和基本方法

      現(xiàn)行的出口退稅電子化管理主要是通過出口企業(yè)把申報(bào)退稅的信息通過出口退稅申報(bào)系統(tǒng)錄入計(jì)算機(jī)并生成申報(bào)數(shù)據(jù),然后再經(jīng)過出口退稅審核系統(tǒng)把企業(yè)申報(bào)的出口退稅憑證的電子信息與稅務(wù)機(jī)關(guān)接收到的其他部門(征稅機(jī)關(guān)、海關(guān) 和外管)傳來的憑證信息進(jìn)行比對(duì),以達(dá)到審核出口退稅憑證的合法性和真實(shí)性的目的,進(jìn)而根據(jù)比對(duì)審核通過的數(shù)據(jù)進(jìn)行退稅??梢钥闯觯壳暗某隹谕硕愲娮踊芾碇粋?cè)重了出口退稅的 單證 信息的計(jì)算機(jī)審核,而對(duì)于挖掘?qū)徍送ㄟ^的 單證 信息和各部門傳遞來的電子信息的價(jià)值方面存在著很大的不足。隨著金稅二期網(wǎng)絡(luò)建設(shè)的推動(dòng),各省現(xiàn)已基本實(shí)現(xiàn)了出口退稅數(shù)據(jù)的省級(jí)大集中[4],這些數(shù)據(jù)都是各出口退稅部門在日常的業(yè)務(wù)審核中積累下來的數(shù)據(jù),十分寶貴,如何充分發(fā)揮其應(yīng)有的作用,已成為人們研究的熱點(diǎn)。1

      數(shù)據(jù)挖掘的目的就是分析出口企業(yè)的出口退稅數(shù)據(jù),挖掘這些數(shù)據(jù)與經(jīng)濟(jì)的內(nèi)在聯(lián)系,全面掌握本地區(qū)出口退稅的產(chǎn)品結(jié)構(gòu)、出口的貿(mào)易方式、出口產(chǎn)品的地區(qū)差異等,對(duì)于調(diào)整一個(gè)地區(qū)的產(chǎn)業(yè)結(jié)構(gòu)、經(jīng)濟(jì)發(fā)展方向以及制定經(jīng)濟(jì)發(fā)展戰(zhàn)略有著重要的參考價(jià)值;對(duì)于稅務(wù)機(jī)關(guān)掌握出口企業(yè)的實(shí)際生產(chǎn)出口情況,培養(yǎng)稅源,打擊偷稅漏稅和防范出口騙稅等方面有著重要的意義。

      對(duì)于出口退稅部門在日常的業(yè)務(wù)審核中積累下來的數(shù)據(jù)進(jìn)行挖掘,主要是指在了解和掌握具體納稅人生產(chǎn)經(jīng)營(yíng)情況和財(cái)務(wù)數(shù)據(jù)的基礎(chǔ)上,對(duì)納稅人的稅收經(jīng)濟(jì)關(guān)系和稅收繳納狀況進(jìn)行客觀評(píng)價(jià)和說明的分析,主要是通過對(duì)歷史數(shù)據(jù)進(jìn)行縱橫比較分析和邏輯關(guān)系稽核來進(jìn)行挖掘,以指導(dǎo)稅收管理工作。

      1)橫向比較分析

      橫向比較分析是指同一指標(biāo)在不同個(gè)體、單位、地區(qū)之間的比較分析。橫向比較分析最典型的分析例子就是同業(yè)稅負(fù)分析。受市場(chǎng)均衡作用的影響,同一產(chǎn)品在生產(chǎn)技術(shù)工藝、原材料能源消耗方面有相近之處,適用稅收政策有統(tǒng)一的要求,因此反映生產(chǎn)成本費(fèi)用方面的指標(biāo)有相同的規(guī)律特征。總結(jié)這種規(guī)律特征,以此檢驗(yàn)個(gè)體數(shù)據(jù)指標(biāo)的表現(xiàn),找出差異較大的個(gè)體予以預(yù)警。

      2)縱向比較分析

      縱向比較分析或歷史數(shù)據(jù)分析是指同一個(gè)體的同一指標(biāo)在不同歷史時(shí)期的數(shù)據(jù)比較分析。常用的分析方法有趨勢(shì)分析和變動(dòng)率分析。分析的理論依據(jù)是大多情況下企業(yè)的生產(chǎn)經(jīng)營(yíng)是處于一種相對(duì)平穩(wěn)的狀態(tài),不會(huì)出現(xiàn)突然的波動(dòng)或大起大落現(xiàn)象。因此,如果企業(yè)生產(chǎn)能力沒有作大的調(diào)整,一般情況下企業(yè)各個(gè)時(shí)期的數(shù)據(jù)指標(biāo)彼此接近,不會(huì)出現(xiàn)大的差異。如果出現(xiàn)較大差異,應(yīng)引起主管部門的注意,及時(shí)進(jìn)行相關(guān)的納稅評(píng)估。

      3)數(shù)據(jù)邏輯關(guān)系稽核

      受會(huì)計(jì)核算原理的約束和稅收制度規(guī)定的制約,反映納稅人生產(chǎn)經(jīng)營(yíng)情況和財(cái)務(wù)狀況的眾多數(shù)據(jù)指標(biāo)之間存在非常嚴(yán)謹(jǐn)?shù)?、相互依存的邏輯關(guān)系。這種邏輯關(guān)系決定了企業(yè)的納稅申報(bào)數(shù)據(jù)必須滿足企業(yè)財(cái)務(wù)數(shù)據(jù)相關(guān)性的特定要求,檢查這些數(shù)據(jù)邏輯關(guān)系是否吻合,可以鑒別企業(yè)申報(bào)數(shù)據(jù)的真實(shí)性和合理性,從而發(fā)現(xiàn)稅收問題,堵塞征管漏洞。出口退稅數(shù)據(jù)挖掘的功能

      數(shù)據(jù)挖掘通過預(yù)測(cè)未來趨勢(shì)及行為,做出前攝的、基于知識(shí)的決策。數(shù)據(jù)挖掘的目標(biāo)是從數(shù)據(jù)庫(kù)中發(fā)現(xiàn)隱含的、有意義的知識(shí),主要有以下五類功能:

      1)趨勢(shì)預(yù)測(cè)

      數(shù)據(jù)挖掘自動(dòng)在大型數(shù)據(jù)庫(kù)中尋找預(yù)測(cè)性信息,以往需要進(jìn)行大量手工分析的問題如今可以迅速直接由數(shù)據(jù)本身得出結(jié)論。出口退稅數(shù)據(jù)挖掘的預(yù)測(cè)趨勢(shì)是對(duì)納稅人特定稅收指標(biāo)、經(jīng)濟(jì)指標(biāo)或稅收經(jīng)濟(jì)關(guān)系指標(biāo)一段時(shí)期走勢(shì)和趨向的分析和推斷,了解和掌握稅收經(jīng)濟(jì)的發(fā)展趨勢(shì),有利于判斷未來出口退稅形勢(shì)的好壞,使出口退稅做到心中有數(shù)。

      趨勢(shì)預(yù)測(cè)的兩個(gè)基本要求是說明特定指標(biāo)的發(fā)展方向和變化幅度,基礎(chǔ)分析技術(shù)是時(shí)間序列分析技術(shù),常用說明指標(biāo)有變動(dòng)率和平均變化速度等。

      2)關(guān)聯(lián)分析

      數(shù)據(jù)關(guān)聯(lián)是數(shù)據(jù)庫(kù)中存在的一類重要的可被發(fā)現(xiàn)的知識(shí)。若兩個(gè)或多個(gè)變量的取值之間存在某種規(guī)律性,就稱為關(guān)聯(lián)。關(guān)聯(lián)可分為簡(jiǎn)單關(guān)聯(lián)、時(shí)序關(guān)聯(lián)、因果關(guān)聯(lián)。關(guān)聯(lián)分析的目的是找出數(shù)據(jù)庫(kù)中隱藏的關(guān)聯(lián)網(wǎng)。有時(shí)并不知道數(shù)據(jù)庫(kù)中數(shù)據(jù)的關(guān)聯(lián)函數(shù),即使知道也是不確定的,因此關(guān)聯(lián)分析生成的規(guī)則帶有可信度。

      在出口退稅評(píng)估工作中,可以利用企業(yè)財(cái)務(wù)報(bào)表、納稅申報(bào)表和出口退稅匯總表等各項(xiàng)數(shù)據(jù)指標(biāo)之間的相互邏輯關(guān)系進(jìn)行核算檢查,對(duì)于不滿足應(yīng)有邏輯計(jì)算關(guān)系的內(nèi)容,即認(rèn)為破壞了會(huì)計(jì)核算或稅款計(jì)征關(guān)系,均應(yīng)視為異常做進(jìn)一步的深入分析。由于企業(yè)財(cái)務(wù)指標(biāo)和出口退稅申報(bào)數(shù)據(jù)有上百條之多,所以與此相關(guān)的邏輯計(jì)算關(guān)系也會(huì)在此基礎(chǔ)上更為豐富和復(fù)雜,只有通過關(guān)聯(lián)分析,才有可能在出口退稅申報(bào)環(huán)節(jié)實(shí)現(xiàn)實(shí)時(shí)的出口退稅評(píng)估工作。

      3)聚類分析

      聚類分析是數(shù)理統(tǒng)計(jì)的一個(gè)分支,是運(yùn)用事物本身所具有的某種數(shù)據(jù)特征,遵循“物以類聚”規(guī)律進(jìn)行數(shù)據(jù)處理,為事物的分類管理提供數(shù)據(jù)支持的一種分析方法。借用這種方法開展稅收分析,可將具有某種稅收共同特征的事物聚集在一起,使我們更清楚地認(rèn)識(shí)稅收征管工作的分類特征。

      聚類分析的基本原理是根據(jù)數(shù)據(jù)指標(biāo)差異的絕對(duì)距離進(jìn)行分類,結(jié)合矩陣分析技術(shù),可以進(jìn)行多指標(biāo)的綜合特征分析,為復(fù)雜事物的分類提供了一種可行的分析方法。聚類分析的關(guān)鍵是找到一組關(guān)系密切的相關(guān)指標(biāo),如退稅增長(zhǎng)、稅源增長(zhǎng)、退稅變化彈性和出口影響等,均可以利用這一分析技術(shù)進(jìn)行綜合分析和技術(shù)處理。

      4)差異分析

      數(shù)據(jù)庫(kù)中的數(shù)據(jù)常有一些異常記錄,從數(shù)據(jù)庫(kù)中檢測(cè)這些差異很有意義。差異包括很多潛在的知識(shí),如分類中的反常實(shí)例、不滿足規(guī)則的特例、觀測(cè)結(jié)果與模型預(yù)測(cè)值的偏差、量值隨時(shí)間的變化等。

      差異分析的基本方法是測(cè)算不同樣本同一指標(biāo)的差異程度。差異分析的關(guān)鍵是建立評(píng)價(jià)差異的標(biāo)準(zhǔn),有了標(biāo)準(zhǔn)才能說明差異的影響程度。表示差異程度可以用絕對(duì)值,也可以建立參照系用相對(duì)值。應(yīng)用差異分析開展微觀稅收分析的典型分析案例就是同業(yè)稅負(fù)分析模型。應(yīng)用同業(yè)稅負(fù)分析模型可以測(cè)算出各項(xiàng)相關(guān)指標(biāo)的客觀水平和樣本離散狀況,以此為標(biāo)準(zhǔn)比對(duì)個(gè)別檢驗(yàn)樣本的具體數(shù)值,超出差異允許界限的即為預(yù)警對(duì)象。

      5)波動(dòng)分析

      波動(dòng)分析是描述稅收事物運(yùn)行變化平穩(wěn)性的分析。稅收事物的運(yùn)行受經(jīng)濟(jì)變化影響、稅收制度規(guī)定的約束和現(xiàn)有征管環(huán)境制約有其自身客觀的規(guī)律。在經(jīng)濟(jì)

      運(yùn)行相對(duì)平穩(wěn)、稅制不變的條件下,稅收事物運(yùn)行平穩(wěn)與否,直接反映稅收征管情況的影響作用。因此,開展波動(dòng)分析,一定程度上可以了解和說明退稅管理的表現(xiàn),反映退稅管理是否能按稅源的發(fā)展變化規(guī)律同步開展,監(jiān)督退稅管理的執(zhí)行情況。出口退稅數(shù)據(jù)挖掘的實(shí)現(xiàn)

      出口退稅數(shù)據(jù)挖掘應(yīng)用系統(tǒng)由三部分組成:第一部分是由用戶數(shù)據(jù)源到中央數(shù)據(jù)庫(kù)的ETL過程;第二部分是根據(jù)出口退稅業(yè)務(wù)模型建立業(yè)務(wù)智能分析模型;第三部分是面向稅收管理人員進(jìn)行數(shù)據(jù)的發(fā)布和多維分析工作。基本結(jié)構(gòu)如圖1所示。

      數(shù)據(jù)的ETL(Extract-Transform-Load,數(shù)據(jù)抽取、轉(zhuǎn)換、裝載)過程采用微軟的SSIS(SQL Server Integration Services)來完成數(shù)據(jù)預(yù)處理階段對(duì)于原始數(shù)據(jù)的轉(zhuǎn)換、清洗加載過程;中央數(shù)據(jù)庫(kù)采用微軟的SQL Server 2005,SQL Server 2005除了提供一個(gè)安全、可靠和高效的數(shù)據(jù)管理平臺(tái)之外,它還是一個(gè)企業(yè)級(jí)數(shù)據(jù)整合平臺(tái),通過SSIS提供了構(gòu)建企業(yè)級(jí)ETL應(yīng)用程序所需的功能和性能,是一個(gè)集成的商業(yè)智能平臺(tái),通過Analysis Services提供了統(tǒng)一和集成的商業(yè)數(shù)據(jù)視圖,可被用做所有傳統(tǒng)報(bào)表、OLAP分析、關(guān)鍵績(jī)效指標(biāo)(KPI)記分卡和數(shù)據(jù)挖掘的基礎(chǔ)。

      SQL Server 2005分析服務(wù)提供了數(shù)據(jù)挖掘服務(wù),支持集成其它個(gè)人或者企業(yè)的DM算法,并且將DM算法集成的復(fù)雜度不斷降低,它主要是基于OLE DB for DM規(guī)范,使用靈活。開發(fā)人員能夠利用數(shù)據(jù)挖掘功能開發(fā)應(yīng)用程序,其數(shù)據(jù)挖掘語(yǔ)言非常類似于SQL,數(shù)據(jù)挖掘供應(yīng)者是一個(gè)開放系統(tǒng),因?yàn)樗荗LE DB的一個(gè)部件,數(shù)據(jù)挖掘服務(wù)能夠通過DSO(Decision Support Object)、或ADO可包含在任何用戶應(yīng)用程序中。將DM算法無縫集成到SQL Server的分析服務(wù)中,利用集成的DM算法來構(gòu)建數(shù)據(jù)挖掘解決方案是一種理想的方式。

      在SQL Server 2005數(shù)據(jù)挖掘平臺(tái)中,創(chuàng)建關(guān)系型挖掘模型的語(yǔ)法如下:

      Create mining model()using

      它類似于建立一個(gè)關(guān)系表,其中包括輸入、預(yù)測(cè)屬性,每一個(gè)模型與一個(gè)數(shù)據(jù)挖掘算法相關(guān)聯(lián)。

      多維數(shù)據(jù)分析工具和報(bào)表工具使用統(tǒng)一空間模型UDM(Unified Dimensional Model),利用UDM中對(duì)業(yè)務(wù)實(shí)體的友好描述、等級(jí)導(dǎo)航、多視角、自動(dòng)平滑 翻譯 為本機(jī)語(yǔ)言等功能,可以實(shí)現(xiàn)出口退稅數(shù)據(jù)挖掘過程中所得到的結(jié)果集的友好展示。結(jié)束語(yǔ)

      隨著數(shù)據(jù)倉(cāng)庫(kù)技術(shù)的發(fā)展,數(shù)據(jù)挖掘會(huì)越來越發(fā)揮其獨(dú)到的分析優(yōu)勢(shì),特別是將挖掘出的新知識(shí)通過用基于OLAP的決策支持系統(tǒng)加以驗(yàn)證、結(jié)合,可以更好地為決策者服務(wù)。出口退稅管理的電子化系統(tǒng)已經(jīng)積累了大量的業(yè)務(wù)數(shù)據(jù),可以為數(shù)據(jù)挖掘提供大量數(shù)據(jù),數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)挖掘技術(shù)在收稅管理具有廣闊的應(yīng)用前景。

      第四篇:數(shù)據(jù)挖掘技術(shù)在客戶關(guān)系管理中如何應(yīng)用畢業(yè)論文.

      數(shù)據(jù)挖掘技術(shù)在客戶關(guān)系管理中如何應(yīng)用

      根據(jù)波特的影響企業(yè)的利益相關(guān)者理論,企業(yè)有五個(gè)利益相關(guān)者,分別是客戶、競(jìng)爭(zhēng)對(duì)手、供應(yīng)商、分銷商和政府等其他利益相關(guān)者。其中,最重要的利益相關(guān)者就是客戶?,F(xiàn)代企業(yè)的競(jìng)爭(zhēng)優(yōu)勢(shì)不僅體現(xiàn)在產(chǎn)品上,還體現(xiàn)在市場(chǎng)上,誰(shuí)能獲得更大的市場(chǎng)份額,誰(shuí)就能在競(jìng)爭(zhēng)中占據(jù)優(yōu)勢(shì)和主動(dòng)。而對(duì)市場(chǎng)份額的爭(zhēng)奪實(shí)質(zhì)上是對(duì)客戶的爭(zhēng)奪,因此,企業(yè)必須完成從“產(chǎn)品”導(dǎo)向向“客戶”導(dǎo)向的轉(zhuǎn)變,對(duì)企業(yè)與客戶發(fā)生的各種關(guān)系進(jìn)行管理。進(jìn)行有效的客戶關(guān)系管理,就要通過有效的途徑,從儲(chǔ)存大量客戶信息的數(shù)據(jù)倉(cāng)庫(kù)中經(jīng)過深層分析,獲得有利于商業(yè)運(yùn)作,提高企業(yè)市場(chǎng)競(jìng)爭(zhēng)力的有效信息。而實(shí)現(xiàn)這些有效性的關(guān)鍵技術(shù)支持就是數(shù)據(jù)挖掘,即從海量數(shù)據(jù)中挖掘出更有價(jià)值的潛在信息。正是有了數(shù)據(jù)挖掘技術(shù)的支持,才使得客戶關(guān)系管理的理念和目標(biāo)得以實(shí)現(xiàn),滿足現(xiàn)代電子商務(wù)時(shí)代的需求和挑戰(zhàn)。

      一、客戶關(guān)系管理(CRM CRM是一種旨在改善企業(yè)與客戶之間關(guān)系的新型管理方法。它是企業(yè)通過富有意義的交流和溝通,理解并影響客戶行為,最終實(shí)現(xiàn)提高客戶獲取、客戶保留、客戶忠誠(chéng)和客戶創(chuàng)利的目的。它包括的主要內(nèi)容有客戶識(shí)別、客戶關(guān)系的建立、客戶保持、客戶流失控制和客戶挽留。通過客戶關(guān)系管理能夠提高企業(yè)銷售收入,改善企業(yè)的服務(wù),提高客戶滿意度,同時(shí)能提高員工的生產(chǎn)能力。

      二、數(shù)據(jù)挖掘(DM 數(shù)據(jù)挖掘(Data Mining,簡(jiǎn)稱DM,簡(jiǎn)單的講就是從大量數(shù)據(jù)中挖掘或抽取出知識(shí)。數(shù)據(jù)挖掘概念的定義描述有若干版本。一個(gè)通用的定義是從大量的、不

      完全的、有噪聲的、模糊的、隨機(jī)的實(shí)際應(yīng)用數(shù)據(jù)中提取人們感興趣的知識(shí),這些知識(shí)是隱諱的、事先未知的、潛在有用的信息。

      常用的數(shù)據(jù)挖掘方法有:(1關(guān)聯(lián)分析。即從給定的數(shù)據(jù)集中發(fā)現(xiàn)頻繁出現(xiàn)的項(xiàng)集模式知識(shí)。例如,某商場(chǎng)通過關(guān)聯(lián)分析,可以找出若干個(gè)客戶在本商場(chǎng)購(gòu)買商品時(shí),哪些商品被購(gòu)置率較高,進(jìn)而可以發(fā)現(xiàn)數(shù)據(jù)庫(kù)中不同商品的聯(lián)系,進(jìn)而反映客戶的購(gòu)

      買習(xí)慣。(2序列模式分析。它與關(guān)聯(lián)分析相似,其目的也是為了控制挖掘出的數(shù)據(jù)間的聯(lián)系。但序列模式分析的側(cè)重點(diǎn)在于分析數(shù)據(jù)間的前后(因果關(guān)系。例如,可以通過分析客戶在購(gòu)買A商品后,必定(或大部分情況下隨著購(gòu)買B商品,來發(fā)現(xiàn)客戶潛在的購(gòu)買模式。(3分類分析。是找出一組能夠描述數(shù)據(jù)集合典型特征的模型,以便能夠分類識(shí)別未知數(shù)據(jù)的歸屬或類別。例如,銀行可以根據(jù)客戶的債務(wù)水平、收入水平和工作情況,可對(duì)給定用戶進(jìn)行信用風(fēng)險(xiǎn)分析。(4聚類分析。是從給定的數(shù)據(jù)集中搜索數(shù)據(jù)對(duì)象之間所存在的有價(jià)值聯(lián)系。在商業(yè)上,聚類可以通過顧客數(shù)據(jù)將顧客信息分組,并對(duì)顧客的購(gòu)買模式進(jìn)行描述,找出他們的特征,制定針對(duì)性的營(yíng)銷方案。(5孤立點(diǎn)分析。孤立點(diǎn)是數(shù)據(jù)庫(kù)中與數(shù)據(jù)的一般模式不一致的數(shù)據(jù)對(duì)象,它可能是收集數(shù)據(jù)的設(shè)備出現(xiàn)故障、人為輸入時(shí)的輸入錯(cuò)誤等。孤立點(diǎn)分析就是專門挖掘這些特殊信息的方法。例如,銀行可以利用孤立點(diǎn)分析發(fā)現(xiàn)信用卡詐騙,電信部門可以利用孤立點(diǎn)分析發(fā)現(xiàn)電話盜用等。

      三、數(shù)據(jù)挖掘在客戶關(guān)系管理中的應(yīng)用 1.進(jìn)行客戶分類

      客戶分類是將大量的客戶分成不同的類別,在每一類別里的客戶具有相似的屬性,而不同類別里的客戶的屬性不同。數(shù)據(jù)挖掘可以幫助企業(yè)進(jìn)行客戶分類, 針對(duì)不同類別的客戶,提供個(gè)性化的服務(wù)來提高客戶的滿意度,提高現(xiàn)有客戶的價(jià)值。細(xì)致而可行的客戶分類對(duì)企業(yè)的經(jīng)營(yíng)策略有很大益處。例如,保險(xiǎn)公司在長(zhǎng)期的保險(xiǎn)服務(wù)中,積累了很多的數(shù)據(jù)信息,包括對(duì)客戶的服務(wù)歷史、對(duì)客戶的銷售歷史和收入,以及客戶的人口統(tǒng)計(jì)學(xué)資料和生活方式等。保險(xiǎn)公司必須將這些眾多的信息資源綜合起來,以便在數(shù)據(jù)庫(kù)里建立起一個(gè)完整的客戶背景。在客戶背景信息中,大批客戶可能在保險(xiǎn)種類、保險(xiǎn)年份和保險(xiǎn)金額上具有極高的相似性,因而形成了具有共性的客戶群體。經(jīng)過數(shù)據(jù)挖掘的聚類分析,可以發(fā)現(xiàn)他們的共性,掌握他們的保險(xiǎn)理念,提供有針對(duì)性的服務(wù),提高保險(xiǎn)公司的綜合服務(wù)水平,并可以降低業(yè)務(wù)服務(wù)成本,取得更高的收益。

      2.進(jìn)行客戶識(shí)別和保留

      (1在CRM中,首先應(yīng)識(shí)別潛在客戶,然后將他們轉(zhuǎn)化為客戶

      這時(shí)可以采用DM中的分類方法。首先是通過對(duì)數(shù)據(jù)庫(kù)中各數(shù)據(jù)進(jìn)行分析,從而建立一個(gè)描述已知數(shù)據(jù)集類別或概念的模型,然后對(duì)每一個(gè)測(cè)試樣本,用其已知的類別與學(xué)習(xí)所獲模型的預(yù)測(cè)類別做比較,如果一個(gè)學(xué)習(xí)所獲模型的準(zhǔn)確率經(jīng)測(cè)試被認(rèn)可,就可以用這個(gè)模型對(duì)未來對(duì)象進(jìn)行分類。例如,圖書發(fā)行公司利用顧客郵件地址數(shù)據(jù)庫(kù),給潛在顧客發(fā)送用于促銷的新書宣傳冊(cè)。該數(shù)據(jù)庫(kù)內(nèi)容有客戶情況的描述,包括年齡、收入、職業(yè)、閱讀偏好、訂購(gòu)習(xí)慣、購(gòu)書資金、計(jì)劃等屬性的描述,顧客被分類為“是”或“否”會(huì)成為購(gòu)買書籍的顧客。當(dāng)新顧客的信息被輸入到數(shù)據(jù)庫(kù)中時(shí),就對(duì)該新顧客的購(gòu)買傾向進(jìn)行分類,以決定是否給該顧客發(fā)送相應(yīng)書籍的宣傳手冊(cè)。

      (2在客戶保留中的應(yīng)用

      客戶識(shí)別是獲取新客戶的過程,而客戶保留則是留住老顧客、防止客戶流失 的過程。對(duì)企業(yè)來說,獲取一個(gè)新顧客的成本要比保留一個(gè)老顧客的成本高。在保留客戶的過程中,非常重要的一個(gè)工作就是要找出顧客流失的原因。例如,某??茖W(xué)校的招生人數(shù)在逐漸減少,那么就要找出減少的原因,經(jīng)過廣泛的搜集信息,發(fā)現(xiàn)原因在于本學(xué)校對(duì)技能培訓(xùn)不夠重視,學(xué)生只能學(xué)到書本知識(shí),沒有實(shí)際的技能,在就業(yè)市場(chǎng)上找工作很難。針對(duì)這種情況,學(xué)校應(yīng)果斷的抽取資金,購(gòu)買先進(jìn)的、有針對(duì)性的實(shí)驗(yàn)實(shí)訓(xùn)設(shè)備,同時(shí)修改教學(xué)計(jì)劃,加大實(shí)驗(yàn)實(shí)訓(xùn)課時(shí)和考核力度,培訓(xùn)相關(guān)專業(yè)的教師。

      (3對(duì)客戶忠誠(chéng)度進(jìn)行分析

      客戶的忠誠(chéng)意味著客戶不斷地購(gòu)買公司的產(chǎn)品或服務(wù)。數(shù)據(jù)挖掘在客戶忠誠(chéng)度分析中主要是對(duì)客戶持久性、牢固性和穩(wěn)定性進(jìn)行分析。比如大型超市通過會(huì)員的消費(fèi)信息,如最近一次消費(fèi)、消費(fèi)頻率、消費(fèi)金額三個(gè)指標(biāo)對(duì)數(shù)據(jù)進(jìn)行分析,可以預(yù)測(cè)出顧客忠誠(chéng)度的變化,據(jù)此對(duì)價(jià)格、商品的種類以及銷售策略加以調(diào)整和更新,以便留住老顧客,吸引新顧客

      (4對(duì)客戶盈利能力分析和預(yù)測(cè)

      對(duì)于一個(gè)企業(yè)而言,如果不知道客戶的價(jià)值,就很難做出合適的市場(chǎng)策略。不同的客戶對(duì)于企業(yè)而言,其價(jià)值是不同的。研究表明,一個(gè)企業(yè)的80%的利潤(rùn)是由只占客戶總數(shù)的20%的客戶創(chuàng)造的,這部分客戶就是有價(jià)值的優(yōu)質(zhì)客戶。為了弄清誰(shuí)才是有價(jià)值的客戶,就需要按照客戶的創(chuàng)利能力來劃分客戶,進(jìn)而改進(jìn)客戶關(guān)系管理。數(shù)據(jù)挖掘技術(shù)可以用來分析和預(yù)測(cè)不同市場(chǎng)活動(dòng)情況下客戶盈利能力的變化,幫助企業(yè)制定合適的市場(chǎng)策略。商業(yè)銀行一般會(huì)利用數(shù)據(jù)挖掘技術(shù)對(duì)客戶的資料進(jìn)行分析,找出對(duì)提高企業(yè)盈利能力最重要的客戶,進(jìn)而進(jìn)行針對(duì)性的服務(wù)和營(yíng)銷。

      (5交叉銷售和增量銷售

      交叉銷售是促使客戶購(gòu)買尚未使用的產(chǎn)品和服務(wù)的營(yíng)銷手段,目的是可以拓寬企業(yè)和客戶間的關(guān)系。增量銷售是促使客戶將現(xiàn)有產(chǎn)品和服務(wù)升級(jí)的銷售活動(dòng),目的在于增強(qiáng)企業(yè)和客戶的關(guān)系。這兩種銷售都是建立在雙贏的基礎(chǔ)上的,客戶因得到更多更好符合其需求的服務(wù)而獲益,公司也因銷售增長(zhǎng)而獲益。數(shù)據(jù)挖掘可以采用關(guān)聯(lián)性模型或預(yù)測(cè)性模型來預(yù)測(cè)什么時(shí)間會(huì)發(fā)生什么事件,判斷哪些客戶對(duì)交叉銷售和增量銷售很有意向,以達(dá)到交叉銷售和增量銷售的目的。例如,保險(xiǎn)公司的交叉營(yíng)銷策略:保險(xiǎn)公司對(duì)已經(jīng)購(gòu)買某險(xiǎn)種的客戶推薦其它保險(xiǎn)產(chǎn)品和服務(wù)。這種策略成功的關(guān)鍵是要確保推銷的保險(xiǎn)險(xiǎn)種是用戶所感興趣的,否則會(huì)造成用戶的反感。

      四、客戶關(guān)系管理應(yīng)用數(shù)據(jù)挖掘的步驟 1.需求分析

      只有確定需求,才有分析和預(yù)測(cè)的目標(biāo),然后才能提取數(shù)據(jù)、選擇方法,因此,需求分析是數(shù)據(jù)挖掘的基礎(chǔ)條件。數(shù)據(jù)挖掘的實(shí)施過程也是圍繞著這個(gè)目標(biāo)進(jìn)行的。在確定用戶的需求后,應(yīng)該明確所要解決的問題屬于哪種應(yīng)用類型,是屬于關(guān)聯(lián)分析、分類、聚類及預(yù)測(cè),還是其他應(yīng)用。應(yīng)對(duì)現(xiàn)有資源如已有的歷史數(shù)據(jù)進(jìn)行評(píng)估,確定

      是否能夠通過數(shù)據(jù)挖掘技術(shù)來解決用戶的需求,然后將進(jìn)一步確定數(shù)據(jù)挖掘的目標(biāo)和制定數(shù)據(jù)挖掘的計(jì)劃。2.建立數(shù)據(jù)庫(kù)

      這是數(shù)據(jù)挖掘中非常重要也非常復(fù)雜的一步。首先,要進(jìn)行數(shù)據(jù)收集和集成,其次,要對(duì)數(shù)據(jù)進(jìn)行描述和整合。數(shù)據(jù)主要有四個(gè)方面的來源:客戶信息、客戶行為、生產(chǎn)系統(tǒng)和其他相關(guān)數(shù)據(jù)。這些數(shù)據(jù)通過抽取、轉(zhuǎn)換和裝載,形成數(shù)據(jù)倉(cāng)

      庫(kù),并通過 OLAP 和報(bào)表,將客戶的整體行為結(jié)果分析等數(shù)據(jù)傳遞給數(shù)據(jù)庫(kù)用戶。3.選擇合適的數(shù)據(jù)挖掘工具 如果從上一步的分析中發(fā)現(xiàn),所要解決的問題能用數(shù)據(jù)挖掘比較好地完成,那么需要做的第三步就是選擇合適的數(shù)據(jù)挖掘技術(shù)與方法。將所要解決的問題轉(zhuǎn) 化成一系列數(shù)據(jù)挖掘的任務(wù)。數(shù)據(jù)挖掘主要有五種任務(wù):分類,估值預(yù)測(cè),關(guān)聯(lián) 規(guī)則,聚集,描述。前三種屬于直接的數(shù)據(jù)挖掘。在直接數(shù)據(jù)挖掘中,目標(biāo)是應(yīng) 用可得到的數(shù)據(jù)建立模型,用其它可得到的數(shù)據(jù)來描述感興趣的變量。后兩種屬 于間接數(shù)據(jù)挖掘。在間接數(shù)據(jù)挖掘中,沒有單一的目標(biāo)變量,目標(biāo)是在所有變量 中發(fā)現(xiàn)某些聯(lián)系。4.建立模型 建立模型是選擇合適的方法和算法對(duì)數(shù)據(jù)進(jìn)行分析,得到一個(gè)數(shù)據(jù)挖掘模型 的過程。一個(gè)好的模型沒必要與已有數(shù)據(jù)完全相符,但模型對(duì)未來的數(shù)據(jù)應(yīng)有較 好的預(yù)測(cè)。需要仔細(xì)考察不同的模型以判斷哪個(gè)模型對(duì)所需解決的問題最有用。如決策樹模型、聚類模型都是分類模型,它們將一個(gè)事件或?qū)ο髿w類。回歸是通 過具有已知值的變量來預(yù)測(cè)其它變量的值。時(shí)間序列是用變量過去的值來預(yù)測(cè)未 來的值。這一步是數(shù)據(jù)挖掘的核心環(huán)節(jié)。建立模型是一個(gè)反復(fù)進(jìn)行的過程,它需 要不斷地改進(jìn)或更換算法以尋找對(duì)目標(biāo)分析作用最明顯的模型,最后得到一個(gè)最 合理、最適用的模型。5.模型評(píng)估 為了驗(yàn)證模型的有效性、可信性和可用性,從而選擇最優(yōu)的模型,需要對(duì)模 型進(jìn)行評(píng)估。我們可以將數(shù)據(jù)中的一部分用于模型評(píng)估,來測(cè)試模型的準(zhǔn)確性,模型是否容易被理解模型的運(yùn)行速度、輸入結(jié)果的速度、實(shí)現(xiàn)代價(jià)、復(fù)雜度等。模型的建立和檢驗(yàn)是一個(gè)反復(fù)的過程,通過這個(gè)階段階段的工作,能使數(shù)據(jù)以用 戶能理解的方式出現(xiàn),直至找到最優(yōu)或較優(yōu)的模型。6.部署和應(yīng)用 將數(shù)據(jù)挖掘的知識(shí)歸檔和報(bào)告給需要的群體,根據(jù)數(shù)據(jù)挖掘發(fā)現(xiàn)的知識(shí)采取 必要的行動(dòng),以及消除與先前知識(shí)可能存在的沖突,并將挖掘的知識(shí)應(yīng)用于應(yīng)用 系統(tǒng)。在模型的應(yīng)用過程中,也需要不斷地對(duì)模型進(jìn)行評(píng)估和檢驗(yàn),并做出適當(dāng) 的調(diào)整,以使模型適應(yīng)不斷變化的環(huán)境。參考文獻(xiàn): [1]羅納德.S.史威福特.客戶關(guān)系管理[M].楊東龍譯.北京:中國(guó)經(jīng)濟(jì) 出版社,2002 [2]馬剛:客戶關(guān)系管理[M]大連:東北財(cái)經(jīng)大學(xué)出版社,2008

      第五篇:數(shù)據(jù)挖掘技術(shù)在圖書采購(gòu)中的應(yīng)用初探.專題

      數(shù)據(jù)挖掘技術(shù)在圖書采購(gòu)中的應(yīng)用初探 湖南理工學(xué)院圖書館 張 暉

      [摘 要]數(shù)據(jù)挖掘是一種新的信息技術(shù),在許多行業(yè)有著廣泛的應(yīng)用。高校圖書館同樣可以成為其應(yīng)用的一個(gè)領(lǐng)域。在圖書采購(gòu)中,可以應(yīng)用數(shù)據(jù)挖掘技術(shù)來提高采購(gòu)的效率和針對(duì)性。

      [關(guān)鍵詞]數(shù)據(jù)挖掘 高校圖書館 圖書采購(gòu)

      計(jì)算機(jī)網(wǎng)絡(luò)與數(shù)據(jù)庫(kù)技術(shù)的發(fā)展和廣泛應(yīng)用,信息日益成為企業(yè)的一種重要資源,人們利用信息技術(shù)生產(chǎn)和搜集數(shù)據(jù)的能力大幅度提高,在這些數(shù)據(jù)背后隱藏著極為重要的商業(yè)知識(shí),但是這些商業(yè)知識(shí)是隱含的、事先未知的。面對(duì)“人們被數(shù)據(jù)淹沒,人們卻饑餓于知識(shí)”的挑戰(zhàn),數(shù)據(jù)挖掘技術(shù)應(yīng)運(yùn)而生,越來越顯示出其強(qiáng)大的生命力。

      1數(shù)據(jù)挖掘技術(shù)概述

      數(shù)據(jù)挖掘(D ata M in ing是一種新的信息處理技術(shù),其主要特點(diǎn)是對(duì)單位、企業(yè)數(shù)據(jù)庫(kù)中的大量業(yè)務(wù)數(shù)據(jù)進(jìn)行抽取、轉(zhuǎn)換、分析和其他模型化處理,以從中提取輔助管理決策的關(guān)鍵性數(shù)據(jù)。數(shù)據(jù)挖掘就是從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識(shí)的過程。數(shù)據(jù)挖掘是一門交叉學(xué)科,它把人們對(duì)數(shù)據(jù)的應(yīng)用從低層次的簡(jiǎn)單查詢,提升到從數(shù)據(jù)中挖掘知識(shí),提供決策支持。常用的數(shù)據(jù)挖掘技術(shù)主要有以下幾種: 1.1人工神經(jīng)網(wǎng)絡(luò)

      仿照生理神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的非線性預(yù)測(cè)模型,主要由“神經(jīng)元”的互聯(lián),或按層組織的節(jié)點(diǎn)構(gòu)成,通常由輸入層、中間層和輸出層三個(gè)層次組成,在每個(gè)神經(jīng)元求得輸入值后,再匯總計(jì)算輸入值;由過濾機(jī)制比較輸入值,確定網(wǎng)絡(luò)的輸出值。

      1.2決策樹

      決策樹是一個(gè)類似流程圖的樹型結(jié)構(gòu),其中每個(gè)內(nèi)部節(jié)點(diǎn)表示在一個(gè)屬性上的測(cè)試,每個(gè)分枝代表1個(gè)測(cè)試輸出,而每個(gè)樹葉點(diǎn)代表類或類分布。樹的最頂層節(jié)點(diǎn)是根節(jié)點(diǎn)。目前,在數(shù)據(jù)挖掘中使用的決策樹方法有多種,典型的在國(guó)際上影響較大的決策樹方法是Q n in lan研制的I D3算法。

      1.3遺傳算法

      遺傳算法是模擬生物進(jìn)化過程的計(jì)算模型,是自然遺傳學(xué)與計(jì)算機(jī)科學(xué)相互結(jié)合滲透的計(jì)算方法。遺傳分析應(yīng)用搜索技術(shù),先找出兩個(gè)合適的父樣本,通過“交叉”“變異”等帶有生物遺傳特點(diǎn)的操作產(chǎn)生下一代樣本,對(duì)子樣本反復(fù)“交叉”“變異”操作直到子樣本收斂為此,再找另外兩個(gè)合適的父樣本重復(fù)上述過程,就能得到下一代的樣本集。由此得到當(dāng)前樣本集較可能的發(fā)展方向。

      1.4近鄰算法

      用該方法進(jìn)行預(yù)測(cè)的基本概念就是相互之間“接近”的對(duì)象具有相似的預(yù)測(cè)值。如果知道其中一個(gè)對(duì)象的預(yù)測(cè)值后,可以預(yù)測(cè)其最近的鄰居對(duì)象。

      1.5規(guī)則推導(dǎo)

      根據(jù)統(tǒng)計(jì)意義上對(duì)數(shù)據(jù)中的規(guī)則“如果條件怎么樣、怎么樣,那么結(jié)果或情況就怎么樣”,對(duì)給定的一組項(xiàng)目和一個(gè)記錄集合,通過分析記錄集合,推導(dǎo)出項(xiàng)目間的相關(guān)性。

      1.6聚類方法

      聚類分析方法按一定的距離或相似性測(cè)度將數(shù)據(jù)分成系列相互區(qū)分的組,它是不需要預(yù)定義知識(shí)而直接發(fā)現(xiàn)一些有意義的結(jié)構(gòu)與模式??刹捎猛?fù)浣Y(jié)構(gòu)分析、空間緩沖區(qū)及距離分析、覆蓋分析等方法,旨在發(fā)現(xiàn)目標(biāo)在空間上的相連、相鄰和共生等關(guān)聯(lián)關(guān)系。

      1.7可視化技術(shù)

      可視化技術(shù)在數(shù)據(jù)挖掘過程中的數(shù)據(jù)準(zhǔn)備階段是非常重要的,它能夠幫助人們進(jìn)行快速直觀地分析數(shù)據(jù)。利用可視化方法,很容易找到數(shù)據(jù)之間可能存在的模式、關(guān)系和異常情況等。

      2高校圖書館可以成為數(shù)據(jù)挖掘技術(shù)的應(yīng)用領(lǐng)域

      目前,在很多領(lǐng)域,數(shù)據(jù)挖掘都是一個(gè)很時(shí)髦的詞,尤其是在銀行、電信、保險(xiǎn)、交通、零售(如超級(jí)市場(chǎng)等商業(yè)領(lǐng)域。同樣,數(shù)據(jù)挖掘技術(shù)在高校圖書館中的應(yīng)用,將為圖書館在數(shù)字資源的組織和管理、服務(wù)質(zhì)量的提升和服務(wù)方式的拓展等方面提供技術(shù)支持,并顯示出強(qiáng)大的生命力。高校圖書館可以成為數(shù)據(jù)挖掘技術(shù)的應(yīng)用領(lǐng)域,理由如下: 2.1高校圖書館管理的需要

      在信息化社會(huì)中,圖書館的生存與發(fā)展和先進(jìn)技術(shù)的運(yùn)用是密不可分的。目前,高校圖書館利用的信息管理系統(tǒng)可以高效地實(shí)現(xiàn)傳統(tǒng)圖書館信息管理中的數(shù)據(jù)的錄入、查詢、統(tǒng)計(jì)、流通借閱等功能,相對(duì)于從前的手工加工管理時(shí)代,可以說是一次飛躍,但圖書情報(bào)部門的工作仍然主要是對(duì)信息的載體進(jìn)行管理,以提供信息的外在特征服務(wù)為主,無法發(fā)現(xiàn)數(shù)據(jù)中存在的關(guān)系和規(guī)則,無法根據(jù)現(xiàn)有的數(shù)據(jù)預(yù)測(cè)未來的發(fā)展趨勢(shì)。高校圖書館作為學(xué)術(shù)性、科研性、服務(wù)性機(jī)構(gòu),在高等教育中承擔(dān)著重要角色,特別是在向數(shù)字化圖書館轉(zhuǎn)型過程中,迫切需要應(yīng)用分類、回歸分析、聚類、關(guān)聯(lián)規(guī)則、特征、變化和偏差分析、W eb網(wǎng)頁(yè)挖掘等技術(shù)手段對(duì)信息進(jìn)行深加工,以推動(dòng)圖書館業(yè)務(wù)與管理的全面進(jìn)步。運(yùn)用數(shù)據(jù)挖掘技術(shù),實(shí)現(xiàn)海量數(shù)據(jù)的存儲(chǔ)和利用,支持圖書館各種層次的科學(xué)決策,促進(jìn)圖書館管理的發(fā)展。

      2.2圖書館物質(zhì)基礎(chǔ)的形成

      在現(xiàn)代科學(xué)技術(shù)推動(dòng)下,高校圖書館正朝著自動(dòng)化、數(shù)字化和信息化的方向發(fā)展。一方面,我國(guó)的圖書館系統(tǒng)經(jīng)過多年的自動(dòng)化建設(shè),已具備相當(dāng)?shù)奈镔|(zhì)條件和人才儲(chǔ)備,并積累了大量數(shù)據(jù),為數(shù)據(jù)挖掘應(yīng)用奠定了一定的物質(zhì)基礎(chǔ)。另一方面,圖書

      館的數(shù)字化發(fā)展是我國(guó)信息化建設(shè)的重要組成部分,國(guó)家對(duì)此給予了高度的重視并提供了大量政策上和經(jīng)濟(jì)上的支持,為行業(yè)

      — 8 5 1 —

      性數(shù)據(jù)挖掘的實(shí)施提供了良好的政策環(huán)境和經(jīng)濟(jì)保障。2.3實(shí)現(xiàn)技術(shù)的成熟

      數(shù)據(jù)挖掘在經(jīng)過多年的發(fā)展之后已經(jīng)形成相對(duì)成熟的技術(shù)體系,特別是在數(shù)據(jù)挖掘設(shè)計(jì)、數(shù)據(jù)抽取以及聯(lián)機(jī)分析處理技術(shù)等方面都取得了令人滿意的進(jìn)展,為數(shù)據(jù)挖掘的應(yīng)用奠定了技術(shù)基礎(chǔ)。另外,數(shù)據(jù)挖掘技術(shù)在發(fā)達(dá)國(guó)家的電信、制造、零售、金融等領(lǐng)域已有較深程度的應(yīng)用,并取得了巨大的回報(bào),這些成功應(yīng)用的例子為我們提供了可資借鑒的寶貴經(jīng)驗(yàn)。

      3應(yīng)用數(shù)據(jù)挖掘技術(shù)開展圖書采購(gòu)工作

      目前,國(guó)際上已經(jīng)將圖書館的信息服務(wù)納入了電子商務(wù)之中,數(shù)據(jù)挖掘技術(shù)不僅在商業(yè)界倍受青睞,它在現(xiàn)代化圖書館中的應(yīng)用前景也十分廣闊,而圖書采購(gòu)則是數(shù)據(jù)挖掘技術(shù)在高校圖書館應(yīng)用中的一個(gè)典型領(lǐng)域?;跀?shù)據(jù)挖掘技術(shù)的圖書采購(gòu)策略的基本思路是:利用計(jì)算機(jī)圖書管理數(shù)據(jù)庫(kù)積累的圖書借閱流通資料,利用數(shù)據(jù)挖掘技術(shù)得到讀者借閱頻率較高的圖書類型的關(guān)鍵詞、出版社、編著者信息,考慮缺書比例較大的圖書,依此決定采購(gòu)策略。

      3.1讀者信息資源的收集

      采訪部門職能發(fā)揮的好壞關(guān)系到圖書館資金及資源利用率的高低,如何采購(gòu)高質(zhì)量的書刊是圖書館工作的重中之重。因此,準(zhǔn)確地定位讀者對(duì)象的需求就成為提高資源利用率的一個(gè)主要因素。根據(jù)流通數(shù)據(jù)庫(kù)的集成數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘,能夠得到讀者對(duì)圖書資源的使用頻率表,對(duì)讀者進(jìn)行分類的同時(shí)對(duì)適合不同類別的讀者的圖書資源進(jìn)行聚類,可以快速而精確地得到訂書單。通過收集整理圖書館網(wǎng)站上的在線調(diào)查、留言簿等數(shù)據(jù),或是設(shè)計(jì)讀者調(diào)查表,包括讀者的基本情況、閱讀興趣、查閱資料的途徑及對(duì)國(guó)內(nèi)外文獻(xiàn)資源的需求情況等,將這些元數(shù)據(jù)轉(zhuǎn)化為標(biāo)準(zhǔn)的結(jié)構(gòu)化數(shù)據(jù)庫(kù),利用數(shù)據(jù)挖掘方法分析讀者行為傾向,發(fā)現(xiàn)用戶興趣模式,就能動(dòng)態(tài)的調(diào)整采購(gòu)策略,有針對(duì)性地應(yīng)對(duì)需求。

      3.2確定采購(gòu)的重點(diǎn)

      圖書館每年的文獻(xiàn)購(gòu)置費(fèi)是有限的,各門學(xué)科之間如何分配、各種文獻(xiàn)載體形式如何均衡才能使這些經(jīng)費(fèi)最好地發(fā)揮效益,這是一件令人頭疼的事。隨著出版物的數(shù)量日益增多,載體日益豐富,高校圖書館信息結(jié)構(gòu)、讀者需求與資金利用的平衡問題越來越不易把握,也令采購(gòu)工作的決策變得更加復(fù)雜。數(shù)據(jù)挖掘技術(shù)可以對(duì)流通數(shù)據(jù)庫(kù)和采訪數(shù)據(jù)庫(kù)中的歷史記錄數(shù)據(jù)進(jìn)行關(guān)聯(lián)性分析和序列分析,可以輕松地統(tǒng)計(jì)出文獻(xiàn)的拒借集合和頻繁借閱集合,科學(xué)分析各類文獻(xiàn)的利用率,為采購(gòu)文獻(xiàn)提供科學(xué)合理的各種分析報(bào)告及預(yù)測(cè)信息,從而指導(dǎo)采訪人員對(duì)文獻(xiàn)種類進(jìn)行科學(xué)地篩選,合理地確定各種文獻(xiàn)所需的復(fù)本量,及時(shí)補(bǔ)充短缺的文獻(xiàn),剔除過時(shí)的文獻(xiàn),幫助采購(gòu)人員確定采購(gòu)重點(diǎn),保障圖書館信息資源體系的科學(xué)性和合理性。

      3.3訂購(gòu)渠道的管理

      圖書訂購(gòu)是圖書館采訪部門的主要工作,它是圖書館工作鏈的開端,也是現(xiàn)代化圖書館資源建設(shè)的開始。傳統(tǒng)圖書館的訂購(gòu)信息大多來源于出版社和書商,信息量有限,這樣會(huì)導(dǎo)致重復(fù)訂購(gòu)和館藏資源不足的矛盾現(xiàn)象出現(xiàn)。隨著信息技術(shù)的發(fā)展,圖書訂購(gòu)渠道已呈現(xiàn)多樣化,包括專家訂書、光盤檢索、電子文獻(xiàn)、借閱數(shù)據(jù)庫(kù)查詢等。通過數(shù)據(jù)挖掘技術(shù)可以為圖書采購(gòu)提供科學(xué)的、合理的分析和預(yù)測(cè),從而實(shí)

      現(xiàn)訂購(gòu)渠道的管理,選擇合適的訂購(gòu)渠道,為圖書館節(jié)省可貴的經(jīng)費(fèi),買到最適用的圖書。

      3.4確定圖書的學(xué)科比例

      圖書館要全面兼顧不同類型的讀者,考慮各個(gè)學(xué)科內(nèi)容的完整搭配組合。即使最近一段時(shí)間武俠小說非常流行,也不能全部只購(gòu)買武俠小說。大學(xué)的圖書館必須結(jié)合學(xué)校的專業(yè)設(shè)置,為各個(gè)專業(yè)的教學(xué)科研配備參考書,不能顧此失彼。應(yīng)當(dāng)結(jié)合館藏圖書的學(xué)科專業(yè)分布、發(fā)展趨勢(shì)以及現(xiàn)有藏書量,控制不同學(xué)科的圖書占總采購(gòu)金額的比例。對(duì)于館藏?cái)?shù)量少,而根據(jù)發(fā)展趨勢(shì)急需加強(qiáng)的學(xué)科需要擴(kuò)大比例。通過流通、采訪系統(tǒng)數(shù)據(jù)進(jìn)行如關(guān)聯(lián)性分析、序列分析等挖掘方法得到的結(jié)果,可以分析出文獻(xiàn)的利用率,及時(shí)補(bǔ)充短缺的文獻(xiàn),剔除過時(shí)的文獻(xiàn)信息,為采購(gòu)文獻(xiàn)提供科學(xué)合理的各種分析報(bào)告及預(yù)測(cè)信息,指導(dǎo)采訪人員對(duì)購(gòu)書的種類、所需復(fù)本數(shù)量等進(jìn)行科學(xué)的篩選,優(yōu)化館藏結(jié)構(gòu),合理確定各學(xué)科的圖書比例。

      3.5采購(gòu)經(jīng)費(fèi)的管理

      傳統(tǒng)圖書館信息采集多由專門采訪人員獨(dú)自確定或與少數(shù)專家商討決定,不可避免的帶有極大的主觀性以及個(gè)人喜好;而且圖書館每年的文獻(xiàn)購(gòu)置費(fèi)是有限的,各門學(xué)科之間如何分配,各種文獻(xiàn)載體形式如何均衡才能使這些經(jīng)費(fèi)最好地發(fā)揮效益,這是一件令人頭疼的事。而運(yùn)用數(shù)據(jù)挖掘技術(shù)可以通過對(duì)圖書館的借閱流通記錄、檢索請(qǐng)求進(jìn)行分析、挖掘,有針對(duì)性的補(bǔ)充和豐富信息資源,并可以籍此分析出文獻(xiàn)的利用率,從而實(shí)現(xiàn)采購(gòu)經(jīng)費(fèi)的合理管理,區(qū)分輕重緩急,“好鋼用在刀刃上”。

      參考文獻(xiàn)

      [1]王向輝等.數(shù)據(jù)挖掘技術(shù)及其在決策支持系統(tǒng)中的應(yīng)用[J]計(jì)算技術(shù)與自動(dòng)化,2004(4 [2]陳瑞雪.數(shù)據(jù)倉(cāng)儲(chǔ)與數(shù)據(jù)挖掘技術(shù)在現(xiàn)代化圖書館中的應(yīng)用[J].圖書館學(xué)研究,2004(11

      [3]張存祿等.數(shù)據(jù)挖掘在圖書采購(gòu)中的應(yīng)用[J].情報(bào)科學(xué),2004(5 [4]劉曉東.數(shù)據(jù)挖掘在圖書館工作中的應(yīng)用[J].情報(bào)雜志,2005(8 [5]鮑翠梅等.數(shù)據(jù)挖掘技術(shù)及其在圖書館中的應(yīng)用[J].情報(bào)雜志,2004(9 — 9 5 1 —

      下載數(shù)據(jù)挖掘在房地產(chǎn)營(yíng)銷中的應(yīng)用word格式文檔
      下載數(shù)據(jù)挖掘在房地產(chǎn)營(yíng)銷中的應(yīng)用.doc
      將本文檔下載到自己電腦,方便修改和收藏,請(qǐng)勿使用迅雷等下載。
      點(diǎn)此處下載文檔

      文檔為doc格式


      聲明:本文內(nèi)容由互聯(lián)網(wǎng)用戶自發(fā)貢獻(xiàn)自行上傳,本網(wǎng)站不擁有所有權(quán),未作人工編輯處理,也不承擔(dān)相關(guān)法律責(zé)任。如果您發(fā)現(xiàn)有涉嫌版權(quán)的內(nèi)容,歡迎發(fā)送郵件至:645879355@qq.com 進(jìn)行舉報(bào),并提供相關(guān)證據(jù),工作人員會(huì)在5個(gè)工作日內(nèi)聯(lián)系你,一經(jīng)查實(shí),本站將立刻刪除涉嫌侵權(quán)內(nèi)容。

      相關(guān)范文推薦

        數(shù)據(jù)挖掘在企業(yè)競(jìng)爭(zhēng)情報(bào)系統(tǒng)中的應(yīng)用

        數(shù)據(jù)挖掘在企業(yè)競(jìng)爭(zhēng)情報(bào)系統(tǒng)中的應(yīng)用摘要:本文主要概述了數(shù)據(jù)挖掘技術(shù)的發(fā)展歷史和研究現(xiàn)狀。并將數(shù)據(jù)挖掘技術(shù)在企業(yè)競(jìng)爭(zhēng)情報(bào)系統(tǒng)中的應(yīng)用狀況分別從國(guó)內(nèi)和國(guó)外兩方面作了介......

        數(shù)據(jù)挖掘在培訓(xùn)管理中的應(yīng)用論文

        1、引言對(duì)很多培養(yǎng)機(jī)構(gòu)而言,目前急需解決的問題主要有:如何根據(jù)不同成員需求設(shè)置合理的課程、如何通過教學(xué)方式提高成員學(xué)習(xí)積極性、如何提高成員培訓(xùn)效果、如何通過考核檢驗(yàn)......

        數(shù)據(jù)挖掘電子商務(wù)應(yīng)用中調(diào)研報(bào)告[合集]

        調(diào)研報(bào)告 調(diào)研題目: :關(guān)于數(shù)據(jù)挖掘在電子商務(wù)中 應(yīng)用得調(diào)研報(bào)告 指導(dǎo)老師: :學(xué)生姓名: 學(xué)號(hào): 西安交通大學(xué)軟件學(xué)院6 2016 年 年 3 3 月 月 2 2 1日關(guān)于數(shù)據(jù)挖掘在電子商務(wù)中應(yīng)......

        數(shù)據(jù)挖掘在情報(bào)信息方面的應(yīng)用

        數(shù)據(jù)挖掘在情報(bào)信息方面的應(yīng)用 [ 標(biāo)簽:數(shù)據(jù)挖掘, 情報(bào)信息 ] 歐陽(yáng)烽 2011-07-14 12:57 滿意答案 呵呵,這個(gè)我舉個(gè)例子來說明:四人幫那時(shí)候,新聞標(biāo)題都是毛主席說什么什么,后面會(huì)......

        數(shù)據(jù)挖掘技術(shù)在信用卡業(yè)務(wù)中的應(yīng)用案例分享[五篇模版]

        數(shù)據(jù)挖掘技術(shù)在信用卡業(yè)務(wù)中的應(yīng)用案例分享 信用卡業(yè)務(wù)具有透支筆數(shù)巨大、單筆金額小的特點(diǎn),這使得數(shù)據(jù)挖掘技術(shù)在信用卡業(yè)務(wù)中的應(yīng)用成為必然。國(guó)外信用卡發(fā)卡機(jī)構(gòu)已經(jīng)廣泛......

        淺談數(shù)據(jù)挖掘技術(shù)及其在高等學(xué)校教學(xué)中的應(yīng)用教育論文

        關(guān)鍵詞:數(shù)據(jù)挖掘 高校教學(xué) 教育信息化摘要:數(shù)據(jù)挖掘技術(shù)目前在商業(yè)、金融業(yè)等方面都得到了廣泛的應(yīng)用,而在教育領(lǐng)域應(yīng)用較少。本文通過時(shí)數(shù)據(jù)挖掘在高校教學(xué)中的應(yīng)用分析,認(rèn)為......

        大數(shù)據(jù)技術(shù)在精準(zhǔn)營(yíng)銷中的應(yīng)用(精選五篇)

        大數(shù)據(jù)技術(shù)在精準(zhǔn)營(yíng)銷中的應(yīng)用 大數(shù)據(jù)時(shí)代,數(shù)據(jù)已經(jīng)滲透到當(dāng)今每一個(gè)行業(yè)和業(yè)務(wù)職能領(lǐng)域,成為重要的生產(chǎn)因素。對(duì)于海量數(shù)據(jù)數(shù)據(jù)的挖掘和運(yùn)用,預(yù)示著新一波生產(chǎn)率增長(zhǎng)和消費(fèi)者......

        房地產(chǎn)企業(yè)的管理——營(yíng)銷在房地產(chǎn)品牌中的應(yīng)用

        房地產(chǎn)企業(yè)的管理——營(yíng)銷在房地產(chǎn)品牌中的應(yīng)用王川川內(nèi)容摘要:在改革開放的大形勢(shì)下,經(jīng)過近二十余年的發(fā)展,我國(guó)房地產(chǎn)業(yè)已經(jīng)從單純的價(jià)格競(jìng)爭(zhēng)、質(zhì)量競(jìng)爭(zhēng)逐步走向品牌競(jìng)爭(zhēng),開始......