欧美色欧美亚洲高清在线观看,国产特黄特色a级在线视频,国产一区视频一区欧美,亚洲成a 人在线观看中文

  1. <ul id="fwlom"></ul>

    <object id="fwlom"></object>

    <span id="fwlom"></span><dfn id="fwlom"></dfn>

      <object id="fwlom"></object>

      數(shù)據(jù)挖掘技術在信用卡業(yè)務中的應用案例分享[五篇模版]

      時間:2019-05-12 18:44:21下載本文作者:會員上傳
      簡介:寫寫幫文庫小編為你整理了多篇相關的《數(shù)據(jù)挖掘技術在信用卡業(yè)務中的應用案例分享》,但愿對你工作學習有幫助,當然你在寫寫幫文庫還可以找到更多《數(shù)據(jù)挖掘技術在信用卡業(yè)務中的應用案例分享》。

      第一篇:數(shù)據(jù)挖掘技術在信用卡業(yè)務中的應用案例分享

      數(shù)據(jù)挖掘技術在信用卡業(yè)務中的應用案例分享

      信用卡業(yè)務具有透支筆數(shù)巨大、單筆金額小的特點,這使得數(shù)據(jù)挖掘技術在信用卡業(yè)務中的應用成為必然。國外信用卡發(fā)卡機構已經(jīng)廣泛應用數(shù)據(jù)挖掘技術促進信用卡業(yè)務的發(fā)展,實現(xiàn)全面的績效管理。我國自1985年發(fā)行第一張信用卡以來,信用卡業(yè)務得到了長足的發(fā)展,積累了巨量的數(shù)據(jù),數(shù)據(jù)挖掘在信用卡業(yè)務中的重要性日益顯現(xiàn)。

      一、數(shù)據(jù)挖掘技術在信用卡業(yè)務中的應用

      數(shù)據(jù)挖掘技術在信用卡業(yè)務中的應用主要有分析型客戶關系管理、風險管理和運營管理。

      1.分析型CRM

      分析型CRM應用包括市場細分、客戶獲取、交叉銷售和客戶流失。信用卡分析人員搜集和處理大量數(shù)據(jù),對這些數(shù)據(jù)進行分析,發(fā)現(xiàn)其數(shù)據(jù)模式及特征,分析某個客戶群體的特性、消費習慣、消費傾向和消費需求,進而推斷出相應消費群體下一步的消費行為,然后以此為

      基礎,對所識別出來的消費群體進行特定產品的主動營銷。這與傳統(tǒng)的不區(qū)分消費者對象特征的大規(guī)模營銷手段相比,大大節(jié)省了營銷成本,提高了營銷效果,從而能為銀行帶來更多的利潤。對客戶采用何種營銷方式是根據(jù)響應模型預測得出的客戶購買概率做出的,對響應概率高的客戶采用更為主動、人性化的營銷方式,如電話營銷、上門營銷;對響應概率較低的客戶可選用成本較低的電子郵件和信件營銷方式。除獲取新客戶外,維護已有優(yōu)質客戶的忠誠度也很重要,因為留住一個原有客戶的成本要遠遠低于開發(fā)一個新客戶的成本。在客戶關系管理中,通過數(shù)據(jù)挖掘技術,找到流失客戶的特征,并發(fā)現(xiàn)其流失規(guī)律,就可以在那些具有相似特征的持卡人還未流失之前,對其進行有針對性的彌補,使得優(yōu)質客戶能為銀行持續(xù)創(chuàng)造價值。

      2.風險管理

      數(shù)據(jù)挖掘在信用卡業(yè)務中的另一個重要應用就是風險管理。在風險管理中運用數(shù)據(jù)挖掘技術可建立各類信用評分模型。模型類型主要有三種:申請信用卡評分卡、行為信用評分卡和催收信用評分卡,分別為信用卡業(yè)務提供事前、事中、和事后的信用風險控制。

      申請評分模型專門用于對新申請客戶的信用評估,它應用于信用卡征信審核階段,通過申請人填寫的有關個人信息,即可有效、快速地辨別和劃分客戶質量,決定是否審批通過并對審批通過的申請人核定初始信用額度,幫助發(fā)卡行從源頭上控制風險。申請評分模型不依賴于人們的主觀判斷或經(jīng)驗,有利于發(fā)卡行推行統(tǒng)一規(guī)范的授信政策。行為評分模型是針對已有持卡人,通過對持卡客戶的行為進行監(jiān)控和預測,從而評估持卡客戶的信用風險,并根據(jù)模型結果,智能化地決定是否調整客戶信用額度,在授權時決定是否授權通過,到期換卡時是

      否進行續(xù)卡操作,對可能出現(xiàn)的使其提前進行預警。催收評分模型是申請評分模型和行為評分模型的補充,是在持卡人產生了逾期或壞賬的情況下建立的。催收評分卡被用于預測和評估對某一筆壞賬所采取措施的有效性,諸如客戶對警告信件反應的可能性。這樣,發(fā)卡行就可以根據(jù)模型的預測,對不同程度的逾期客戶采取相應措施進行處理。以上三種評分模型在建立時,所利用的數(shù)據(jù)主要是人口統(tǒng)計學數(shù)據(jù)和行為數(shù)據(jù)。人口統(tǒng)計學數(shù)據(jù)包括年齡、性別、婚姻狀況、教育背景、家庭成員特點、住房情況、職業(yè)、職稱、收入狀況等。行為數(shù)據(jù)包括持卡人在過去使用信用卡的表現(xiàn)信息,如使用頻率、金額、還款情況等。由此可見,數(shù)據(jù)挖掘技術的使用,可以使銀行有效地建立起事前、事中到事后的信用風險控制體系。

      3.運營管理

      雖然數(shù)據(jù)挖掘在信用卡運營管理領域的應用不是最重要的,但它已為國外多家發(fā)卡公司在提高生產效率、優(yōu)化流程、預測資金和服務需求、提供服務次序等問題的分析上取得了較大成績。

      二、常用的數(shù)據(jù)挖掘方法

      上述數(shù)據(jù)挖掘技術在信用卡領域的應用中,有很多工具可用于開發(fā)預測和描述模型。有些用統(tǒng)計方法,如線性回歸和邏輯回歸;有些有非統(tǒng)計或混合方法,如神經(jīng)網(wǎng)絡、遺傳算法、決策樹及回歸樹。這里僅討論幾種常見的典型方法。

      1.線性回歸

      簡單線性回歸分析是量化兩個連續(xù)變量之間關系的一種統(tǒng)計技術。這兩個變量分別是因變量(預測變量)。使用這一方法,可以發(fā)現(xiàn)一條穿過數(shù)據(jù)的線,線上的點使對應數(shù)據(jù)點的方差最小。為市場營銷、風險和客戶關系管理建立模型時,通常有多個自變量,用多個獨立自變量來預測一個連續(xù)變量稱為多元線性回歸,用線性回歸方法建立的模型通常具有魯棒性。

      2.邏輯回歸

      邏輯回歸是使用最廣泛的建模技術,與線性回歸很相似。兩者的主要區(qū)別在于邏輯回歸的因變量(想預測變量)不是連續(xù)的,而是離散的或者類型變量。如申請評分模型可運用邏輯回歸方法,選取關鍵變量確定回歸系數(shù)。以申請者的關鍵變量x1,x2,…xm為自變量,以y=[1 申請者是壞客戶;0 申請者是好客戶,為因變量,則對于二分類因變量,一般假設客戶變壞的概率為 p(y=1)=eβ0+β1×1+…+βmxm/1+eβ0+β1×1+…+βmxm式中,β0,β1…,βm是常數(shù),即1n(p/1-p)=β0+β1×1+…+βmxm

      3.神經(jīng)網(wǎng)絡

      神經(jīng)網(wǎng)絡處理和回歸處理大不相同,它不依照任何概率分布,而是模仿人腦功能,可以認為它是從每一次經(jīng)驗中提取并學習信息。神經(jīng)網(wǎng)絡系統(tǒng)由一系列類似于人腦神經(jīng)元一樣的節(jié)點組成,這些節(jié)點通過網(wǎng)絡彼此互連。如果有數(shù)據(jù)輸入,它們便可以進行確定數(shù)據(jù)模式的工作。神經(jīng)網(wǎng)絡由相互連接的輸入層、中間層(或隱藏層)、輸出層組成。中間層由多個節(jié)點組成,完成大部分網(wǎng)絡工作。輸出層輸出數(shù)據(jù)分析的執(zhí)行結果。

      4.遺傳算法

      與神經(jīng)元網(wǎng)絡類似,遺傳算法也不遵循任何概率分布,是源自“適者生存”的進化過程。它首先將問題的可能解按某種形式進行編碼,編碼后的解稱為染色體。隨機選取n個染色體作為初始種群,再根據(jù)預定的評價函數(shù)對每個染色體計算適應值,性能較好的染色體有較高的適應值。選擇適應值較高的染色體進行復制,并通過遺傳算子產生一群新的更適應環(huán)境的染色體,形成新的種群,直至最后收斂到一個最適應環(huán)境的個體,得到問題的最優(yōu)化解。

      5.決策樹

      決策樹的目標是逐步將數(shù)據(jù)分類到不同的組或分支中,在因變量的值上建立最強劃分。由于分類規(guī)則比較直觀,所以易于理解。圖1為客戶響應的決策樹,從中很容易識別出響應率最高的組。

      三、實例分析

      以下以邏輯回歸方法建立信用卡申請評分模型為例,說明數(shù)據(jù)挖掘技術在信用卡業(yè)務中的應用。申請評分模型設計可分為7個基本步驟。

      1.定義好客戶和壞客戶的標準

      好客戶和壞客戶的標準根據(jù)適合管理的需要定義。按照國外的經(jīng)驗,建立一個預測客戶好壞的風險模型所需的好、壞樣本至少各要有1000個左右。為了規(guī)避風險,同時考慮到信用卡市場初期,銀行的效益來源主要是銷售商的傭金、信用卡利息、手續(xù)費收入和資金的運作利差。因此,一般銀行把降低客戶的逾期率作為一個主要的管理目標。比如,將壞客戶定義為出現(xiàn)過逾期60天以上的客戶;將壞客戶定義為出現(xiàn)過逾期60天以上的客戶;將好客戶定義為沒有30天以上逾期且當前沒有逾期的客戶。

      一般來講,在同一樣本空間內,好客戶的數(shù)量要遠遠大于壞客戶的數(shù)量。為了保證模型具有較高的識別壞客戶的能力,取好、壞客戶樣本數(shù)比率為1:1。

      2.確定樣本空間

      樣本空間的確定要考慮樣本是否具有代表性。一個客戶是好客戶,表明持卡人在一段觀察期內用卡表現(xiàn)良好;而一個客戶只要出現(xiàn)過“壞”的記錄,就把他認定為壞客戶。所以,一般好客戶的觀察期要比壞客戶長一些、好、壞客戶可以選擇在不同的時間段,即不同的樣本空間內。比如,好客戶的樣本空間為2003年11月-2003年12月的申請人,壞客戶的樣本空間為2003年11月-2004年5月的申請人,這樣既能保證好客戶的表現(xiàn)期較長,又能保證有足夠數(shù)量的壞客戶樣本。當然,抽樣的好、壞客戶都應具有代表性。

      3.數(shù)據(jù)來源

      在美國,有統(tǒng)一的信用局對個人信用進行評分,通常被稱為“FICO評分”。美國的銀行、信用卡公司和金融機構在對客戶進行信用風險分析時,可以利用信用局對個人的數(shù)據(jù)報告。在我國,由于征信系統(tǒng)還不完善,建模數(shù)據(jù)主要來自申請表。隨著我國全國性征信系統(tǒng)的逐步完善,未來建模的一部分數(shù)據(jù)可以從征信機構收集到。

      4.數(shù)據(jù)整理

      大量取樣的數(shù)據(jù)要真正最后進入模型,必須經(jīng)過數(shù)據(jù)整理。在數(shù)據(jù)處理時應注意檢查數(shù)據(jù)的邏輯性、區(qū)分“數(shù)據(jù)缺失”和“0”、根據(jù)邏輯推斷某些值、尋找反常數(shù)據(jù)、評估是否真實??梢酝ㄟ^求最小值、最大值和平均值的方法,初步驗證抽樣數(shù)據(jù)是否隨機、是否具有代表性。

      5.變量選擇

      變量選擇要同時具有數(shù)學統(tǒng)計的正確性和信用卡實際業(yè)務的解釋力。Logistic回歸方法是盡可能準確找到能夠預測因變量的自變量,并給予各自變量一定權重。若自變量數(shù)量太少,擬合的效果不好,不能很好地預測因變量的情況;若自變量太多,會形成過分擬合,預測因變量的效果同樣不好。所以應減少一些自變量,如用虛擬變量表示不能量化的變量、用單變量和決策樹分析篩選變量。與因變量相關性差不多的自變量可以歸為一類,如地區(qū)對客戶變壞概率的影響,假設廣東和福建兩省對壞客戶的相關性分別為-0.381和-0.380,可將這兩個地區(qū)歸為一類,另外,可以根據(jù)申請表上的信息構造一些自變量,比如結合申請表上“婚姻狀況”和“撫養(yǎng)子女”,根據(jù)經(jīng)驗和常識結合這兩個字段,構造新變量“已婚有子女”,進入模型分析這個變量是不真正具有統(tǒng)計預測性。

      6.模型建立

      借助SAS9軟件,用逐步回歸法對變量進行篩選。這里設計了一種算法,分為6個步驟。

      ? 步驟1:求得多變量相關矩陣(若是虛擬變量,則>0.5屬于比較相關;若是一般變量,則>0.7-0.8屬于比較相關)。

      ? 步驟2:旋轉主成分分析(一般變量要求>0.8屬于比較相關;虛擬變量要求>0.6-0.7屬于比較相關)。

      ? ? 步驟3:在第一主成分和第二主成分分別找出15個變量,共30個變量。步驟4:計算所有30個變量對好/壞的相關性,找出相關性大的變量加入步驟3得出的變量。

      ? 步驟5:計算VIF。若VIF數(shù)值比較大,查看步驟1中的相關矩陣,并分別分析這兩個變量對模型的作用,剔除相關性較小的一個。

      ? 步驟6:循環(huán)步驟4和步驟5,直到找到所有變量,且達到多變量相關矩陣相關性很而單個變量對模型貢獻作用大。7.模型驗證

      在收集數(shù)據(jù)時,把所有整理好的數(shù)據(jù)分為用于建立模型的建模樣本和用于模型驗證的對照樣本。對照樣本用于對模型總體預測性、穩(wěn)定性進行驗證。申請評分模型的模型檢驗指標包括K-S值、ROC、AR等指標。雖然受到數(shù)據(jù)不干凈等客觀因素的影響,本例申請評分模型的K-S值已經(jīng)超過0.4,達到了可以使用的水平。

      四、數(shù)據(jù)挖掘在國內信用卡市場的發(fā)展前景

      在國外,信用卡業(yè)務信息化程度較高,數(shù)據(jù)庫中保留了大量的數(shù)量資源,運用數(shù)據(jù)技術建立的各類模型在信用卡業(yè)務中的實施非常成功。目前國內信用卡發(fā)卡銀行首先利用數(shù)據(jù)挖掘建立申請評分模型,作為在信用卡業(yè)務中應用的第一步,不少發(fā)卡銀行已經(jīng)用自己的歷史數(shù)據(jù)建立了客戶化的申請評分模型。總體而言,數(shù)據(jù)挖掘在我國信用卡業(yè)務中的應用處于數(shù)據(jù)質量問題,難于構建業(yè)務模型。

      隨著國內各家發(fā)卡銀行已經(jīng)建立或著手建立數(shù)據(jù)倉庫,將不同操作源的數(shù)據(jù)存放到一個集中的環(huán)境中,并且進行適當?shù)那逑春娃D換。這為數(shù)據(jù)挖掘提供了一個很好的操作平臺,將給數(shù)據(jù)挖掘帶來各種便利和功能。人民銀行的個人征信系統(tǒng)也已上線,在全國范圍內形成了個人信用數(shù)據(jù)的集中。在內部環(huán)境和外部環(huán)境不斷改善的基礎上,數(shù)據(jù)挖掘技術在信用卡業(yè)務中將具有越來越廣闊的應用前景。

      第二篇:數(shù)據(jù)挖掘技術在客戶關系管理中如何應用畢業(yè)論文.

      數(shù)據(jù)挖掘技術在客戶關系管理中如何應用

      根據(jù)波特的影響企業(yè)的利益相關者理論,企業(yè)有五個利益相關者,分別是客戶、競爭對手、供應商、分銷商和政府等其他利益相關者。其中,最重要的利益相關者就是客戶?,F(xiàn)代企業(yè)的競爭優(yōu)勢不僅體現(xiàn)在產品上,還體現(xiàn)在市場上,誰能獲得更大的市場份額,誰就能在競爭中占據(jù)優(yōu)勢和主動。而對市場份額的爭奪實質上是對客戶的爭奪,因此,企業(yè)必須完成從“產品”導向向“客戶”導向的轉變,對企業(yè)與客戶發(fā)生的各種關系進行管理。進行有效的客戶關系管理,就要通過有效的途徑,從儲存大量客戶信息的數(shù)據(jù)倉庫中經(jīng)過深層分析,獲得有利于商業(yè)運作,提高企業(yè)市場競爭力的有效信息。而實現(xiàn)這些有效性的關鍵技術支持就是數(shù)據(jù)挖掘,即從海量數(shù)據(jù)中挖掘出更有價值的潛在信息。正是有了數(shù)據(jù)挖掘技術的支持,才使得客戶關系管理的理念和目標得以實現(xiàn),滿足現(xiàn)代電子商務時代的需求和挑戰(zhàn)。

      一、客戶關系管理(CRM CRM是一種旨在改善企業(yè)與客戶之間關系的新型管理方法。它是企業(yè)通過富有意義的交流和溝通,理解并影響客戶行為,最終實現(xiàn)提高客戶獲取、客戶保留、客戶忠誠和客戶創(chuàng)利的目的。它包括的主要內容有客戶識別、客戶關系的建立、客戶保持、客戶流失控制和客戶挽留。通過客戶關系管理能夠提高企業(yè)銷售收入,改善企業(yè)的服務,提高客戶滿意度,同時能提高員工的生產能力。

      二、數(shù)據(jù)挖掘(DM 數(shù)據(jù)挖掘(Data Mining,簡稱DM,簡單的講就是從大量數(shù)據(jù)中挖掘或抽取出知識。數(shù)據(jù)挖掘概念的定義描述有若干版本。一個通用的定義是從大量的、不

      完全的、有噪聲的、模糊的、隨機的實際應用數(shù)據(jù)中提取人們感興趣的知識,這些知識是隱諱的、事先未知的、潛在有用的信息。

      常用的數(shù)據(jù)挖掘方法有:(1關聯(lián)分析。即從給定的數(shù)據(jù)集中發(fā)現(xiàn)頻繁出現(xiàn)的項集模式知識。例如,某商場通過關聯(lián)分析,可以找出若干個客戶在本商場購買商品時,哪些商品被購置率較高,進而可以發(fā)現(xiàn)數(shù)據(jù)庫中不同商品的聯(lián)系,進而反映客戶的購

      買習慣。(2序列模式分析。它與關聯(lián)分析相似,其目的也是為了控制挖掘出的數(shù)據(jù)間的聯(lián)系。但序列模式分析的側重點在于分析數(shù)據(jù)間的前后(因果關系。例如,可以通過分析客戶在購買A商品后,必定(或大部分情況下隨著購買B商品,來發(fā)現(xiàn)客戶潛在的購買模式。(3分類分析。是找出一組能夠描述數(shù)據(jù)集合典型特征的模型,以便能夠分類識別未知數(shù)據(jù)的歸屬或類別。例如,銀行可以根據(jù)客戶的債務水平、收入水平和工作情況,可對給定用戶進行信用風險分析。(4聚類分析。是從給定的數(shù)據(jù)集中搜索數(shù)據(jù)對象之間所存在的有價值聯(lián)系。在商業(yè)上,聚類可以通過顧客數(shù)據(jù)將顧客信息分組,并對顧客的購買模式進行描述,找出他們的特征,制定針對性的營銷方案。(5孤立點分析。孤立點是數(shù)據(jù)庫中與數(shù)據(jù)的一般模式不一致的數(shù)據(jù)對象,它可能是收集數(shù)據(jù)的設備出現(xiàn)故障、人為輸入時的輸入錯誤等。孤立點分析就是專門挖掘這些特殊信息的方法。例如,銀行可以利用孤立點分析發(fā)現(xiàn)信用卡詐騙,電信部門可以利用孤立點分析發(fā)現(xiàn)電話盜用等。

      三、數(shù)據(jù)挖掘在客戶關系管理中的應用 1.進行客戶分類

      客戶分類是將大量的客戶分成不同的類別,在每一類別里的客戶具有相似的屬性,而不同類別里的客戶的屬性不同。數(shù)據(jù)挖掘可以幫助企業(yè)進行客戶分類, 針對不同類別的客戶,提供個性化的服務來提高客戶的滿意度,提高現(xiàn)有客戶的價值。細致而可行的客戶分類對企業(yè)的經(jīng)營策略有很大益處。例如,保險公司在長期的保險服務中,積累了很多的數(shù)據(jù)信息,包括對客戶的服務歷史、對客戶的銷售歷史和收入,以及客戶的人口統(tǒng)計學資料和生活方式等。保險公司必須將這些眾多的信息資源綜合起來,以便在數(shù)據(jù)庫里建立起一個完整的客戶背景。在客戶背景信息中,大批客戶可能在保險種類、保險年份和保險金額上具有極高的相似性,因而形成了具有共性的客戶群體。經(jīng)過數(shù)據(jù)挖掘的聚類分析,可以發(fā)現(xiàn)他們的共性,掌握他們的保險理念,提供有針對性的服務,提高保險公司的綜合服務水平,并可以降低業(yè)務服務成本,取得更高的收益。

      2.進行客戶識別和保留

      (1在CRM中,首先應識別潛在客戶,然后將他們轉化為客戶

      這時可以采用DM中的分類方法。首先是通過對數(shù)據(jù)庫中各數(shù)據(jù)進行分析,從而建立一個描述已知數(shù)據(jù)集類別或概念的模型,然后對每一個測試樣本,用其已知的類別與學習所獲模型的預測類別做比較,如果一個學習所獲模型的準確率經(jīng)測試被認可,就可以用這個模型對未來對象進行分類。例如,圖書發(fā)行公司利用顧客郵件地址數(shù)據(jù)庫,給潛在顧客發(fā)送用于促銷的新書宣傳冊。該數(shù)據(jù)庫內容有客戶情況的描述,包括年齡、收入、職業(yè)、閱讀偏好、訂購習慣、購書資金、計劃等屬性的描述,顧客被分類為“是”或“否”會成為購買書籍的顧客。當新顧客的信息被輸入到數(shù)據(jù)庫中時,就對該新顧客的購買傾向進行分類,以決定是否給該顧客發(fā)送相應書籍的宣傳手冊。

      (2在客戶保留中的應用

      客戶識別是獲取新客戶的過程,而客戶保留則是留住老顧客、防止客戶流失 的過程。對企業(yè)來說,獲取一個新顧客的成本要比保留一個老顧客的成本高。在保留客戶的過程中,非常重要的一個工作就是要找出顧客流失的原因。例如,某??茖W校的招生人數(shù)在逐漸減少,那么就要找出減少的原因,經(jīng)過廣泛的搜集信息,發(fā)現(xiàn)原因在于本學校對技能培訓不夠重視,學生只能學到書本知識,沒有實際的技能,在就業(yè)市場上找工作很難。針對這種情況,學校應果斷的抽取資金,購買先進的、有針對性的實驗實訓設備,同時修改教學計劃,加大實驗實訓課時和考核力度,培訓相關專業(yè)的教師。

      (3對客戶忠誠度進行分析

      客戶的忠誠意味著客戶不斷地購買公司的產品或服務。數(shù)據(jù)挖掘在客戶忠誠度分析中主要是對客戶持久性、牢固性和穩(wěn)定性進行分析。比如大型超市通過會員的消費信息,如最近一次消費、消費頻率、消費金額三個指標對數(shù)據(jù)進行分析,可以預測出顧客忠誠度的變化,據(jù)此對價格、商品的種類以及銷售策略加以調整和更新,以便留住老顧客,吸引新顧客

      (4對客戶盈利能力分析和預測

      對于一個企業(yè)而言,如果不知道客戶的價值,就很難做出合適的市場策略。不同的客戶對于企業(yè)而言,其價值是不同的。研究表明,一個企業(yè)的80%的利潤是由只占客戶總數(shù)的20%的客戶創(chuàng)造的,這部分客戶就是有價值的優(yōu)質客戶。為了弄清誰才是有價值的客戶,就需要按照客戶的創(chuàng)利能力來劃分客戶,進而改進客戶關系管理。數(shù)據(jù)挖掘技術可以用來分析和預測不同市場活動情況下客戶盈利能力的變化,幫助企業(yè)制定合適的市場策略。商業(yè)銀行一般會利用數(shù)據(jù)挖掘技術對客戶的資料進行分析,找出對提高企業(yè)盈利能力最重要的客戶,進而進行針對性的服務和營銷。

      (5交叉銷售和增量銷售

      交叉銷售是促使客戶購買尚未使用的產品和服務的營銷手段,目的是可以拓寬企業(yè)和客戶間的關系。增量銷售是促使客戶將現(xiàn)有產品和服務升級的銷售活動,目的在于增強企業(yè)和客戶的關系。這兩種銷售都是建立在雙贏的基礎上的,客戶因得到更多更好符合其需求的服務而獲益,公司也因銷售增長而獲益。數(shù)據(jù)挖掘可以采用關聯(lián)性模型或預測性模型來預測什么時間會發(fā)生什么事件,判斷哪些客戶對交叉銷售和增量銷售很有意向,以達到交叉銷售和增量銷售的目的。例如,保險公司的交叉營銷策略:保險公司對已經(jīng)購買某險種的客戶推薦其它保險產品和服務。這種策略成功的關鍵是要確保推銷的保險險種是用戶所感興趣的,否則會造成用戶的反感。

      四、客戶關系管理應用數(shù)據(jù)挖掘的步驟 1.需求分析

      只有確定需求,才有分析和預測的目標,然后才能提取數(shù)據(jù)、選擇方法,因此,需求分析是數(shù)據(jù)挖掘的基礎條件。數(shù)據(jù)挖掘的實施過程也是圍繞著這個目標進行的。在確定用戶的需求后,應該明確所要解決的問題屬于哪種應用類型,是屬于關聯(lián)分析、分類、聚類及預測,還是其他應用。應對現(xiàn)有資源如已有的歷史數(shù)據(jù)進行評估,確定

      是否能夠通過數(shù)據(jù)挖掘技術來解決用戶的需求,然后將進一步確定數(shù)據(jù)挖掘的目標和制定數(shù)據(jù)挖掘的計劃。2.建立數(shù)據(jù)庫

      這是數(shù)據(jù)挖掘中非常重要也非常復雜的一步。首先,要進行數(shù)據(jù)收集和集成,其次,要對數(shù)據(jù)進行描述和整合。數(shù)據(jù)主要有四個方面的來源:客戶信息、客戶行為、生產系統(tǒng)和其他相關數(shù)據(jù)。這些數(shù)據(jù)通過抽取、轉換和裝載,形成數(shù)據(jù)倉

      庫,并通過 OLAP 和報表,將客戶的整體行為結果分析等數(shù)據(jù)傳遞給數(shù)據(jù)庫用戶。3.選擇合適的數(shù)據(jù)挖掘工具 如果從上一步的分析中發(fā)現(xiàn),所要解決的問題能用數(shù)據(jù)挖掘比較好地完成,那么需要做的第三步就是選擇合適的數(shù)據(jù)挖掘技術與方法。將所要解決的問題轉 化成一系列數(shù)據(jù)挖掘的任務。數(shù)據(jù)挖掘主要有五種任務:分類,估值預測,關聯(lián) 規(guī)則,聚集,描述。前三種屬于直接的數(shù)據(jù)挖掘。在直接數(shù)據(jù)挖掘中,目標是應 用可得到的數(shù)據(jù)建立模型,用其它可得到的數(shù)據(jù)來描述感興趣的變量。后兩種屬 于間接數(shù)據(jù)挖掘。在間接數(shù)據(jù)挖掘中,沒有單一的目標變量,目標是在所有變量 中發(fā)現(xiàn)某些聯(lián)系。4.建立模型 建立模型是選擇合適的方法和算法對數(shù)據(jù)進行分析,得到一個數(shù)據(jù)挖掘模型 的過程。一個好的模型沒必要與已有數(shù)據(jù)完全相符,但模型對未來的數(shù)據(jù)應有較 好的預測。需要仔細考察不同的模型以判斷哪個模型對所需解決的問題最有用。如決策樹模型、聚類模型都是分類模型,它們將一個事件或對象歸類?;貧w是通 過具有已知值的變量來預測其它變量的值。時間序列是用變量過去的值來預測未 來的值。這一步是數(shù)據(jù)挖掘的核心環(huán)節(jié)。建立模型是一個反復進行的過程,它需 要不斷地改進或更換算法以尋找對目標分析作用最明顯的模型,最后得到一個最 合理、最適用的模型。5.模型評估 為了驗證模型的有效性、可信性和可用性,從而選擇最優(yōu)的模型,需要對模 型進行評估。我們可以將數(shù)據(jù)中的一部分用于模型評估,來測試模型的準確性,模型是否容易被理解模型的運行速度、輸入結果的速度、實現(xiàn)代價、復雜度等。模型的建立和檢驗是一個反復的過程,通過這個階段階段的工作,能使數(shù)據(jù)以用 戶能理解的方式出現(xiàn),直至找到最優(yōu)或較優(yōu)的模型。6.部署和應用 將數(shù)據(jù)挖掘的知識歸檔和報告給需要的群體,根據(jù)數(shù)據(jù)挖掘發(fā)現(xiàn)的知識采取 必要的行動,以及消除與先前知識可能存在的沖突,并將挖掘的知識應用于應用 系統(tǒng)。在模型的應用過程中,也需要不斷地對模型進行評估和檢驗,并做出適當 的調整,以使模型適應不斷變化的環(huán)境。參考文獻: [1]羅納德.S.史威福特.客戶關系管理[M].楊東龍譯.北京:中國經(jīng)濟 出版社,2002 [2]馬剛:客戶關系管理[M]大連:東北財經(jīng)大學出版社,2008

      第三篇:數(shù)據(jù)挖掘技術在圖書采購中的應用初探.專題

      數(shù)據(jù)挖掘技術在圖書采購中的應用初探 湖南理工學院圖書館 張 暉

      [摘 要]數(shù)據(jù)挖掘是一種新的信息技術,在許多行業(yè)有著廣泛的應用。高校圖書館同樣可以成為其應用的一個領域。在圖書采購中,可以應用數(shù)據(jù)挖掘技術來提高采購的效率和針對性。

      [關鍵詞]數(shù)據(jù)挖掘 高校圖書館 圖書采購

      計算機網(wǎng)絡與數(shù)據(jù)庫技術的發(fā)展和廣泛應用,信息日益成為企業(yè)的一種重要資源,人們利用信息技術生產和搜集數(shù)據(jù)的能力大幅度提高,在這些數(shù)據(jù)背后隱藏著極為重要的商業(yè)知識,但是這些商業(yè)知識是隱含的、事先未知的。面對“人們被數(shù)據(jù)淹沒,人們卻饑餓于知識”的挑戰(zhàn),數(shù)據(jù)挖掘技術應運而生,越來越顯示出其強大的生命力。

      1數(shù)據(jù)挖掘技術概述

      數(shù)據(jù)挖掘(D ata M in ing是一種新的信息處理技術,其主要特點是對單位、企業(yè)數(shù)據(jù)庫中的大量業(yè)務數(shù)據(jù)進行抽取、轉換、分析和其他模型化處理,以從中提取輔助管理決策的關鍵性數(shù)據(jù)。數(shù)據(jù)挖掘就是從大量的、不完全的、有噪聲的、模糊的、隨機的數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程。數(shù)據(jù)挖掘是一門交叉學科,它把人們對數(shù)據(jù)的應用從低層次的簡單查詢,提升到從數(shù)據(jù)中挖掘知識,提供決策支持。常用的數(shù)據(jù)挖掘技術主要有以下幾種: 1.1人工神經(jīng)網(wǎng)絡

      仿照生理神經(jīng)網(wǎng)絡結構的非線性預測模型,主要由“神經(jīng)元”的互聯(lián),或按層組織的節(jié)點構成,通常由輸入層、中間層和輸出層三個層次組成,在每個神經(jīng)元求得輸入值后,再匯總計算輸入值;由過濾機制比較輸入值,確定網(wǎng)絡的輸出值。

      1.2決策樹

      決策樹是一個類似流程圖的樹型結構,其中每個內部節(jié)點表示在一個屬性上的測試,每個分枝代表1個測試輸出,而每個樹葉點代表類或類分布。樹的最頂層節(jié)點是根節(jié)點。目前,在數(shù)據(jù)挖掘中使用的決策樹方法有多種,典型的在國際上影響較大的決策樹方法是Q n in lan研制的I D3算法。

      1.3遺傳算法

      遺傳算法是模擬生物進化過程的計算模型,是自然遺傳學與計算機科學相互結合滲透的計算方法。遺傳分析應用搜索技術,先找出兩個合適的父樣本,通過“交叉”“變異”等帶有生物遺傳特點的操作產生下一代樣本,對子樣本反復“交叉”“變異”操作直到子樣本收斂為此,再找另外兩個合適的父樣本重復上述過程,就能得到下一代的樣本集。由此得到當前樣本集較可能的發(fā)展方向。

      1.4近鄰算法

      用該方法進行預測的基本概念就是相互之間“接近”的對象具有相似的預測值。如果知道其中一個對象的預測值后,可以預測其最近的鄰居對象。

      1.5規(guī)則推導

      根據(jù)統(tǒng)計意義上對數(shù)據(jù)中的規(guī)則“如果條件怎么樣、怎么樣,那么結果或情況就怎么樣”,對給定的一組項目和一個記錄集合,通過分析記錄集合,推導出項目間的相關性。

      1.6聚類方法

      聚類分析方法按一定的距離或相似性測度將數(shù)據(jù)分成系列相互區(qū)分的組,它是不需要預定義知識而直接發(fā)現(xiàn)一些有意義的結構與模式??刹捎猛負浣Y構分析、空間緩沖區(qū)及距離分析、覆蓋分析等方法,旨在發(fā)現(xiàn)目標在空間上的相連、相鄰和共生等關聯(lián)關系。

      1.7可視化技術

      可視化技術在數(shù)據(jù)挖掘過程中的數(shù)據(jù)準備階段是非常重要的,它能夠幫助人們進行快速直觀地分析數(shù)據(jù)。利用可視化方法,很容易找到數(shù)據(jù)之間可能存在的模式、關系和異常情況等。

      2高校圖書館可以成為數(shù)據(jù)挖掘技術的應用領域

      目前,在很多領域,數(shù)據(jù)挖掘都是一個很時髦的詞,尤其是在銀行、電信、保險、交通、零售(如超級市場等商業(yè)領域。同樣,數(shù)據(jù)挖掘技術在高校圖書館中的應用,將為圖書館在數(shù)字資源的組織和管理、服務質量的提升和服務方式的拓展等方面提供技術支持,并顯示出強大的生命力。高校圖書館可以成為數(shù)據(jù)挖掘技術的應用領域,理由如下: 2.1高校圖書館管理的需要

      在信息化社會中,圖書館的生存與發(fā)展和先進技術的運用是密不可分的。目前,高校圖書館利用的信息管理系統(tǒng)可以高效地實現(xiàn)傳統(tǒng)圖書館信息管理中的數(shù)據(jù)的錄入、查詢、統(tǒng)計、流通借閱等功能,相對于從前的手工加工管理時代,可以說是一次飛躍,但圖書情報部門的工作仍然主要是對信息的載體進行管理,以提供信息的外在特征服務為主,無法發(fā)現(xiàn)數(shù)據(jù)中存在的關系和規(guī)則,無法根據(jù)現(xiàn)有的數(shù)據(jù)預測未來的發(fā)展趨勢。高校圖書館作為學術性、科研性、服務性機構,在高等教育中承擔著重要角色,特別是在向數(shù)字化圖書館轉型過程中,迫切需要應用分類、回歸分析、聚類、關聯(lián)規(guī)則、特征、變化和偏差分析、W eb網(wǎng)頁挖掘等技術手段對信息進行深加工,以推動圖書館業(yè)務與管理的全面進步。運用數(shù)據(jù)挖掘技術,實現(xiàn)海量數(shù)據(jù)的存儲和利用,支持圖書館各種層次的科學決策,促進圖書館管理的發(fā)展。

      2.2圖書館物質基礎的形成

      在現(xiàn)代科學技術推動下,高校圖書館正朝著自動化、數(shù)字化和信息化的方向發(fā)展。一方面,我國的圖書館系統(tǒng)經(jīng)過多年的自動化建設,已具備相當?shù)奈镔|條件和人才儲備,并積累了大量數(shù)據(jù),為數(shù)據(jù)挖掘應用奠定了一定的物質基礎。另一方面,圖書

      館的數(shù)字化發(fā)展是我國信息化建設的重要組成部分,國家對此給予了高度的重視并提供了大量政策上和經(jīng)濟上的支持,為行業(yè)

      — 8 5 1 —

      性數(shù)據(jù)挖掘的實施提供了良好的政策環(huán)境和經(jīng)濟保障。2.3實現(xiàn)技術的成熟

      數(shù)據(jù)挖掘在經(jīng)過多年的發(fā)展之后已經(jīng)形成相對成熟的技術體系,特別是在數(shù)據(jù)挖掘設計、數(shù)據(jù)抽取以及聯(lián)機分析處理技術等方面都取得了令人滿意的進展,為數(shù)據(jù)挖掘的應用奠定了技術基礎。另外,數(shù)據(jù)挖掘技術在發(fā)達國家的電信、制造、零售、金融等領域已有較深程度的應用,并取得了巨大的回報,這些成功應用的例子為我們提供了可資借鑒的寶貴經(jīng)驗。

      3應用數(shù)據(jù)挖掘技術開展圖書采購工作

      目前,國際上已經(jīng)將圖書館的信息服務納入了電子商務之中,數(shù)據(jù)挖掘技術不僅在商業(yè)界倍受青睞,它在現(xiàn)代化圖書館中的應用前景也十分廣闊,而圖書采購則是數(shù)據(jù)挖掘技術在高校圖書館應用中的一個典型領域。基于數(shù)據(jù)挖掘技術的圖書采購策略的基本思路是:利用計算機圖書管理數(shù)據(jù)庫積累的圖書借閱流通資料,利用數(shù)據(jù)挖掘技術得到讀者借閱頻率較高的圖書類型的關鍵詞、出版社、編著者信息,考慮缺書比例較大的圖書,依此決定采購策略。

      3.1讀者信息資源的收集

      采訪部門職能發(fā)揮的好壞關系到圖書館資金及資源利用率的高低,如何采購高質量的書刊是圖書館工作的重中之重。因此,準確地定位讀者對象的需求就成為提高資源利用率的一個主要因素。根據(jù)流通數(shù)據(jù)庫的集成數(shù)據(jù)進行數(shù)據(jù)挖掘,能夠得到讀者對圖書資源的使用頻率表,對讀者進行分類的同時對適合不同類別的讀者的圖書資源進行聚類,可以快速而精確地得到訂書單。通過收集整理圖書館網(wǎng)站上的在線調查、留言簿等數(shù)據(jù),或是設計讀者調查表,包括讀者的基本情況、閱讀興趣、查閱資料的途徑及對國內外文獻資源的需求情況等,將這些元數(shù)據(jù)轉化為標準的結構化數(shù)據(jù)庫,利用數(shù)據(jù)挖掘方法分析讀者行為傾向,發(fā)現(xiàn)用戶興趣模式,就能動態(tài)的調整采購策略,有針對性地應對需求。

      3.2確定采購的重點

      圖書館每年的文獻購置費是有限的,各門學科之間如何分配、各種文獻載體形式如何均衡才能使這些經(jīng)費最好地發(fā)揮效益,這是一件令人頭疼的事。隨著出版物的數(shù)量日益增多,載體日益豐富,高校圖書館信息結構、讀者需求與資金利用的平衡問題越來越不易把握,也令采購工作的決策變得更加復雜。數(shù)據(jù)挖掘技術可以對流通數(shù)據(jù)庫和采訪數(shù)據(jù)庫中的歷史記錄數(shù)據(jù)進行關聯(lián)性分析和序列分析,可以輕松地統(tǒng)計出文獻的拒借集合和頻繁借閱集合,科學分析各類文獻的利用率,為采購文獻提供科學合理的各種分析報告及預測信息,從而指導采訪人員對文獻種類進行科學地篩選,合理地確定各種文獻所需的復本量,及時補充短缺的文獻,剔除過時的文獻,幫助采購人員確定采購重點,保障圖書館信息資源體系的科學性和合理性。

      3.3訂購渠道的管理

      圖書訂購是圖書館采訪部門的主要工作,它是圖書館工作鏈的開端,也是現(xiàn)代化圖書館資源建設的開始。傳統(tǒng)圖書館的訂購信息大多來源于出版社和書商,信息量有限,這樣會導致重復訂購和館藏資源不足的矛盾現(xiàn)象出現(xiàn)。隨著信息技術的發(fā)展,圖書訂購渠道已呈現(xiàn)多樣化,包括專家訂書、光盤檢索、電子文獻、借閱數(shù)據(jù)庫查詢等。通過數(shù)據(jù)挖掘技術可以為圖書采購提供科學的、合理的分析和預測,從而實

      現(xiàn)訂購渠道的管理,選擇合適的訂購渠道,為圖書館節(jié)省可貴的經(jīng)費,買到最適用的圖書。

      3.4確定圖書的學科比例

      圖書館要全面兼顧不同類型的讀者,考慮各個學科內容的完整搭配組合。即使最近一段時間武俠小說非常流行,也不能全部只購買武俠小說。大學的圖書館必須結合學校的專業(yè)設置,為各個專業(yè)的教學科研配備參考書,不能顧此失彼。應當結合館藏圖書的學科專業(yè)分布、發(fā)展趨勢以及現(xiàn)有藏書量,控制不同學科的圖書占總采購金額的比例。對于館藏數(shù)量少,而根據(jù)發(fā)展趨勢急需加強的學科需要擴大比例。通過流通、采訪系統(tǒng)數(shù)據(jù)進行如關聯(lián)性分析、序列分析等挖掘方法得到的結果,可以分析出文獻的利用率,及時補充短缺的文獻,剔除過時的文獻信息,為采購文獻提供科學合理的各種分析報告及預測信息,指導采訪人員對購書的種類、所需復本數(shù)量等進行科學的篩選,優(yōu)化館藏結構,合理確定各學科的圖書比例。

      3.5采購經(jīng)費的管理

      傳統(tǒng)圖書館信息采集多由專門采訪人員獨自確定或與少數(shù)專家商討決定,不可避免的帶有極大的主觀性以及個人喜好;而且圖書館每年的文獻購置費是有限的,各門學科之間如何分配,各種文獻載體形式如何均衡才能使這些經(jīng)費最好地發(fā)揮效益,這是一件令人頭疼的事。而運用數(shù)據(jù)挖掘技術可以通過對圖書館的借閱流通記錄、檢索請求進行分析、挖掘,有針對性的補充和豐富信息資源,并可以籍此分析出文獻的利用率,從而實現(xiàn)采購經(jīng)費的合理管理,區(qū)分輕重緩急,“好鋼用在刀刃上”。

      參考文獻

      [1]王向輝等.數(shù)據(jù)挖掘技術及其在決策支持系統(tǒng)中的應用[J]計算技術與自動化,2004(4 [2]陳瑞雪.數(shù)據(jù)倉儲與數(shù)據(jù)挖掘技術在現(xiàn)代化圖書館中的應用[J].圖書館學研究,2004(11

      [3]張存祿等.數(shù)據(jù)挖掘在圖書采購中的應用[J].情報科學,2004(5 [4]劉曉東.數(shù)據(jù)挖掘在圖書館工作中的應用[J].情報雜志,2005(8 [5]鮑翠梅等.數(shù)據(jù)挖掘技術及其在圖書館中的應用[J].情報雜志,2004(9 — 9 5 1 —

      第四篇:關于數(shù)據(jù)挖掘在出口退稅中的應用

      關于數(shù)據(jù)挖掘在出口退稅中的應用引言

      出口貨物退(免)稅,簡稱 出口退稅,其基本含義是一個國家或地區(qū)對已報送離境的出口貨物,由稅務機關將其在出口前的生產和流通的各環(huán)節(jié)已經(jīng)繳納的國內產品稅、增值稅、營業(yè)稅和特別消費稅等間接稅稅款退還給出口企業(yè)的一項稅收制度。出口退稅 主要是通過退還出口貨物的國內已納稅款來平衡國內產品的稅收負擔,使本國產品以不含稅成本進入國際市場,與國外產品在同等條件下進行競爭,從而增強競爭能力,擴大出口創(chuàng)匯[1]。

      我國從1985年開始,全面地實行了 出口退稅 政策,并從1995年開始全面實行電子化管理,它是全國稅務系統(tǒng)第一個全面推廣應用的稅收管理軟件,是金關工程和金稅工程的一個子系統(tǒng),在強化出口退稅管理,提高出口退稅工作效率,防范和打擊騙稅上發(fā)揮了巨大的作用[2]。但是,目前的出口退稅電子化管理只完成了出口退稅業(yè)務的電子化操作,還未在決策的電子化方面取得較大進展。經(jīng)過十多年的發(fā)展,積累了大量涉稅信息,如何將這些“歷史的、靜態(tài)的”數(shù)據(jù)變成動態(tài)的、具有分析決策性質的信息已成為當前急需研究的課題[3],數(shù)據(jù)挖掘技術的出現(xiàn)使這種應用成為現(xiàn)實。出口退稅數(shù)據(jù)挖掘的目的和基本方法

      現(xiàn)行的出口退稅電子化管理主要是通過出口企業(yè)把申報退稅的信息通過出口退稅申報系統(tǒng)錄入計算機并生成申報數(shù)據(jù),然后再經(jīng)過出口退稅審核系統(tǒng)把企業(yè)申報的出口退稅憑證的電子信息與稅務機關接收到的其他部門(征稅機關、海關 和外管)傳來的憑證信息進行比對,以達到審核出口退稅憑證的合法性和真實性的目的,進而根據(jù)比對審核通過的數(shù)據(jù)進行退稅??梢钥闯?,目前的出口退稅電子化管理只側重了出口退稅的 單證 信息的計算機審核,而對于挖掘審核通過的 單證 信息和各部門傳遞來的電子信息的價值方面存在著很大的不足。隨著金稅二期網(wǎng)絡建設的推動,各省現(xiàn)已基本實現(xiàn)了出口退稅數(shù)據(jù)的省級大集中[4],這些數(shù)據(jù)都是各出口退稅部門在日常的業(yè)務審核中積累下來的數(shù)據(jù),十分寶貴,如何充分發(fā)揮其應有的作用,已成為人們研究的熱點。1

      數(shù)據(jù)挖掘的目的就是分析出口企業(yè)的出口退稅數(shù)據(jù),挖掘這些數(shù)據(jù)與經(jīng)濟的內在聯(lián)系,全面掌握本地區(qū)出口退稅的產品結構、出口的貿易方式、出口產品的地區(qū)差異等,對于調整一個地區(qū)的產業(yè)結構、經(jīng)濟發(fā)展方向以及制定經(jīng)濟發(fā)展戰(zhàn)略有著重要的參考價值;對于稅務機關掌握出口企業(yè)的實際生產出口情況,培養(yǎng)稅源,打擊偷稅漏稅和防范出口騙稅等方面有著重要的意義。

      對于出口退稅部門在日常的業(yè)務審核中積累下來的數(shù)據(jù)進行挖掘,主要是指在了解和掌握具體納稅人生產經(jīng)營情況和財務數(shù)據(jù)的基礎上,對納稅人的稅收經(jīng)濟關系和稅收繳納狀況進行客觀評價和說明的分析,主要是通過對歷史數(shù)據(jù)進行縱橫比較分析和邏輯關系稽核來進行挖掘,以指導稅收管理工作。

      1)橫向比較分析

      橫向比較分析是指同一指標在不同個體、單位、地區(qū)之間的比較分析。橫向比較分析最典型的分析例子就是同業(yè)稅負分析。受市場均衡作用的影響,同一產品在生產技術工藝、原材料能源消耗方面有相近之處,適用稅收政策有統(tǒng)一的要求,因此反映生產成本費用方面的指標有相同的規(guī)律特征??偨Y這種規(guī)律特征,以此檢驗個體數(shù)據(jù)指標的表現(xiàn),找出差異較大的個體予以預警。

      2)縱向比較分析

      縱向比較分析或歷史數(shù)據(jù)分析是指同一個體的同一指標在不同歷史時期的數(shù)據(jù)比較分析。常用的分析方法有趨勢分析和變動率分析。分析的理論依據(jù)是大多情況下企業(yè)的生產經(jīng)營是處于一種相對平穩(wěn)的狀態(tài),不會出現(xiàn)突然的波動或大起大落現(xiàn)象。因此,如果企業(yè)生產能力沒有作大的調整,一般情況下企業(yè)各個時期的數(shù)據(jù)指標彼此接近,不會出現(xiàn)大的差異。如果出現(xiàn)較大差異,應引起主管部門的注意,及時進行相關的納稅評估。

      3)數(shù)據(jù)邏輯關系稽核

      受會計核算原理的約束和稅收制度規(guī)定的制約,反映納稅人生產經(jīng)營情況和財務狀況的眾多數(shù)據(jù)指標之間存在非常嚴謹?shù)?、相互依存的邏輯關系。這種邏輯關系決定了企業(yè)的納稅申報數(shù)據(jù)必須滿足企業(yè)財務數(shù)據(jù)相關性的特定要求,檢查這些數(shù)據(jù)邏輯關系是否吻合,可以鑒別企業(yè)申報數(shù)據(jù)的真實性和合理性,從而發(fā)現(xiàn)稅收問題,堵塞征管漏洞。出口退稅數(shù)據(jù)挖掘的功能

      數(shù)據(jù)挖掘通過預測未來趨勢及行為,做出前攝的、基于知識的決策。數(shù)據(jù)挖掘的目標是從數(shù)據(jù)庫中發(fā)現(xiàn)隱含的、有意義的知識,主要有以下五類功能:

      1)趨勢預測

      數(shù)據(jù)挖掘自動在大型數(shù)據(jù)庫中尋找預測性信息,以往需要進行大量手工分析的問題如今可以迅速直接由數(shù)據(jù)本身得出結論。出口退稅數(shù)據(jù)挖掘的預測趨勢是對納稅人特定稅收指標、經(jīng)濟指標或稅收經(jīng)濟關系指標一段時期走勢和趨向的分析和推斷,了解和掌握稅收經(jīng)濟的發(fā)展趨勢,有利于判斷未來出口退稅形勢的好壞,使出口退稅做到心中有數(shù)。

      趨勢預測的兩個基本要求是說明特定指標的發(fā)展方向和變化幅度,基礎分析技術是時間序列分析技術,常用說明指標有變動率和平均變化速度等。

      2)關聯(lián)分析

      數(shù)據(jù)關聯(lián)是數(shù)據(jù)庫中存在的一類重要的可被發(fā)現(xiàn)的知識。若兩個或多個變量的取值之間存在某種規(guī)律性,就稱為關聯(lián)。關聯(lián)可分為簡單關聯(lián)、時序關聯(lián)、因果關聯(lián)。關聯(lián)分析的目的是找出數(shù)據(jù)庫中隱藏的關聯(lián)網(wǎng)。有時并不知道數(shù)據(jù)庫中數(shù)據(jù)的關聯(lián)函數(shù),即使知道也是不確定的,因此關聯(lián)分析生成的規(guī)則帶有可信度。

      在出口退稅評估工作中,可以利用企業(yè)財務報表、納稅申報表和出口退稅匯總表等各項數(shù)據(jù)指標之間的相互邏輯關系進行核算檢查,對于不滿足應有邏輯計算關系的內容,即認為破壞了會計核算或稅款計征關系,均應視為異常做進一步的深入分析。由于企業(yè)財務指標和出口退稅申報數(shù)據(jù)有上百條之多,所以與此相關的邏輯計算關系也會在此基礎上更為豐富和復雜,只有通過關聯(lián)分析,才有可能在出口退稅申報環(huán)節(jié)實現(xiàn)實時的出口退稅評估工作。

      3)聚類分析

      聚類分析是數(shù)理統(tǒng)計的一個分支,是運用事物本身所具有的某種數(shù)據(jù)特征,遵循“物以類聚”規(guī)律進行數(shù)據(jù)處理,為事物的分類管理提供數(shù)據(jù)支持的一種分析方法。借用這種方法開展稅收分析,可將具有某種稅收共同特征的事物聚集在一起,使我們更清楚地認識稅收征管工作的分類特征。

      聚類分析的基本原理是根據(jù)數(shù)據(jù)指標差異的絕對距離進行分類,結合矩陣分析技術,可以進行多指標的綜合特征分析,為復雜事物的分類提供了一種可行的分析方法。聚類分析的關鍵是找到一組關系密切的相關指標,如退稅增長、稅源增長、退稅變化彈性和出口影響等,均可以利用這一分析技術進行綜合分析和技術處理。

      4)差異分析

      數(shù)據(jù)庫中的數(shù)據(jù)常有一些異常記錄,從數(shù)據(jù)庫中檢測這些差異很有意義。差異包括很多潛在的知識,如分類中的反常實例、不滿足規(guī)則的特例、觀測結果與模型預測值的偏差、量值隨時間的變化等。

      差異分析的基本方法是測算不同樣本同一指標的差異程度。差異分析的關鍵是建立評價差異的標準,有了標準才能說明差異的影響程度。表示差異程度可以用絕對值,也可以建立參照系用相對值。應用差異分析開展微觀稅收分析的典型分析案例就是同業(yè)稅負分析模型。應用同業(yè)稅負分析模型可以測算出各項相關指標的客觀水平和樣本離散狀況,以此為標準比對個別檢驗樣本的具體數(shù)值,超出差異允許界限的即為預警對象。

      5)波動分析

      波動分析是描述稅收事物運行變化平穩(wěn)性的分析。稅收事物的運行受經(jīng)濟變化影響、稅收制度規(guī)定的約束和現(xiàn)有征管環(huán)境制約有其自身客觀的規(guī)律。在經(jīng)濟

      運行相對平穩(wěn)、稅制不變的條件下,稅收事物運行平穩(wěn)與否,直接反映稅收征管情況的影響作用。因此,開展波動分析,一定程度上可以了解和說明退稅管理的表現(xiàn),反映退稅管理是否能按稅源的發(fā)展變化規(guī)律同步開展,監(jiān)督退稅管理的執(zhí)行情況。出口退稅數(shù)據(jù)挖掘的實現(xiàn)

      出口退稅數(shù)據(jù)挖掘應用系統(tǒng)由三部分組成:第一部分是由用戶數(shù)據(jù)源到中央數(shù)據(jù)庫的ETL過程;第二部分是根據(jù)出口退稅業(yè)務模型建立業(yè)務智能分析模型;第三部分是面向稅收管理人員進行數(shù)據(jù)的發(fā)布和多維分析工作。基本結構如圖1所示。

      數(shù)據(jù)的ETL(Extract-Transform-Load,數(shù)據(jù)抽取、轉換、裝載)過程采用微軟的SSIS(SQL Server Integration Services)來完成數(shù)據(jù)預處理階段對于原始數(shù)據(jù)的轉換、清洗加載過程;中央數(shù)據(jù)庫采用微軟的SQL Server 2005,SQL Server 2005除了提供一個安全、可靠和高效的數(shù)據(jù)管理平臺之外,它還是一個企業(yè)級數(shù)據(jù)整合平臺,通過SSIS提供了構建企業(yè)級ETL應用程序所需的功能和性能,是一個集成的商業(yè)智能平臺,通過Analysis Services提供了統(tǒng)一和集成的商業(yè)數(shù)據(jù)視圖,可被用做所有傳統(tǒng)報表、OLAP分析、關鍵績效指標(KPI)記分卡和數(shù)據(jù)挖掘的基礎。

      SQL Server 2005分析服務提供了數(shù)據(jù)挖掘服務,支持集成其它個人或者企業(yè)的DM算法,并且將DM算法集成的復雜度不斷降低,它主要是基于OLE DB for DM規(guī)范,使用靈活。開發(fā)人員能夠利用數(shù)據(jù)挖掘功能開發(fā)應用程序,其數(shù)據(jù)挖掘語言非常類似于SQL,數(shù)據(jù)挖掘供應者是一個開放系統(tǒng),因為它是OLE DB的一個部件,數(shù)據(jù)挖掘服務能夠通過DSO(Decision Support Object)、或ADO可包含在任何用戶應用程序中。將DM算法無縫集成到SQL Server的分析服務中,利用集成的DM算法來構建數(shù)據(jù)挖掘解決方案是一種理想的方式。

      在SQL Server 2005數(shù)據(jù)挖掘平臺中,創(chuàng)建關系型挖掘模型的語法如下:

      Create mining model()using

      它類似于建立一個關系表,其中包括輸入、預測屬性,每一個模型與一個數(shù)據(jù)挖掘算法相關聯(lián)。

      多維數(shù)據(jù)分析工具和報表工具使用統(tǒng)一空間模型UDM(Unified Dimensional Model),利用UDM中對業(yè)務實體的友好描述、等級導航、多視角、自動平滑 翻譯 為本機語言等功能,可以實現(xiàn)出口退稅數(shù)據(jù)挖掘過程中所得到的結果集的友好展示。結束語

      隨著數(shù)據(jù)倉庫技術的發(fā)展,數(shù)據(jù)挖掘會越來越發(fā)揮其獨到的分析優(yōu)勢,特別是將挖掘出的新知識通過用基于OLAP的決策支持系統(tǒng)加以驗證、結合,可以更好地為決策者服務。出口退稅管理的電子化系統(tǒng)已經(jīng)積累了大量的業(yè)務數(shù)據(jù),可以為數(shù)據(jù)挖掘提供大量數(shù)據(jù),數(shù)據(jù)倉庫和數(shù)據(jù)挖掘技術在收稅管理具有廣闊的應用前景。

      第五篇:數(shù)據(jù)挖掘在房地產營銷中的應用

      文章摘要:信息資源的分析、整合在房地產行業(yè)的競爭中起著越來越重要的作用。數(shù)據(jù)挖掘作為一種系統(tǒng)地檢查和理解大量數(shù)據(jù)的工具,能有效地幫助房地產企業(yè)從不斷積累與更新的數(shù)據(jù)中提取有價值的信息。因此,數(shù)據(jù)挖掘被引入到房地產市場研究領域,并日益受到重視。本文從數(shù)據(jù)挖掘在房地產行業(yè)中的市場研究價值入手,分析了數(shù)據(jù)挖掘在房地產市場研究尤其是客戶信息中的應用,并加以舉例說明。關鍵詞:數(shù)據(jù)挖掘 關聯(lián)分析 分類

      一、房地產行業(yè)需要數(shù)據(jù)挖掘技術的支持

      隨著房地產行業(yè)競爭的加劇,房地產企業(yè)要想在競爭中制勝,必然需要充分的信息支持和準確的市場判斷。房地產行業(yè)擁有大量的數(shù)據(jù)積累,包括行業(yè)信息、經(jīng)濟環(huán)境信息、客戶信息等。這些數(shù)據(jù)是房地產企業(yè)市場運作的重要參考。面對快速增長的海量數(shù)據(jù)收集,企業(yè)需要有力的數(shù)據(jù)分析工具將“豐富的數(shù)據(jù)”轉換成“有價值的知識”,否則大量的數(shù)據(jù)將成為“數(shù)據(jù)豐富,但信息貧乏”的“數(shù)據(jù)墳墓”。

      數(shù)據(jù)挖掘(Data Mining)是從大量數(shù)據(jù)中發(fā)現(xiàn)潛在關聯(lián)、模式,做出預測性分析的有效工具,它是現(xiàn)有的一些人工智能、統(tǒng)計學等技術在數(shù)據(jù)庫領域中的應用。應用數(shù)據(jù)挖掘有助于發(fā)現(xiàn)業(yè)務發(fā)展的趨勢,揭示已知的事實,預測未知的結果,并幫助企業(yè)分析出解決問題所需要的關鍵因素,使企業(yè)處于更有利的競爭位置。

      二、數(shù)據(jù)挖掘在房地產行業(yè)的應用

      1.數(shù)據(jù)挖掘的概念

      對于企業(yè)的海量信息存儲,數(shù)據(jù)挖掘是一種系統(tǒng)地檢查和理解大量數(shù)據(jù)的工具。數(shù)據(jù)挖掘根據(jù)預定義的商業(yè)目標,對大量的企業(yè)數(shù)據(jù)進行探索和分析,揭示其中隱含的商業(yè)規(guī)律,并進一步生成相應的分析、預測模型。

      數(shù)據(jù)挖掘發(fā)現(xiàn)的是以前未知的、可理解的、可執(zhí)行的信息,所以也被稱為“知識發(fā)現(xiàn)”(Knowledge Discovery in Databases)。與統(tǒng)計分析技術相比,數(shù)據(jù)挖掘技術能很好地和數(shù)據(jù)庫技術相結合,而且數(shù)據(jù)挖掘工具用以發(fā)現(xiàn)數(shù)據(jù)中隱含的商業(yè)規(guī)律的方法已不局限于統(tǒng)計技術,還包括神經(jīng)網(wǎng)絡、遺傳算法、自組織圖、神經(jīng)模糊系統(tǒng)等統(tǒng)計學科以外的方法。數(shù)據(jù)挖掘發(fā)現(xiàn)的“知識”一方面可以用于構建預測模型,另一方面可以被用于豐富統(tǒng)計分析師的背景知識,再被統(tǒng)計分析師應用到數(shù)據(jù)分析中。

      數(shù)據(jù)挖掘任務一般可以分兩類:描述和預測。描述性挖掘任務刻劃數(shù)據(jù)庫中數(shù)據(jù)的一般特性。預測性挖掘任務在當前數(shù)據(jù)上進行推斷,以進行預測。具體來講,數(shù)據(jù)挖掘主要用于解決以下幾種不同事情:

      (1)關聯(lián)分析(Association analysis),是尋找屬性間的相關性。兩種常用的技術是關聯(lián)規(guī)則和序列模式。關聯(lián)規(guī)則是尋找在同一事件中出現(xiàn)的不同項的相關性,比如某個住宅項目的目標客戶對該項目各方面評價之間的相關性序列分析尋找的是事件之間時間上的相關性,如對股票漲跌、房地產周期的分析。

      (2)分類(Classification)和預測(Prediction)。分類根據(jù)某種標準將數(shù)據(jù)庫記錄分類到許多預先定義好的類別中。例如,將房地產企業(yè)客戶根據(jù)消費決策模式進行分類;同時可以建立預測模型,給定潛在客戶的收入、職業(yè)、家庭構成等個人屬性,預測他們在購房支出;如將房地產企業(yè)客戶分為潛在客戶、購買者和實際客戶。分類系統(tǒng)可以產生這樣的規(guī)則:“如果客戶可以并且愿意承擔每月2000元的月供,計劃在1年內在某地區(qū)買房,那么他/她是一個潛在客戶;如果客戶至少進行過一次業(yè)務訪問,那么他/她是一個購買者?!?/p>

      (3)聚類(Clustering)是把整個數(shù)據(jù)庫分成不同的群組。它的目的是要群與群之間差別明顯,而同一群之間的數(shù)據(jù)盡量相似。聚類與分類不同:分類之前已經(jīng)知道要把數(shù)據(jù)分成哪幾類,每個類的性質是什么;聚類則恰恰相反。

      (4)演變分析(evolution analysis)描述行為隨時間變化的對象的規(guī)律或趨勢,并對其建模。例如,結合人口構成變動趨勢、教育水平發(fā)展趨勢、社會經(jīng)濟發(fā)展趨勢進行房地產消費趨向的分析。

      (5)描述和可視化(Description and Visualization),對數(shù)據(jù)進行歸約、概化或圖形描述等。例如,通過空間聚集和近似計算對一些具體的地理位置概化聚類,形成對某區(qū)域的形象化描述。

      2.數(shù)據(jù)挖掘的市場研究價值

      數(shù)據(jù)挖掘技術在商業(yè)上實際應用十分豐富。應用數(shù)據(jù)挖掘技術,可以幫助房地產行業(yè)找出有價值的信息,十分有助于企業(yè)發(fā)現(xiàn)商機、制定開發(fā)計劃與營銷策略。對于房地產市場研究,數(shù)據(jù)挖掘可以應用于宏觀經(jīng)濟形勢研究、市場發(fā)展趨勢研究、樓盤供應研究、競爭對手研究、客戶研究。包括但不局限于以下幾個方面:

      (1)宏觀經(jīng)濟形勢研究——1)房地產周期時序分析中的相似搜索:可找出已有房地產周期數(shù)據(jù)庫中與給定查詢序列最接近的數(shù)據(jù)序列。比較識別兩個相似時間段間數(shù)據(jù)系列的主要差異,對房地產市場的宏觀分析很有參考價值。2)宏觀經(jīng)濟形勢研究——房地產周期一般性因素關聯(lián)分析:一般而言,房地產周期是影響不動產收益的一系列因素組成的總體概念。各因素均會對總體房地產周期起決定作用。關聯(lián)分析方法可用于幫助發(fā)現(xiàn)各因素和房地產周期間的交叉與聯(lián)系。

      (2)市場發(fā)展趨勢研究——1)銷售量的增長與人均可支配收入的回歸分析;2)個人購買與集團購買房地產比重的擬合與分析;3)對房地產銷售波動率的回歸分析。通過對市場總體狀況、市場占有率、發(fā)展水平等動態(tài)的分析、總結和評價,及時獲得準確數(shù)據(jù),輔助經(jīng)營決策。

      (3)樓盤供應研究——地理發(fā)展空間的多維分析:綜合人口住房條件及分布、土地利用現(xiàn)狀及政府規(guī)劃、交通現(xiàn)狀分布信息,通過聚集及層次化描述,發(fā)掘區(qū)域內需建立的高檔別墅、高、中、低檔公寓的數(shù)量及各自的地理位置和發(fā)展計劃。

      (4)客戶研究——客戶信息的多維關聯(lián)和序列模式分析:關聯(lián)分析可在客戶信息中發(fā)現(xiàn)客戶的消費行為模式,幫助營銷人員找出影響消費者的機會與方式。

      目前,專業(yè)市場研究公司對房地產行業(yè)的調研主要集中在客戶需求分析方面,并積累了一定的經(jīng)驗,因此,本文主要探討房地產客戶信息的數(shù)據(jù)挖掘。

      3.數(shù)據(jù)挖掘在房地產客戶研究中有著廣泛的應用

      房地產行業(yè)的客戶信息有許多特點,如下圖所示,一方面房地產行業(yè)面對的客戶群廣泛,而且客戶的特征描述的結構復雜,另一方面房地產客戶需求的層次不一,且易受外界因素影響,具有多層次性和多變性。

      對于復雜、多樣而且擅變的客戶信息,房地產行業(yè)客戶信息的數(shù)據(jù)挖掘有助于識別客戶購買行為,發(fā)現(xiàn)客戶購買模式和趨勢。從而,幫助房地產企業(yè)改進服務質量,取得更好的客戶關系和滿意程度,設計更好的營銷方案,減少商業(yè)成本。根據(jù)已有的數(shù)據(jù)挖掘經(jīng)驗,數(shù)據(jù)挖掘在房地產行業(yè)的應用可以歸納成以下幾個方面:

      4.明確商業(yè)目標

      三、如何在房地產行業(yè)應用數(shù)據(jù)挖掘技術

      應用數(shù)據(jù)挖掘的首要任務就是明確需要達到什么樣的商業(yè)目標,并描述出需要解決的問題。目標的描述應該細化、清楚,以便于選擇合適的挖掘方法,也方便檢測數(shù)據(jù)挖掘效果,判斷建立的模型的有效性。例如,下列目標是大而空的目標:獲得客戶行為的了解;在數(shù)據(jù)中發(fā)現(xiàn)有用的模型;發(fā)現(xiàn)一些有意思得東西。而另外一些目標有較強操作性:發(fā)現(xiàn)哪些客戶不受某種促銷手段的影響;找出項目封頂時哪類客戶成交率增加。

      5.數(shù)據(jù)準備

      基于數(shù)據(jù)挖掘的商業(yè)目標,提取所需要的數(shù)據(jù)。為了保證數(shù)據(jù)的質量,除了對數(shù)據(jù)進行必要地檢查和修正外,還需要考慮不同源之間數(shù)據(jù)的一致性問題。

      如果數(shù)據(jù)集包含過多的字段,需采用一定的方法找到對模型輸出影響最大的字段,適當?shù)臏p少輸入的字段。常用的方法包括:“描述型數(shù)據(jù)挖掘”、連結分析等。

      很多變量如果組合起來(加、減、比率等)會比這些變量自身影響力更大。一些變量如果擴大它的范圍會成為一個非常好的預測變量,比如用一段時間內收入變化情況代替一個單一的收入數(shù)據(jù)。因此,在數(shù)據(jù)準備階段需考慮是否創(chuàng)建一些新的變量。

      處理缺失數(shù)據(jù)也是數(shù)據(jù)準備階段的一個重要工作。有些缺值本身就非常有意義。例如:富有的顧客會忽略“收入”,或者不在乎價格的影響。

      6.建立模型

      建立模型是一個反復的過程。首先需要選擇適合解決當前問題的模型。對模型的選擇過程可能會啟發(fā)對數(shù)據(jù)的理解并加以修改,甚至改變最初對問題的定義。

      一旦選擇了模型的類型及應用的方法,所選擇的模型將決定對數(shù)據(jù)的預處理工作。例如,神經(jīng)網(wǎng)絡需要做數(shù)據(jù)轉換,有些數(shù)據(jù)挖掘工具可能對輸入數(shù)據(jù)的格式有特定的限制等。

      接下來是建立模型的工作。對于通過數(shù)據(jù)挖掘建立的模型需要有一定的數(shù)據(jù)來測試和驗證。對于預測性任務,需通過反復的測試、驗證、訓練,才能不斷提高模型的準確率。

      大部分數(shù)據(jù)挖掘模型不是專為解決某個問題而特制的,模型之間也并不相互排斥。不能說一個問題一定要采用某種模型,別的就不行。例如:Cart決策樹算法、神經(jīng)網(wǎng)絡既可以用于建立分類樹,也可建立回歸樹。

      7.輸出結果的評價和解釋

      模型建立好之后,必須評價其結果,解釋其價值。在實際應用中,模型的準確率會隨著應用數(shù)據(jù)的不同發(fā)生變化。但準確度自身并不一定是選擇模型的正確評價方法。對輸出結果的理解需要進一步了解錯誤的類型和由此帶來的相關費用的多少。如果模型每個不同的預測錯誤所需付出的代價(費用)也不同的話,代價最小的模型(而不一定是錯誤率最小的模型)將是較好的選擇。

      直接在現(xiàn)實世界中測試模型很重要。先在小范圍內應用,取得測試數(shù)據(jù),覺得滿意后再向大范圍推廣。

      8.實施

      模型在建立并經(jīng)驗證之后,可以有兩種主要的使用方法。一種是提供給分析人員做參考,由他通過查看和分析這個模型輸出,并做出解釋和方案建議;另一種是把模型應用到不同的數(shù)據(jù)集上。模型可以用來標示一個事例的類別,給一類客戶打分等,還可以用模型在數(shù)據(jù)庫中選擇符合特定要求的記錄,以用其他工具做進一步分析。

      在應用模型之后,還要不斷監(jiān)控模型的效果。即使模型的運用很成功,也不能放棄監(jiān)控。因為事物在不斷發(fā)展變化,很可能過一段時間之后,隨著購買方式、消費觀點的變化,模型就不再起作用。因此隨著模型使用時間的增加,要不斷的對模型做重新測試,有時甚至需要更新建立模型。

      四、應用舉例:基于客戶分類的關聯(lián)分析

      1.商業(yè)目標

      為了更詳盡地了解客戶的消費決策,本案例設計的問題是:“給客戶分類,并了解不同類的客戶有什么特點?”針對此類問題挖掘出的結果可以被用于預測性分析,例如預測客戶最傾向于做出哪種購買行為。2.數(shù)據(jù)準備

      本案例中采用某一時點上的房地產消費者需求抽樣調查,取出描述消費者個人屬性和消費特點的字段。

      3.建立模型

      (1)對數(shù)據(jù)進行分類

      本案例中由購房者選擇最多五個自己在購房決策過程中比較看重的因素,并以總評分100分為前提給出每個因素的看重程度的評分。

      案例得到的抽樣數(shù)據(jù)顯示,盡管地理位置是影響一個房地產項目定位的重要因素,人們對地理位置的看重程度仍有較大的差異。因此,以客戶對地理位置的關注程度為分類標準,構建了一個簡單的決策樹。決策樹中根據(jù)購房者對地理位置的看重程度,將購房者分為:地理位置決定型、地理位置重要參考型、地理位置參考型、地理位置不重要型、地理位置無關型五種類型。下表是應用決策樹得到的客戶分類結果。從各客戶群評分的均值和標準差可以看出,各客戶群具有較好的組內相似性和組間差異性,說明所構建的決策樹的分類結果比較理想,可用于進一步的分析。

      (2)關聯(lián)分析運用關聯(lián)分析的目的是尋找數(shù)據(jù)庫中值的相關性。本例采用基于興趣度的關聯(lián)規(guī)則挖掘算法,挖掘每類客戶不同屬性間的相關性。經(jīng)過挖掘,發(fā)現(xiàn)一些值得深入探討的關聯(lián),見下表:

      注:a)支持率反映了關聯(lián)是否是普遍存在的規(guī)律。例如:支持率=5%,表示在1000個客戶中有50個客戶符合關聯(lián)規(guī)則描述。

      b)可信度反映了關聯(lián)規(guī)則前提成立的條件下結果成例的概率。本例中,可信度=15%可以解釋為,對應的客戶群中有15個人符合關聯(lián)規(guī)則的描述。

      c)興趣度反映了關聯(lián)規(guī)則中元素的關系的密切程度。興趣度越大于1說明該規(guī)則中的元素的關系越密切,該規(guī)則的實際利用價值越大。

      d)最小支持度閾值、最小可信度和最小興趣度的閾值可以由用戶和領域專家設定。此例中以支持度>3.5%,可信度>15%,興趣度>2為閾值。

      上表中列出的關聯(lián)規(guī)則均有較高的支持率、可信度和興趣度。為了更加準確地挖掘關聯(lián)規(guī)則。對挖掘出的關聯(lián)規(guī)則更換因果關系,形成新的關聯(lián)規(guī)則與之進行對比。如下例:

      關聯(lián)規(guī)則A1:地理位置無關型客戶=≥重視物業(yè)管理

      支持率=9.7% 可信度=30.3% 興趣度=2.4與

      關聯(lián)規(guī)則B1:重視物業(yè)管理 =≥地理位置無關型客戶

      支持率=9.7% 可信度=76.9% 興趣度=2.4

      對比兩個關聯(lián)規(guī)則將發(fā)現(xiàn),“重視物業(yè)管理的人不關心地理位置”的可能性(76.9%)高于“不關心地理位置的人重視物業(yè)管理”的可能性(30.3%)。說明關聯(lián)規(guī)則B1:重視物業(yè)管理=≥地理位置無關型客戶是一條更有意義的關聯(lián)規(guī)則。

      其他被發(fā)掘的關聯(lián)也可以通過類似的比較,進行深一步的挖掘。在此不再全部做出詳細分析。從本例挖掘出的信息可以看到,如果僅依賴于已有行業(yè)經(jīng)驗進行統(tǒng)計分析,往往會因為分析人員的主觀性或者數(shù)據(jù)量太大難以實施而存在信息提取的局限性。而通過數(shù)據(jù)挖掘得到的信息,一方面能彌補直接應用統(tǒng)計分析時的局限性,開拓分析人員的思維,豐富分析人員的行業(yè)背景知識;另一方面可以通過反復的驗證、機器學習建立模型,直接成為分析人員的分析、預測的工具。

      需要說明:

      a)本案例的目的在于說明數(shù)據(jù)挖掘算法的應用價值,得到的結果僅供參考,并不作為定論,而且數(shù)據(jù)挖掘的結果需要由行業(yè)內的商業(yè)分析人員判斷:是否真的具有意義,是否有進一步分析、探討的價值。也就是說數(shù)據(jù)挖掘作為信息提取的工具,其輸出是決策分析的參考,不能代替行業(yè)內商業(yè)分析人員的分析工作。

      b)案例中的數(shù)據(jù)挖掘作為方法應用的探討,如要生成一個可操作的模型工具還需足夠的數(shù)據(jù)集支持進行測試、驗證、訓練才能不斷提高模型的準確率。

      c)本案例中解決問題的方法不是唯一的,可能應用其他的分類手段、分類標準能得到更好的結果。具體方法的應用要取決于實施人員的建模能力、行業(yè)經(jīng)驗。也就是說,數(shù)據(jù)挖掘對人員有較高的要求。數(shù)據(jù)挖掘的人員不僅要有良好的統(tǒng)計概念、建模能力,還要懂得基本的商業(yè)和行業(yè)概念。

      五、房地產行業(yè)數(shù)據(jù)挖掘的應用前景

      隨著IT/Internet等新技術發(fā)展,市場研究在房地產行業(yè)的應用已經(jīng)不再局限于數(shù)據(jù)采集和簡單的歸納、數(shù)據(jù)分析。更高的決策服務是建立在更大量的“數(shù)據(jù)——信息——知識”的基礎上的,因此數(shù)據(jù)挖掘、商業(yè)智能等概念與技術的引入促進了數(shù)據(jù)挖掘在房地產行業(yè)的應用。與此同時,隨著房地產企業(yè)數(shù)據(jù)挖掘應用的深入,數(shù)據(jù)、數(shù)據(jù)挖掘的任務和數(shù)據(jù)挖掘方法的多樣性將給數(shù)據(jù)挖掘提出了許多挑戰(zhàn)性的課題。例如:

      1、應用地理信息系統(tǒng)(GIS)尋求數(shù)據(jù)挖掘過程中的可視化方法,使得知識發(fā)現(xiàn)的過程能夠被用戶理解,也便于在知識發(fā)現(xiàn)過程中的人機交互。

      2、web挖掘:由于web上存在大量信息,隨著web的發(fā)展,有關web內容挖掘、web日志挖掘等網(wǎng)絡上的數(shù)據(jù)挖掘將成為數(shù)據(jù)挖掘中一個最為重要和繁榮的應用領域。房地產公司的企業(yè)形象宣傳、營銷、客戶維護等工作都將離不開網(wǎng)絡,也必然將需要web挖掘數(shù)據(jù)支持。

      下載數(shù)據(jù)挖掘技術在信用卡業(yè)務中的應用案例分享[五篇模版]word格式文檔
      下載數(shù)據(jù)挖掘技術在信用卡業(yè)務中的應用案例分享[五篇模版].doc
      將本文檔下載到自己電腦,方便修改和收藏,請勿使用迅雷等下載。
      點此處下載文檔

      文檔為doc格式


      聲明:本文內容由互聯(lián)網(wǎng)用戶自發(fā)貢獻自行上傳,本網(wǎng)站不擁有所有權,未作人工編輯處理,也不承擔相關法律責任。如果您發(fā)現(xiàn)有涉嫌版權的內容,歡迎發(fā)送郵件至:645879355@qq.com 進行舉報,并提供相關證據(jù),工作人員會在5個工作日內聯(lián)系你,一經(jīng)查實,本站將立刻刪除涉嫌侵權內容。

      相關范文推薦

        淺談數(shù)據(jù)挖掘技術及其在高等學校教學中的應用教育論文

        關鍵詞:數(shù)據(jù)挖掘 高校教學 教育信息化摘要:數(shù)據(jù)挖掘技術目前在商業(yè)、金融業(yè)等方面都得到了廣泛的應用,而在教育領域應用較少。本文通過時數(shù)據(jù)挖掘在高校教學中的應用分析,認為......

        大數(shù)據(jù)時代下數(shù)據(jù)挖掘技術的應用

        摘要:大數(shù)據(jù)時代是信息時代的一個重要特征,實際上,在大數(shù)據(jù)時代的背景下進行數(shù)據(jù)挖掘技術的探究與應用其實就是通過在巨大的信息群中不斷挖掘出具有一定價值意義的信息進行整合......

        大數(shù)據(jù)時代下數(shù)據(jù)挖掘技術與應用

        大數(shù)據(jù)時代下數(shù)據(jù)挖掘技術與應用 【摘要】人類進入信息化時代以后,短短的數(shù)年時間,積累了大量的數(shù)據(jù),步入了大數(shù)據(jù)時代,數(shù)據(jù)技術也就應運而生,成為了一種新的主流技術。而研究數(shù)......

        數(shù)據(jù)挖掘在企業(yè)競爭情報系統(tǒng)中的應用

        數(shù)據(jù)挖掘在企業(yè)競爭情報系統(tǒng)中的應用摘要:本文主要概述了數(shù)據(jù)挖掘技術的發(fā)展歷史和研究現(xiàn)狀。并將數(shù)據(jù)挖掘技術在企業(yè)競爭情報系統(tǒng)中的應用狀況分別從國內和國外兩方面作了介......

        數(shù)據(jù)挖掘在培訓管理中的應用論文

        1、引言對很多培養(yǎng)機構而言,目前急需解決的問題主要有:如何根據(jù)不同成員需求設置合理的課程、如何通過教學方式提高成員學習積極性、如何提高成員培訓效果、如何通過考核檢驗......

        數(shù)據(jù)挖掘電子商務應用中調研報告[合集]

        調研報告 調研題目: :關于數(shù)據(jù)挖掘在電子商務中 應用得調研報告 指導老師: :學生姓名: 學號: 西安交通大學軟件學院6 2016 年 年 3 3 月 月 2 2 1日關于數(shù)據(jù)挖掘在電子商務中應......

        數(shù)據(jù)挖掘在情報信息方面的應用

        數(shù)據(jù)挖掘在情報信息方面的應用 [ 標簽:數(shù)據(jù)挖掘, 情報信息 ] 歐陽烽 2011-07-14 12:57 滿意答案 呵呵,這個我舉個例子來說明:四人幫那時候,新聞標題都是毛主席說什么什么,后面會......

        大數(shù)據(jù)技術在電子商務物流集成應用案例[范文模版]

        大數(shù)據(jù)技術在電子商務 物流集成中應用案例 摘要:本文以亞馬遜為例,結合大數(shù)據(jù)技術及電子商務行業(yè)的發(fā)展現(xiàn)狀,分析了大數(shù)據(jù)技術手段,并通過分析亞馬遜在物流集成方面對大數(shù)據(jù)技術......