第一篇:基于Spark的大數(shù)據(jù)精準(zhǔn)營(yíng)銷中搜狗搜索引擎的用戶畫(huà)像挖掘
基于Spark的大數(shù)據(jù)精準(zhǔn)營(yíng)銷中搜狗搜索引擎的用戶畫(huà)像挖掘
近期參加了CCF舉辦的“大數(shù)據(jù)精準(zhǔn)營(yíng)銷中搜狗用戶畫(huà)像挖掘”競(jìng)賽,最終得到復(fù)賽第32名。正好這學(xué)期《機(jī)器學(xué)習(xí)與數(shù)據(jù)挖掘》課程需要一個(gè)實(shí)驗(yàn)報(bào)告的大作業(yè),于是就那它來(lái)寫(xiě)了。本博文會(huì)在這幾周不斷的完善更新ing
1.選題背景與意義
1.1 用戶畫(huà)像與精準(zhǔn)營(yíng)銷
“用戶畫(huà)像”是近幾年誕生的名詞。很多營(yíng)銷項(xiàng)目或很多廣告主,在打算投放廣告前,都要求媒體提供其用戶畫(huà)像。在以前,大多媒體會(huì)針對(duì)自身用戶做一個(gè)分類,但是有了大數(shù)據(jù)后,企業(yè)及消費(fèi)者行為帶來(lái)一系列改變與重塑,通過(guò)用戶畫(huà)像可以更加擬人化的描述用戶特點(diǎn)。
用戶畫(huà)像,即用戶信息標(biāo)簽化,就是企業(yè)通過(guò)收集與分析消費(fèi)者社會(huì)屬性、生活習(xí)慣、消費(fèi)行為等主要信息的數(shù)據(jù)之后,完美地抽象出一個(gè)用戶的商業(yè)全貌,可以看作是企業(yè)應(yīng)用大數(shù)據(jù)技術(shù)的基本方式。用戶畫(huà)像為企業(yè)提供了足夠的信息基礎(chǔ),能夠幫助企業(yè)快速找到精準(zhǔn)用戶群體以及用戶需求等更為廣泛的反饋信息。
消費(fèi)方式的改變促使用戶迫切希望盡快獲取自己想要了解的信息,所以說(shuō),基于用戶畫(huà)像上的精準(zhǔn)營(yíng)銷不管對(duì)企業(yè)還是對(duì)用戶來(lái)說(shuō),都是有需求的,這會(huì)給雙方交易帶來(lái)極大便捷,也為雙方平等溝通搭建了一個(gè)暢通平臺(tái)。
1.2 搜索引擎下用戶畫(huà)像的挑戰(zhàn)
在搜索引擎下,由于搜索引擎本身使用方式的特殊性、用戶的流動(dòng)性、查詢的實(shí)時(shí)性等,帶來(lái)了與企業(yè)傳統(tǒng)的對(duì)用戶信息進(jìn)行收集與分析有著巨大的不同、更加艱巨的挑戰(zhàn)。
例如,我們實(shí)時(shí)獲取到的是用戶的查詢語(yǔ)句,而由于用戶的流動(dòng)性,并不能直接獲取到如年齡、性別、學(xué)歷等用戶的標(biāo)簽信息。這么一來(lái),也就無(wú)法根據(jù)用戶屬性對(duì)用戶進(jìn)行分群處理,而后再通過(guò)推薦系統(tǒng)進(jìn)行產(chǎn)品上的優(yōu)化
1.3 本文內(nèi)容概要
本文內(nèi)容概要如下:
第1章:簡(jiǎn)介用戶畫(huà)像與搜索引擎下用戶畫(huà)像的精準(zhǔn)營(yíng)銷的挑戰(zhàn)。第2章:說(shuō)明實(shí)驗(yàn)集群、數(shù)據(jù)與課題研究目標(biāo)。
第3章:介紹使用分詞工具對(duì)用戶的搜索詞列進(jìn)行分詞,以及相關(guān)的優(yōu)化方案。第4章:介紹在分詞的基礎(chǔ)上,對(duì)文本進(jìn)行特征的抽取與轉(zhuǎn)換,以及相關(guān)的優(yōu)化方案。第5章:介紹在原始特征向量上,進(jìn)行聚類與降維。第6章:介紹實(shí)驗(yàn)中試驗(yàn)過(guò)各分類模型 第7章:介紹模型參數(shù)調(diào)優(yōu)
第8章:總結(jié)本課題研究中不足與展望后續(xù)的優(yōu)化方案 第9章:參考文獻(xiàn) 2.課題實(shí)驗(yàn)準(zhǔn)備
2.1 Spark集群
節(jié)點(diǎn) cdh01 cdh02 cdh03 cdh04 備注
8核,32G內(nèi)存,角色:Spark Master,HDFS NameNode,Spark Worker,HDFS DataNode 8核,12G內(nèi)存,角色:Spark Worker,HDFS DataNode 8核,12G內(nèi)存,角色:Spark Worker,HDFS DataNode 8核,12G內(nèi)存,角色:Spark Worker,HDFS DataNode 2.2 數(shù)據(jù)集
數(shù)據(jù)文件 備注
Train.csv 帶標(biāo)注的訓(xùn)練集 Test.csv 測(cè)試集 2.3 數(shù)據(jù)介紹
本數(shù)據(jù)來(lái)源于搜狗搜索數(shù)據(jù),ID經(jīng)過(guò)加密,訓(xùn)練集中人口屬性數(shù)據(jù)存在部分未知的情況(需要解決方案能夠考慮數(shù)據(jù)缺失對(duì)算法性能的影響)。數(shù)據(jù)所有字段如下表所示:
字段 ID age 說(shuō)明 加密后的ID 0:未知年齡;1:0-18歲;2:19-23歲;3:24-30歲;4:31-40歲;5:41-50歲;6: 51-999歲
Gender 0:未知1:男性2:女性
Education 0:未知學(xué)歷;1:博士;2:碩士;3:大學(xué)生;4:高中;5:初中;6:小學(xué) Query List 搜索詞列表 2.4 數(shù)據(jù)示例
對(duì)于train.csv中的數(shù)據(jù)記錄:
00627779E16E7C09B975B2CE13C088CB 4 2 0 鋼琴曲欣賞100首 一個(gè)月的寶寶眼睫毛那么是黃色 寶寶右眼有眼屎 小兒抽搐怎么辦 剖腹產(chǎn)后刀口上有線頭 屬羊和屬雞的配嗎 2.5 課題任務(wù)描述
根據(jù)提供的用戶歷史一個(gè)月的查詢?cè)~與用戶的人口屬性標(biāo)簽(包括性別、年齡、學(xué)歷)做為訓(xùn)練數(shù)據(jù),通過(guò)機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘技術(shù)構(gòu)建分類算法來(lái)對(duì)新增用戶的人口屬性進(jìn)行判定。
3.查詢?cè)~分詞
3.1 NLPIR
NLPIR漢語(yǔ)分詞系統(tǒng)(又名ICTCLAS2013),主要功能包括中文分詞;詞性標(biāo)注;命名實(shí)體識(shí)別;用戶詞典功能;支持GBK編碼、UTF8編碼、BIG5編碼。新增微博分詞、新詞發(fā)現(xiàn)與關(guān)鍵詞提?。粡埲A平博士先后傾力打造十余年,內(nèi)核升級(jí)10次。
全球用戶突破20萬(wàn),先后獲得了2010年錢(qián)偉長(zhǎng)中文信息處理科學(xué)技術(shù)獎(jiǎng)一等獎(jiǎng),2003年國(guó)際SIGHAN分詞大賽綜合第一名,2002年國(guó)內(nèi)973評(píng)測(cè)綜合第一名。
我們傳入每個(gè)用戶的搜索詞列,表經(jīng)過(guò)NLPIR分詞工具得到的分詞。之后,我們做個(gè)進(jìn)一步的優(yōu)化策略:
3.1.1 去停用詞
我們根據(jù)分詞后詞語(yǔ)所帶的詞性,對(duì)一些特征代表性不夠強(qiáng)的詞語(yǔ)進(jìn)行過(guò)濾:
for(int i = 0;i < sbtmp.length();++i){
char cc = sbtmp.charAt(i);
if(cc == ' '){
sbtmp.deleteCharAt(i);
--i;
} else if(cc == '/'){
// 去詞條件
Boolean isdel =
// 1.去標(biāo)點(diǎn)
(i + 1 < sbtmp.length()&& sbtmp.charAt(i + 1)== 'w')
// 2.疑問(wèn)詞
||(i + 2 < sbtmp.length()&& sbtmp.charAt(i + 1)== 'r'
&& sbtmp.charAt(i + 2)== 'y')
// 3.數(shù)字
||(i + 1 < sbtmp.length()&& sbtmp.charAt(i + 1)== 'm')
// 4.連詞
||(i + 1 < sbtmp.length()&& sbtmp.charAt(i + 1)== 'c')
// 5.副詞
||(i + 1 < sbtmp.length()&& sbtmp.charAt(i + 1)== 'd')
// 6.嘆詞
||(i + 1 < sbtmp.length()&& sbtmp.charAt(i + 1)== 'e')
// 7.擬聲詞
||(i + 1 < sbtmp.length()&& sbtmp.charAt(i + 1)== 'o')
// 8.介詞
||(i + 1 < sbtmp.length()&& sbtmp.charAt(i + 1)== 'p')
// 9.量詞
||(i + 1 < sbtmp.length()&& sbtmp.charAt(i + 1)== 'q')
// 10.助詞
||(i + 1 < sbtmp.length()&& sbtmp.charAt(i + 1)== 'u')
// 11.純動(dòng)詞
||(i + 2 < sbtmp.length()&& sbtmp.charAt(i + 1)== 'v'
&& sbtmp.charAt(i + 2)== ' ');
// 去詞
if(sbtmp.charAt(i + 1)!= 'n' && sbtmp.charAt(i + 1)!= 'i' && sbtmp.charAt(i + 1)!= 'j'
&& sbtmp.charAt(i + 1)!= 'h'
&&!(i + 2 < sbtmp.length()&& sbtmp.charAt(i + 2)== 'n')){
while(i + 1 < sbtmp.length()&& sbtmp.charAt(i + 1)!= ' '){
sbtmp.deleteCharAt(i + 1);
}
while(i >= 0 && sbtmp.charAt(i)!= ','){
sbtmp.deleteCharAt(i);
--i;
}
}
// 若無(wú)需去詞,把‘/’轉(zhuǎn)為‘,’,并去除隨后的詞性標(biāo)志
else {
sbtmp.setCharAt(i, ',');
while(sbtmp.charAt(i + 1)!= ' '){
sbtmp.deleteCharAt(i + 1);
}
}
}
}
for(int i = 1;i < sbtmp.length()1)== ',' || sbtmp.charAt(i + 1)== ',')){
sbtmp.deleteCharAt(i);
--i;
}
// 去中間單個(gè)字
else if(sbtmp.charAt(i1);
sbtmp.deleteCharAt(i1] == Y[j1][j1][j];
//刪除X第i個(gè)字符
t1 = t1 < dp[i][j1];
//刪除Y第j個(gè)字符
t1 = t1 < dp[i1] ? t1 : dp[i1];//最后字符改相同
dp[i][j] = t1 + 1;
這里我們所使用的優(yōu)化方案為:
對(duì)整個(gè)訓(xùn)練集和測(cè)試集的搜索詞列做分詞后的詞頻統(tǒng)計(jì)表
對(duì)每個(gè)用戶的搜索詞列分詞后的各個(gè)詞與詞頻統(tǒng)計(jì)表各詞(排除前者自身)進(jìn)行編輯距離計(jì)算。得到詞頻統(tǒng)計(jì)表中編輯距離與該詞編輯距離最小詞,在這些詞中在選擇一個(gè)詞頻最高的詞將該詞替代。4.7 額外增加數(shù)據(jù)量
在大數(shù)據(jù)時(shí)代背景下,只要數(shù)據(jù)量足夠的大,反而我們所選用的不同的算法模型對(duì)最終的預(yù)測(cè)準(zhǔn)確率的影響會(huì)變小,獲取更多數(shù)據(jù)會(huì)使模型更完善更準(zhǔn)確。我們這里用不同方案所得到的分詞結(jié)果,人為的增加訓(xùn)練集的數(shù)據(jù)。如將10萬(wàn)條記錄的訓(xùn)練集進(jìn)行NLPIR分詞得到結(jié)果,與進(jìn)行”結(jié)巴”提取關(guān)鍵詞得到的結(jié)果拼接,就將訓(xùn)練集記錄人為的翻倍了。后續(xù)的分類實(shí)驗(yàn)中證明了,使用該方案,在模型相同的情況下,相比原來(lái)會(huì)有1%左右的準(zhǔn)確率的提升。
5.聚類與降維
2009年結(jié)束的Nexfix競(jìng)賽表明,很多參數(shù)團(tuán)隊(duì)用到的高等矩陣因子分解對(duì)模型提高預(yù)測(cè)準(zhǔn)確略非常有幫助。模型使用矩陣因子分解方法從特征矩陣中抽取一組潛在的屬性,并通過(guò)這些屬性來(lái)描述用戶。20世紀(jì)80年代后期,利用潛在的”語(yǔ)義”屬性的思想被成功的應(yīng)用于信息檢索領(lǐng)域。Deerwesteret al.在1990年提出使用奇異值分解(SVD)方法發(fā)現(xiàn)文檔中的潛在的屬性。[2]而本課題在實(shí)驗(yàn)中會(huì)使用到LDA方法。
5.1 LDA
隱含狄利克雷分配(LDA,Latent Dirichlet Allocation)是一種主題模型(Topic Model,即從所收集的文檔中推測(cè)主題)。甚至可以說(shuō)LDA模型現(xiàn)在已經(jīng)成為了主題建模中的一個(gè)標(biāo)準(zhǔn),是實(shí)踐中最成功的主題模型之一。那么何謂“主題”呢?,就是諸如一篇文章、一段話、一個(gè)句子所表達(dá)的中心思想。不過(guò)從統(tǒng)計(jì)模型的角度來(lái)說(shuō),我們是用一個(gè)特定的詞頻分布來(lái)刻畫(huà)主題的,并認(rèn)為一篇文章、一段話、一個(gè)句子是從一個(gè)概率模型中生成的。也就是說(shuō) 在主題模型中,主題表現(xiàn)為一系列相關(guān)的單詞,是這些單詞的條件概率。形象來(lái)說(shuō),主題就是一個(gè)桶,里面裝了出現(xiàn)概率較高的單詞(參見(jiàn)下面的圖),這些單詞與這個(gè)主題有很強(qiáng)的相關(guān)性。這里寫(xiě)圖片描述
LDA可以用來(lái)識(shí)別大規(guī)模文檔集或語(yǔ)料庫(kù)中潛藏的主題信息。它采用了詞袋的方法,這種方法將每一篇文檔視為一個(gè)詞頻向量,從而將文本信息轉(zhuǎn)化為了易于建模的數(shù)字信息。但是詞袋方法沒(méi)有考慮詞與詞之間的順序,這簡(jiǎn)化了問(wèn)題的復(fù)雜性,同時(shí)也為模型的改進(jìn)提供了契機(jī)。每一篇文檔代表了一些主題所構(gòu)成的一個(gè)概率分布,而每一個(gè)主題又代表了很多單詞所構(gòu)成的一個(gè)概率分布。
LDA可以被認(rèn)為是如下的一個(gè)聚類過(guò)程:
各個(gè)主題(Topics)對(duì)應(yīng)于各類的“質(zhì)心”,每一篇文檔被視為數(shù)據(jù)集中的一個(gè)樣本。
主題和文檔都被認(rèn)為存在一個(gè)向量空間中,這個(gè)向量空間中的每個(gè)特征向量都是詞頻(詞袋模型)
與采用傳統(tǒng)聚類方法中采用距離公式來(lái)衡量不同的是,LDA使用一個(gè)基于統(tǒng)計(jì)模型的方程,而這個(gè)統(tǒng)計(jì)模型揭示出這些文檔都是怎么產(chǎn)生的。5.1.1 模型訓(xùn)練
Spark API 參數(shù)介紹:
K:主題數(shù)量(或者說(shuō)聚簇中心數(shù)量)
maxIterations:EM算法的最大迭代次數(shù),設(shè)置足夠大的迭代次數(shù)非常重要,前期的迭代返回一些無(wú)用的(極其相似的)話題,但是繼續(xù)迭代多次后結(jié)果明顯改善。我們注意到這對(duì)EM算法尤其有效。,至少需要設(shè)置20次的迭代,50-100次是更合理的設(shè)置,取決于數(shù)據(jù)集。
docConcentration(Dirichlet分布的參數(shù)α):文檔在主題上分布的先驗(yàn)參數(shù)(超參數(shù)α)。當(dāng)前必須大于1,值越大,推斷出的分布越平滑。默認(rèn)為-1,自動(dòng)設(shè)置。topicConcentration(Dirichlet分布的參數(shù)β):主題在單詞上的先驗(yàn)分布參數(shù)。當(dāng)前必須大于1,值越大,推斷出的分布越平滑。默認(rèn)為-1,自動(dòng)設(shè)置。checkpointInterval:檢查點(diǎn)間隔。maxIterations很大的時(shí)候,檢查點(diǎn)可以幫助減少shuffle文件大小并且可以幫助故障恢復(fù)。
val lda=new LDA()
.setK(20)
.setOptimizer(“online”)
.setCheckpointInterval(10)
.setMaxIter(100)
val model=lda.fit(dataset_lpa)
5.1.2 模型評(píng)價(jià)
生成的model不僅存儲(chǔ)了推斷的主題,還包括模型的評(píng)價(jià)方法。模型的評(píng)價(jià)指標(biāo):logLikelihood,logPerplexity。logLikelihood越大越好,logPerplexity越小越好
val ll = model.logLikelihood(dataset_lpa)
val lp = model.logPerplexity(dataset_lpa)
用評(píng)價(jià)方法,在online 方法下,對(duì)setMaxIter進(jìn)行調(diào)參:
for(i<-Array(5,10,20,40,60,120,200,500)){
val lda=new LDA()
.setK(3)
.setTopicConcentration(3)
.setDocConcentration(3)
.setOptimizer(“online”)
.setCheckpointInterval(10)
.setMaxIter(i)
val model=lda.fit(dataset_lpa)
val ll = model.logLikelihood(dataset_lpa)
val lp = model.logPerplexity(dataset_lpa)
println(s“$i $ll”)
println(s“$i $lp”)}
可以看到,logPerplexity在減小,LogLikelihood在增加,最大迭代次數(shù)需要設(shè)置50次以上,才能收斂:
5.1.3 對(duì)語(yǔ)料的主題進(jìn)行聚類
val topicsProb=model.transform(dataset_lpa)
topicsProb.select(“l(fā)abel”, “topicDistribution”)show(false)
/**
+-----++
|label|topicDistribution
|
+-----++
|0.0 |[0.***,0.***147,0.***77] |
|1.0 |[0.***3,0.***623,0.***]
|
|2.0 |[0.***7,0.***417,0.***]
|
...*/
label是文檔序號(hào),文檔中各主題的權(quán)重,我們可以將該DataFrame帶入后續(xù)的分類器中,進(jìn)行訓(xùn)練。
5.1.4 其他聚類與降維
Spark在基于RDD的MLlib中還提供了SVD、PCA的降維方法,而基于DataFrame的聚類方法還包括k-means、Bisecting k-means和Gaussian Mixture,其中Gaussian Mixture提供的API類似與LDA,可以直接為我們返回文檔中各主題的權(quán)重,以便于后續(xù)的分類。但是由于LDA在主題聚類上的典型性,我們的課題實(shí)驗(yàn)只試驗(yàn)了LDA的方案
第二篇:外呼銷售精準(zhǔn)營(yíng)銷數(shù)據(jù)挖掘模型
? OB實(shí)現(xiàn)精準(zhǔn)營(yíng)銷需要建立的數(shù)據(jù)挖掘模型
第一:模型橫向
1、會(huì)員定性:通過(guò)對(duì)會(huì)員姓名,性別,年齡,購(gòu)買(mǎi)商品,購(gòu)買(mǎi)時(shí)間,購(gòu)買(mǎi)金額,商品品類等數(shù)據(jù)。得出客戶的購(gòu)買(mǎi)習(xí)慣,購(gòu)買(mǎi)能力,會(huì)員粘稠度。得出會(huì)員屬性列表。
2、商品定位:通過(guò)同緯度得出商品銷售生命周期,商品毛利,商品消費(fèi)群等。通過(guò)此信息策劃OB商品。建立商品地圖。
3、行銷:根據(jù)現(xiàn)有銷售數(shù)據(jù)庫(kù),分析各維度數(shù)據(jù)。得出針對(duì)不同時(shí)間,客戶,商品使用不同行銷活動(dòng)對(duì)營(yíng)銷的影響,參考此模型制定行銷策略并預(yù)估營(yíng)銷效果。
第二:縱向:
1、業(yè)務(wù)需求分析:分析客戶購(gòu)買(mǎi)特性和購(gòu)買(mǎi)記錄,支撐營(yíng)銷策劃。根據(jù)現(xiàn)有公司銷售要求,針對(duì)什么客戶進(jìn)行營(yíng)銷。包括“促銷方案分析及評(píng)估”,“個(gè)性化商品”,“營(yíng)銷方案及有效化”,“促銷敏感性和目標(biāo)”等
2、數(shù)據(jù)準(zhǔn)備和轉(zhuǎn)化:為支撐相關(guān)業(yè)務(wù)要求,銷售和客戶數(shù)據(jù)能準(zhǔn)確,全面精準(zhǔn)與業(yè)務(wù)匹配;另外能將相關(guān)數(shù)據(jù)按照數(shù)據(jù)庫(kù)要求及時(shí)歸類。
3、會(huì)員屬性選擇:根據(jù)業(yè)務(wù)要求能精準(zhǔn)找到會(huì)員屬性。符合相關(guān)方案要求。
4、建立會(huì)員模型:按照會(huì)員姓名,性別,年齡,購(gòu)買(mǎi)商品,購(gòu)買(mǎi)時(shí)間,購(gòu)買(mǎi)金額,商品品類,行銷活動(dòng)使用等數(shù)據(jù)等維度建立會(huì)員模型。包括客戶模型,客單模型,積分模型,銷售明細(xì)模型,商品模型,付款模型。
5、模型評(píng)估:在建立會(huì)員模型之后需要測(cè)試業(yè)務(wù)需求分析,數(shù)據(jù)轉(zhuǎn)化,會(huì)員屬性定義,商品和行銷模型匹配。能進(jìn)行精準(zhǔn)的市場(chǎng)定位,包括“客戶價(jià)值及趨勢(shì)”,“客戶潛在價(jià)值及忠誠(chéng)度”,“客戶流失傾向”,“行銷活動(dòng)敏感度”,“客戶消費(fèi)傾向及消費(fèi)周期”,“客戶基本信息”評(píng)估。
第三:數(shù)據(jù)挖掘邏輯
1、分類問(wèn)題:對(duì)數(shù)據(jù)進(jìn)行分類,預(yù)測(cè)問(wèn)題類別。通過(guò)對(duì)多個(gè)數(shù)據(jù)源進(jìn)行分類,能夠?qū)?shù)據(jù)進(jìn)行歸類,并能通過(guò)數(shù)據(jù)分析發(fā)現(xiàn)問(wèn)題同時(shí)對(duì)問(wèn)題也能進(jìn)行分類。
2、聚類問(wèn)題:解決一群對(duì)象劃分不同類別的問(wèn)題。通過(guò)對(duì)不同的類型數(shù)據(jù)能統(tǒng)一和整理成一個(gè)類別。這是分總概念,通過(guò)匯總不同類別數(shù)據(jù)和問(wèn)題找到集中式解決方案。
3、關(guān)聯(lián)性問(wèn)題:upsell中的upsell和cross-sell。通過(guò)模型分析,幫助客戶尋找商品,為商品尋找合適客戶。分析出客戶的購(gòu)買(mǎi)周期和購(gòu)買(mǎi)特點(diǎn)找出客戶潛在需求針對(duì)性做關(guān)聯(lián)銷售和交叉銷售。
4、預(yù)測(cè)問(wèn)題:預(yù)測(cè)變量數(shù)據(jù)是否為連續(xù)型的情況。通過(guò)分類和聚類,能將數(shù)據(jù)模型中的數(shù)據(jù)和相關(guān)問(wèn)題進(jìn)行串聯(lián)。找到問(wèn)題的發(fā)展和變化趨勢(shì),預(yù)測(cè)問(wèn)題以幫助改進(jìn)銷售方案最終實(shí)現(xiàn)精準(zhǔn)營(yíng)銷。
OB-TEAM
第三篇:數(shù)據(jù)挖掘在保險(xiǎn)精準(zhǔn)營(yíng)銷中的應(yīng)用-開(kāi)題報(bào)告
全日制工學(xué)(工程)碩士學(xué)位論文開(kāi)題報(bào)告
課題來(lái)源及研究的目的和意義
1.1 課題來(lái)源
自選課題
1.2 選題價(jià)值及意義
大型的保險(xiǎn)公司已將數(shù)據(jù)挖掘應(yīng)用到保險(xiǎn)業(yè)務(wù)中,但由于應(yīng)用在保險(xiǎn)行業(yè)的分析模型不是很健全,目前在實(shí)際操作中一般都采用套用現(xiàn)成算法的方式,導(dǎo)致其結(jié)果不是特別的理想。數(shù)據(jù)挖掘不只是數(shù)據(jù)的組織和呈現(xiàn),而是一個(gè)從理解業(yè)務(wù)需求,尋求解決方案到接受實(shí)踐檢驗(yàn)的完整過(guò)程,過(guò)程中的每個(gè)階段都需要建立科學(xué)的方法。數(shù)據(jù)挖掘是精準(zhǔn)營(yíng)銷創(chuàng)造商業(yè)價(jià)值的關(guān)鍵,也應(yīng)該是精準(zhǔn)營(yíng)銷重要組成部分。
在保險(xiǎn)企業(yè)中,應(yīng)用數(shù)據(jù)挖掘有以下好處:從業(yè)務(wù)數(shù)據(jù)方面看,利用企業(yè)經(jīng)營(yíng)積累起來(lái)的海量數(shù)據(jù),經(jīng)過(guò)數(shù)據(jù)預(yù)處理等操作后,并最終挖掘出有用的信息、規(guī)則,用來(lái)幫助企業(yè)的管理者進(jìn)行正確的決策。站在未來(lái)的角度上看,數(shù)據(jù)挖掘通過(guò)對(duì)業(yè)務(wù)數(shù)據(jù)進(jìn)行研究與分析,可以預(yù)測(cè)出企業(yè)相關(guān)經(jīng)營(yíng)方面未來(lái)的發(fā)展趨勢(shì),基于對(duì)客戶群體進(jìn)行分類,推出滿足客戶需求的相關(guān)商業(yè)產(chǎn)品,并挖掘出潛在客戶群體等。另外,從目前的發(fā)展和運(yùn)用現(xiàn)狀來(lái)看,數(shù)據(jù)挖掘技術(shù)未來(lái)發(fā)展市場(chǎng)十分廣闊。而且數(shù)據(jù)挖掘技術(shù)與保險(xiǎn)企業(yè)商業(yè)問(wèn)題的結(jié)合也應(yīng)當(dāng)是一個(gè)必然的過(guò)程。隨著保險(xiǎn)企業(yè)自身經(jīng)營(yíng)管理的不斷完善,從海量的業(yè)務(wù)數(shù)據(jù)中,獲取有價(jià)值的信息和知識(shí),分析并研究客戶喜好及消費(fèi)行為特征,并推出適合客戶需求的產(chǎn)品,針對(duì)客戶進(jìn)行具體的營(yíng)銷,贏得市場(chǎng)地位,對(duì)于保險(xiǎn)企業(yè)來(lái)說(shuō),是未來(lái)快速發(fā)展、贏得企業(yè)生存的關(guān)鍵。因此,學(xué)習(xí)與運(yùn)用數(shù)據(jù)挖掘技術(shù),也是保險(xiǎn)企業(yè)未來(lái)人才培養(yǎng)的一個(gè)重要方面。
2.國(guó)內(nèi)外在該方向的研究現(xiàn)狀及分析
2.1 精準(zhǔn)營(yíng)銷國(guó)內(nèi)外現(xiàn)狀
精準(zhǔn)營(yíng)銷在國(guó)外發(fā)達(dá)國(guó)家已經(jīng)有幾十年的歷史,己經(jīng)成為各類型企業(yè)的常規(guī)營(yíng)銷方式。杰羅姆·麥卡錫(E.Jerome McCarthy)于1960年在其《基礎(chǔ)營(yíng)銷》(Basic Marketing)一書(shū)中第一次將企業(yè)的營(yíng)銷要素歸結(jié)四個(gè)基本策略的組合,即著名的“4P’s”理論:產(chǎn)品(Product)、價(jià)格(Price)、渠道(Place)、促銷(Promotion),由于這四個(gè)詞的英文字頭都是P,再加上策略(Strategy),所以簡(jiǎn)稱為“4P’s”。在1976年,“現(xiàn)在營(yíng)銷學(xué)之父” 菲利普·科特勒在其代表作《營(yíng)銷管理》進(jìn)一步確認(rèn)了以4P為核心的營(yíng)銷組合方法論。
全日制工學(xué)(工程)碩士學(xué)位論文開(kāi)題報(bào)告
1990年,美國(guó)學(xué)者羅伯特·勞朋特(RobertLauterborn)教授提出了與傳統(tǒng)營(yíng)銷的4P相對(duì)應(yīng)的4C營(yíng)銷理論。4C(Customer、Cost、Convenience、Communication)營(yíng)銷理論以消費(fèi)者需求為導(dǎo)向,重新設(shè)定了市場(chǎng)營(yíng)銷組合的四個(gè)基本要素:瞄準(zhǔn)消費(fèi)者的需求和期望(Customer)。首先要了解、研究、分析消費(fèi)者的需要與欲求,而不是先考慮企業(yè)能生產(chǎn)什么產(chǎn)品;消費(fèi)者所愿意支付的成本(Cost)??偟膩?lái)說(shuō),4C理論認(rèn)為,對(duì)現(xiàn)代企業(yè)來(lái)講,重視產(chǎn)品,更要重視顧客;追求成本,更要追求價(jià)格;提供消費(fèi)者的便利比營(yíng)銷渠道更重要;營(yíng)銷活動(dòng)不單純是在促銷,而是與客戶有效的溝通。4C理論以顧客的便利與滿意為企業(yè)營(yíng)銷的根基,企業(yè)必須從消費(fèi)者的角度出發(fā),為消費(fèi)者提供滿意的產(chǎn)品和服務(wù),才能在競(jìng)爭(zhēng)中立于不敗之地。
目前,最為流行的營(yíng)銷模式是3P3C,Probability(概率):營(yíng)銷、運(yùn)營(yíng)活動(dòng)以概率為核心,追求精細(xì)化和精準(zhǔn)率。Product(產(chǎn)品):注重產(chǎn)品功能,強(qiáng)調(diào)產(chǎn)品賣點(diǎn)。Prospects(消費(fèi)者,目標(biāo)用戶)。Creative(創(chuàng)意,包括文案、活動(dòng)等)。Channel(渠道)。Cost/Price(成本/價(jià)格)。而在這其中,以數(shù)據(jù)分析挖掘所支撐的目標(biāo)響應(yīng)概率(Probability)是核心,在此基礎(chǔ)上將會(huì)圍繞產(chǎn)品功能優(yōu)化,目標(biāo)用戶細(xì)分,活動(dòng)創(chuàng)意,渠道優(yōu)化,成本的調(diào)整等重要環(huán)節(jié)和要素,共同促進(jìn)數(shù)據(jù)化運(yùn)營(yíng)持續(xù)完善,甚至成功。
相對(duì)于發(fā)達(dá)國(guó)家,精準(zhǔn)營(yíng)銷在中國(guó)的發(fā)展起步較晚,但是發(fā)展速度非??臁H旮母镩_(kāi)放,中國(guó)營(yíng)銷經(jīng)歷了一個(gè)從“無(wú)到有”從“有到強(qiáng)”的過(guò)程;三十年市場(chǎng)營(yíng)銷的實(shí)踐磨練,中國(guó)企業(yè)積累了很多營(yíng)銷經(jīng)驗(yàn)、也培養(yǎng)了很多營(yíng)銷人才、形成了較為系統(tǒng)的營(yíng)銷理論,從整個(gè)大的層面還是積極的、卓有成效的。但是真正意義上的精準(zhǔn)營(yíng)銷在國(guó)內(nèi)的發(fā)展起步比較晚,中國(guó)企業(yè)對(duì)于數(shù)據(jù)庫(kù)營(yíng)銷的核心,包括“客戶識(shí)別”“客戶分析”“客戶互動(dòng)”“客戶體驗(yàn)”的數(shù)據(jù)庫(kù)營(yíng)銷專業(yè)領(lǐng)域,往往知之甚少,因此中國(guó)企業(yè)普遍較為缺少精準(zhǔn)營(yíng)銷的意識(shí),與這種現(xiàn)象在一定程度上也體現(xiàn)了精準(zhǔn)營(yíng)銷在中國(guó)發(fā)展的不成熟。2.2 數(shù)據(jù)挖掘國(guó)內(nèi)外現(xiàn)狀
在保險(xiǎn)業(yè)中,美國(guó)進(jìn)行數(shù)據(jù)挖掘系統(tǒng)研究最為著名的公司是艾克國(guó)際科技有限公司(AkuP),其研發(fā)的數(shù)據(jù)挖掘系統(tǒng)能夠提供前后端分析的完整功能,且可以做到對(duì)保險(xiǎn)客戶進(jìn)行一對(duì)一行銷(One to One Mar-keting)。總體上,其主要功能涵蓋了策略層、戰(zhàn)術(shù)層、執(zhí)行層,詳細(xì)包括保險(xiǎn)客戶的組成、成長(zhǎng)潛力、穩(wěn)定度,防患客戶流失、進(jìn)行客戶風(fēng)險(xiǎn)管理,幫助業(yè)務(wù)人員掌握客戶信息等。根據(jù)國(guó)外相關(guān)研究報(bào)告的數(shù)據(jù)顯示,數(shù)據(jù)挖掘在國(guó)際市場(chǎng)上的營(yíng)業(yè)份額已經(jīng)遠(yuǎn)遠(yuǎn)超過(guò)了數(shù)百億美元。在國(guó)外,保險(xiǎn)、零售、銀行等企業(yè)引入數(shù)據(jù)挖掘系統(tǒng)相關(guān)工具所占的比例最高,這些企業(yè)在成功引進(jìn)數(shù)據(jù)挖掘
全日制工學(xué)(工程)碩士學(xué)位論文開(kāi)題報(bào)告
工具以后,銷售營(yíng)業(yè)額、市場(chǎng)份額等相比以前都有大幅提升。因此,基于數(shù)據(jù)挖掘的應(yīng)用系統(tǒng)與工具也相繼延伸到國(guó)外各行各業(yè)的相關(guān)領(lǐng)域,發(fā)揮著其作用。
20世紀(jì)末,數(shù)據(jù)挖掘在進(jìn)入中國(guó)后,起先在證券業(yè)、銀行業(yè)得到廣泛的應(yīng)用與實(shí)踐,而保險(xiǎn)業(yè)是繼前二者之后,才逐漸引入數(shù)據(jù)挖掘進(jìn)行海量數(shù)據(jù)的分析與研究,隨后,采用信息化技術(shù)來(lái)提高各保險(xiǎn)公司的競(jìng)爭(zhēng)力也成為共識(shí)。國(guó)內(nèi)的多數(shù)企業(yè),為了追上這股浪潮,緊跟信息化革命的步伐,也投入了相當(dāng)大的人力、物力、財(cái)力等來(lái)引進(jìn)數(shù)據(jù)挖掘技術(shù)。特別是在我國(guó)的許多大型國(guó)有企業(yè)中,比如保險(xiǎn)、銀行、證券、電信等,這些企業(yè)都擁有海量的數(shù)據(jù)資源,且企業(yè)經(jīng)濟(jì)實(shí)力強(qiáng)大,行業(yè)規(guī)模擴(kuò)展快速等特點(diǎn),其在數(shù)據(jù)挖掘系統(tǒng)應(yīng)用方面已經(jīng)邁出了堅(jiān)實(shí)的一步.2.3數(shù)據(jù)挖掘在保險(xiǎn)精準(zhǔn)營(yíng)銷中的應(yīng)用
保險(xiǎn)領(lǐng)域的數(shù)據(jù)挖掘就是從保險(xiǎn)行業(yè)所積累的大量數(shù)據(jù)信息中,通過(guò)知識(shí)發(fā)現(xiàn)技術(shù),發(fā)掘感興趣的模式或知識(shí),來(lái)滿足保險(xiǎn)行業(yè)和監(jiān)管部門(mén)的應(yīng)用要求。數(shù)據(jù)挖掘技術(shù)在保險(xiǎn)精準(zhǔn)營(yíng)銷系統(tǒng)中所發(fā)揮的重要作用己經(jīng)逐漸被認(rèn)同。數(shù)據(jù)挖掘一開(kāi)始就是面向應(yīng)用而誕生的,所要涉及到的挖掘問(wèn)題主要分為以下倆類:
1.關(guān)聯(lián)問(wèn)題。關(guān)聯(lián)規(guī)則研究主要有兩個(gè)方向:一是在研究的問(wèn)題中,假定用戶購(gòu)買(mǎi)的所有產(chǎn)品是同時(shí)一次性購(gòu)買(mǎi)的,分析的重點(diǎn)就是所有用戶購(gòu)買(mǎi)的產(chǎn)品之間關(guān)聯(lián)性;二是序列問(wèn)題,即假定一個(gè)用戶購(gòu)買(mǎi)的產(chǎn)品的時(shí)間是不同的,而且分析時(shí)需要突出時(shí)間先后上的關(guān)聯(lián),這是關(guān)聯(lián)問(wèn)題的一種特殊情況。
2.分類問(wèn)題。分類問(wèn)題屬于預(yù)測(cè)性的問(wèn)題,但又區(qū)別于普通的預(yù)測(cè)問(wèn)題,其預(yù)測(cè)的結(jié)果是類別而不是具體的數(shù)值。例如:對(duì)客戶進(jìn)行分層,基于一個(gè)客戶的相關(guān)信息,判斷出他屬于哪一層的客戶,未來(lái)一段時(shí)間是否會(huì)購(gòu)買(mǎi)某類保險(xiǎn)?將來(lái)是否會(huì)成為保險(xiǎn)公司的高價(jià)值客戶?
圍繞保險(xiǎn)領(lǐng)域的不同需求,可將其歸納為:保險(xiǎn)產(chǎn)品的設(shè)計(jì)、營(yíng)銷方式創(chuàng)新。1.保險(xiǎn)產(chǎn)品設(shè)計(jì)。從保險(xiǎn)產(chǎn)品設(shè)計(jì)與開(kāi)發(fā)的角度出發(fā),分析對(duì)于保險(xiǎn)條款、保險(xiǎn)費(fèi)率具有重大影響的產(chǎn)品結(jié)構(gòu)、技術(shù)結(jié)構(gòu)及所有者結(jié)構(gòu)等因素,滿足市場(chǎng)的實(shí)際需要。在研制開(kāi)發(fā)保險(xiǎn)產(chǎn)品的過(guò)程中,需要充分注意適應(yīng)這些因素的變化,積極開(kāi)發(fā)各種保險(xiǎn)產(chǎn)品;通過(guò)分析已購(gòu)買(mǎi)某種保險(xiǎn)的人是否同時(shí)購(gòu)買(mǎi)另一種保險(xiǎn),從而可以推進(jìn)保險(xiǎn)產(chǎn)品的創(chuàng)新,行交叉銷售和增量銷售,提高客戶滿意度。未來(lái)的保險(xiǎn)市場(chǎng)必將是保險(xiǎn)產(chǎn)品不斷得到創(chuàng)新的市場(chǎng)。
2.營(yíng)銷方式創(chuàng)新。通過(guò)對(duì)客戶信息的挖掘來(lái)支持目標(biāo)市場(chǎng)的細(xì)分和目標(biāo)客戶群的
全日制工學(xué)(工程)碩士學(xué)位論文開(kāi)題報(bào)告
定位,制定有針對(duì)性的營(yíng)銷措施,包括保險(xiǎn)公司的專職人員、代理人員等傳統(tǒng)渠道以及經(jīng)紀(jì)人、電話、計(jì)算機(jī)網(wǎng)絡(luò)和銀行等輔助渠道,提高客戶響應(yīng)統(tǒng)率,降低營(yíng)銷成本。
3.主要研究?jī)?nèi)容
3.1 技術(shù)方案
保險(xiǎn)行業(yè)在海量數(shù)據(jù)信息的時(shí)代,傳統(tǒng)的營(yíng)銷模式缺乏針對(duì)性。當(dāng)客戶數(shù)量提高、相應(yīng)的信息量增多、所需保險(xiǎn)種類復(fù)雜化,如果只依靠傳統(tǒng)的營(yíng)銷模式來(lái)解決問(wèn)題,那必定帶來(lái)很大的人力和財(cái)力的損傷,同時(shí)會(huì)降低工作效率。如此下去,隨著需求的不斷增加或變更,傳統(tǒng)的營(yíng)銷模式?jīng)]有從根本上解決海量信息帶來(lái)的挑戰(zhàn),甚至?xí)魇б徊糠值目蛻簟a槍?duì)精準(zhǔn)營(yíng)銷的主要研究?jī)?nèi)容如下: 3.1.1 ETL數(shù)據(jù)預(yù)處理
我們要對(duì)保險(xiǎn)公司提供的原始數(shù)據(jù)進(jìn)行預(yù)處理后,在可以加載到我們的處理平臺(tái)上,這個(gè)過(guò)程,我們需要做到以下幾部:
(1)數(shù)據(jù)清洗。數(shù)據(jù)清洗主要處理空缺值、噪聲數(shù)據(jù)。針對(duì)于空缺值的處理,我們可以采用回歸、貝葉斯形式化方法工具或判定樹(shù)歸納等確定空缺值。依靠現(xiàn)有的數(shù)據(jù)信息來(lái)推測(cè)空缺值,使空缺值有很大的機(jī)會(huì)保持與其他屬性之間的聯(lián)系。還可以用全部變量來(lái)替換空缺值、或是用平均值來(lái)填充。針對(duì)于噪聲數(shù)據(jù),我們可以采用分相或是回歸的辦法來(lái)處理。
(2)數(shù)據(jù)集成。我們從保險(xiǎn)公司拿回來(lái)的數(shù)據(jù),不可能是統(tǒng)一的格式,針對(duì)于不同來(lái)源的數(shù)據(jù),我們要把它合成同一的模式。首先要做到模式集成,即把不同信息源中的實(shí)體匹配來(lái)進(jìn)行模式集成。在集成過(guò)程,會(huì)出現(xiàn)一個(gè)屬性多次出現(xiàn)或一個(gè)屬性命名不一致的問(wèn)題,針對(duì)屬性冗余的問(wèn)題,可以用相關(guān)分析監(jiān)測(cè),然后刪除冗余的屬性。
(3)數(shù)據(jù)轉(zhuǎn)換。數(shù)據(jù)轉(zhuǎn)換的目的就是把數(shù)據(jù)轉(zhuǎn)換成有利于進(jìn)行數(shù)據(jù)挖掘的形式。針對(duì)于數(shù)據(jù)屬性,我們可以刪除一些無(wú)關(guān)的屬性、也可以把一些屬性進(jìn)行維歸約,甚至針對(duì)于一些關(guān)鍵性的屬性,我們可以細(xì)化它的屬性。
3.1.2 并行數(shù)據(jù)庫(kù)運(yùn)算環(huán)境下,提出客戶精確分類和客戶與產(chǎn)品關(guān)聯(lián)分析組合算法
本文的目的是尋找一種適合保險(xiǎn)營(yíng)銷的算法,來(lái)解決目前營(yíng)銷的困難,營(yíng)銷的最大的困難就是客戶以及針對(duì)于客戶的產(chǎn)品設(shè)計(jì)。針對(duì)于客戶的管理,我們要做到對(duì)客戶的分層,分類管理,把客戶按照現(xiàn)居住地,性別,家庭狀況,以及收入情況等屬性進(jìn)行細(xì)分。針對(duì)以購(gòu)買(mǎi)保險(xiǎn)的客戶,關(guān)聯(lián)出已購(gòu)買(mǎi)的保險(xiǎn)種類與細(xì)分的屬性之間的
全日制工學(xué)(工程)碩士學(xué)位論文開(kāi)題報(bào)告
關(guān)系,將關(guān)聯(lián)出的關(guān)系應(yīng)用到潛在客戶,替潛在客戶找到適合自己的產(chǎn)品;根據(jù)客戶的生活狀態(tài)、家庭狀態(tài),找出適合客戶的隱藏產(chǎn)品,實(shí)現(xiàn)針對(duì)性、交叉性銷售。3.1.3對(duì)挖掘出的結(jié)果進(jìn)行驗(yàn)證
數(shù)據(jù)挖掘的模型,是要經(jīng)過(guò)驗(yàn)證,一般的情況下,置信度在80%以上就可以投入應(yīng)用中。挖掘結(jié)果驗(yàn)證的方法有兩個(gè),一是對(duì)現(xiàn)有數(shù)據(jù)進(jìn)行抽樣觀察,用具體的結(jié)果支持我們的計(jì)算結(jié)果,這個(gè)是驗(yàn)證;另一個(gè)更重要和更有價(jià)值,需要保險(xiǎn)公司的業(yè)務(wù)部門(mén)根據(jù)我們計(jì)算的結(jié)果,對(duì)客戶進(jìn)行深入的精準(zhǔn)營(yíng)銷作業(yè),然后搜集指導(dǎo)作業(yè)的結(jié)果,分析精準(zhǔn)定向銷售的成功率的提升情況,用實(shí)際業(yè)績(jī)的數(shù)據(jù)來(lái)驗(yàn)證我們的研究成果。
3.2 關(guān)鍵技術(shù)方法
關(guān)鍵問(wèn)題一:產(chǎn)品分類、客戶分層,客戶分類。特別是客戶分類是精準(zhǔn)營(yíng)銷的前提。當(dāng)前壽險(xiǎn)行業(yè)(我們目前能拿到主要就是壽險(xiǎn)企業(yè)數(shù)據(jù))的客戶的分類,一般是基于下面幾個(gè)分類模式的:地理變量、人口統(tǒng)計(jì)變量、心理變量、行為變量。由于是本地保險(xiǎn)企業(yè)某個(gè)范圍內(nèi)的數(shù)據(jù),地理變量的影響很小,人口統(tǒng)計(jì)變量對(duì)壽險(xiǎn)的影響特別大,是本課題的研究重點(diǎn)。中國(guó)人對(duì)保險(xiǎn)產(chǎn)品的認(rèn)知和偏好,明顯與西方不同,而保險(xiǎn)行業(yè)在中國(guó)的真正的發(fā)展時(shí)間還很短,很多與中國(guó)國(guó)情和文化有關(guān)聯(lián)的問(wèn)題都沒(méi)有得到比較深入的研究。比如,提出兩個(gè)有關(guān)客戶分類的問(wèn)題,一是“代溝”,二是“家庭關(guān)系”。代溝問(wèn)題是大家常談的社會(huì)問(wèn)題,中國(guó)最近30年發(fā)生劇烈的社會(huì)變革,年齡跨度幾年的人,其對(duì)社會(huì)的認(rèn)知模式和消費(fèi)習(xí)慣就可能有重大的區(qū)別,必然影響保險(xiǎn)產(chǎn)品的銷售趨向,那么如何在保險(xiǎn)客戶數(shù)據(jù)中,找到并比較準(zhǔn)確的“代溝分類閾值”?另一個(gè)“家庭關(guān)系”,建立穩(wěn)定家庭的客戶顯然是購(gòu)買(mǎi)人壽類保險(xiǎn)產(chǎn)品的主力,而購(gòu)買(mǎi)保險(xiǎn)產(chǎn)品的過(guò)程中,中國(guó)體現(xiàn)了很強(qiáng)的“家主決策權(quán)”,在客戶分類的過(guò)程中,家庭關(guān)系作為一個(gè)特殊的、多指向的、數(shù)據(jù)元內(nèi)部有交叉關(guān)系的變量組,必然會(huì)深刻影響客戶的分類方法,以及在后面依附于分類計(jì)算結(jié)果之上的關(guān)聯(lián)計(jì)算方法和計(jì)算結(jié)果。這是本課題研究的另一個(gè)重要問(wèn)題。本課題對(duì)保險(xiǎn)用戶的分類方法雖然還屬于當(dāng)前流行的大類分析方法中的類型,但相比一般粗糙的分類方式,我們采用了更精細(xì)、更深入的分類方法,當(dāng)然對(duì)分類算法就需要進(jìn)行深入的定制、優(yōu)化研究。
關(guān)鍵問(wèn)題二:根據(jù)前面對(duì)客戶分類的設(shè)想,在分類中出現(xiàn)用關(guān)系表來(lái)描述的客戶種類屬性的情況下,客戶屬性要體現(xiàn)“家庭單位和成員關(guān)系的客戶分類屬性”,本身可能是一個(gè)多維表,那么當(dāng)下普遍采用的關(guān)聯(lián)關(guān)系的二維計(jì)算方法都是用來(lái)分析兩個(gè)一
全日制工學(xué)(工程)碩士學(xué)位論文開(kāi)題報(bào)告
維數(shù)據(jù)屬性之間的關(guān)系,比如當(dāng)前主流的Apriori算法。當(dāng)前通用的算法如果不進(jìn)行改進(jìn)和局部的特殊設(shè)計(jì),顯然不能滿足對(duì)本課題對(duì)應(yīng)的保險(xiǎn)客戶數(shù)據(jù)屬性表與產(chǎn)品表之間進(jìn)行關(guān)聯(lián)分析的運(yùn)算要求。這就要求我們對(duì)關(guān)聯(lián)算法的具體定制和完善,進(jìn)行研究和創(chuàng)新。3.3技術(shù)、實(shí)驗(yàn)條件
如果采用傳統(tǒng)的數(shù)據(jù)庫(kù)進(jìn)行海量數(shù)據(jù)的存儲(chǔ)、并在其基礎(chǔ)上進(jìn)行查詢分析操作時(shí),會(huì)出現(xiàn)檢索速度慢以及不易擴(kuò)展的問(wèn)題,提出基于GP的分布式存儲(chǔ)模型(如圖所示)。
Segment hostSegment hostSegment hostSegment hostETLSegment hostSegment hostLANSQL MapReduce外部數(shù)據(jù)源并行裝載或?qū)С鯩aster 節(jié)點(diǎn)Network Interconnect
圖1.1 GP的系統(tǒng)結(jié)構(gòu)
采用成熟的商用并行數(shù)據(jù)庫(kù)平臺(tái)Greenplum作為本項(xiàng)目的主要數(shù)據(jù)庫(kù)和分析挖掘運(yùn)算環(huán)境。該系統(tǒng)是基于postgreSQL發(fā)展的商業(yè)系統(tǒng),特點(diǎn)是采用一組分布式多節(jié)點(diǎn)服務(wù)器組成并行運(yùn)算結(jié)構(gòu),特別適合進(jìn)行頻繁的高密度表關(guān)聯(lián)計(jì)算。
系統(tǒng)平臺(tái)的基本配置是一個(gè)核心管理服務(wù)器管理一組運(yùn)算節(jié)點(diǎn)單元服務(wù)器,運(yùn)算節(jié)點(diǎn)單元服務(wù)器可以根據(jù)數(shù)據(jù)量和運(yùn)算要求的增長(zhǎng)擴(kuò)容。目前實(shí)驗(yàn)室提供的環(huán)境可以存儲(chǔ)大約2億條數(shù)據(jù),由于運(yùn)算過(guò)程中需要產(chǎn)生大量的中間結(jié)果,因此推測(cè)可以對(duì)大約100萬(wàn)條保險(xiǎn)客戶和業(yè)務(wù)數(shù)據(jù)進(jìn)行分析。3.4 預(yù)計(jì)目標(biāo)
(1)適用于本地壽險(xiǎn)行業(yè)的精準(zhǔn)營(yíng)銷分析方法,能夠用一種以上方法對(duì)客戶進(jìn)行精確分類,并根據(jù)分類屬性確定保險(xiǎn)產(chǎn)品的關(guān)聯(lián)選擇度,以指導(dǎo)保險(xiǎn)行業(yè)提升客戶價(jià)值; 基于保險(xiǎn)數(shù)據(jù)的挖掘處理方法以及增量挖掘問(wèn)題的處理方法
(2)在核心期刊上發(fā)表1-2篇論文
全日制工學(xué)(工程)碩士學(xué)位論文開(kāi)題報(bào)告
4研究方案及進(jìn)度安排,預(yù)期達(dá)到的目標(biāo)
2014年 9月 1日——2014年10月30日:調(diào)研、準(zhǔn)備開(kāi)題
2014年11月1日——2014年11月30日:去保險(xiǎn)企業(yè)搜集數(shù)據(jù),分析其數(shù)據(jù)特點(diǎn),實(shí)驗(yàn)方案再論證
2014年12月1日——2015年1月15日:建立模型與建立實(shí)驗(yàn)環(huán)境
2015年2月10日——2015年5月30日:編碼、收集與分析實(shí)驗(yàn)數(shù)據(jù),完成一篇論文 2015年 6月1日——2015年 9月10日:進(jìn)一步的對(duì)精準(zhǔn)營(yíng)銷系統(tǒng)進(jìn)行優(yōu)化 2015年 9月11日——2015年11月30日:碩士論文編寫(xiě) 2015年12月1日——2015年 12月31日:碩士論文答辯
第四篇:數(shù)據(jù)挖掘在房地產(chǎn)營(yíng)銷中的應(yīng)用
文章摘要:信息資源的分析、整合在房地產(chǎn)行業(yè)的競(jìng)爭(zhēng)中起著越來(lái)越重要的作用。數(shù)據(jù)挖掘作為一種系統(tǒng)地檢查和理解大量數(shù)據(jù)的工具,能有效地幫助房地產(chǎn)企業(yè)從不斷積累與更新的數(shù)據(jù)中提取有價(jià)值的信息。因此,數(shù)據(jù)挖掘被引入到房地產(chǎn)市場(chǎng)研究領(lǐng)域,并日益受到重視。本文從數(shù)據(jù)挖掘在房地產(chǎn)行業(yè)中的市場(chǎng)研究?jī)r(jià)值入手,分析了數(shù)據(jù)挖掘在房地產(chǎn)市場(chǎng)研究尤其是客戶信息中的應(yīng)用,并加以舉例說(shuō)明。關(guān)鍵詞:數(shù)據(jù)挖掘 關(guān)聯(lián)分析 分類
一、房地產(chǎn)行業(yè)需要數(shù)據(jù)挖掘技術(shù)的支持
隨著房地產(chǎn)行業(yè)競(jìng)爭(zhēng)的加劇,房地產(chǎn)企業(yè)要想在競(jìng)爭(zhēng)中制勝,必然需要充分的信息支持和準(zhǔn)確的市場(chǎng)判斷。房地產(chǎn)行業(yè)擁有大量的數(shù)據(jù)積累,包括行業(yè)信息、經(jīng)濟(jì)環(huán)境信息、客戶信息等。這些數(shù)據(jù)是房地產(chǎn)企業(yè)市場(chǎng)運(yùn)作的重要參考。面對(duì)快速增長(zhǎng)的海量數(shù)據(jù)收集,企業(yè)需要有力的數(shù)據(jù)分析工具將“豐富的數(shù)據(jù)”轉(zhuǎn)換成“有價(jià)值的知識(shí)”,否則大量的數(shù)據(jù)將成為“數(shù)據(jù)豐富,但信息貧乏”的“數(shù)據(jù)墳?zāi)埂薄?/p>
數(shù)據(jù)挖掘(Data Mining)是從大量數(shù)據(jù)中發(fā)現(xiàn)潛在關(guān)聯(lián)、模式,做出預(yù)測(cè)性分析的有效工具,它是現(xiàn)有的一些人工智能、統(tǒng)計(jì)學(xué)等技術(shù)在數(shù)據(jù)庫(kù)領(lǐng)域中的應(yīng)用。應(yīng)用數(shù)據(jù)挖掘有助于發(fā)現(xiàn)業(yè)務(wù)發(fā)展的趨勢(shì),揭示已知的事實(shí),預(yù)測(cè)未知的結(jié)果,并幫助企業(yè)分析出解決問(wèn)題所需要的關(guān)鍵因素,使企業(yè)處于更有利的競(jìng)爭(zhēng)位置。
二、數(shù)據(jù)挖掘在房地產(chǎn)行業(yè)的應(yīng)用
1.?dāng)?shù)據(jù)挖掘的概念
對(duì)于企業(yè)的海量信息存儲(chǔ),數(shù)據(jù)挖掘是一種系統(tǒng)地檢查和理解大量數(shù)據(jù)的工具。數(shù)據(jù)挖掘根據(jù)預(yù)定義的商業(yè)目標(biāo),對(duì)大量的企業(yè)數(shù)據(jù)進(jìn)行探索和分析,揭示其中隱含的商業(yè)規(guī)律,并進(jìn)一步生成相應(yīng)的分析、預(yù)測(cè)模型。
數(shù)據(jù)挖掘發(fā)現(xiàn)的是以前未知的、可理解的、可執(zhí)行的信息,所以也被稱為“知識(shí)發(fā)現(xiàn)”(Knowledge Discovery in Databases)。與統(tǒng)計(jì)分析技術(shù)相比,數(shù)據(jù)挖掘技術(shù)能很好地和數(shù)據(jù)庫(kù)技術(shù)相結(jié)合,而且數(shù)據(jù)挖掘工具用以發(fā)現(xiàn)數(shù)據(jù)中隱含的商業(yè)規(guī)律的方法已不局限于統(tǒng)計(jì)技術(shù),還包括神經(jīng)網(wǎng)絡(luò)、遺傳算法、自組織圖、神經(jīng)模糊系統(tǒng)等統(tǒng)計(jì)學(xué)科以外的方法。數(shù)據(jù)挖掘發(fā)現(xiàn)的“知識(shí)”一方面可以用于構(gòu)建預(yù)測(cè)模型,另一方面可以被用于豐富統(tǒng)計(jì)分析師的背景知識(shí),再被統(tǒng)計(jì)分析師應(yīng)用到數(shù)據(jù)分析中。
數(shù)據(jù)挖掘任務(wù)一般可以分兩類:描述和預(yù)測(cè)。描述性挖掘任務(wù)刻劃數(shù)據(jù)庫(kù)中數(shù)據(jù)的一般特性。預(yù)測(cè)性挖掘任務(wù)在當(dāng)前數(shù)據(jù)上進(jìn)行推斷,以進(jìn)行預(yù)測(cè)。具體來(lái)講,數(shù)據(jù)挖掘主要用于解決以下幾種不同事情:
(1)關(guān)聯(lián)分析(Association analysis),是尋找屬性間的相關(guān)性。兩種常用的技術(shù)是關(guān)聯(lián)規(guī)則和序列模式。關(guān)聯(lián)規(guī)則是尋找在同一事件中出現(xiàn)的不同項(xiàng)的相關(guān)性,比如某個(gè)住宅項(xiàng)目的目標(biāo)客戶對(duì)該項(xiàng)目各方面評(píng)價(jià)之間的相關(guān)性序列分析尋找的是事件之間時(shí)間上的相關(guān)性,如對(duì)股票漲跌、房地產(chǎn)周期的分析。
(2)分類(Classification)和預(yù)測(cè)(Prediction)。分類根據(jù)某種標(biāo)準(zhǔn)將數(shù)據(jù)庫(kù)記錄分類到許多預(yù)先定義好的類別中。例如,將房地產(chǎn)企業(yè)客戶根據(jù)消費(fèi)決策模式進(jìn)行分類;同時(shí)可以建立預(yù)測(cè)模型,給定潛在客戶的收入、職業(yè)、家庭構(gòu)成等個(gè)人屬性,預(yù)測(cè)他們?cè)谫?gòu)房支出;如將房地產(chǎn)企業(yè)客戶分為潛在客戶、購(gòu)買(mǎi)者和實(shí)際客戶。分類系統(tǒng)可以產(chǎn)生這樣的規(guī)則:“如果客戶可以并且愿意承擔(dān)每月2000元的月供,計(jì)劃在1年內(nèi)在某地區(qū)買(mǎi)房,那么他/她是一個(gè)潛在客戶;如果客戶至少進(jìn)行過(guò)一次業(yè)務(wù)訪問(wèn),那么他/她是一個(gè)購(gòu)買(mǎi)者?!?/p>
(3)聚類(Clustering)是把整個(gè)數(shù)據(jù)庫(kù)分成不同的群組。它的目的是要群與群之間差別明顯,而同一群之間的數(shù)據(jù)盡量相似。聚類與分類不同:分類之前已經(jīng)知道要把數(shù)據(jù)分成哪幾類,每個(gè)類的性質(zhì)是什么;聚類則恰恰相反。
(4)演變分析(evolution analysis)描述行為隨時(shí)間變化的對(duì)象的規(guī)律或趨勢(shì),并對(duì)其建模。例如,結(jié)合人口構(gòu)成變動(dòng)趨勢(shì)、教育水平發(fā)展趨勢(shì)、社會(huì)經(jīng)濟(jì)發(fā)展趨勢(shì)進(jìn)行房地產(chǎn)消費(fèi)趨向的分析。
(5)描述和可視化(Description and Visualization),對(duì)數(shù)據(jù)進(jìn)行歸約、概化或圖形描述等。例如,通過(guò)空間聚集和近似計(jì)算對(duì)一些具體的地理位置概化聚類,形成對(duì)某區(qū)域的形象化描述。
2.?dāng)?shù)據(jù)挖掘的市場(chǎng)研究?jī)r(jià)值
數(shù)據(jù)挖掘技術(shù)在商業(yè)上實(shí)際應(yīng)用十分豐富。應(yīng)用數(shù)據(jù)挖掘技術(shù),可以幫助房地產(chǎn)行業(yè)找出有價(jià)值的信息,十分有助于企業(yè)發(fā)現(xiàn)商機(jī)、制定開(kāi)發(fā)計(jì)劃與營(yíng)銷策略。對(duì)于房地產(chǎn)市場(chǎng)研究,數(shù)據(jù)挖掘可以應(yīng)用于宏觀經(jīng)濟(jì)形勢(shì)研究、市場(chǎng)發(fā)展趨勢(shì)研究、樓盤(pán)供應(yīng)研究、競(jìng)爭(zhēng)對(duì)手研究、客戶研究。包括但不局限于以下幾個(gè)方面:
(1)宏觀經(jīng)濟(jì)形勢(shì)研究——1)房地產(chǎn)周期時(shí)序分析中的相似搜索:可找出已有房地產(chǎn)周期數(shù)據(jù)庫(kù)中與給定查詢序列最接近的數(shù)據(jù)序列。比較識(shí)別兩個(gè)相似時(shí)間段間數(shù)據(jù)系列的主要差異,對(duì)房地產(chǎn)市場(chǎng)的宏觀分析很有參考價(jià)值。2)宏觀經(jīng)濟(jì)形勢(shì)研究——房地產(chǎn)周期一般性因素關(guān)聯(lián)分析:一般而言,房地產(chǎn)周期是影響不動(dòng)產(chǎn)收益的一系列因素組成的總體概念。各因素均會(huì)對(duì)總體房地產(chǎn)周期起決定作用。關(guān)聯(lián)分析方法可用于幫助發(fā)現(xiàn)各因素和房地產(chǎn)周期間的交叉與聯(lián)系。
(2)市場(chǎng)發(fā)展趨勢(shì)研究——1)銷售量的增長(zhǎng)與人均可支配收入的回歸分析;2)個(gè)人購(gòu)買(mǎi)與集團(tuán)購(gòu)買(mǎi)房地產(chǎn)比重的擬合與分析;3)對(duì)房地產(chǎn)銷售波動(dòng)率的回歸分析。通過(guò)對(duì)市場(chǎng)總體狀況、市場(chǎng)占有率、發(fā)展水平等動(dòng)態(tài)的分析、總結(jié)和評(píng)價(jià),及時(shí)獲得準(zhǔn)確數(shù)據(jù),輔助經(jīng)營(yíng)決策。
(3)樓盤(pán)供應(yīng)研究——地理發(fā)展空間的多維分析:綜合人口住房條件及分布、土地利用現(xiàn)狀及政府規(guī)劃、交通現(xiàn)狀分布信息,通過(guò)聚集及層次化描述,發(fā)掘區(qū)域內(nèi)需建立的高檔別墅、高、中、低檔公寓的數(shù)量及各自的地理位置和發(fā)展計(jì)劃。
(4)客戶研究——客戶信息的多維關(guān)聯(lián)和序列模式分析:關(guān)聯(lián)分析可在客戶信息中發(fā)現(xiàn)客戶的消費(fèi)行為模式,幫助營(yíng)銷人員找出影響消費(fèi)者的機(jī)會(huì)與方式。
目前,專業(yè)市場(chǎng)研究公司對(duì)房地產(chǎn)行業(yè)的調(diào)研主要集中在客戶需求分析方面,并積累了一定的經(jīng)驗(yàn),因此,本文主要探討房地產(chǎn)客戶信息的數(shù)據(jù)挖掘。
3.?dāng)?shù)據(jù)挖掘在房地產(chǎn)客戶研究中有著廣泛的應(yīng)用
房地產(chǎn)行業(yè)的客戶信息有許多特點(diǎn),如下圖所示,一方面房地產(chǎn)行業(yè)面對(duì)的客戶群廣泛,而且客戶的特征描述的結(jié)構(gòu)復(fù)雜,另一方面房地產(chǎn)客戶需求的層次不一,且易受外界因素影響,具有多層次性和多變性。
對(duì)于復(fù)雜、多樣而且擅變的客戶信息,房地產(chǎn)行業(yè)客戶信息的數(shù)據(jù)挖掘有助于識(shí)別客戶購(gòu)買(mǎi)行為,發(fā)現(xiàn)客戶購(gòu)買(mǎi)模式和趨勢(shì)。從而,幫助房地產(chǎn)企業(yè)改進(jìn)服務(wù)質(zhì)量,取得更好的客戶關(guān)系和滿意程度,設(shè)計(jì)更好的營(yíng)銷方案,減少商業(yè)成本。根據(jù)已有的數(shù)據(jù)挖掘經(jīng)驗(yàn),數(shù)據(jù)挖掘在房地產(chǎn)行業(yè)的應(yīng)用可以歸納成以下幾個(gè)方面:
4.明確商業(yè)目標(biāo)
三、如何在房地產(chǎn)行業(yè)應(yīng)用數(shù)據(jù)挖掘技術(shù)
應(yīng)用數(shù)據(jù)挖掘的首要任務(wù)就是明確需要達(dá)到什么樣的商業(yè)目標(biāo),并描述出需要解決的問(wèn)題。目標(biāo)的描述應(yīng)該細(xì)化、清楚,以便于選擇合適的挖掘方法,也方便檢測(cè)數(shù)據(jù)挖掘效果,判斷建立的模型的有效性。例如,下列目標(biāo)是大而空的目標(biāo):獲得客戶行為的了解;在數(shù)據(jù)中發(fā)現(xiàn)有用的模型;發(fā)現(xiàn)一些有意思得東西。而另外一些目標(biāo)有較強(qiáng)操作性:發(fā)現(xiàn)哪些客戶不受某種促銷手段的影響;找出項(xiàng)目封頂時(shí)哪類客戶成交率增加。
5.?dāng)?shù)據(jù)準(zhǔn)備
基于數(shù)據(jù)挖掘的商業(yè)目標(biāo),提取所需要的數(shù)據(jù)。為了保證數(shù)據(jù)的質(zhì)量,除了對(duì)數(shù)據(jù)進(jìn)行必要地檢查和修正外,還需要考慮不同源之間數(shù)據(jù)的一致性問(wèn)題。
如果數(shù)據(jù)集包含過(guò)多的字段,需采用一定的方法找到對(duì)模型輸出影響最大的字段,適當(dāng)?shù)臏p少輸入的字段。常用的方法包括:“描述型數(shù)據(jù)挖掘”、連結(jié)分析等。
很多變量如果組合起來(lái)(加、減、比率等)會(huì)比這些變量自身影響力更大。一些變量如果擴(kuò)大它的范圍會(huì)成為一個(gè)非常好的預(yù)測(cè)變量,比如用一段時(shí)間內(nèi)收入變化情況代替一個(gè)單一的收入數(shù)據(jù)。因此,在數(shù)據(jù)準(zhǔn)備階段需考慮是否創(chuàng)建一些新的變量。
處理缺失數(shù)據(jù)也是數(shù)據(jù)準(zhǔn)備階段的一個(gè)重要工作。有些缺值本身就非常有意義。例如:富有的顧客會(huì)忽略“收入”,或者不在乎價(jià)格的影響。
6.建立模型
建立模型是一個(gè)反復(fù)的過(guò)程。首先需要選擇適合解決當(dāng)前問(wèn)題的模型。對(duì)模型的選擇過(guò)程可能會(huì)啟發(fā)對(duì)數(shù)據(jù)的理解并加以修改,甚至改變最初對(duì)問(wèn)題的定義。
一旦選擇了模型的類型及應(yīng)用的方法,所選擇的模型將決定對(duì)數(shù)據(jù)的預(yù)處理工作。例如,神經(jīng)網(wǎng)絡(luò)需要做數(shù)據(jù)轉(zhuǎn)換,有些數(shù)據(jù)挖掘工具可能對(duì)輸入數(shù)據(jù)的格式有特定的限制等。
接下來(lái)是建立模型的工作。對(duì)于通過(guò)數(shù)據(jù)挖掘建立的模型需要有一定的數(shù)據(jù)來(lái)測(cè)試和驗(yàn)證。對(duì)于預(yù)測(cè)性任務(wù),需通過(guò)反復(fù)的測(cè)試、驗(yàn)證、訓(xùn)練,才能不斷提高模型的準(zhǔn)確率。
大部分?jǐn)?shù)據(jù)挖掘模型不是專為解決某個(gè)問(wèn)題而特制的,模型之間也并不相互排斥。不能說(shuō)一個(gè)問(wèn)題一定要采用某種模型,別的就不行。例如:Cart決策樹(shù)算法、神經(jīng)網(wǎng)絡(luò)既可以用于建立分類樹(shù),也可建立回歸樹(shù)。
7.輸出結(jié)果的評(píng)價(jià)和解釋
模型建立好之后,必須評(píng)價(jià)其結(jié)果,解釋其價(jià)值。在實(shí)際應(yīng)用中,模型的準(zhǔn)確率會(huì)隨著應(yīng)用數(shù)據(jù)的不同發(fā)生變化。但準(zhǔn)確度自身并不一定是選擇模型的正確評(píng)價(jià)方法。對(duì)輸出結(jié)果的理解需要進(jìn)一步了解錯(cuò)誤的類型和由此帶來(lái)的相關(guān)費(fèi)用的多少。如果模型每個(gè)不同的預(yù)測(cè)錯(cuò)誤所需付出的代價(jià)(費(fèi)用)也不同的話,代價(jià)最小的模型(而不一定是錯(cuò)誤率最小的模型)將是較好的選擇。
直接在現(xiàn)實(shí)世界中測(cè)試模型很重要。先在小范圍內(nèi)應(yīng)用,取得測(cè)試數(shù)據(jù),覺(jué)得滿意后再向大范圍推廣。
8.實(shí)施
模型在建立并經(jīng)驗(yàn)證之后,可以有兩種主要的使用方法。一種是提供給分析人員做參考,由他通過(guò)查看和分析這個(gè)模型輸出,并做出解釋和方案建議;另一種是把模型應(yīng)用到不同的數(shù)據(jù)集上。模型可以用來(lái)標(biāo)示一個(gè)事例的類別,給一類客戶打分等,還可以用模型在數(shù)據(jù)庫(kù)中選擇符合特定要求的記錄,以用其他工具做進(jìn)一步分析。
在應(yīng)用模型之后,還要不斷監(jiān)控模型的效果。即使模型的運(yùn)用很成功,也不能放棄監(jiān)控。因?yàn)槭挛镌诓粩喟l(fā)展變化,很可能過(guò)一段時(shí)間之后,隨著購(gòu)買(mǎi)方式、消費(fèi)觀點(diǎn)的變化,模型就不再起作用。因此隨著模型使用時(shí)間的增加,要不斷的對(duì)模型做重新測(cè)試,有時(shí)甚至需要更新建立模型。
四、應(yīng)用舉例:基于客戶分類的關(guān)聯(lián)分析
1.商業(yè)目標(biāo)
為了更詳盡地了解客戶的消費(fèi)決策,本案例設(shè)計(jì)的問(wèn)題是:“給客戶分類,并了解不同類的客戶有什么特點(diǎn)?”針對(duì)此類問(wèn)題挖掘出的結(jié)果可以被用于預(yù)測(cè)性分析,例如預(yù)測(cè)客戶最傾向于做出哪種購(gòu)買(mǎi)行為。2.?dāng)?shù)據(jù)準(zhǔn)備
本案例中采用某一時(shí)點(diǎn)上的房地產(chǎn)消費(fèi)者需求抽樣調(diào)查,取出描述消費(fèi)者個(gè)人屬性和消費(fèi)特點(diǎn)的字段。
3.建立模型
(1)對(duì)數(shù)據(jù)進(jìn)行分類
本案例中由購(gòu)房者選擇最多五個(gè)自己在購(gòu)房決策過(guò)程中比較看重的因素,并以總評(píng)分100分為前提給出每個(gè)因素的看重程度的評(píng)分。
案例得到的抽樣數(shù)據(jù)顯示,盡管地理位置是影響一個(gè)房地產(chǎn)項(xiàng)目定位的重要因素,人們對(duì)地理位置的看重程度仍有較大的差異。因此,以客戶對(duì)地理位置的關(guān)注程度為分類標(biāo)準(zhǔn),構(gòu)建了一個(gè)簡(jiǎn)單的決策樹(shù)。決策樹(shù)中根據(jù)購(gòu)房者對(duì)地理位置的看重程度,將購(gòu)房者分為:地理位置決定型、地理位置重要參考型、地理位置參考型、地理位置不重要型、地理位置無(wú)關(guān)型五種類型。下表是應(yīng)用決策樹(shù)得到的客戶分類結(jié)果。從各客戶群評(píng)分的均值和標(biāo)準(zhǔn)差可以看出,各客戶群具有較好的組內(nèi)相似性和組間差異性,說(shuō)明所構(gòu)建的決策樹(shù)的分類結(jié)果比較理想,可用于進(jìn)一步的分析。
(2)關(guān)聯(lián)分析運(yùn)用關(guān)聯(lián)分析的目的是尋找數(shù)據(jù)庫(kù)中值的相關(guān)性。本例采用基于興趣度的關(guān)聯(lián)規(guī)則挖掘算法,挖掘每類客戶不同屬性間的相關(guān)性。經(jīng)過(guò)挖掘,發(fā)現(xiàn)一些值得深入探討的關(guān)聯(lián),見(jiàn)下表:
注:a)支持率反映了關(guān)聯(lián)是否是普遍存在的規(guī)律。例如:支持率=5%,表示在1000個(gè)客戶中有50個(gè)客戶符合關(guān)聯(lián)規(guī)則描述。
b)可信度反映了關(guān)聯(lián)規(guī)則前提成立的條件下結(jié)果成例的概率。本例中,可信度=15%可以解釋為,對(duì)應(yīng)的客戶群中有15個(gè)人符合關(guān)聯(lián)規(guī)則的描述。
c)興趣度反映了關(guān)聯(lián)規(guī)則中元素的關(guān)系的密切程度。興趣度越大于1說(shuō)明該規(guī)則中的元素的關(guān)系越密切,該規(guī)則的實(shí)際利用價(jià)值越大。
d)最小支持度閾值、最小可信度和最小興趣度的閾值可以由用戶和領(lǐng)域?qū)<以O(shè)定。此例中以支持度>3.5%,可信度>15%,興趣度>2為閾值。
上表中列出的關(guān)聯(lián)規(guī)則均有較高的支持率、可信度和興趣度。為了更加準(zhǔn)確地挖掘關(guān)聯(lián)規(guī)則。對(duì)挖掘出的關(guān)聯(lián)規(guī)則更換因果關(guān)系,形成新的關(guān)聯(lián)規(guī)則與之進(jìn)行對(duì)比。如下例:
關(guān)聯(lián)規(guī)則A1:地理位置無(wú)關(guān)型客戶=≥重視物業(yè)管理
支持率=9.7% 可信度=30.3% 興趣度=2.4與
關(guān)聯(lián)規(guī)則B1:重視物業(yè)管理 =≥地理位置無(wú)關(guān)型客戶
支持率=9.7% 可信度=76.9% 興趣度=2.4
對(duì)比兩個(gè)關(guān)聯(lián)規(guī)則將發(fā)現(xiàn),“重視物業(yè)管理的人不關(guān)心地理位置”的可能性(76.9%)高于“不關(guān)心地理位置的人重視物業(yè)管理”的可能性(30.3%)。說(shuō)明關(guān)聯(lián)規(guī)則B1:重視物業(yè)管理=≥地理位置無(wú)關(guān)型客戶是一條更有意義的關(guān)聯(lián)規(guī)則。
其他被發(fā)掘的關(guān)聯(lián)也可以通過(guò)類似的比較,進(jìn)行深一步的挖掘。在此不再全部做出詳細(xì)分析。從本例挖掘出的信息可以看到,如果僅依賴于已有行業(yè)經(jīng)驗(yàn)進(jìn)行統(tǒng)計(jì)分析,往往會(huì)因?yàn)榉治鋈藛T的主觀性或者數(shù)據(jù)量太大難以實(shí)施而存在信息提取的局限性。而通過(guò)數(shù)據(jù)挖掘得到的信息,一方面能彌補(bǔ)直接應(yīng)用統(tǒng)計(jì)分析時(shí)的局限性,開(kāi)拓分析人員的思維,豐富分析人員的行業(yè)背景知識(shí);另一方面可以通過(guò)反復(fù)的驗(yàn)證、機(jī)器學(xué)習(xí)建立模型,直接成為分析人員的分析、預(yù)測(cè)的工具。
需要說(shuō)明:
a)本案例的目的在于說(shuō)明數(shù)據(jù)挖掘算法的應(yīng)用價(jià)值,得到的結(jié)果僅供參考,并不作為定論,而且數(shù)據(jù)挖掘的結(jié)果需要由行業(yè)內(nèi)的商業(yè)分析人員判斷:是否真的具有意義,是否有進(jìn)一步分析、探討的價(jià)值。也就是說(shuō)數(shù)據(jù)挖掘作為信息提取的工具,其輸出是決策分析的參考,不能代替行業(yè)內(nèi)商業(yè)分析人員的分析工作。
b)案例中的數(shù)據(jù)挖掘作為方法應(yīng)用的探討,如要生成一個(gè)可操作的模型工具還需足夠的數(shù)據(jù)集支持進(jìn)行測(cè)試、驗(yàn)證、訓(xùn)練才能不斷提高模型的準(zhǔn)確率。
c)本案例中解決問(wèn)題的方法不是唯一的,可能應(yīng)用其他的分類手段、分類標(biāo)準(zhǔn)能得到更好的結(jié)果。具體方法的應(yīng)用要取決于實(shí)施人員的建模能力、行業(yè)經(jīng)驗(yàn)。也就是說(shuō),數(shù)據(jù)挖掘?qū)θ藛T有較高的要求。數(shù)據(jù)挖掘的人員不僅要有良好的統(tǒng)計(jì)概念、建模能力,還要懂得基本的商業(yè)和行業(yè)概念。
五、房地產(chǎn)行業(yè)數(shù)據(jù)挖掘的應(yīng)用前景
隨著IT/Internet等新技術(shù)發(fā)展,市場(chǎng)研究在房地產(chǎn)行業(yè)的應(yīng)用已經(jīng)不再局限于數(shù)據(jù)采集和簡(jiǎn)單的歸納、數(shù)據(jù)分析。更高的決策服務(wù)是建立在更大量的“數(shù)據(jù)——信息——知識(shí)”的基礎(chǔ)上的,因此數(shù)據(jù)挖掘、商業(yè)智能等概念與技術(shù)的引入促進(jìn)了數(shù)據(jù)挖掘在房地產(chǎn)行業(yè)的應(yīng)用。與此同時(shí),隨著房地產(chǎn)企業(yè)數(shù)據(jù)挖掘應(yīng)用的深入,數(shù)據(jù)、數(shù)據(jù)挖掘的任務(wù)和數(shù)據(jù)挖掘方法的多樣性將給數(shù)據(jù)挖掘提出了許多挑戰(zhàn)性的課題。例如:
1、應(yīng)用地理信息系統(tǒng)(GIS)尋求數(shù)據(jù)挖掘過(guò)程中的可視化方法,使得知識(shí)發(fā)現(xiàn)的過(guò)程能夠被用戶理解,也便于在知識(shí)發(fā)現(xiàn)過(guò)程中的人機(jī)交互。
2、web挖掘:由于web上存在大量信息,隨著web的發(fā)展,有關(guān)web內(nèi)容挖掘、web日志挖掘等網(wǎng)絡(luò)上的數(shù)據(jù)挖掘?qū)⒊蔀閿?shù)據(jù)挖掘中一個(gè)最為重要和繁榮的應(yīng)用領(lǐng)域。房地產(chǎn)公司的企業(yè)形象宣傳、營(yíng)銷、客戶維護(hù)等工作都將離不開(kāi)網(wǎng)絡(luò),也必然將需要web挖掘數(shù)據(jù)支持。
第五篇:網(wǎng)對(duì)網(wǎng)和Web數(shù)據(jù)挖掘在搜索引擎中的運(yùn)用論文
摘 要:當(dāng)今網(wǎng)絡(luò)信息技術(shù)日益發(fā)展,傳統(tǒng)意義上的搜索引擎更加難以滿足廣大用戶日益增長(zhǎng)的信息檢索需求。在這種趨勢(shì)下,智能技術(shù)在搜索引擎中的應(yīng)用顯得越來(lái)越重要。只有將智能技術(shù)引進(jìn)搜索引擎,才能提高用戶的工作效率,滿足人們?nèi)找嬖鲩L(zhǎng)的客觀需求。主要介紹了如今搜索引擎的幾大分類,傳統(tǒng)搜索引擎需要改進(jìn)的不足以及兩大智能技術(shù)在搜索引擎中的應(yīng)用。在智能技術(shù)將會(huì)更加智能更加發(fā)達(dá)的未來(lái),搜索引擎也將不斷地更新和發(fā)展,為人們提供更加高效的搜索體驗(yàn)。
關(guān)鍵詞:智能技術(shù);搜索引擎;網(wǎng)對(duì)網(wǎng)技術(shù);數(shù)據(jù)挖掘。
搜索引擎是根據(jù)一定的策略,運(yùn)用特定的計(jì)算機(jī)程序來(lái)搜索互聯(lián)網(wǎng)上的信息,在對(duì)信息進(jìn)行組織和處理后,將處理后的結(jié)果顯示給用戶,是為用戶提供檢索服務(wù)的系統(tǒng)。而智能技術(shù)在搜索引擎中的實(shí)際應(yīng)用也越來(lái)越廣泛,不斷有新興的智能技術(shù),搜索引擎也不斷地結(jié)合這些智能技術(shù)來(lái)進(jìn)行自身的變革和發(fā)展。這是一個(gè)漸進(jìn)的過(guò)程。本文將詳細(xì)介紹 2 種智能技術(shù)在搜索引擎中的應(yīng)用。
1.搜索引擎的分類。
搜索引擎可分為以下 3 類:①全文搜索引擎。全文搜索引擎是最標(biāo)準(zhǔn)的搜索引擎,國(guó)外的主要代表是 Google,而國(guó)內(nèi)的主要代表則是百度。全文搜索引擎的主要原理是在互聯(lián)網(wǎng)中檢索與所查目標(biāo)相匹配的內(nèi)容,繼而建立數(shù)據(jù)庫(kù),按序排列并且將其展示給用戶。②目錄搜索引擎。從本質(zhì)來(lái)說(shuō),目錄搜索引擎其實(shí)不能算是真正的搜索引擎。只是將網(wǎng)站鏈接目錄分類,用戶并不需要輸入關(guān)鍵字,根據(jù)目錄就完全可以找到想要的信息。目錄索引最具代表性的就是 Yahoo 和新浪索引。③元搜索引擎。元搜索引擎在接收用戶的搜索請(qǐng)求后,可以在各個(gè)搜索引擎上同時(shí)搜索,隨后將結(jié)果顯示給用戶。這一種搜索引擎的國(guó)內(nèi)代表是搜星搜索引擎。
2.傳統(tǒng)搜索引擎相比網(wǎng)絡(luò)信息檢索的缺點(diǎn)。
傳統(tǒng)搜索引擎作為用戶在互聯(lián)網(wǎng)進(jìn)行信息檢索的一個(gè)重要途徑,給廣大用戶提供了相當(dāng)大的便利,隨著互聯(lián)網(wǎng)的迅速發(fā)展,用戶對(duì)搜索引擎又提出了搜索速度更快、搜索效率更高等諸多要求。正是用戶的這些需求刺激著搜索引擎的快速發(fā)展。傳統(tǒng)搜索引擎越來(lái)越滿足不了用戶的需求,主要存在以下幾點(diǎn)不足:①搜索引擎從互聯(lián)網(wǎng)搜索的各種網(wǎng)頁(yè)水準(zhǔn)不一,存在著根本沒(méi)用或者暫時(shí)性的網(wǎng)頁(yè)。這嚴(yán)重加大了用戶檢索信息的困難程度,并且嚴(yán)重影響了檢索速度。②主流搜索引擎大多采用關(guān)鍵詞來(lái)檢索,由于用戶水平的差異,極少數(shù)可以總結(jié)出關(guān)鍵詞或關(guān)鍵詞組,以至于用戶搜索不到想要的內(nèi)容,從而加大了檢索難度。③每個(gè)搜索引擎覆蓋的范圍雖然不小,但與龐大的互聯(lián)網(wǎng)相比,簡(jiǎn)直是九牛一毛。④檢索的結(jié)果不準(zhǔn)確、不唯一,搜索結(jié)果為零或者為數(shù)萬(wàn)的情況時(shí)有發(fā)生。⑤不能智能搜索,難以滿足用戶深層次的需求。
3.智能技術(shù)的運(yùn)用。
由于傳統(tǒng)引擎的各種缺點(diǎn),用戶越來(lái)越渴望更好用、更便捷的搜索方式出現(xiàn)。在這種刺激下,智能技術(shù)在搜索引擎中的應(yīng)用大量出現(xiàn)。這使得搜索引擎需具有一定的智能化和理解能力。當(dāng)前主要有以下兩大智能技術(shù)。
3.1 網(wǎng)對(duì)網(wǎng)技術(shù)。
顧名思義,“網(wǎng)對(duì)網(wǎng)技術(shù)”就是網(wǎng)絡(luò)和網(wǎng)絡(luò)對(duì)應(yīng)起來(lái)的意思。這其中又要提到兩個(gè)概念了,是兩個(gè)單詞。一個(gè)單詞我們都相當(dāng)熟悉了--Internet.我們常說(shuō)的互聯(lián)網(wǎng),就是這個(gè)單詞。而在這里,這個(gè)單詞指的是一個(gè)信息網(wǎng)絡(luò),也就是我們所說(shuō)的網(wǎng)絡(luò)中的信息網(wǎng)。我們想要搜索什么東西時(shí),將它輸入搜索引擎中,引擎就會(huì)在這個(gè)網(wǎng)絡(luò)庫(kù)中查找,找到相關(guān)信息,然后呈現(xiàn)在我們面前。而另一個(gè)詞可能就有一些陌生了--Innernet.表面上看起來(lái)與 Internet 很像,英文詞典中并沒(méi)有這個(gè)詞,我們?cè)谶@里叫它“內(nèi)聯(lián)網(wǎng)”.與看起來(lái)更像數(shù)據(jù)庫(kù)的 Internet 比起來(lái),內(nèi)聯(lián)網(wǎng)更像是人類大腦的一個(gè)信息網(wǎng)絡(luò)。這里面不僅僅有我們生活和工作中所用到的各種各樣的信息,更重要的是,信息之間繁雜又緊密的聯(lián)系。就像我們?cè)谏钪泻退私涣?,提到“小伙伴”這個(gè)詞,我們會(huì)想到其他與之有聯(lián)系的詞匯,比如“朋友”“同學(xué)”等。同樣的,當(dāng)提到“師父”,我們的大腦也會(huì)迅速聯(lián)想到“師門(mén)”“師生”這樣的相關(guān)詞匯。我們所說(shuō)的內(nèi)聯(lián)網(wǎng),它所著重的,也是信息與信息之間這樣息息相關(guān)的聯(lián)系。Internet 和 Innernet都是知識(shí)的網(wǎng)絡(luò),互聯(lián)網(wǎng)時(shí)代的信息社會(huì)發(fā)展日新月異,因此無(wú)論是哪個(gè)網(wǎng)絡(luò),其內(nèi)的信息都是不斷變化著的。人們將這個(gè)技術(shù)運(yùn)用在搜索引擎中,大大提高了搜索引擎的實(shí)用性。作為內(nèi)聯(lián)網(wǎng)的 Innernet 和 Internet 聯(lián)結(jié)起來(lái),運(yùn)用信息之間存在的各種各樣的聯(lián)系,將用戶輸入搜索引擎中,將復(fù)雜的聯(lián)系正確分割開(kāi),然后各自拓展出一些對(duì)人們而言有用的信息,將 Internet 中龐大、雜亂的信息進(jìn)行有序化的篩選和整理,最終將信息呈現(xiàn)在人們的眼前。這大大提高了搜索引擎的可操作性,縮短了人們不斷刪改語(yǔ)句來(lái)配合 Internet 的時(shí)間,自然也就提高了用戶的工作效率。
3.2 Web 數(shù)據(jù)挖掘技術(shù)。
數(shù)據(jù)挖掘作為一門(mén)交叉學(xué)科,其原理比較復(fù)雜,可以從龐大的數(shù)據(jù)中將更有用、更有新意的數(shù)據(jù)挖掘出來(lái),而 Web 挖掘,便是將數(shù)據(jù)挖掘和 Web 發(fā)展聯(lián)系起來(lái)。Web 數(shù)據(jù)挖掘有 3 種不同的挖掘形式,即內(nèi)容挖掘、結(jié)構(gòu)挖掘和使用記錄的挖掘。
3.2.1 內(nèi)容挖掘。
內(nèi)容挖掘指的是從 Web 文檔中或是描述中挖掘,在網(wǎng)頁(yè)中進(jìn)行數(shù)據(jù)挖掘,其中包括文本、超鏈接、圖像和視頻等,而半結(jié)構(gòu)化的數(shù)據(jù)和無(wú)結(jié)構(gòu)的文本便是主要的挖掘?qū)ο蟆?/p>
3.2.2 結(jié)構(gòu)挖掘。
Web 結(jié)構(gòu)挖掘則是通過(guò)網(wǎng)頁(yè)中的超鏈接,發(fā)現(xiàn)其中信息之間的結(jié)構(gòu)及其緊密或稀疏的聯(lián)系。在平時(shí)上網(wǎng)時(shí),我們只能看到一個(gè)個(gè)的網(wǎng)頁(yè),打開(kāi)瀏覽或者關(guān)閉。但是在這些頁(yè)面的背后,其實(shí)隱藏著無(wú)數(shù)個(gè)結(jié)構(gòu)鏈接。Web 數(shù)據(jù)挖掘就能夠通過(guò)這些結(jié)構(gòu)上的鏈接,發(fā)現(xiàn)頁(yè)面與頁(yè)面、數(shù)據(jù)與數(shù)據(jù)之間的聯(lián)系,隨后對(duì)它們分類,以便為用戶提供含有相似信息的更多頁(yè)面,幫助用戶完善自己想要在搜索引擎中得到的信息。
3.2.3 使用記錄的挖掘。
與前兩者相比,Web 使用記錄的挖掘讓我們感覺(jué)更加熟悉,至少“使用記錄”4 個(gè)字是我們上網(wǎng)過(guò)程中能夠看到的。當(dāng)我們點(diǎn)擊一下搜索引擎的輸入框想要輸入文本時(shí),搜索引擎會(huì)自動(dòng)下拉出我們前幾次使用時(shí)所查詢的內(nèi)容,以便我們重復(fù)查看相似內(nèi)容的信息。搜索引擎有時(shí)也會(huì)為我們推薦一些內(nèi)容的信息。這些信息也會(huì)是我們所感興趣的一些內(nèi)容,是搜索引擎結(jié)合了我們之前的使用記錄,為我們提供感興趣的相類似的內(nèi)容。這些都是 Web 使用記錄挖掘在搜索引擎中的實(shí)用例子,但并不是全部。搜索引擎會(huì)從用戶的訪問(wèn)痕跡中挖掘出很多有意義的數(shù)據(jù),包括數(shù)據(jù)端、服務(wù)器端和代理端的數(shù)據(jù)。而其獲得這些數(shù)據(jù)的途徑又分為 KDD 和專業(yè)化追蹤。這些方法和深度的挖掘,使搜索引擎更加“智能”地了解用戶的興趣和需要。
4.總結(jié)。
搜索引擎是我們工作、學(xué)習(xí)和生活中必不可少的實(shí)用性技術(shù),正如一個(gè)調(diào)查中所顯示的,85%的人都是通過(guò)搜索引擎獲取到他們所需要的信息和所喜愛(ài)的網(wǎng)站,可見(jiàn)搜索引擎的重要性。隨著智能技術(shù)的不斷更新,人們的生活變得越來(lái)越智能,對(duì)搜索引擎的要求也會(huì)隨之越來(lái)越高,因此不斷利用新的技術(shù)完善和提高搜索引擎的智能性,是用戶的選擇,也是時(shí)代的選擇,是搜索引擎在現(xiàn)在和未來(lái)的發(fā)展中必然的趨勢(shì),且將一直持續(xù)下去。
參考文獻(xiàn):
[1]陳勇躍,張玉峰。智能技術(shù)在搜索引擎中的應(yīng)用[J].情報(bào)雜志,2004(02):2-3,6.[2]楊占華,楊燕。數(shù)據(jù)挖掘在智能搜索引擎中的應(yīng)用[J].微計(jì)算機(jī)信息,2006(12):244-246.[3]朱素媛,馬溪俊,梁昌勇。人工智能技術(shù)在搜索引擎中的應(yīng)用[J].合肥工業(yè)大學(xué)學(xué)報(bào)(自然科學(xué)版),2003(S1):657-661.