第一篇:大數(shù)據(jù)建模與數(shù)據(jù)挖掘培訓(xùn)心得體會
大數(shù)據(jù)建模與數(shù)據(jù)挖掘培訓(xùn)心得體會
公司在2017年08月24日 — 08月27日組織參加了在北京舉辦的“大數(shù)據(jù)建模與分析挖掘”培訓(xùn)班,首先感謝公司給予的這次難得的機(jī)會,雖然只有短短的3天時(shí)間,但是我覺得在這3天我得到了一個(gè)充分的學(xué)習(xí)。下面我就談?wù)勥@次培訓(xùn)的一些體會。
1、對數(shù)據(jù)建模和挖掘體系有了更深入的了解
培訓(xùn)中講了大數(shù)據(jù)底層架構(gòu)hadoop、spark的組成、了解了HDFS、mapreduce、hive、Hbase等組建的應(yīng)用場景,并且也涉及了大數(shù)據(jù)架構(gòu)與數(shù)據(jù)挖掘技術(shù)的結(jié)合,對整個(gè)大數(shù)據(jù)體系架構(gòu)及數(shù)據(jù)挖掘流程更進(jìn)了一步。
2、了解了挖掘模型的底層的原理
雖然實(shí)際工作中對數(shù)據(jù)挖掘模型更多的是側(cè)重應(yīng)用,但是了解了模型原理有利于對模型進(jìn)行改造升級。培訓(xùn)中學(xué)習(xí)了一些模型求最優(yōu)解的方法和策略,了解了最小二乘法、貪心算法、熵值法在求解模型系數(shù)時(shí)的應(yīng)用原理,通過培訓(xùn)對模型底層算法有了一定了解。
3、學(xué)習(xí)了一些最新的建模方法
在以往的建模中往往采用單一模型或者多個(gè)模型權(quán)重結(jié)合的方式進(jìn)行模型建立,此次培訓(xùn)中老師講到了級聯(lián)模型的應(yīng)用,通過多個(gè)模型的等級級聯(lián),使預(yù)測模型的損失函數(shù)值最小且避免過擬合,并引入了xgboost高擬合模型,通過此次培訓(xùn),對最新的建模方法和模型包有了一些了解。
4、確定了下一步學(xué)習(xí)的方向和目標(biāo) 通過此次培訓(xùn)了解到自己在數(shù)據(jù)挖掘的道路還很長,對整個(gè)體系的全面掌控、建模的高準(zhǔn)確性、深度學(xué)習(xí)等方面都是自己未來發(fā)展的方向,后續(xù)工作和學(xué)習(xí)中,根據(jù)公司需要確定優(yōu)先深入學(xué)習(xí)的方向。
5、規(guī)劃將學(xué)習(xí)的知識應(yīng)用到實(shí)際工作中
在當(dāng)前工作中也會涉及到預(yù)測模型,后期當(dāng)不注重模型的可解釋性時(shí),可考慮使用黑盒方式進(jìn)行數(shù)據(jù)挖掘,采用級聯(lián)模型完成高擬合度的模型。在數(shù)據(jù)挖掘框架方面,雖然當(dāng)前項(xiàng)目中沒有涉及到的大數(shù)據(jù)體系架構(gòu)的知識,但后期隨著數(shù)據(jù)挖掘工作的深入,在模型部署階段,可考慮將關(guān)系型數(shù)據(jù)庫升級為大數(shù)據(jù)生態(tài)框架體系。
第二篇:數(shù)據(jù)挖掘心得體會
心得體會
這次數(shù)據(jù)挖掘?qū)嶒?yàn)結(jié)束了,期間我們小組明確分工并積極去完成,雖然有點(diǎn)辛苦,但我感覺充實(shí)而有收獲感!
根據(jù)老師給的一些資料,我們決定采用SQL Server 2000中的Northwind數(shù)據(jù)庫里的數(shù)據(jù)作為我們的實(shí)驗(yàn)數(shù)據(jù)。根據(jù)表Order Details中的數(shù)據(jù),我們分別根據(jù)ProductID和OrderID字段,并結(jié)合我們規(guī)定的最小支持度閥值對數(shù)據(jù)進(jìn)行篩選。依次篩選出1項(xiàng)頻繁集、2項(xiàng)頻繁集和3項(xiàng)頻繁集,其中還會使用游標(biāo)的方式來遍歷2項(xiàng)集與3項(xiàng)集的候選集,分別選出2項(xiàng)頻繁集和3項(xiàng)頻繁集。
由于數(shù)據(jù)較多,因此過程比較復(fù)雜,要編寫很多的查詢語句,建立許多數(shù)據(jù)表,包括臨時(shí)表。開始不知道則操作,但經(jīng)過我們各自多次重復(fù)的建表與查詢,逐漸的理解和有了自己的思路。尤其是在運(yùn)用游標(biāo)的方法進(jìn)行遍歷這塊,因?yàn)槲覀儽容^陌生而不理解,操作時(shí)一時(shí)無法實(shí)現(xiàn)結(jié)果,但經(jīng)過我們在網(wǎng)上查詢了解相關(guān)知識,最終得以解決。
經(jīng)過該次實(shí)驗(yàn),使我對數(shù)據(jù)庫的操作更加熟練,而且還使我對課本上的“挖掘頻繁模式”這塊知識有了很好的掌握,今后我會多做實(shí)驗(yàn),使我在實(shí)際操作過程中學(xué)得更好!
第三篇:數(shù)據(jù)挖掘與分析心得體會
正如柏拉圖所說:需要是發(fā)明之母。隨著信息時(shí)代的步伐不斷邁進(jìn),大量數(shù)據(jù)日積月累。我們迫切需要一種工具來滿足從數(shù)據(jù)中發(fā)現(xiàn)知識的需求!而數(shù)據(jù)挖掘便應(yīng)運(yùn)而生了。正如書中所說:數(shù)據(jù)挖掘已經(jīng)并且將繼續(xù)在我們從數(shù)據(jù)時(shí)代大步跨入信息時(shí)代的歷程中做出貢獻(xiàn)。
1、數(shù)據(jù)挖掘
數(shù)據(jù)挖掘應(yīng)當(dāng)更正確的命名為:“從數(shù)據(jù)中挖掘知識”,不過后者顯得過長了些。而“挖掘”一詞確是生動形象的!人們把數(shù)據(jù)挖掘視為“數(shù)據(jù)中的知識發(fā)現(xiàn)(KDD)”的同義詞,而另一些人只是把數(shù)據(jù)挖掘視為知識發(fā)現(xiàn)過程的一個(gè)基本步驟!
由此而產(chǎn)生數(shù)據(jù)挖掘的定義:從大量數(shù)據(jù)中挖掘有趣模式和知識的過程!數(shù)據(jù)源包括數(shù)據(jù)庫、數(shù)據(jù)倉庫、Web、其他信息存儲庫或動態(tài)地流入系統(tǒng)的數(shù)據(jù)。作為知識發(fā)現(xiàn)過程,它通常包括數(shù)據(jù)清理、數(shù)據(jù)集成、數(shù)據(jù)變換、模式發(fā)現(xiàn)、模式評估和知識表示六個(gè)步驟。
數(shù)據(jù)挖掘處理數(shù)據(jù)之多,挖掘模式之有趣,使用技術(shù)之大量,應(yīng)用范圍之廣泛都將會是前所未有的;而數(shù)據(jù)挖掘任務(wù)之重也一直并存。這些問題將繼續(xù)激勵(lì)數(shù)據(jù)挖掘的進(jìn)一步研究與改進(jìn)!
2、數(shù)據(jù)分析
數(shù)據(jù)分析是指用適當(dāng)?shù)慕y(tǒng)計(jì)方法對收集來的大量第一手資料和第二手資料進(jìn)行分析,以求最大化地開發(fā)數(shù)據(jù)資料的功能,發(fā)揮數(shù)據(jù)的作用。是為了提取有用信息和形成結(jié)論而對數(shù)據(jù)加以詳細(xì)研究和概括總結(jié)的過程。
數(shù)據(jù)分析有極廣泛的應(yīng)用范圍。典型的數(shù)據(jù)分析可能包含以下三個(gè)步:
1、探索性數(shù)據(jù)分析:當(dāng)數(shù)據(jù)剛?cè)〉脮r(shí),可能雜亂無章,看不出規(guī)律,通過作圖、造表、用各種形式的方程擬合,計(jì)算某些特征量等手段探索規(guī)律性的可能形式,即往什么方向和用何種方式去尋找和揭示隱含在數(shù)據(jù)中的規(guī)律性。
2、模型選定分析,在探索性分析的基礎(chǔ)上提出一類或幾類可能的模型,然后通過進(jìn)一步的分析從中挑選一定的模型。
3、推斷分析:通常使用數(shù)理統(tǒng)計(jì)方法對所定模型或估計(jì)的可靠程度和精確程度作出推斷。
數(shù)據(jù)分析的目的是把隱沒在一大批看來雜亂無章的數(shù)據(jù)中的信息集中、萃取和提煉出來,以找出所研究對象的內(nèi)在規(guī)律。在實(shí)用中,數(shù)據(jù)分析可幫助人們作出判斷,以便采取適當(dāng)行動。數(shù)據(jù)分析是組織有目的地收集數(shù)據(jù)、分析數(shù)據(jù),使之成為信息的過程。這一過程是質(zhì)量管理體系的支持過程。在產(chǎn)品的整個(gè)壽命周期,包括從市場調(diào)研到售后服務(wù)和最終處置的各個(gè)過程都需要適當(dāng)運(yùn)用數(shù)據(jù)分析過程,以提升有效性。
由上可見,數(shù)據(jù)挖掘和數(shù)據(jù)分析雖然概念上層次清晰,作用上分工明確(數(shù)據(jù)分析主要以上數(shù)理統(tǒng)計(jì)為主,數(shù)據(jù)挖掘主要是挖掘算法為主)。但很明顯的是,數(shù)據(jù)挖掘必須借助數(shù)據(jù)分析的有關(guān)方法來挖掘出有效的,對目標(biāo)應(yīng)用有意義的模式和知識。或者可以說:數(shù)據(jù)挖掘也可以是數(shù)據(jù)分析的一種!
在這樣一個(gè)信息迅速膨脹的時(shí)代,數(shù)據(jù)挖掘和分析都與大量數(shù)據(jù)打交道。兩者都離不開一種80年代后期興起的一種高級數(shù)據(jù)分析技術(shù):數(shù)據(jù)倉庫和聯(lián)機(jī)分析處理。
3、數(shù)據(jù)倉庫
數(shù)據(jù)倉庫是一個(gè)從多個(gè)數(shù)據(jù)源收集的信息存儲庫,存放在一致的的模式下,并且通常駐留在單個(gè)站點(diǎn)上。數(shù)據(jù)倉庫通過數(shù)據(jù)清理、數(shù)據(jù)變換、數(shù)據(jù)集成、數(shù)據(jù)裝入和定期數(shù)據(jù)刷新來構(gòu)造。為便于決策,數(shù)據(jù)倉庫中的數(shù)據(jù)圍繞主題組織。數(shù)據(jù)存儲從歷史的角度提供信息,并且通常是匯總的。數(shù)據(jù)倉庫提供一些數(shù)據(jù)分析能力,稱作聯(lián)機(jī)分析處理(OLAP)。
數(shù)據(jù)倉庫有以下四種關(guān)鍵特征:
面向主題的:數(shù)據(jù)倉庫圍繞一些重要主題,如顧客、供應(yīng)商、產(chǎn)品、和銷售組織。數(shù)據(jù)倉庫關(guān)注決策者的數(shù)據(jù)建模與分析,而不是單位的日常操作和事務(wù)處理。因此,數(shù)據(jù)倉庫通常排除對于決策無用的數(shù)據(jù),提供特定主題的簡明視圖。
集成的:通常,構(gòu)造數(shù)據(jù)倉庫是將多個(gè)異構(gòu)數(shù)據(jù)源,使用數(shù)據(jù)清理和數(shù)據(jù)集成技術(shù),確保命名約定,編碼結(jié)構(gòu),屬性度量等的一致性。
時(shí)變的:數(shù)據(jù)存儲從歷史的角度提供信息。數(shù)據(jù)倉庫中的關(guān)鍵結(jié)構(gòu)都隱式或顯式地包含時(shí)間元素。
非易失的:數(shù)據(jù)倉庫總是物理地分離存放數(shù)據(jù),這些數(shù)據(jù)源于操作環(huán)境下的應(yīng)用數(shù)據(jù)。由于這種分離,數(shù)據(jù)倉庫不需要事務(wù)處理、恢復(fù)和并發(fā)控制機(jī)制。通常,它只需要兩種數(shù)據(jù)訪問操作:數(shù)據(jù)的初始化裝入和數(shù)據(jù)訪問。
4、分類及算法
分類是一種重要的數(shù)據(jù)分析形式,它提取刻畫重要數(shù)據(jù)類的模型。分類是找出數(shù)據(jù)庫中一組數(shù)據(jù)對象的共同特點(diǎn)并按照分類模式將其劃分為不同的類,其目的是通過分類模型,將數(shù)據(jù)庫中的數(shù)據(jù)項(xiàng)映射到某個(gè)給定的類別。它可以應(yīng)用到客戶的分類、客戶的屬性和特征分析、客戶滿意度分析、客戶的購買趨勢預(yù)測等,如一個(gè)汽車零售商將客戶按照對汽車的喜好劃分成不同的類,這樣營銷人員就可以將新型汽車的廣告手冊直接郵寄到有這種喜好的客戶手中,從而大大增加了商業(yè)機(jī)會。
分類算法主要有決策樹歸納、貝葉斯分類、使用IF-THEN規(guī)則分類、神經(jīng)網(wǎng)絡(luò)、支持向量機(jī)等。
5、聚類分析
聚類分析是把一組數(shù)據(jù)按照相似性和差異性分為幾個(gè)類別,其目的是使得屬于同一類別的數(shù)據(jù)間的相似性盡可能大,不同類別中的數(shù)據(jù)間的相似性盡可能小。它可以應(yīng)用到客戶群體的分類、客戶背景分析、客戶購買趨勢預(yù)測、市場的細(xì)分等。
常用的算法有:
劃分方法:k-均值算法,k-中心點(diǎn)算法。
層次方法:層次聚類算法、平衡迭代歸約和算法、Chameleon(變色龍)、基于密度的方法:DBSCAN算法,OPTICS算法,DENCLUE算法。基于網(wǎng)格的方法:STING(統(tǒng)計(jì)信息網(wǎng)格),CLIQUE
6、廣泛應(yīng)用
作為一個(gè)應(yīng)用驅(qū)動的領(lǐng)域,數(shù)據(jù)挖掘融匯來自其他一些領(lǐng)域的技術(shù)。這些領(lǐng)域包括統(tǒng)計(jì)學(xué)、機(jī)器學(xué)習(xí)、數(shù)據(jù)庫和數(shù)據(jù)倉庫系統(tǒng),以及信息檢索。數(shù)據(jù)挖掘研究與開發(fā)的多學(xué)科特點(diǎn)大大促進(jìn)了數(shù)據(jù)挖掘的成功和廣泛應(yīng)用。
數(shù)據(jù)挖掘已經(jīng)有許多成功的應(yīng)用,如商務(wù)智能,Web搜索,生物信息學(xué),衛(wèi)生保健信息學(xué),金融,數(shù)字圖書館和數(shù)字政府等。
7、學(xué)習(xí)總結(jié)
數(shù)據(jù)挖掘技術(shù)已經(jīng)形成很廣泛的應(yīng)用空間,而目前JDMP的版本也在完善當(dāng)中,大多數(shù)數(shù)據(jù)挖掘開發(fā)工具涌現(xiàn)出來。各種相關(guān)的框架如Hadoop也如雨后春筍紛紛出現(xiàn)。這些現(xiàn)象的出現(xiàn),正是因?yàn)閿?shù)據(jù)挖掘的發(fā)展會有越來越廣泛的天空。然而數(shù)據(jù)挖掘還是有很多需要面臨并且急需解決的問題??而我們也希望其越來越深刻的研究和改進(jìn)。
對于數(shù)據(jù)挖掘的學(xué)習(xí),還是要注重算法的研究和開發(fā)。目前我還很欠缺這一塊知識。包括統(tǒng)計(jì)學(xué)、概率論,機(jī)器學(xué)習(xí)等。數(shù)據(jù)挖掘是個(gè)繁復(fù)的過程,需要我們長此以往的研究!
第四篇:數(shù)據(jù)挖掘與電子商務(wù)
數(shù)據(jù)挖掘與電子商務(wù)
姓名:龔洪虎
學(xué)號:X2009230111
[摘 要] 企業(yè)的競爭優(yōu)勢并不取決于信息的擁有量,而是取決于信息的處理利用能力。如何化信息優(yōu)勢為競爭優(yōu)勢,是企業(yè)制勝于市場的一個(gè)法寶。本文論述了一種信息處理利用的有效工具——數(shù)據(jù)挖掘方法及其在電子商務(wù)中的應(yīng)用。
[關(guān)鍵詞] 數(shù)據(jù)挖掘 方法 電子商務(wù) 應(yīng)用
隨著網(wǎng)絡(luò)技術(shù)和數(shù)據(jù)庫技術(shù)的成熟,傳統(tǒng)商務(wù)正經(jīng)歷一次重大變革,向電子商務(wù)全速挺進(jìn)。這種商業(yè)電子化的趨勢不僅為客戶提供了便利的交易方式和廣泛的選擇,同時(shí)也為商家提供了更加深入了解客戶需求信息和購物行為特征的可能性。數(shù)據(jù)挖掘技術(shù)作為電子商務(wù)的重要應(yīng)用技術(shù)之一,將為正確的商業(yè)決策提供強(qiáng)有力的支持和可靠的保證,是電子商務(wù)不可缺少的重要工具。
一、電子商務(wù)和數(shù)據(jù)挖掘簡介。
電子商務(wù)是指個(gè)人或企業(yè)通過Internet網(wǎng)絡(luò),采用數(shù)字化電子方式進(jìn)行商務(wù)數(shù)據(jù)交換和開展商務(wù)業(yè)務(wù)活動。目前國內(nèi)已有網(wǎng)上商情廣告、電子票據(jù)交換、網(wǎng)上訂購,網(wǎng)上銀行、網(wǎng)上支付結(jié)算等多種類型的電子商務(wù)形式。電子商務(wù)正以其成本低廉、方便、快捷、安全、可靠、不受時(shí)間和空間的限制等突出優(yōu)點(diǎn)而逐步在全球流行。
數(shù)據(jù)挖掘(DataMining)是伴隨著數(shù)據(jù)倉庫技術(shù)的發(fā)展而逐步完善起來的。數(shù)據(jù)挖掘主要是為了幫助商業(yè)用戶處理大量存在的數(shù)據(jù),發(fā)現(xiàn)其后隱含的規(guī)律性,同時(shí)將其模型化,來完成輔助決策的作用。它要求從大量的、不完全的、有噪聲的、模糊的和隨機(jī)的數(shù)據(jù)中,提取人們事先不知道的但又是潛在有用的信息和知識。數(shù)據(jù)挖掘的過程有時(shí)也叫知識發(fā)現(xiàn)的過程。
而電子商務(wù)中的數(shù)據(jù)挖掘即Web挖掘,是利用數(shù)據(jù)挖掘技術(shù)從www的資源(即Web文檔)和行為(即We服務(wù))中自動發(fā)現(xiàn)并提取感興趣的、有用的模式和隱含的信息,它是一項(xiàng)綜合技術(shù)涉及到Internet技術(shù)學(xué)、人工智能、計(jì)算機(jī)語言、信息學(xué)、統(tǒng)計(jì)學(xué)等多個(gè)領(lǐng)域。
二、何謂數(shù)據(jù)挖掘及方法
確切地說,數(shù)據(jù)挖掘(Data Mining),又稱數(shù)據(jù)庫中的知識發(fā)現(xiàn)(Knowledge Discovery in Database,KDD),是指從大型數(shù)據(jù)庫或數(shù)據(jù)倉庫中提取隱含的、未知的、非平凡的及有潛在應(yīng)用價(jià)值的信息或模式。它融合了數(shù)據(jù)庫、人工智能、機(jī)器學(xué)習(xí)、統(tǒng)計(jì)學(xué)等多個(gè)領(lǐng)域的理論和技術(shù)。比較典型的數(shù)據(jù)挖掘方法有關(guān)聯(lián)分析、序列模式分析、分類分析、聚類分析等。它們可以應(yīng)用到以客戶為中心的企業(yè)決策分析和管理的各個(gè)不同領(lǐng)域和階段。
1.關(guān)聯(lián)分析。關(guān)聯(lián)分析,即利用關(guān)聯(lián)規(guī)則進(jìn)行數(shù)據(jù)挖掘。關(guān)聯(lián)分析的目的是挖掘隱藏在數(shù)據(jù)間的相互關(guān)系,它能發(fā)現(xiàn)數(shù)據(jù)庫中形如”90%的顧客在一次購買活動中購買商品A的同時(shí)購買商品B”之類的知識。
2.序列模式分析。序列模式分析和關(guān)聯(lián)分析相似,但側(cè)重點(diǎn)在于分析數(shù)據(jù)間的前后序列關(guān)系。它能發(fā)現(xiàn)數(shù)據(jù)庫中形如”在某一段時(shí)間內(nèi),顧客購買商品A,接著購買商品B,而后購買商品C,即序列A→B→C出現(xiàn)的頻度較高”之類的知識,序列模式分析描述的問題是:在給定交易序列數(shù)據(jù)庫中,每個(gè)序列是按照交易時(shí)間排列的一組交易集,挖掘序列函數(shù)作用在這個(gè)交易序列數(shù)據(jù)庫上,返回該數(shù)據(jù)庫中出現(xiàn)的高頻序列。在進(jìn)行序列模式分析時(shí),同樣也需要由用戶輸入最小置信度C和最小支持度S。
3.分類分析。設(shè)有一個(gè)數(shù)據(jù)庫和一組具有不同特征的類別(標(biāo)記),該數(shù)據(jù)庫中的每一個(gè)②
記錄都賦予一個(gè)類別的標(biāo)記,這樣的數(shù)據(jù)庫稱為示例數(shù)據(jù)庫或訓(xùn)練集。分類分析就是通過分析示例數(shù)據(jù)庫中的數(shù)據(jù),為每個(gè)類別做出準(zhǔn)確的描述或建立分析模型或挖掘出分類規(guī)則,然后用這個(gè)分類規(guī)則對其他數(shù)據(jù)庫中的記錄進(jìn)行分類。
4.聚類分析。聚類分析輸入的是一組未分類記錄,并且這些記錄應(yīng)分成幾類事先也不知道,通過分析數(shù)據(jù)庫中的記錄數(shù)據(jù),根據(jù)一定的分類規(guī)則,合理地劃分記錄集合,確定每個(gè)記錄所在類別。它所采用的分類規(guī)則是由聚類分析工具決定的。采用不同的聚類方法,對于相同的記錄集合可能有不同的劃分結(jié)果。
應(yīng)用數(shù)據(jù)挖掘技術(shù),較為理想的起點(diǎn)就是從一個(gè)數(shù)據(jù)倉庫開始,數(shù)據(jù)挖掘可以直接跟蹤數(shù)據(jù)并輔助用戶快速做出商業(yè)決策,用戶還可以在更新數(shù)據(jù)的時(shí)候不斷發(fā)現(xiàn)更好的行為模式,并將其運(yùn)用于未來的決策當(dāng)中。
三、選擇數(shù)據(jù)挖掘技術(shù)的兩個(gè)重要依據(jù)。
數(shù)據(jù)挖掘使用的技術(shù)很多,其中主要包括統(tǒng)計(jì)方法、機(jī)器學(xué)習(xí)方法、和神經(jīng)網(wǎng)絡(luò)方法和數(shù)據(jù)庫方法。統(tǒng)計(jì)方法可細(xì)分為回歸分析、判別分析、聚類分析、探索性分析等。機(jī)器學(xué)習(xí)方法可細(xì)分為歸納學(xué)習(xí)方法(決策樹、規(guī)則歸納)、基于范例學(xué)習(xí)、遺傳算法等。神經(jīng)網(wǎng)絡(luò)方法可細(xì)分為錢箱神經(jīng)網(wǎng)絡(luò)(BP算法)、自組織神經(jīng)網(wǎng)絡(luò)等。數(shù)據(jù)庫方法主要是多維數(shù)據(jù)分析或OLAP方法,另外還有面向?qū)傩缘臍w納方法。由于每一種數(shù)據(jù)挖掘技術(shù)都有其自身的特點(diǎn)和實(shí)現(xiàn)的步驟,對數(shù)據(jù)的形式有具體的要求,并且與具體的應(yīng)用問題密切相關(guān),因此成功的應(yīng)用數(shù)據(jù)挖掘技術(shù)以達(dá)到目標(biāo)過程本身就是一件很復(fù)雜的事情,本文主要從挖掘任務(wù)和可獲得的數(shù)據(jù)兩個(gè)角度來討論對數(shù)據(jù)挖掘技術(shù)的選擇。
三、數(shù)據(jù)挖掘在電子商務(wù)中的應(yīng)用
數(shù)據(jù)挖掘能發(fā)現(xiàn)電子商務(wù)客戶的的共性和個(gè)性的知識、必然和偶然的知識、獨(dú)立和關(guān)聯(lián)的知識、現(xiàn)實(shí)和預(yù)測的知識等,所有這些知識經(jīng)過分析,能對客戶的消費(fèi)行為如心理、能力、動機(jī)、需求、潛能等做出統(tǒng)計(jì)和正確地分析,為管理者提供決策依據(jù)。具體應(yīng)用如下:
1.分類與預(yù)測方法在電子商務(wù)中的應(yīng)用。在電子商務(wù)活動中,分類是一項(xiàng)非常重要的任務(wù),也是應(yīng)用最多的技術(shù)。分類的目的是構(gòu)造一個(gè)分類函數(shù)或分類模型,通常稱作分類器。分類器的構(gòu)造方法通常由統(tǒng)計(jì)方法、機(jī)器學(xué)習(xí)方法、神經(jīng)網(wǎng)絡(luò)方法等。這些方法能把數(shù)據(jù)庫中的數(shù)據(jù)映射到給定類別中某一個(gè),以便用于預(yù)測,也就是利用歷史數(shù)據(jù)記錄,自動推導(dǎo)出給定數(shù)據(jù)的推廣描述,從而對未來數(shù)據(jù)進(jìn)行預(yù)測。
2.聚類方法在電子商務(wù)中的應(yīng)用。聚類是把一組個(gè)體按照相似性原則歸成若干類別。對電子商務(wù)來說,客戶聚類可以對市場細(xì)分理論提供有力的支持。市場細(xì)分的目的是使得屬于同一類別的個(gè)體之間的距離盡可能小,而不同類別的個(gè)體之間的距離盡可能大,通過對聚類的客戶特征的提取,電子商務(wù)網(wǎng)站可以為客戶提供個(gè)性化的服務(wù)。
3.數(shù)據(jù)抽取方法在電子商務(wù)中的應(yīng)用。數(shù)據(jù)抽取的目的是對數(shù)據(jù)進(jìn)行濃縮,給出它的緊湊描述,如求和值、平均值、方差值、等統(tǒng)計(jì)值、或者用直方圖、餅狀圖等圖形方式表示,更主要的是他從數(shù)據(jù)泛化的角度來討論數(shù)據(jù)總結(jié)。數(shù)據(jù)泛化是一種把最原始、最基本的信息數(shù)據(jù)從低層次抽象到高層次上的過程??刹捎枚嗑S數(shù)據(jù)分析方法和面向?qū)傩缘臍w納方法。在電子商務(wù)活動中,采用維數(shù)據(jù)分析方法進(jìn)行數(shù)據(jù)抽取,他針對的是電子商務(wù)活動中的客戶數(shù)據(jù)倉庫。在數(shù)據(jù)分析中經(jīng)常要用到諸如求和、總計(jì)、平均、最大、最小等匯集操作,這類操作的計(jì)算量特別大,可把匯集操作結(jié)果預(yù)先計(jì)算并存儲起來,以便用于決策支持系統(tǒng)使用。
4.關(guān)聯(lián)規(guī)則在電子商務(wù)中的應(yīng)用。管理部門可以收集存儲大量的售貨數(shù)據(jù)和客戶資料,對這些歷史數(shù)據(jù)進(jìn)行分析并發(fā)現(xiàn)關(guān)聯(lián)規(guī)則。如分析網(wǎng)上顧客的購買行為,幫助管理者規(guī)劃市場,確定商品的種類、價(jià)格、質(zhì)量等。通常關(guān)聯(lián)規(guī)則有兩種:有意義的關(guān)聯(lián)規(guī)則和泛化關(guān)聯(lián)規(guī)則,有意義的關(guān)聯(lián)規(guī)則,即滿足最小支持度和最小可信度的規(guī)則。最小支持度,它表示一組對象在統(tǒng)計(jì)意義上的需滿足的最低程度,如電子商務(wù)活動中的客戶數(shù)量、客戶消費(fèi)能力、消費(fèi)方式等。后者即用戶規(guī)定的關(guān)聯(lián)規(guī)則的最低可靠度。第二是泛化規(guī)則,這種規(guī)則更實(shí)用,因?yàn)檠芯繉ο蟠嬖谝环N層次關(guān)系,如面包、蛋糕屬西點(diǎn)類,而西點(diǎn)又屬于食品類,有了層次關(guān)系后,可以幫助發(fā)現(xiàn)更多的有意義的規(guī)則。
5、優(yōu)化企業(yè)資源
節(jié)約成本是企業(yè)盈利的關(guān)鍵?;跀?shù)據(jù)挖掘技術(shù),實(shí)時(shí)、全面、準(zhǔn)確地掌握企業(yè)資源信息,通過分析歷史的財(cái)務(wù)數(shù)據(jù)、庫存數(shù)據(jù)和交易數(shù)據(jù), 可以發(fā)現(xiàn)企業(yè)資源消耗的關(guān)鍵點(diǎn)和主要活動的投入產(chǎn)出比例, 從而為企業(yè)資源優(yōu)化配置提供決策依據(jù), 例如降低庫存、提高庫存周轉(zhuǎn)率、提高資金使用率等。通過對Web數(shù)據(jù)挖掘,快速提取商業(yè)信息,使企業(yè)準(zhǔn)確地把握市場動態(tài),極大地提高企業(yè)對市場變化的響應(yīng)能力和創(chuàng)新能力,使企業(yè)最大限度地利用人力資源、物質(zhì)資源和信息資源,合理協(xié)調(diào)企業(yè)內(nèi)外部資源的關(guān)系,產(chǎn)生最佳的經(jīng)濟(jì)效益。促進(jìn)企業(yè)發(fā)展的科學(xué)化、信息化和智能化。
例如:美國運(yùn)通公司(American Express)有一個(gè)用于記錄信用卡業(yè)務(wù)的數(shù)據(jù)庫,數(shù)據(jù)量達(dá)到54億字符,并仍在隨著業(yè)務(wù)進(jìn)展不斷更新。運(yùn)通公司通過對這些數(shù)據(jù)進(jìn)行挖掘,制定了“關(guān)聯(lián)結(jié)算(Relation ship Billing)優(yōu)惠”的促銷策略,即如果一個(gè)顧客在一個(gè)商店用運(yùn)通卡購買一套時(shí)裝,那么在同一個(gè)商店再買一雙鞋,就可以得到比較大的折扣,這樣既可以增加商店的銷售量,也可以增加運(yùn)通卡在該商店的使用率。
6、管理客戶數(shù)據(jù)
隨著“以客戶為中心”的經(jīng)營理念的不斷深入人心, 分析客戶、了解客戶并引導(dǎo)客戶的需求已成為企業(yè)經(jīng)營的重要課題。基于數(shù)據(jù)挖掘技術(shù),企業(yè)將最大限度地利用客戶資源,開展客戶行為的分析與預(yù)測,對客戶進(jìn)行分類。有助于客戶盈利能力分析,尋找潛在的有價(jià)值的客戶,開展個(gè)性化服務(wù),提高客戶的滿意度和忠誠度。通過Web資源的挖掘,了解客戶的購買習(xí)慣和興趣,從而改善網(wǎng)站結(jié)構(gòu)設(shè)計(jì),推出滿足不同客戶的個(gè)性化網(wǎng)頁。利用數(shù)據(jù)挖掘可以有效地獲得客戶。比如通過數(shù)據(jù)挖掘可以發(fā)現(xiàn)購買某種商品的消費(fèi)者是男性還是女性,學(xué)歷、收入如何, 有什么愛好,是什么職業(yè)等等。甚至可以發(fā)現(xiàn)不同的人在購買該種商品的相關(guān)商品后多長時(shí)間有可能購買該種商品, 以及什么樣的人會購買什么型號的該種商品等等。在采用了數(shù)據(jù)挖掘后, 針對目標(biāo)客戶發(fā)送的廣告的有效性和回應(yīng)率將得到大幅度的提高, 推銷的成本將大大降低。同時(shí),在客戶數(shù)據(jù)挖掘的基礎(chǔ)上,企業(yè)可以發(fā)現(xiàn)重點(diǎn)客戶和評價(jià)市場性能,制定個(gè)性化營銷策略,拓寬銷售渠道和范圍,為企業(yè)制定生產(chǎn)策略和發(fā)展規(guī)劃提供科學(xué)的依據(jù)。通過呼叫中心優(yōu)化與客戶溝通的渠道,提高對客戶的響應(yīng)效率和服務(wù)質(zhì)量,促
①進(jìn)客戶關(guān)系管理的自動化和智能化。
三、結(jié)束語
電子商務(wù)是現(xiàn)代信息技術(shù)發(fā)展的必然結(jié)果,也是未來商業(yè)運(yùn)作模式的必然選擇。利用數(shù)據(jù)挖掘技術(shù),充分發(fā)揮企業(yè)的獨(dú)特優(yōu)勢,促進(jìn)管理創(chuàng)新和技術(shù)創(chuàng)新,使企業(yè)在在電子商務(wù)的潮流中立于不敗之地。隨著數(shù)據(jù)挖掘算法的不斷發(fā)展和成熟,數(shù)據(jù)挖掘一定會有更加廣闊的應(yīng)用前景。
參考文獻(xiàn):
(1)《淺談數(shù)據(jù)挖掘在電子商務(wù)中的運(yùn)用》 鐘連福;
(2)《電子商務(wù)中商業(yè)數(shù)據(jù)的挖掘方法》 中國電子商務(wù)研究中心;
(3)《在電子商務(wù)中如何正確有使用數(shù)據(jù)挖掘技術(shù)》 俠名;
(4)《曾貞:數(shù)據(jù)挖掘在電子商務(wù)中的應(yīng)用》 甘肅農(nóng)業(yè),2004(7);
(5)《馮艷王堅(jiān)強(qiáng):數(shù)據(jù)挖掘在電子商務(wù)上的應(yīng)用》 2002(3);
(6)《呂延杰徐華飛:中國電子商務(wù)發(fā)展研究報(bào)告》北京郵電大學(xué)出版社 ;
(7)《數(shù)據(jù)挖掘與電子商務(wù)》 鄧鯤鵬,周延杰,嚴(yán)瑜筱。①
第五篇:數(shù)據(jù)挖掘講課心得體會
數(shù)據(jù)挖掘講課心得體會
今年的數(shù)據(jù)倉庫與數(shù)據(jù)挖掘課程,任課老師布置每人講一章,并課中研討的授課方式,我非常贊同這種自己備課,自己上去講課并課中和同學(xué)研討、最終老師點(diǎn)評的做法,因?yàn)樗茏屪约焊美斫馕恼?,同時(shí)又可以鍛煉自己的表達(dá)能力。
我主講《數(shù)據(jù)倉庫與數(shù)據(jù)挖掘技術(shù)》中的第二章“知識發(fā)現(xiàn)過程與應(yīng)用結(jié)構(gòu)”,在整個(gè)備課和講課當(dāng)中,存在很多不足,備課時(shí)參考的書目太少,使得在講課時(shí)關(guān)于概念和文章出現(xiàn)的例子不能進(jìn)行相關(guān)擴(kuò)展和補(bǔ)充,也不能用生活中通熟易懂的例子來闡述書本中的抽象概念;講課時(shí)更多的按著PPT所寫進(jìn)行概略性的講述,沒有形成自己的邏輯思維體系,我也知道,講課是門藝術(shù),不是幾次就能掌握的,要經(jīng)過不斷的實(shí)踐積累經(jīng)驗(yàn),不斷的研讀相關(guān)書目,形成自己的“知識樹”的基礎(chǔ)上,才能對所講的知識融會貫通。臺灣有位教育家曾說:如果你要講一門,至少要對該門課的五至六本經(jīng)典教材研讀幾遍,形成相應(yīng)的知識樹之后才好授課,這是題外話。
關(guān)于數(shù)據(jù)挖掘每一章算法的授課,我認(rèn)為在有限的時(shí)間里先把一個(gè)核心算法解釋清楚,對其他算法可以簡略帶過(最后一次課XXX對PageRank的講解就很到位),因?yàn)?,后面算法一般是前面所講算法的一種改進(jìn)。算法講解時(shí),除了要對該算法的原理和概念講述清楚之外,要對該算法的實(shí)例最好用板書的形式解釋清楚,并演算每一步,而不是拘泥于PPT進(jìn)行講解。板書字體可大可小,速度可快可慢,可以寫寫停停,也可以一氣呵成,可以邊寫邊講,也可以只寫不講。而PPT是則是死的東西,參考的內(nèi)容也是書上的步驟,而不是授課人自己的理解,在講解過程中,不利于學(xué)生的理解和認(rèn)識。講解的過程中,語速要適當(dāng)放慢,語速太快是所有人剛開始講課的通病,我也不例外,講課講得很快,自己的思維被打亂不說,主要下面的同學(xué)不能理解,畢竟講課不是演講。
對于上學(xué)期的一頁紙開卷,我非常贊同這種考試方式,畢竟對于理工類課程,公式很長,又特別難記,我們在理解其思想的基礎(chǔ)上,完全沒必要再記很長的公式,在考試的過程中,可以相應(yīng)的記錄些公式帶入考場。
以上是我個(gè)人在講課和聽課過程、及其考試過程中的一些總結(jié)和體會。