第一篇:數(shù)據(jù)挖掘與統(tǒng)計學的關(guān)系淺析
龍源期刊網(wǎng) http://.cn
數(shù)據(jù)挖掘與統(tǒng)計學的關(guān)系淺析
作者:魏 瑜 陸 靜
來源:《沿海企業(yè)與科技》2005年第09期
[摘要]數(shù)據(jù)挖掘和統(tǒng)計學有很多共同點,但與此同時它們也有很多差異。它們的關(guān)系究竟如何?文章分別介紹了數(shù)據(jù)挖掘和統(tǒng)計學的含義,并認為作為數(shù)據(jù)處理和分析方法中的一種——數(shù)據(jù)挖掘是統(tǒng)計學的新分支。
[關(guān)鍵詞]數(shù)據(jù)挖掘;統(tǒng)計學;數(shù)據(jù)處理和分析
[中圖分類號]F222
[文獻標識碼]A
第二篇:數(shù)據(jù)挖掘與電子商務(wù)
數(shù)據(jù)挖掘與電子商務(wù)
姓名:龔洪虎
學號:X2009230111
[摘 要] 企業(yè)的競爭優(yōu)勢并不取決于信息的擁有量,而是取決于信息的處理利用能力。如何化信息優(yōu)勢為競爭優(yōu)勢,是企業(yè)制勝于市場的一個法寶。本文論述了一種信息處理利用的有效工具——數(shù)據(jù)挖掘方法及其在電子商務(wù)中的應(yīng)用。
[關(guān)鍵詞] 數(shù)據(jù)挖掘 方法 電子商務(wù) 應(yīng)用
隨著網(wǎng)絡(luò)技術(shù)和數(shù)據(jù)庫技術(shù)的成熟,傳統(tǒng)商務(wù)正經(jīng)歷一次重大變革,向電子商務(wù)全速挺進。這種商業(yè)電子化的趨勢不僅為客戶提供了便利的交易方式和廣泛的選擇,同時也為商家提供了更加深入了解客戶需求信息和購物行為特征的可能性。數(shù)據(jù)挖掘技術(shù)作為電子商務(wù)的重要應(yīng)用技術(shù)之一,將為正確的商業(yè)決策提供強有力的支持和可靠的保證,是電子商務(wù)不可缺少的重要工具。
一、電子商務(wù)和數(shù)據(jù)挖掘簡介。
電子商務(wù)是指個人或企業(yè)通過Internet網(wǎng)絡(luò),采用數(shù)字化電子方式進行商務(wù)數(shù)據(jù)交換和開展商務(wù)業(yè)務(wù)活動。目前國內(nèi)已有網(wǎng)上商情廣告、電子票據(jù)交換、網(wǎng)上訂購,網(wǎng)上銀行、網(wǎng)上支付結(jié)算等多種類型的電子商務(wù)形式。電子商務(wù)正以其成本低廉、方便、快捷、安全、可靠、不受時間和空間的限制等突出優(yōu)點而逐步在全球流行。
數(shù)據(jù)挖掘(DataMining)是伴隨著數(shù)據(jù)倉庫技術(shù)的發(fā)展而逐步完善起來的。數(shù)據(jù)挖掘主要是為了幫助商業(yè)用戶處理大量存在的數(shù)據(jù),發(fā)現(xiàn)其后隱含的規(guī)律性,同時將其模型化,來完成輔助決策的作用。它要求從大量的、不完全的、有噪聲的、模糊的和隨機的數(shù)據(jù)中,提取人們事先不知道的但又是潛在有用的信息和知識。數(shù)據(jù)挖掘的過程有時也叫知識發(fā)現(xiàn)的過程。
而電子商務(wù)中的數(shù)據(jù)挖掘即Web挖掘,是利用數(shù)據(jù)挖掘技術(shù)從www的資源(即Web文檔)和行為(即We服務(wù))中自動發(fā)現(xiàn)并提取感興趣的、有用的模式和隱含的信息,它是一項綜合技術(shù)涉及到Internet技術(shù)學、人工智能、計算機語言、信息學、統(tǒng)計學等多個領(lǐng)域。
二、何謂數(shù)據(jù)挖掘及方法
確切地說,數(shù)據(jù)挖掘(Data Mining),又稱數(shù)據(jù)庫中的知識發(fā)現(xiàn)(Knowledge Discovery in Database,KDD),是指從大型數(shù)據(jù)庫或數(shù)據(jù)倉庫中提取隱含的、未知的、非平凡的及有潛在應(yīng)用價值的信息或模式。它融合了數(shù)據(jù)庫、人工智能、機器學習、統(tǒng)計學等多個領(lǐng)域的理論和技術(shù)。比較典型的數(shù)據(jù)挖掘方法有關(guān)聯(lián)分析、序列模式分析、分類分析、聚類分析等。它們可以應(yīng)用到以客戶為中心的企業(yè)決策分析和管理的各個不同領(lǐng)域和階段。
1.關(guān)聯(lián)分析。關(guān)聯(lián)分析,即利用關(guān)聯(lián)規(guī)則進行數(shù)據(jù)挖掘。關(guān)聯(lián)分析的目的是挖掘隱藏在數(shù)據(jù)間的相互關(guān)系,它能發(fā)現(xiàn)數(shù)據(jù)庫中形如”90%的顧客在一次購買活動中購買商品A的同時購買商品B”之類的知識。
2.序列模式分析。序列模式分析和關(guān)聯(lián)分析相似,但側(cè)重點在于分析數(shù)據(jù)間的前后序列關(guān)系。它能發(fā)現(xiàn)數(shù)據(jù)庫中形如”在某一段時間內(nèi),顧客購買商品A,接著購買商品B,而后購買商品C,即序列A→B→C出現(xiàn)的頻度較高”之類的知識,序列模式分析描述的問題是:在給定交易序列數(shù)據(jù)庫中,每個序列是按照交易時間排列的一組交易集,挖掘序列函數(shù)作用在這個交易序列數(shù)據(jù)庫上,返回該數(shù)據(jù)庫中出現(xiàn)的高頻序列。在進行序列模式分析時,同樣也需要由用戶輸入最小置信度C和最小支持度S。
3.分類分析。設(shè)有一個數(shù)據(jù)庫和一組具有不同特征的類別(標記),該數(shù)據(jù)庫中的每一個②
記錄都賦予一個類別的標記,這樣的數(shù)據(jù)庫稱為示例數(shù)據(jù)庫或訓練集。分類分析就是通過分析示例數(shù)據(jù)庫中的數(shù)據(jù),為每個類別做出準確的描述或建立分析模型或挖掘出分類規(guī)則,然后用這個分類規(guī)則對其他數(shù)據(jù)庫中的記錄進行分類。
4.聚類分析。聚類分析輸入的是一組未分類記錄,并且這些記錄應(yīng)分成幾類事先也不知道,通過分析數(shù)據(jù)庫中的記錄數(shù)據(jù),根據(jù)一定的分類規(guī)則,合理地劃分記錄集合,確定每個記錄所在類別。它所采用的分類規(guī)則是由聚類分析工具決定的。采用不同的聚類方法,對于相同的記錄集合可能有不同的劃分結(jié)果。
應(yīng)用數(shù)據(jù)挖掘技術(shù),較為理想的起點就是從一個數(shù)據(jù)倉庫開始,數(shù)據(jù)挖掘可以直接跟蹤數(shù)據(jù)并輔助用戶快速做出商業(yè)決策,用戶還可以在更新數(shù)據(jù)的時候不斷發(fā)現(xiàn)更好的行為模式,并將其運用于未來的決策當中。
三、選擇數(shù)據(jù)挖掘技術(shù)的兩個重要依據(jù)。
數(shù)據(jù)挖掘使用的技術(shù)很多,其中主要包括統(tǒng)計方法、機器學習方法、和神經(jīng)網(wǎng)絡(luò)方法和數(shù)據(jù)庫方法。統(tǒng)計方法可細分為回歸分析、判別分析、聚類分析、探索性分析等。機器學習方法可細分為歸納學習方法(決策樹、規(guī)則歸納)、基于范例學習、遺傳算法等。神經(jīng)網(wǎng)絡(luò)方法可細分為錢箱神經(jīng)網(wǎng)絡(luò)(BP算法)、自組織神經(jīng)網(wǎng)絡(luò)等。數(shù)據(jù)庫方法主要是多維數(shù)據(jù)分析或OLAP方法,另外還有面向?qū)傩缘臍w納方法。由于每一種數(shù)據(jù)挖掘技術(shù)都有其自身的特點和實現(xiàn)的步驟,對數(shù)據(jù)的形式有具體的要求,并且與具體的應(yīng)用問題密切相關(guān),因此成功的應(yīng)用數(shù)據(jù)挖掘技術(shù)以達到目標過程本身就是一件很復雜的事情,本文主要從挖掘任務(wù)和可獲得的數(shù)據(jù)兩個角度來討論對數(shù)據(jù)挖掘技術(shù)的選擇。
三、數(shù)據(jù)挖掘在電子商務(wù)中的應(yīng)用
數(shù)據(jù)挖掘能發(fā)現(xiàn)電子商務(wù)客戶的的共性和個性的知識、必然和偶然的知識、獨立和關(guān)聯(lián)的知識、現(xiàn)實和預測的知識等,所有這些知識經(jīng)過分析,能對客戶的消費行為如心理、能力、動機、需求、潛能等做出統(tǒng)計和正確地分析,為管理者提供決策依據(jù)。具體應(yīng)用如下:
1.分類與預測方法在電子商務(wù)中的應(yīng)用。在電子商務(wù)活動中,分類是一項非常重要的任務(wù),也是應(yīng)用最多的技術(shù)。分類的目的是構(gòu)造一個分類函數(shù)或分類模型,通常稱作分類器。分類器的構(gòu)造方法通常由統(tǒng)計方法、機器學習方法、神經(jīng)網(wǎng)絡(luò)方法等。這些方法能把數(shù)據(jù)庫中的數(shù)據(jù)映射到給定類別中某一個,以便用于預測,也就是利用歷史數(shù)據(jù)記錄,自動推導出給定數(shù)據(jù)的推廣描述,從而對未來數(shù)據(jù)進行預測。
2.聚類方法在電子商務(wù)中的應(yīng)用。聚類是把一組個體按照相似性原則歸成若干類別。對電子商務(wù)來說,客戶聚類可以對市場細分理論提供有力的支持。市場細分的目的是使得屬于同一類別的個體之間的距離盡可能小,而不同類別的個體之間的距離盡可能大,通過對聚類的客戶特征的提取,電子商務(wù)網(wǎng)站可以為客戶提供個性化的服務(wù)。
3.數(shù)據(jù)抽取方法在電子商務(wù)中的應(yīng)用。數(shù)據(jù)抽取的目的是對數(shù)據(jù)進行濃縮,給出它的緊湊描述,如求和值、平均值、方差值、等統(tǒng)計值、或者用直方圖、餅狀圖等圖形方式表示,更主要的是他從數(shù)據(jù)泛化的角度來討論數(shù)據(jù)總結(jié)。數(shù)據(jù)泛化是一種把最原始、最基本的信息數(shù)據(jù)從低層次抽象到高層次上的過程??刹捎枚嗑S數(shù)據(jù)分析方法和面向?qū)傩缘臍w納方法。在電子商務(wù)活動中,采用維數(shù)據(jù)分析方法進行數(shù)據(jù)抽取,他針對的是電子商務(wù)活動中的客戶數(shù)據(jù)倉庫。在數(shù)據(jù)分析中經(jīng)常要用到諸如求和、總計、平均、最大、最小等匯集操作,這類操作的計算量特別大,可把匯集操作結(jié)果預先計算并存儲起來,以便用于決策支持系統(tǒng)使用。
4.關(guān)聯(lián)規(guī)則在電子商務(wù)中的應(yīng)用。管理部門可以收集存儲大量的售貨數(shù)據(jù)和客戶資料,對這些歷史數(shù)據(jù)進行分析并發(fā)現(xiàn)關(guān)聯(lián)規(guī)則。如分析網(wǎng)上顧客的購買行為,幫助管理者規(guī)劃市場,確定商品的種類、價格、質(zhì)量等。通常關(guān)聯(lián)規(guī)則有兩種:有意義的關(guān)聯(lián)規(guī)則和泛化關(guān)聯(lián)規(guī)則,有意義的關(guān)聯(lián)規(guī)則,即滿足最小支持度和最小可信度的規(guī)則。最小支持度,它表示一組對象在統(tǒng)計意義上的需滿足的最低程度,如電子商務(wù)活動中的客戶數(shù)量、客戶消費能力、消費方式等。后者即用戶規(guī)定的關(guān)聯(lián)規(guī)則的最低可靠度。第二是泛化規(guī)則,這種規(guī)則更實用,因為研究對象存在一種層次關(guān)系,如面包、蛋糕屬西點類,而西點又屬于食品類,有了層次關(guān)系后,可以幫助發(fā)現(xiàn)更多的有意義的規(guī)則。
5、優(yōu)化企業(yè)資源
節(jié)約成本是企業(yè)盈利的關(guān)鍵?;跀?shù)據(jù)挖掘技術(shù),實時、全面、準確地掌握企業(yè)資源信息,通過分析歷史的財務(wù)數(shù)據(jù)、庫存數(shù)據(jù)和交易數(shù)據(jù), 可以發(fā)現(xiàn)企業(yè)資源消耗的關(guān)鍵點和主要活動的投入產(chǎn)出比例, 從而為企業(yè)資源優(yōu)化配置提供決策依據(jù), 例如降低庫存、提高庫存周轉(zhuǎn)率、提高資金使用率等。通過對Web數(shù)據(jù)挖掘,快速提取商業(yè)信息,使企業(yè)準確地把握市場動態(tài),極大地提高企業(yè)對市場變化的響應(yīng)能力和創(chuàng)新能力,使企業(yè)最大限度地利用人力資源、物質(zhì)資源和信息資源,合理協(xié)調(diào)企業(yè)內(nèi)外部資源的關(guān)系,產(chǎn)生最佳的經(jīng)濟效益。促進企業(yè)發(fā)展的科學化、信息化和智能化。
例如:美國運通公司(American Express)有一個用于記錄信用卡業(yè)務(wù)的數(shù)據(jù)庫,數(shù)據(jù)量達到54億字符,并仍在隨著業(yè)務(wù)進展不斷更新。運通公司通過對這些數(shù)據(jù)進行挖掘,制定了“關(guān)聯(lián)結(jié)算(Relation ship Billing)優(yōu)惠”的促銷策略,即如果一個顧客在一個商店用運通卡購買一套時裝,那么在同一個商店再買一雙鞋,就可以得到比較大的折扣,這樣既可以增加商店的銷售量,也可以增加運通卡在該商店的使用率。
6、管理客戶數(shù)據(jù)
隨著“以客戶為中心”的經(jīng)營理念的不斷深入人心, 分析客戶、了解客戶并引導客戶的需求已成為企業(yè)經(jīng)營的重要課題?;跀?shù)據(jù)挖掘技術(shù),企業(yè)將最大限度地利用客戶資源,開展客戶行為的分析與預測,對客戶進行分類。有助于客戶盈利能力分析,尋找潛在的有價值的客戶,開展個性化服務(wù),提高客戶的滿意度和忠誠度。通過Web資源的挖掘,了解客戶的購買習慣和興趣,從而改善網(wǎng)站結(jié)構(gòu)設(shè)計,推出滿足不同客戶的個性化網(wǎng)頁。利用數(shù)據(jù)挖掘可以有效地獲得客戶。比如通過數(shù)據(jù)挖掘可以發(fā)現(xiàn)購買某種商品的消費者是男性還是女性,學歷、收入如何, 有什么愛好,是什么職業(yè)等等。甚至可以發(fā)現(xiàn)不同的人在購買該種商品的相關(guān)商品后多長時間有可能購買該種商品, 以及什么樣的人會購買什么型號的該種商品等等。在采用了數(shù)據(jù)挖掘后, 針對目標客戶發(fā)送的廣告的有效性和回應(yīng)率將得到大幅度的提高, 推銷的成本將大大降低。同時,在客戶數(shù)據(jù)挖掘的基礎(chǔ)上,企業(yè)可以發(fā)現(xiàn)重點客戶和評價市場性能,制定個性化營銷策略,拓寬銷售渠道和范圍,為企業(yè)制定生產(chǎn)策略和發(fā)展規(guī)劃提供科學的依據(jù)。通過呼叫中心優(yōu)化與客戶溝通的渠道,提高對客戶的響應(yīng)效率和服務(wù)質(zhì)量,促
①進客戶關(guān)系管理的自動化和智能化。
三、結(jié)束語
電子商務(wù)是現(xiàn)代信息技術(shù)發(fā)展的必然結(jié)果,也是未來商業(yè)運作模式的必然選擇。利用數(shù)據(jù)挖掘技術(shù),充分發(fā)揮企業(yè)的獨特優(yōu)勢,促進管理創(chuàng)新和技術(shù)創(chuàng)新,使企業(yè)在在電子商務(wù)的潮流中立于不敗之地。隨著數(shù)據(jù)挖掘算法的不斷發(fā)展和成熟,數(shù)據(jù)挖掘一定會有更加廣闊的應(yīng)用前景。
參考文獻:
(1)《淺談數(shù)據(jù)挖掘在電子商務(wù)中的運用》 鐘連福;
(2)《電子商務(wù)中商業(yè)數(shù)據(jù)的挖掘方法》 中國電子商務(wù)研究中心;
(3)《在電子商務(wù)中如何正確有使用數(shù)據(jù)挖掘技術(shù)》 俠名;
(4)《曾貞:數(shù)據(jù)挖掘在電子商務(wù)中的應(yīng)用》 甘肅農(nóng)業(yè),2004(7);
(5)《馮艷王堅強:數(shù)據(jù)挖掘在電子商務(wù)上的應(yīng)用》 2002(3);
(6)《呂延杰徐華飛:中國電子商務(wù)發(fā)展研究報告》北京郵電大學出版社 ;
(7)《數(shù)據(jù)挖掘與電子商務(wù)》 鄧鯤鵬,周延杰,嚴瑜筱。①
第三篇:數(shù)據(jù)倉庫與數(shù)據(jù)挖掘?qū)W習心得.
數(shù)據(jù)倉庫與數(shù)據(jù)挖掘?qū)W習心得
通過數(shù)據(jù)倉庫與數(shù)據(jù)挖掘的這門課的學習,掌握了數(shù)據(jù)倉庫與數(shù)據(jù)挖掘的一些基礎(chǔ)知識和基本概念,了解了數(shù)據(jù)倉庫與數(shù)據(jù)庫的區(qū)別。下面談?wù)勎覍?shù)據(jù)倉庫與數(shù)據(jù)挖掘?qū)W習心得以及閱讀相關(guān)方面的論文的學習體會。
《淺談數(shù)據(jù)倉庫與數(shù)據(jù)挖掘》這篇論文主要是介紹數(shù)據(jù)倉庫與數(shù)據(jù)挖掘的的一些基本概念。數(shù)據(jù)倉庫是支持管理決策過程的、面向主題的、集成的、穩(wěn)定的、不同時間的數(shù)據(jù)集合。主題是數(shù)據(jù)數(shù)據(jù)歸類的標準,每個主題對應(yīng)一個客觀分析的領(lǐng)域,他可為輔助決策集成多個部門不同系統(tǒng)的大量數(shù)據(jù)。數(shù)據(jù)倉庫包含了大量的歷史數(shù)據(jù),經(jīng)集成后進入數(shù)據(jù)倉庫的數(shù)據(jù)極少更新的。數(shù)據(jù)倉庫內(nèi)的數(shù)據(jù)時間一般為5年至10年,主要用于進行時間趨勢分析。數(shù)據(jù)倉庫的數(shù)據(jù)量很大。
數(shù)據(jù)倉庫的特點如下:
1、數(shù)據(jù)倉庫是面向主題的;
2、數(shù)據(jù)倉庫是集成的,數(shù)據(jù)倉庫的數(shù)據(jù)有來自于分散的操作型數(shù)據(jù),將所需數(shù)據(jù)從原來的數(shù)據(jù)中抽取出來,進行加工與集成,統(tǒng)一與綜合之后才能進入數(shù)據(jù)倉庫;
3、數(shù)據(jù)倉庫是不可更新的,數(shù)據(jù)倉庫主要是為決策分析提供數(shù)據(jù),所涉及的操作主要是數(shù)據(jù)的查詢;
4、數(shù)據(jù)倉庫是隨時間而變化的,傳統(tǒng)的關(guān)系數(shù)據(jù)庫系統(tǒng)比較適合處理格式化的數(shù)據(jù),能夠較好的滿足商業(yè)商務(wù)處理的需求,它在商業(yè)領(lǐng)域取得了巨大的成功。
作為一個系統(tǒng),數(shù)據(jù)倉庫至少包括3個基本的功能部分:數(shù)據(jù)獲取:數(shù)據(jù)存儲和管理;信息訪問。
數(shù)據(jù)挖掘的定義:數(shù)據(jù)挖掘從技術(shù)上來說是從大量的、不完全的、有噪音的、模糊的、隨機的數(shù)據(jù)中提取隱含在其中的、人們事先不知道的、但又是潛在的有用的信息和知識的過程。
數(shù)據(jù)開采技術(shù)的目標是從大量數(shù)據(jù)中,發(fā)現(xiàn)隱藏于其后的規(guī)律或數(shù)據(jù)間的的關(guān)系,從而服務(wù)于決策。數(shù)據(jù)挖掘的主要任務(wù)有廣義知識;分類和預測;關(guān)聯(lián)分析;聚類。
《數(shù)據(jù)倉庫與數(shù)據(jù)挖掘技術(shù)在金融信息化中的應(yīng)用》論文主要通過介紹數(shù)據(jù)額倉庫與數(shù)據(jù)挖掘的起源、定義以及特征的等方面的介紹引出其在金融信息化中的應(yīng)用。在金融信息化的應(yīng)用方面,金融機構(gòu)利用信息技術(shù)從過去積累的、海量的、以不同形式存儲的數(shù)據(jù)資料里提取隱藏著的許多
重要信息,并對它們進行高層次的分析,發(fā)現(xiàn)和挖掘出這些數(shù)據(jù)間的整體特征描述及發(fā)展趨勢預測,找出對決策有價值的信息,以防范銀行的經(jīng)營風險、實現(xiàn)銀行科技管理及銀行科學決策。
現(xiàn)在銀行信息化正在以業(yè)務(wù)為中心向客戶為中心轉(zhuǎn)變6銀行信息化不僅是數(shù)據(jù)的集中整合,而且要在數(shù)據(jù)集中和整合的基礎(chǔ)上向以客為中心的方向轉(zhuǎn)變。銀行信息化要適應(yīng)競爭環(huán)境客戶需求的變化,創(chuàng)造性地用信息技術(shù)對傳統(tǒng)過程進行集成和優(yōu)化,實現(xiàn)信息共享、資源整合綜合利用,把銀行的各項作用統(tǒng)一起來,優(yōu)勢互補統(tǒng)一調(diào)配各種資源,為銀行的客戶開發(fā)、服務(wù)、綜理財、管理、風險防范創(chuàng)立堅實的基礎(chǔ),從而適應(yīng)日益發(fā)展的數(shù)據(jù)技術(shù)需要,全面提高銀行競爭力,為金融創(chuàng)新和提高市場反映能力服務(wù)。沃爾瑪利用信息技術(shù)建設(shè)的數(shù)據(jù)倉庫,在1997年圣誕節(jié)進行市場技術(shù)建立的數(shù)據(jù)倉庫,即分析顧客最可能一起購買那些商品,結(jié)果產(chǎn)生了經(jīng)典的“啤酒與尿布”的故事,這便是借助于數(shù)據(jù)倉庫系統(tǒng)
第四篇:數(shù)據(jù)挖掘與分析心得體會
正如柏拉圖所說:需要是發(fā)明之母。隨著信息時代的步伐不斷邁進,大量數(shù)據(jù)日積月累。我們迫切需要一種工具來滿足從數(shù)據(jù)中發(fā)現(xiàn)知識的需求!而數(shù)據(jù)挖掘便應(yīng)運而生了。正如書中所說:數(shù)據(jù)挖掘已經(jīng)并且將繼續(xù)在我們從數(shù)據(jù)時代大步跨入信息時代的歷程中做出貢獻。
1、數(shù)據(jù)挖掘
數(shù)據(jù)挖掘應(yīng)當更正確的命名為:“從數(shù)據(jù)中挖掘知識”,不過后者顯得過長了些。而“挖掘”一詞確是生動形象的!人們把數(shù)據(jù)挖掘視為“數(shù)據(jù)中的知識發(fā)現(xiàn)(KDD)”的同義詞,而另一些人只是把數(shù)據(jù)挖掘視為知識發(fā)現(xiàn)過程的一個基本步驟!
由此而產(chǎn)生數(shù)據(jù)挖掘的定義:從大量數(shù)據(jù)中挖掘有趣模式和知識的過程!數(shù)據(jù)源包括數(shù)據(jù)庫、數(shù)據(jù)倉庫、Web、其他信息存儲庫或動態(tài)地流入系統(tǒng)的數(shù)據(jù)。作為知識發(fā)現(xiàn)過程,它通常包括數(shù)據(jù)清理、數(shù)據(jù)集成、數(shù)據(jù)變換、模式發(fā)現(xiàn)、模式評估和知識表示六個步驟。
數(shù)據(jù)挖掘處理數(shù)據(jù)之多,挖掘模式之有趣,使用技術(shù)之大量,應(yīng)用范圍之廣泛都將會是前所未有的;而數(shù)據(jù)挖掘任務(wù)之重也一直并存。這些問題將繼續(xù)激勵數(shù)據(jù)挖掘的進一步研究與改進!
2、數(shù)據(jù)分析
數(shù)據(jù)分析是指用適當?shù)慕y(tǒng)計方法對收集來的大量第一手資料和第二手資料進行分析,以求最大化地開發(fā)數(shù)據(jù)資料的功能,發(fā)揮數(shù)據(jù)的作用。是為了提取有用信息和形成結(jié)論而對數(shù)據(jù)加以詳細研究和概括總結(jié)的過程。
數(shù)據(jù)分析有極廣泛的應(yīng)用范圍。典型的數(shù)據(jù)分析可能包含以下三個步:
1、探索性數(shù)據(jù)分析:當數(shù)據(jù)剛?cè)〉脮r,可能雜亂無章,看不出規(guī)律,通過作圖、造表、用各種形式的方程擬合,計算某些特征量等手段探索規(guī)律性的可能形式,即往什么方向和用何種方式去尋找和揭示隱含在數(shù)據(jù)中的規(guī)律性。
2、模型選定分析,在探索性分析的基礎(chǔ)上提出一類或幾類可能的模型,然后通過進一步的分析從中挑選一定的模型。
3、推斷分析:通常使用數(shù)理統(tǒng)計方法對所定模型或估計的可靠程度和精確程度作出推斷。
數(shù)據(jù)分析的目的是把隱沒在一大批看來雜亂無章的數(shù)據(jù)中的信息集中、萃取和提煉出來,以找出所研究對象的內(nèi)在規(guī)律。在實用中,數(shù)據(jù)分析可幫助人們作出判斷,以便采取適當行動。數(shù)據(jù)分析是組織有目的地收集數(shù)據(jù)、分析數(shù)據(jù),使之成為信息的過程。這一過程是質(zhì)量管理體系的支持過程。在產(chǎn)品的整個壽命周期,包括從市場調(diào)研到售后服務(wù)和最終處置的各個過程都需要適當運用數(shù)據(jù)分析過程,以提升有效性。
由上可見,數(shù)據(jù)挖掘和數(shù)據(jù)分析雖然概念上層次清晰,作用上分工明確(數(shù)據(jù)分析主要以上數(shù)理統(tǒng)計為主,數(shù)據(jù)挖掘主要是挖掘算法為主)。但很明顯的是,數(shù)據(jù)挖掘必須借助數(shù)據(jù)分析的有關(guān)方法來挖掘出有效的,對目標應(yīng)用有意義的模式和知識?;蛘呖梢哉f:數(shù)據(jù)挖掘也可以是數(shù)據(jù)分析的一種!
在這樣一個信息迅速膨脹的時代,數(shù)據(jù)挖掘和分析都與大量數(shù)據(jù)打交道。兩者都離不開一種80年代后期興起的一種高級數(shù)據(jù)分析技術(shù):數(shù)據(jù)倉庫和聯(lián)機分析處理。
3、數(shù)據(jù)倉庫
數(shù)據(jù)倉庫是一個從多個數(shù)據(jù)源收集的信息存儲庫,存放在一致的的模式下,并且通常駐留在單個站點上。數(shù)據(jù)倉庫通過數(shù)據(jù)清理、數(shù)據(jù)變換、數(shù)據(jù)集成、數(shù)據(jù)裝入和定期數(shù)據(jù)刷新來構(gòu)造。為便于決策,數(shù)據(jù)倉庫中的數(shù)據(jù)圍繞主題組織。數(shù)據(jù)存儲從歷史的角度提供信息,并且通常是匯總的。數(shù)據(jù)倉庫提供一些數(shù)據(jù)分析能力,稱作聯(lián)機分析處理(OLAP)。
數(shù)據(jù)倉庫有以下四種關(guān)鍵特征:
面向主題的:數(shù)據(jù)倉庫圍繞一些重要主題,如顧客、供應(yīng)商、產(chǎn)品、和銷售組織。數(shù)據(jù)倉庫關(guān)注決策者的數(shù)據(jù)建模與分析,而不是單位的日常操作和事務(wù)處理。因此,數(shù)據(jù)倉庫通常排除對于決策無用的數(shù)據(jù),提供特定主題的簡明視圖。
集成的:通常,構(gòu)造數(shù)據(jù)倉庫是將多個異構(gòu)數(shù)據(jù)源,使用數(shù)據(jù)清理和數(shù)據(jù)集成技術(shù),確保命名約定,編碼結(jié)構(gòu),屬性度量等的一致性。
時變的:數(shù)據(jù)存儲從歷史的角度提供信息。數(shù)據(jù)倉庫中的關(guān)鍵結(jié)構(gòu)都隱式或顯式地包含時間元素。
非易失的:數(shù)據(jù)倉庫總是物理地分離存放數(shù)據(jù),這些數(shù)據(jù)源于操作環(huán)境下的應(yīng)用數(shù)據(jù)。由于這種分離,數(shù)據(jù)倉庫不需要事務(wù)處理、恢復和并發(fā)控制機制。通常,它只需要兩種數(shù)據(jù)訪問操作:數(shù)據(jù)的初始化裝入和數(shù)據(jù)訪問。
4、分類及算法
分類是一種重要的數(shù)據(jù)分析形式,它提取刻畫重要數(shù)據(jù)類的模型。分類是找出數(shù)據(jù)庫中一組數(shù)據(jù)對象的共同特點并按照分類模式將其劃分為不同的類,其目的是通過分類模型,將數(shù)據(jù)庫中的數(shù)據(jù)項映射到某個給定的類別。它可以應(yīng)用到客戶的分類、客戶的屬性和特征分析、客戶滿意度分析、客戶的購買趨勢預測等,如一個汽車零售商將客戶按照對汽車的喜好劃分成不同的類,這樣營銷人員就可以將新型汽車的廣告手冊直接郵寄到有這種喜好的客戶手中,從而大大增加了商業(yè)機會。
分類算法主要有決策樹歸納、貝葉斯分類、使用IF-THEN規(guī)則分類、神經(jīng)網(wǎng)絡(luò)、支持向量機等。
5、聚類分析
聚類分析是把一組數(shù)據(jù)按照相似性和差異性分為幾個類別,其目的是使得屬于同一類別的數(shù)據(jù)間的相似性盡可能大,不同類別中的數(shù)據(jù)間的相似性盡可能小。它可以應(yīng)用到客戶群體的分類、客戶背景分析、客戶購買趨勢預測、市場的細分等。
常用的算法有:
劃分方法:k-均值算法,k-中心點算法。
層次方法:層次聚類算法、平衡迭代歸約和算法、Chameleon(變色龍)、基于密度的方法:DBSCAN算法,OPTICS算法,DENCLUE算法?;诰W(wǎng)格的方法:STING(統(tǒng)計信息網(wǎng)格),CLIQUE
6、廣泛應(yīng)用
作為一個應(yīng)用驅(qū)動的領(lǐng)域,數(shù)據(jù)挖掘融匯來自其他一些領(lǐng)域的技術(shù)。這些領(lǐng)域包括統(tǒng)計學、機器學習、數(shù)據(jù)庫和數(shù)據(jù)倉庫系統(tǒng),以及信息檢索。數(shù)據(jù)挖掘研究與開發(fā)的多學科特點大大促進了數(shù)據(jù)挖掘的成功和廣泛應(yīng)用。
數(shù)據(jù)挖掘已經(jīng)有許多成功的應(yīng)用,如商務(wù)智能,Web搜索,生物信息學,衛(wèi)生保健信息學,金融,數(shù)字圖書館和數(shù)字政府等。
7、學習總結(jié)
數(shù)據(jù)挖掘技術(shù)已經(jīng)形成很廣泛的應(yīng)用空間,而目前JDMP的版本也在完善當中,大多數(shù)數(shù)據(jù)挖掘開發(fā)工具涌現(xiàn)出來。各種相關(guān)的框架如Hadoop也如雨后春筍紛紛出現(xiàn)。這些現(xiàn)象的出現(xiàn),正是因為數(shù)據(jù)挖掘的發(fā)展會有越來越廣泛的天空。然而數(shù)據(jù)挖掘還是有很多需要面臨并且急需解決的問題??而我們也希望其越來越深刻的研究和改進。
對于數(shù)據(jù)挖掘的學習,還是要注重算法的研究和開發(fā)。目前我還很欠缺這一塊知識。包括統(tǒng)計學、概率論,機器學習等。數(shù)據(jù)挖掘是個繁復的過程,需要我們長此以往的研究!
第五篇:數(shù)據(jù)挖掘與數(shù)據(jù)倉庫--教學大綱
數(shù)據(jù)挖掘與數(shù)據(jù)倉庫(教學大綱)
Data mining and data warehouse
課程編碼:05405140 學分: 2.5 課程類別: 專業(yè)方向課 計劃學時: 48 其中講課:32 實驗或?qū)嵺`: 上機:16 適用專業(yè):信息管理與信息系統(tǒng)、電子商務(wù) 推薦教材:
陳文偉,數(shù)據(jù)倉庫與數(shù)據(jù)挖掘教程,清華大學出版社,2008 參考書目:
1.Richard J.Roiger, Michael W.Geatz.Data Mining: A Tutorial-Based Primer.2003.2.Ian H.Witten, Eibe Frank.Data Mining: Practical Machine Learning Tools and Techniques(第二版).機械工業(yè)出版社(影印版),2005.3.Jiawei Han, Micheline Kamber.Data Mining: Concepts and Techniques.2001.5.4.數(shù)據(jù)倉庫與數(shù)據(jù)挖掘技術(shù)(第2版),陳京民 編著,電子工業(yè)出版社,2007.11 5.數(shù)據(jù)倉庫和數(shù)據(jù)挖掘,蘇新寧 等編著,清華大學出版社,2006.4 6.數(shù)據(jù)挖掘Clementine應(yīng)用實務(wù),謝邦昌 主編,機械工業(yè)出版社,2008.4
課程的教學目的與任務(wù)
本課程將系統(tǒng)介紹數(shù)據(jù)挖掘的基本概念、基本原理和應(yīng)用基礎(chǔ),通過課堂講授、實例分析,提高學生數(shù)據(jù)挖掘技術(shù)的認識,熟悉基本工具應(yīng)用,并掌握設(shè)計和開發(fā)數(shù)據(jù)挖掘算法和系統(tǒng)的初步能力。
課程的基本要求
1、了解數(shù)據(jù)倉庫及數(shù)據(jù)挖掘的概念、特征、應(yīng)用范圍,以及主要數(shù)據(jù)挖掘工具
2、了解OLTP 和 OLAP的區(qū)別;熟悉OLAP 的體系結(jié)構(gòu),以及如何評價OLAP工具;掌握多維分析的基本分析動作。
3、了解數(shù)據(jù)質(zhì)量,掌握數(shù)據(jù)預處理方法,4、掌握數(shù)據(jù)挖掘的定性歸納技術(shù)、關(guān)聯(lián)挖掘、聚類分析、分類方法、預測方法、文本挖掘、WEB挖掘
5、熟練掌握數(shù)據(jù)挖掘軟件Clementine在各類挖掘任務(wù)中的應(yīng)用。各章節(jié)授課內(nèi)容、教學方法及學時分配建議(含課內(nèi)實驗)
第一章.數(shù)據(jù)倉庫與數(shù)據(jù)挖掘概述 建議學時:2 [教學目的與要求] 了解數(shù)據(jù)倉庫及數(shù)據(jù)挖掘的概念、特征、應(yīng)用范圍,以及主要數(shù)據(jù)挖掘工具。[教學重點與難點] 數(shù)據(jù)倉庫及數(shù)據(jù)挖掘的概念
[授 課 方 法] 以課堂講授為主,課堂討論和課下自學為輔 [授 課 內(nèi) 容] 1.1 為什么要數(shù)據(jù)挖掘 1.2 數(shù)據(jù)挖掘的應(yīng)用示例 1.3 數(shù)據(jù)挖掘方法簡介
1.4 數(shù)據(jù)挖掘與其他學科的關(guān)系 1.5 商務(wù)智能的三大塊 1.6 常用數(shù)據(jù)挖掘工具簡介
第二章 數(shù)據(jù)倉庫技術(shù)
建議學時:4 [教學目的與要求] 了解數(shù)據(jù)倉庫的概念,區(qū)分與傳統(tǒng)數(shù)據(jù)庫技術(shù)的不同;掌握數(shù)據(jù)倉庫存儲的抽取、轉(zhuǎn)換和裝載
[教學重點與難點] 數(shù)據(jù)倉庫存儲的抽取、轉(zhuǎn)換和裝載;數(shù)據(jù)倉庫存儲的數(shù)據(jù)模型 [授 課 方 法] 以課堂講授為主,課堂討論和課下自學為輔 [授 課 內(nèi) 容] 2.1 數(shù)據(jù)倉庫的概念
2.2 數(shù)據(jù)倉庫存儲的數(shù)據(jù)模型 2.3 數(shù)據(jù)倉庫的體系結(jié)構(gòu)
2.4 數(shù)據(jù)倉庫應(yīng)用的抽取、轉(zhuǎn)換和裝載
第三章 數(shù)據(jù)倉庫開發(fā)模型
建議學時:4 [教學目的與要求] 了解數(shù)據(jù)倉庫開發(fā)模型的概念,了解數(shù)據(jù)倉庫開發(fā)過程,掌握數(shù)據(jù)倉庫三種概念模型:星型模式、雪花模式、或事實星座模式,掌握數(shù)據(jù)粒度概念,元數(shù)據(jù)概念。
[教學重點與難點] 數(shù)據(jù)倉庫三種概念模型,數(shù)據(jù)粒度概念,元數(shù)據(jù)概念 [授 課 方 法] 以課堂講授為主,課堂討論和課下自學為輔 [授 課 內(nèi) 容] 3.1 數(shù)據(jù)倉庫開發(fā)模型的概念
3.2 數(shù)據(jù)倉庫的概念模型 3.3 數(shù)據(jù)倉庫的邏輯模型 3.4 數(shù)據(jù)倉庫的物理模型 3.5 數(shù)據(jù)倉庫的生成
3.6 數(shù)據(jù)倉庫的使用和維護
3.7 數(shù)據(jù)倉庫的粒度、聚集和分割 3.8 元數(shù)據(jù)
第四章 聯(lián)機分析處理(OLAP)技術(shù) 建議學時:4 [教學目的與要求] 了解OLTP 和 OLAP的區(qū)別;熟悉OLAP 的體系結(jié)構(gòu),以及如何評價OLAP工具;掌握多維分析的基本分析動作。[教學重點與難點] OLAP 的體系結(jié)構(gòu);多維分析的基本分析動作 [授 課 方 法] 以課堂講授為主,課堂討論和課下自學為輔 [授 課 內(nèi) 容] 4.1 從OLTP 到 OLAP 4.2 OLAP 的基本概念
4.3 多維分析的基本分析動作 4.4 OLAP 的數(shù)據(jù)組織 4.5 OLAP 的體系結(jié)構(gòu) 4.6 OLAP 工具及評價
4.7 Codd 關(guān)于 OLAP 產(chǎn)品的十二條評價準則
第五章 數(shù)據(jù)挖掘的原理與技術(shù) 建議學時:4 [教學目的與要求] 了解為什么要數(shù)據(jù)挖掘、數(shù)據(jù)挖掘與其他學科的關(guān)系,熟悉常用數(shù)據(jù)挖掘方法和工具,掌握數(shù)據(jù)挖掘的原理與技術(shù)。
[教學重點與難點] 數(shù)據(jù)挖掘的原理與技術(shù),數(shù)據(jù)挖掘與其他學科的關(guān)系 [授 課 方 法] 以課堂講授為主,課堂討論和課下自學為輔 [授 課 內(nèi) 容] 5.1 知識發(fā)現(xiàn)的過程
5.2 數(shù)據(jù)挖掘的方法和技術(shù) 5.3 數(shù)據(jù)挖掘的知識表示
第六章 數(shù)據(jù)的獲取和管理 建議學時:4 [教學目的與要求] 了解數(shù)據(jù)的數(shù)據(jù)獲取和管理,掌握數(shù)據(jù)質(zhì)量的多維度量,掌握數(shù)據(jù)預處理方法 [教學重點與難點] 數(shù)據(jù)質(zhì)量,數(shù)據(jù)預處理方法
[授 課 方 法] 以課堂講授為主,課堂討論和課下自學為輔 [授 課 內(nèi) 容] 6.1 數(shù)據(jù)倉庫的數(shù)據(jù)獲取 6.2 數(shù)據(jù)管理 6.3 系統(tǒng)管理 6.4 數(shù)據(jù)的預處理
6.5 數(shù)據(jù)質(zhì)量的多維度量 6.6 數(shù)據(jù)預處理的主要方法
第七章 定性歸納
建議學時:2 [教學目的與要求] 了解數(shù)據(jù)挖掘的定性歸納技術(shù),掌握ID3算法、C5.0算法。[教學重點與難點] ID3算法、C5.0算法
[授 課 方 法] 以課堂講授為主,課堂討論和課下自學為輔 [授 課 內(nèi) 容] 7.1 基本概念 7.2 數(shù)據(jù)泛化 7.3 屬性相關(guān)分析 7.4 挖掘概念對比描述
7.5 挖掘大數(shù)據(jù)庫的描述型統(tǒng)計信息
第八章 關(guān)聯(lián)挖掘
建議學時:2 [教學目的與要求] 了解關(guān)聯(lián)挖掘和的方法,掌握Apriori算法 [教學重點與難點] Apriori算法
[授 課 方 法] 以課堂講授為主,課堂討論和課下自學為輔 [授 課 內(nèi) 容] 8.1 基本概念
8.2 單維布爾邏輯關(guān)聯(lián)規(guī)則挖掘 8.3 多層關(guān)聯(lián)規(guī)則挖掘 8.4 多維關(guān)聯(lián)規(guī)則挖掘
8.5 關(guān)聯(lián)規(guī)則聚類系統(tǒng)(ARCS)8.6 關(guān)聯(lián)規(guī)則其它內(nèi)容
第九章
聚類分析
建議學時:2 [教學目的與要求] 了解什么是聚類分析、聚類和分類的區(qū)別,掌握聚類分析的算法。[教學重點與難點] 聚類分析的算法
[授 課 方 法] 以課堂講授為主,課堂討論和課下自學為輔 [授 課 內(nèi) 容] 9.1 什么是聚類分析
9.2 聚類分析中的數(shù)據(jù)類型 9.3 主要聚類算法的分類
第十章 分類 建議學時:2 [教學目的與要求] 了解什么是數(shù)據(jù)挖掘的分類,掌握KNN(K-Nearest Neighbor)分類和Bayes分類 [教學重點與難點] KNN(K-Nearest Neighbor)分類和Bayes分類 [授 課 方 法] 以課堂講授為主,課堂討論和課下自學為輔 [授 課 內(nèi) 容] 10.1 10.2 10.3 10.4 10.5
第十一章 預測 建議學時:2 [教學目的與要求] 了解預測算法,掌握回歸預測、廣義線性GenLin模型預測、支持向量機預測 [教學重點與難點] 回歸預測、廣義線性GenLin模型預測、支持向量機預測 [授 課 方 法] 以課堂講授為主,課堂討論和課下自學為輔 [授 課 內(nèi) 容] 11.1 11.2 預測的基本知識 預測的數(shù)據(jù)準備 分類的基本知識 決策樹分類 支持向量機分類
KNN(K-Nearest Neighbor)分類 Bayes分類 11.3 11.4 11.5 11.6
預測的主要方法 回歸預測
廣義線性GenLin模型預測 支持向量機預測
撰稿人:蔡永明 審核人: