第一篇:數(shù)據(jù)挖掘與數(shù)據(jù)倉(cāng)庫(kù)--教學(xué)大綱
數(shù)據(jù)挖掘與數(shù)據(jù)倉(cāng)庫(kù)(教學(xué)大綱)
Data mining and data warehouse
課程編碼:05405140 學(xué)分: 2.5 課程類別: 專業(yè)方向課 計(jì)劃學(xué)時(shí): 48 其中講課:32 實(shí)驗(yàn)或?qū)嵺`: 上機(jī):16 適用專業(yè):信息管理與信息系統(tǒng)、電子商務(wù) 推薦教材:
陳文偉,數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘教程,清華大學(xué)出版社,2008 參考書目:
1.Richard J.Roiger, Michael W.Geatz.Data Mining: A Tutorial-Based Primer.2003.2.Ian H.Witten, Eibe Frank.Data Mining: Practical Machine Learning Tools and Techniques(第二版).機(jī)械工業(yè)出版社(影印版),2005.3.Jiawei Han, Micheline Kamber.Data Mining: Concepts and Techniques.2001.5.4.數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘技術(shù)(第2版),陳京民 編著,電子工業(yè)出版社,2007.11 5.數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)挖掘,蘇新寧 等編著,清華大學(xué)出版社,2006.4 6.數(shù)據(jù)挖掘Clementine應(yīng)用實(shí)務(wù),謝邦昌 主編,機(jī)械工業(yè)出版社,2008.4
課程的教學(xué)目的與任務(wù)
本課程將系統(tǒng)介紹數(shù)據(jù)挖掘的基本概念、基本原理和應(yīng)用基礎(chǔ),通過(guò)課堂講授、實(shí)例分析,提高學(xué)生數(shù)據(jù)挖掘技術(shù)的認(rèn)識(shí),熟悉基本工具應(yīng)用,并掌握設(shè)計(jì)和開(kāi)發(fā)數(shù)據(jù)挖掘算法和系統(tǒng)的初步能力。
課程的基本要求
1、了解數(shù)據(jù)倉(cāng)庫(kù)及數(shù)據(jù)挖掘的概念、特征、應(yīng)用范圍,以及主要數(shù)據(jù)挖掘工具
2、了解OLTP 和 OLAP的區(qū)別;熟悉OLAP 的體系結(jié)構(gòu),以及如何評(píng)價(jià)OLAP工具;掌握多維分析的基本分析動(dòng)作。
3、了解數(shù)據(jù)質(zhì)量,掌握數(shù)據(jù)預(yù)處理方法,4、掌握數(shù)據(jù)挖掘的定性歸納技術(shù)、關(guān)聯(lián)挖掘、聚類分析、分類方法、預(yù)測(cè)方法、文本挖掘、WEB挖掘
5、熟練掌握數(shù)據(jù)挖掘軟件Clementine在各類挖掘任務(wù)中的應(yīng)用。各章節(jié)授課內(nèi)容、教學(xué)方法及學(xué)時(shí)分配建議(含課內(nèi)實(shí)驗(yàn))
第一章.數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘概述 建議學(xué)時(shí):2 [教學(xué)目的與要求] 了解數(shù)據(jù)倉(cāng)庫(kù)及數(shù)據(jù)挖掘的概念、特征、應(yīng)用范圍,以及主要數(shù)據(jù)挖掘工具。[教學(xué)重點(diǎn)與難點(diǎn)] 數(shù)據(jù)倉(cāng)庫(kù)及數(shù)據(jù)挖掘的概念
[授 課 方 法] 以課堂講授為主,課堂討論和課下自學(xué)為輔 [授 課 內(nèi) 容] 1.1 為什么要數(shù)據(jù)挖掘 1.2 數(shù)據(jù)挖掘的應(yīng)用示例 1.3 數(shù)據(jù)挖掘方法簡(jiǎn)介
1.4 數(shù)據(jù)挖掘與其他學(xué)科的關(guān)系 1.5 商務(wù)智能的三大塊 1.6 常用數(shù)據(jù)挖掘工具簡(jiǎn)介
第二章 數(shù)據(jù)倉(cāng)庫(kù)技術(shù)
建議學(xué)時(shí):4 [教學(xué)目的與要求] 了解數(shù)據(jù)倉(cāng)庫(kù)的概念,區(qū)分與傳統(tǒng)數(shù)據(jù)庫(kù)技術(shù)的不同;掌握數(shù)據(jù)倉(cāng)庫(kù)存儲(chǔ)的抽取、轉(zhuǎn)換和裝載
[教學(xué)重點(diǎn)與難點(diǎn)] 數(shù)據(jù)倉(cāng)庫(kù)存儲(chǔ)的抽取、轉(zhuǎn)換和裝載;數(shù)據(jù)倉(cāng)庫(kù)存儲(chǔ)的數(shù)據(jù)模型 [授 課 方 法] 以課堂講授為主,課堂討論和課下自學(xué)為輔 [授 課 內(nèi) 容] 2.1 數(shù)據(jù)倉(cāng)庫(kù)的概念
2.2 數(shù)據(jù)倉(cāng)庫(kù)存儲(chǔ)的數(shù)據(jù)模型 2.3 數(shù)據(jù)倉(cāng)庫(kù)的體系結(jié)構(gòu)
2.4 數(shù)據(jù)倉(cāng)庫(kù)應(yīng)用的抽取、轉(zhuǎn)換和裝載
第三章 數(shù)據(jù)倉(cāng)庫(kù)開(kāi)發(fā)模型
建議學(xué)時(shí):4 [教學(xué)目的與要求] 了解數(shù)據(jù)倉(cāng)庫(kù)開(kāi)發(fā)模型的概念,了解數(shù)據(jù)倉(cāng)庫(kù)開(kāi)發(fā)過(guò)程,掌握數(shù)據(jù)倉(cāng)庫(kù)三種概念模型:星型模式、雪花模式、或事實(shí)星座模式,掌握數(shù)據(jù)粒度概念,元數(shù)據(jù)概念。
[教學(xué)重點(diǎn)與難點(diǎn)] 數(shù)據(jù)倉(cāng)庫(kù)三種概念模型,數(shù)據(jù)粒度概念,元數(shù)據(jù)概念 [授 課 方 法] 以課堂講授為主,課堂討論和課下自學(xué)為輔 [授 課 內(nèi) 容] 3.1 數(shù)據(jù)倉(cāng)庫(kù)開(kāi)發(fā)模型的概念
3.2 數(shù)據(jù)倉(cāng)庫(kù)的概念模型 3.3 數(shù)據(jù)倉(cāng)庫(kù)的邏輯模型 3.4 數(shù)據(jù)倉(cāng)庫(kù)的物理模型 3.5 數(shù)據(jù)倉(cāng)庫(kù)的生成
3.6 數(shù)據(jù)倉(cāng)庫(kù)的使用和維護(hù)
3.7 數(shù)據(jù)倉(cāng)庫(kù)的粒度、聚集和分割 3.8 元數(shù)據(jù)
第四章 聯(lián)機(jī)分析處理(OLAP)技術(shù) 建議學(xué)時(shí):4 [教學(xué)目的與要求] 了解OLTP 和 OLAP的區(qū)別;熟悉OLAP 的體系結(jié)構(gòu),以及如何評(píng)價(jià)OLAP工具;掌握多維分析的基本分析動(dòng)作。[教學(xué)重點(diǎn)與難點(diǎn)] OLAP 的體系結(jié)構(gòu);多維分析的基本分析動(dòng)作 [授 課 方 法] 以課堂講授為主,課堂討論和課下自學(xué)為輔 [授 課 內(nèi) 容] 4.1 從OLTP 到 OLAP 4.2 OLAP 的基本概念
4.3 多維分析的基本分析動(dòng)作 4.4 OLAP 的數(shù)據(jù)組織 4.5 OLAP 的體系結(jié)構(gòu) 4.6 OLAP 工具及評(píng)價(jià)
4.7 Codd 關(guān)于 OLAP 產(chǎn)品的十二條評(píng)價(jià)準(zhǔn)則
第五章 數(shù)據(jù)挖掘的原理與技術(shù) 建議學(xué)時(shí):4 [教學(xué)目的與要求] 了解為什么要數(shù)據(jù)挖掘、數(shù)據(jù)挖掘與其他學(xué)科的關(guān)系,熟悉常用數(shù)據(jù)挖掘方法和工具,掌握數(shù)據(jù)挖掘的原理與技術(shù)。
[教學(xué)重點(diǎn)與難點(diǎn)] 數(shù)據(jù)挖掘的原理與技術(shù),數(shù)據(jù)挖掘與其他學(xué)科的關(guān)系 [授 課 方 法] 以課堂講授為主,課堂討論和課下自學(xué)為輔 [授 課 內(nèi) 容] 5.1 知識(shí)發(fā)現(xiàn)的過(guò)程
5.2 數(shù)據(jù)挖掘的方法和技術(shù) 5.3 數(shù)據(jù)挖掘的知識(shí)表示
第六章 數(shù)據(jù)的獲取和管理 建議學(xué)時(shí):4 [教學(xué)目的與要求] 了解數(shù)據(jù)的數(shù)據(jù)獲取和管理,掌握數(shù)據(jù)質(zhì)量的多維度量,掌握數(shù)據(jù)預(yù)處理方法 [教學(xué)重點(diǎn)與難點(diǎn)] 數(shù)據(jù)質(zhì)量,數(shù)據(jù)預(yù)處理方法
[授 課 方 法] 以課堂講授為主,課堂討論和課下自學(xué)為輔 [授 課 內(nèi) 容] 6.1 數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)獲取 6.2 數(shù)據(jù)管理 6.3 系統(tǒng)管理 6.4 數(shù)據(jù)的預(yù)處理
6.5 數(shù)據(jù)質(zhì)量的多維度量 6.6 數(shù)據(jù)預(yù)處理的主要方法
第七章 定性歸納
建議學(xué)時(shí):2 [教學(xué)目的與要求] 了解數(shù)據(jù)挖掘的定性歸納技術(shù),掌握ID3算法、C5.0算法。[教學(xué)重點(diǎn)與難點(diǎn)] ID3算法、C5.0算法
[授 課 方 法] 以課堂講授為主,課堂討論和課下自學(xué)為輔 [授 課 內(nèi) 容] 7.1 基本概念 7.2 數(shù)據(jù)泛化 7.3 屬性相關(guān)分析 7.4 挖掘概念對(duì)比描述
7.5 挖掘大數(shù)據(jù)庫(kù)的描述型統(tǒng)計(jì)信息
第八章 關(guān)聯(lián)挖掘
建議學(xué)時(shí):2 [教學(xué)目的與要求] 了解關(guān)聯(lián)挖掘和的方法,掌握Apriori算法 [教學(xué)重點(diǎn)與難點(diǎn)] Apriori算法
[授 課 方 法] 以課堂講授為主,課堂討論和課下自學(xué)為輔 [授 課 內(nèi) 容] 8.1 基本概念
8.2 單維布爾邏輯關(guān)聯(lián)規(guī)則挖掘 8.3 多層關(guān)聯(lián)規(guī)則挖掘 8.4 多維關(guān)聯(lián)規(guī)則挖掘
8.5 關(guān)聯(lián)規(guī)則聚類系統(tǒng)(ARCS)8.6 關(guān)聯(lián)規(guī)則其它內(nèi)容
第九章
聚類分析
建議學(xué)時(shí):2 [教學(xué)目的與要求] 了解什么是聚類分析、聚類和分類的區(qū)別,掌握聚類分析的算法。[教學(xué)重點(diǎn)與難點(diǎn)] 聚類分析的算法
[授 課 方 法] 以課堂講授為主,課堂討論和課下自學(xué)為輔 [授 課 內(nèi) 容] 9.1 什么是聚類分析
9.2 聚類分析中的數(shù)據(jù)類型 9.3 主要聚類算法的分類
第十章 分類 建議學(xué)時(shí):2 [教學(xué)目的與要求] 了解什么是數(shù)據(jù)挖掘的分類,掌握KNN(K-Nearest Neighbor)分類和Bayes分類 [教學(xué)重點(diǎn)與難點(diǎn)] KNN(K-Nearest Neighbor)分類和Bayes分類 [授 課 方 法] 以課堂講授為主,課堂討論和課下自學(xué)為輔 [授 課 內(nèi) 容] 10.1 10.2 10.3 10.4 10.5
第十一章 預(yù)測(cè) 建議學(xué)時(shí):2 [教學(xué)目的與要求] 了解預(yù)測(cè)算法,掌握回歸預(yù)測(cè)、廣義線性GenLin模型預(yù)測(cè)、支持向量機(jī)預(yù)測(cè) [教學(xué)重點(diǎn)與難點(diǎn)] 回歸預(yù)測(cè)、廣義線性GenLin模型預(yù)測(cè)、支持向量機(jī)預(yù)測(cè) [授 課 方 法] 以課堂講授為主,課堂討論和課下自學(xué)為輔 [授 課 內(nèi) 容] 11.1 11.2 預(yù)測(cè)的基本知識(shí) 預(yù)測(cè)的數(shù)據(jù)準(zhǔn)備 分類的基本知識(shí) 決策樹(shù)分類 支持向量機(jī)分類
KNN(K-Nearest Neighbor)分類 Bayes分類 11.3 11.4 11.5 11.6
預(yù)測(cè)的主要方法 回歸預(yù)測(cè)
廣義線性GenLin模型預(yù)測(cè) 支持向量機(jī)預(yù)測(cè)
撰稿人:蔡永明 審核人:
第二篇:數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘?qū)W習(xí)心得.
數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘?qū)W習(xí)心得
通過(guò)數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘的這門課的學(xué)習(xí),掌握了數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘的一些基礎(chǔ)知識(shí)和基本概念,了解了數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)庫(kù)的區(qū)別。下面談?wù)勎覍?duì)數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘?qū)W習(xí)心得以及閱讀相關(guān)方面的論文的學(xué)習(xí)體會(huì)。
《淺談數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘》這篇論文主要是介紹數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘的的一些基本概念。數(shù)據(jù)倉(cāng)庫(kù)是支持管理決策過(guò)程的、面向主題的、集成的、穩(wěn)定的、不同時(shí)間的數(shù)據(jù)集合。主題是數(shù)據(jù)數(shù)據(jù)歸類的標(biāo)準(zhǔn),每個(gè)主題對(duì)應(yīng)一個(gè)客觀分析的領(lǐng)域,他可為輔助決策集成多個(gè)部門不同系統(tǒng)的大量數(shù)據(jù)。數(shù)據(jù)倉(cāng)庫(kù)包含了大量的歷史數(shù)據(jù),經(jīng)集成后進(jìn)入數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)極少更新的。數(shù)據(jù)倉(cāng)庫(kù)內(nèi)的數(shù)據(jù)時(shí)間一般為5年至10年,主要用于進(jìn)行時(shí)間趨勢(shì)分析。數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)量很大。
數(shù)據(jù)倉(cāng)庫(kù)的特點(diǎn)如下:
1、數(shù)據(jù)倉(cāng)庫(kù)是面向主題的;
2、數(shù)據(jù)倉(cāng)庫(kù)是集成的,數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)有來(lái)自于分散的操作型數(shù)據(jù),將所需數(shù)據(jù)從原來(lái)的數(shù)據(jù)中抽取出來(lái),進(jìn)行加工與集成,統(tǒng)一與綜合之后才能進(jìn)入數(shù)據(jù)倉(cāng)庫(kù);
3、數(shù)據(jù)倉(cāng)庫(kù)是不可更新的,數(shù)據(jù)倉(cāng)庫(kù)主要是為決策分析提供數(shù)據(jù),所涉及的操作主要是數(shù)據(jù)的查詢;
4、數(shù)據(jù)倉(cāng)庫(kù)是隨時(shí)間而變化的,傳統(tǒng)的關(guān)系數(shù)據(jù)庫(kù)系統(tǒng)比較適合處理格式化的數(shù)據(jù),能夠較好的滿足商業(yè)商務(wù)處理的需求,它在商業(yè)領(lǐng)域取得了巨大的成功。
作為一個(gè)系統(tǒng),數(shù)據(jù)倉(cāng)庫(kù)至少包括3個(gè)基本的功能部分:數(shù)據(jù)獲取:數(shù)據(jù)存儲(chǔ)和管理;信息訪問(wèn)。
數(shù)據(jù)挖掘的定義:數(shù)據(jù)挖掘從技術(shù)上來(lái)說(shuō)是從大量的、不完全的、有噪音的、模糊的、隨機(jī)的數(shù)據(jù)中提取隱含在其中的、人們事先不知道的、但又是潛在的有用的信息和知識(shí)的過(guò)程。
數(shù)據(jù)開(kāi)采技術(shù)的目標(biāo)是從大量數(shù)據(jù)中,發(fā)現(xiàn)隱藏于其后的規(guī)律或數(shù)據(jù)間的的關(guān)系,從而服務(wù)于決策。數(shù)據(jù)挖掘的主要任務(wù)有廣義知識(shí);分類和預(yù)測(cè);關(guān)聯(lián)分析;聚類。
《數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘技術(shù)在金融信息化中的應(yīng)用》論文主要通過(guò)介紹數(shù)據(jù)額倉(cāng)庫(kù)與數(shù)據(jù)挖掘的起源、定義以及特征的等方面的介紹引出其在金融信息化中的應(yīng)用。在金融信息化的應(yīng)用方面,金融機(jī)構(gòu)利用信息技術(shù)從過(guò)去積累的、海量的、以不同形式存儲(chǔ)的數(shù)據(jù)資料里提取隱藏著的許多
重要信息,并對(duì)它們進(jìn)行高層次的分析,發(fā)現(xiàn)和挖掘出這些數(shù)據(jù)間的整體特征描述及發(fā)展趨勢(shì)預(yù)測(cè),找出對(duì)決策有價(jià)值的信息,以防范銀行的經(jīng)營(yíng)風(fēng)險(xiǎn)、實(shí)現(xiàn)銀行科技管理及銀行科學(xué)決策。
現(xiàn)在銀行信息化正在以業(yè)務(wù)為中心向客戶為中心轉(zhuǎn)變6銀行信息化不僅是數(shù)據(jù)的集中整合,而且要在數(shù)據(jù)集中和整合的基礎(chǔ)上向以客為中心的方向轉(zhuǎn)變。銀行信息化要適應(yīng)競(jìng)爭(zhēng)環(huán)境客戶需求的變化,創(chuàng)造性地用信息技術(shù)對(duì)傳統(tǒng)過(guò)程進(jìn)行集成和優(yōu)化,實(shí)現(xiàn)信息共享、資源整合綜合利用,把銀行的各項(xiàng)作用統(tǒng)一起來(lái),優(yōu)勢(shì)互補(bǔ)統(tǒng)一調(diào)配各種資源,為銀行的客戶開(kāi)發(fā)、服務(wù)、綜理財(cái)、管理、風(fēng)險(xiǎn)防范創(chuàng)立堅(jiān)實(shí)的基礎(chǔ),從而適應(yīng)日益發(fā)展的數(shù)據(jù)技術(shù)需要,全面提高銀行競(jìng)爭(zhēng)力,為金融創(chuàng)新和提高市場(chǎng)反映能力服務(wù)。沃爾瑪利用信息技術(shù)建設(shè)的數(shù)據(jù)倉(cāng)庫(kù),在1997年圣誕節(jié)進(jìn)行市場(chǎng)技術(shù)建立的數(shù)據(jù)倉(cāng)庫(kù),即分析顧客最可能一起購(gòu)買那些商品,結(jié)果產(chǎn)生了經(jīng)典的“啤酒與尿布”的故事,這便是借助于數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)
第三篇:數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘第一次作業(yè)
數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘第一次作業(yè)
電子商務(wù)這一行業(yè)目前還處于摸索期,有很多需要完善和可以創(chuàng)新的地方。這學(xué)期選修了袁老師的《電子商務(wù)》,印象最深的就是老師提過(guò)這樣的想法:電商(主要是B2B)、百度等搜索引擎以及新浪微博等社交平臺(tái)都是可以做咨詢業(yè)的,即根據(jù)客戶的消費(fèi)(或搜索)記錄、評(píng)價(jià)等信息定期為企業(yè)生成反饋報(bào)告。要實(shí)現(xiàn)之一定是需要數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)挖掘等這類技術(shù),通過(guò)收集、分析大量客戶數(shù)據(jù),為企業(yè)的預(yù)測(cè)、決策提供情報(bào)。
企業(yè)通過(guò)電子商務(wù)網(wǎng)站開(kāi)展網(wǎng)絡(luò)經(jīng)營(yíng)的過(guò)程中,利用數(shù)據(jù)倉(cāng)庫(kù)組織和存儲(chǔ)大量的客戶信息,在此基礎(chǔ)上利用數(shù)據(jù)挖掘技術(shù)對(duì)這些信息進(jìn)行抽取、分析,找出更深層次的隱藏信息,從而使企業(yè)的電子商務(wù)網(wǎng)站達(dá)到更高的客戶滿意度,將大大地提高企業(yè)網(wǎng)絡(luò)經(jīng)營(yíng)的效率,大大降低企業(yè)的運(yùn)營(yíng)成本。具體功能和作用如下: 首先,電子銷售商可以獲知訪問(wèn)者的個(gè)人愛(ài)好,更加充分地了解顧客的需要,并根據(jù)顧客的資料分析潛在的目標(biāo)市場(chǎng)。
其次,企業(yè)也可以了解客戶的價(jià)值,利用數(shù)據(jù)倉(cāng)庫(kù)的資料,發(fā)現(xiàn)什么樣的顧客群在網(wǎng)站上購(gòu)買什么商品,區(qū)分高價(jià)值顧客和一般價(jià)值顧客,對(duì)各類顧客采取相應(yīng)的營(yíng)銷策略。
再次,根據(jù)顧客的歷史資料,不僅可以預(yù)測(cè)需求趨勢(shì),還可以評(píng)估需求傾向的改變,為顧客提供更好的服務(wù)。
另外,企業(yè)通過(guò)理解訪問(wèn)者的動(dòng)態(tài)行為可以優(yōu)化電子商務(wù)網(wǎng)站的經(jīng)營(yíng)模式。最后,對(duì)涉及消費(fèi)行為的大量信息進(jìn)行收集、加工和處理,企業(yè)就可以確定特定消費(fèi)群體或個(gè)體的興趣、消費(fèi)習(xí)慣、消費(fèi)傾向和消費(fèi)需求,進(jìn)而推斷出相應(yīng)消費(fèi)群體或個(gè)體下一步的消費(fèi)行為,然后以此為基礎(chǔ),對(duì)所識(shí)別出來(lái)的消費(fèi)群體進(jìn)行特定內(nèi)容的定向營(yíng)銷。例如:(1)對(duì)那些要通過(guò)網(wǎng)站發(fā)送廣告的企業(yè),分析用戶訪問(wèn)模式有助于針對(duì)性地在某些用戶經(jīng)常訪問(wèn)的地方插播廣告條。這樣,根據(jù)這些信息,網(wǎng)站的建設(shè)者就可以對(duì)特定的顧客群提供個(gè)性化廣告服務(wù)。這種廣告要比泛泛的、隨意的廣告有價(jià)值得多;(2)在強(qiáng)大的數(shù)據(jù)挖掘技術(shù)與全面的顧客資料數(shù)據(jù)基礎(chǔ)上,企業(yè)可以根據(jù)各個(gè)細(xì)分市場(chǎng),甚至是每一個(gè)顧客的獨(dú)特需求來(lái)為他們?cè)O(shè)計(jì)“量身定造”的產(chǎn)品。高度細(xì)分化、定制化的產(chǎn)品有利于提高顧客滿意度,鞏固與他們的長(zhǎng)久關(guān)系,最終達(dá)到留住顧客的目的;(3)針對(duì)顧客設(shè)計(jì)個(gè)性化網(wǎng)站。利用數(shù)據(jù)挖掘工具,電子商務(wù)網(wǎng)站可以做到以顧客需求為導(dǎo)向,達(dá)到一對(duì)一行銷的目的。網(wǎng)站將改變?cè)械那宦傻男问?,而?qiáng)調(diào)信息個(gè)性化,亦即顧客所得到的信息將是網(wǎng)站針對(duì)其個(gè)人喜好、需求與特點(diǎn)的設(shè)定所給予的,也就是符合顧客的個(gè)人信息需求。例如顧客可以到一些新聞上去訂閱他喜歡看的信息類別,如政治新聞或科技新聞。當(dāng)使用者再次拜訪此網(wǎng)站時(shí),網(wǎng)站就會(huì)智能地只顯示出該顧客所喜歡看的信息。
第四篇:數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘期末試題
廣西財(cái)經(jīng)學(xué)院2007——2008學(xué)年2005級(jí)《數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘》卷
2、請(qǐng)列舉您使用過(guò)的各種數(shù)據(jù)倉(cāng)庫(kù)工具軟件(包括建模工具,ETL工具,前端展現(xiàn)工具,OLAP Server、數(shù)據(jù)庫(kù)、數(shù)據(jù)挖掘工具)和熟悉程度。
ETL工具:Ascential DataStage,IBM warehouse MANAGER、Informatica公司的PowerCenter、Cognos 公司的DecisionStream
市場(chǎng)上的主流數(shù)據(jù)倉(cāng)庫(kù)存儲(chǔ)層軟件有:SQL SERVER、SYBASE、ORACLE、DB2、TERADATA 但是使用過(guò)的只有SQL SERVER和數(shù)據(jù)挖掘工具Analysis Services,而且不大熟悉。
3、請(qǐng)談一下你對(duì)元數(shù)據(jù)管理在數(shù)據(jù)倉(cāng)庫(kù)中的運(yùn)用的理解。
元數(shù)據(jù)能支持系統(tǒng)對(duì)數(shù)據(jù)的管理和維護(hù),如關(guān)于數(shù)據(jù)項(xiàng)存儲(chǔ)方法的元數(shù)據(jù)能支持系統(tǒng)以最有效的方式訪問(wèn)數(shù)據(jù)。具體來(lái)說(shuō),在數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)中,元數(shù)據(jù)機(jī)制主要支持以下五類系統(tǒng)管理功能:(1)描述哪些數(shù)據(jù)在數(shù)據(jù)倉(cāng)庫(kù)中;(2)定義要進(jìn)入數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)和從數(shù)據(jù)倉(cāng)庫(kù)中產(chǎn)生的數(shù)據(jù);(3)記錄根據(jù)業(yè)務(wù)事件發(fā)生而隨之進(jìn)行的數(shù)據(jù)抽取工作時(shí)間安排;(4)記錄并檢測(cè)系統(tǒng)數(shù)據(jù)一致性的要求和執(zhí)行情況;(5)衡量數(shù)據(jù)質(zhì)量。
4、數(shù)據(jù)挖掘?qū)垲惖臄?shù)據(jù)要求是什么?
(1)可伸縮性(2)處理不同類型屬性的能力(3)發(fā)現(xiàn)任意形狀的聚類(4)使輸入?yún)?shù)的領(lǐng)域知識(shí)最小化(5)處理噪聲數(shù)據(jù)的能力(6)對(duì)于輸入順序不敏感
(7)高維性(8)基于約束的聚類(9)可解釋性和可利用性
5、簡(jiǎn)述Apriori算法的思想,談?wù)勗撍惴ǖ膽?yīng)用領(lǐng)域并舉例。
思想:其發(fā)現(xiàn)關(guān)聯(lián)規(guī)則分兩步,第一是通過(guò)迭代,檢索出數(shù)據(jù)源中所有煩瑣項(xiàng)集,即支持度不低于用戶設(shè)定的閥值的項(xiàng)即集,第二是利用第一步中檢索出的煩瑣項(xiàng)集構(gòu)造出滿足用戶最小信任度的規(guī)則,其中,第一步即挖掘出所有頻繁項(xiàng)集是該算法的核心,也占整個(gè)算法工作量的大部分。
在商務(wù)、金融、保險(xiǎn)等領(lǐng)域皆有應(yīng)用。
在建筑陶瓷行業(yè)中的交叉銷售應(yīng)用,主要采用了Apriori 算法
三、翻譯分析題(30分)
1、附件有一名為“Data Mining in Electronic Commerce”的電子文檔,請(qǐng)同學(xué)們翻譯其中的一段。每位同學(xué)翻譯的段號(hào)以大家學(xué)號(hào)的最后兩位為準(zhǔn),如10號(hào)同學(xué)只需翻譯正文的第10段,以此類推。
分類則是一個(gè)標(biāo)準(zhǔn)的問(wèn)題,在數(shù)據(jù)挖掘和在電子商貿(mào)的應(yīng)用-原則下,適當(dāng)?shù)姆椒╗隨機(jī)森林,支持向量機(jī)(支持向量機(jī)),后勤拉索等]有賴于敏銳地在該網(wǎng)
站上,該類型的廣告都是可以收集到的資料。在亞馬遜商務(wù)網(wǎng)站中,該推薦系統(tǒng)已進(jìn)入先前購(gòu)買和書籍進(jìn)行視察。
這是一個(gè)更豐富的信息來(lái)源,通過(guò)dictionary.com可以接入(他們只
知道這個(gè)詞,有人期待在這次會(huì)議上,除非他們有庫(kù)克-網(wǎng)頁(yè))。一些企業(yè)獲得更多的信息,從數(shù)據(jù)倉(cāng)庫(kù)中,如作為choicepoint公司,這使得他們的專家來(lái)建立高度個(gè)性化的分類規(guī)則。
2、通過(guò)閱讀該文擋,請(qǐng)同學(xué)們分析一下數(shù)據(jù)挖掘在電子商務(wù)領(lǐng)域的應(yīng)用情況(請(qǐng)深入分析并給出實(shí)例,切忌泛泛而談)。
隨著網(wǎng)絡(luò)技術(shù)和數(shù)據(jù)庫(kù)技術(shù)的成熟,全球傳統(tǒng)商務(wù)正經(jīng)歷一次重大變革,向電子商務(wù)全速挺進(jìn)。這種商業(yè)電子化的趨勢(shì)不僅為客戶提供了便利的交易方式和廣泛的選擇,同時(shí)也為商家提供了更加深入地了解客戶需求信息和購(gòu)物行為特征的可能性。數(shù)據(jù)挖掘技術(shù)作為電子商務(wù)的重要應(yīng)用技術(shù)之一,將為正確的商業(yè)決策提供強(qiáng)有力的支持和可靠的保證,是電子商務(wù)不可缺少的重要工具。
電子商務(wù)的發(fā)展促使公司內(nèi)部收集了大量的數(shù)據(jù),并且迫切需要將這些數(shù)據(jù)轉(zhuǎn)換成有用的信息和知識(shí),為公司創(chuàng)造更多潛在的利潤(rùn),數(shù)據(jù)挖掘概念就是從這樣的商業(yè)角度開(kāi)發(fā)出來(lái)的。
由于數(shù)據(jù)挖掘能帶來(lái)顯著的效益,它在電子商務(wù)中(特別是業(yè)、零售業(yè)和電信業(yè))應(yīng)用也越來(lái)越廣泛。
在金融領(lǐng)域,管理者可以通過(guò)對(duì)客戶償還能力以及信用的分析,進(jìn)行分類,評(píng)出等級(jí)。從而可減少放貸的麻木性,提高資金的使用效率。同時(shí)還可發(fā)現(xiàn)在償還中起決定作用的主導(dǎo)因素,從而制定相應(yīng)的金融政策。更值得一提的是通過(guò)對(duì)數(shù)據(jù)的分析還可發(fā)現(xiàn)洗黑錢以及其它的犯罪活動(dòng)。
在零售業(yè),數(shù)據(jù)挖掘可有助于識(shí)別顧客購(gòu)買行為,發(fā)現(xiàn)顧客購(gòu)買模式和趨勢(shì),改進(jìn)服務(wù)質(zhì)量,取得更好的顧客保持力和滿意程度,提高貨品銷量比率,設(shè)計(jì)更好的貨品運(yùn)輸與分銷策略,減少商業(yè)成本。
電信業(yè)已經(jīng)迅速地從單純的提供市話和長(zhǎng)話服務(wù)演變?yōu)榫C合電信服務(wù),如語(yǔ)音、傳真、尋呼、移動(dòng)電話、圖像、電子郵件、機(jī)和WEB數(shù)據(jù)傳輸以及其它的數(shù)據(jù)通信服務(wù)。電信、計(jì)算機(jī)網(wǎng)絡(luò)、因特網(wǎng)和各種其它方式的通信和計(jì)算的融合是的大勢(shì)所趨。而且隨著許多國(guó)家對(duì)電信業(yè)的開(kāi)放和新型計(jì)算與通信技術(shù)的發(fā)展,電信市場(chǎng)正在迅速擴(kuò)張并越發(fā)競(jìng)爭(zhēng)激烈。因此,利用數(shù)據(jù)挖掘技術(shù)來(lái)幫助理解商業(yè)行為、確定電信模式、捕捉盜用行為、更好的利用資源和提高服務(wù)質(zhì)量是非常有必要的。分析人員可以對(duì)呼叫源、呼叫目標(biāo)、呼叫量和每天使用模式等信息進(jìn)行分析,還可以通過(guò)挖掘進(jìn)行盜用模式分析和異常模式識(shí)別,從而可盡早發(fā)現(xiàn)盜用,為公司減少損失。
四、編程題(20分)
請(qǐng)大家用所學(xué)過(guò)的java語(yǔ)言改寫p192-p194的vb核心源程序
第五篇:數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘結(jié)業(yè)論文
結(jié)合《數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘》課程內(nèi)容,寫一篇與該課程內(nèi)容相關(guān)的論文。
參考題目:
1.數(shù)據(jù)挖掘技術(shù)在數(shù)據(jù)倉(cāng)庫(kù)中的應(yīng)用
2.關(guān)聯(lián)規(guī)則在數(shù)據(jù)倉(cāng)庫(kù)中的應(yīng)用
3.Aproior算法及其改進(jìn)
4.決策樹(shù)算法綜述
5.聚類技術(shù)在XXX中的應(yīng)用
6.XXX分類算法在XXX中的應(yīng)用
7.分類算法的比較
8.聚類算法的比較
9.……
10.……
要求如下:
1.最上面內(nèi)容為:姓名、學(xué)號(hào)、專業(yè)和成績(jī),見(jiàn)模板。
2.題目居中,宋體4號(hào)字加粗。
3.正文:首行縮進(jìn)2個(gè)漢字,宋體小四號(hào),行間距為1.25,頁(yè)面設(shè)置為:左-2 右-1.5 上-2 下-2.左側(cè)裝訂。
4.若包含圖或表,則居中。
5.至少4頁(yè),并在每頁(yè)下面的中間加上頁(yè)碼。
模板如下:
姓名___________ 學(xué)號(hào)____________ 專業(yè)______________ 成績(jī)_____________
題目
1.引言
2.XXX
3.XXX
4.…
5.結(jié)論