第一篇:數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘?qū)嶒?yàn)報(bào)告,演示范文
《數(shù)據(jù)挖掘》大作業(yè)
院(系)名稱:信 息 技 術(shù) 學(xué) 院 專
業(yè) 年 級(jí):11 級(jí)網(wǎng)絡(luò)工程(物聯(lián)網(wǎng)方向)
學(xué)
號(hào):111124092 學(xué) 生
姓 名:朱
玉
jxjk 目錄 目錄.....................................................................................................................................I 第 1 章 數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)挖掘簡(jiǎn)介......................................................................................1 1.1 數(shù)據(jù)簡(jiǎn)介.............................................................................................................................................1 1.2 數(shù)據(jù)挖掘技術(shù).....................................................................................................................................1 第 2 章 創(chuàng)建數(shù)據(jù)倉(cāng)庫(kù)..........................................................................................................2 2.1 數(shù)據(jù)....................................................................................................................................................2 2.1.1 數(shù)據(jù)屬性結(jié)構(gòu)........................................................................................................................................2 2.1.2 數(shù)據(jù)庫(kù)的相關(guān)處理................................................................................................................................3 2.1.3 實(shí)驗(yàn)的開(kāi)發(fā)平臺(tái)....................................................................................................................................3 2.2 數(shù)據(jù)庫(kù)的結(jié)構(gòu)模塊簡(jiǎn)介....................................................................................................................3 第 3 章 數(shù)據(jù)挖掘過(guò)程..........................................................................................................3 3.1 關(guān)聯(lián)規(guī)則............................................................................................................................................3 3.1.1 關(guān)聯(lián)規(guī)則挖掘過(guò)程圖解.........................................................................................................................3 3.1.2 決策樹(shù)挖掘過(guò)程圖解...........................................................................................................................24 3.1.3 聚類分析挖掘過(guò)程圖解.......................................................................................................................26 3.2 數(shù)據(jù)集挖掘結(jié)果..............................................................................................................................28 3.2.1 超市交易關(guān)聯(lián)規(guī)則的挖掘結(jié)果...........................................................................................................28 3.2.2 影響小學(xué)生自控能力調(diào)查數(shù)據(jù)集決策樹(shù)的挖掘結(jié)果.......................................................................31 3.2.3 影響小學(xué)生自控能力因素調(diào)查數(shù)據(jù)集聚類分析的挖掘結(jié)果............................................................33 第四章 數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)挖掘總結(jié)....................................................................................38 4.1 關(guān)聯(lián)規(guī)則總結(jié)...................................................................................................................................38 4.2 決策樹(shù)總結(jié).......................................................................................................................................38 4.3 聚類分析總結(jié)...................................................................................................................................40
jxjk 第 1 章 數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)挖掘簡(jiǎn)介 1.1 數(shù)據(jù)簡(jiǎn)介
我的數(shù)據(jù)集是由兩個(gè)不同的數(shù)據(jù)庫(kù)組成,因?yàn)樽鲫P(guān)聯(lián)規(guī)則的時(shí)候,影響小學(xué)生自控能力的因素分析調(diào)查分析數(shù)據(jù)庫(kù),不具備關(guān)聯(lián)規(guī)則一對(duì)多的條件,因此,我用了課本上的的超市交易數(shù)據(jù)集。所以做關(guān)聯(lián)規(guī)則的超市數(shù)據(jù)集,在這里我就不多介紹了。
做決策樹(shù),聚類分析所用的數(shù)據(jù)集影響小學(xué)生自控能力的因素分析調(diào)查分析數(shù)據(jù)庫(kù)主要父母文化程度,家庭經(jīng)濟(jì)狀況,教師要求,民族,年紀(jì),年齡,師生關(guān)系,是否單親,是否是獨(dú)生子女,興趣,性別,姓名,學(xué)號(hào),性格,自控能力屬性組成。此表是用來(lái)調(diào)查影響小學(xué)生自控能力的因素有哪些。此數(shù)據(jù)集做決策樹(shù)的目的是,可以根據(jù)小學(xué)生的基本情況大致了解他的自控能力。此數(shù)據(jù)集做聚類分析,可以從中挖掘出小學(xué)生基本情況的分類。
1.2 數(shù)據(jù)挖掘技術(shù) 關(guān)聯(lián)規(guī)則、決策樹(shù)、聚類分析。
jxjk
第 2 章 創(chuàng)建數(shù)據(jù)倉(cāng)庫(kù) 2.1 數(shù)據(jù)
2.1.1 數(shù)據(jù)屬性結(jié)構(gòu) 如表 2-1、2-2 所示。
表 表 2 2--1 超市數(shù)據(jù)交易表
表 表 2 2--2 影響小 學(xué)生自控能力的因素分析調(diào)查表
jxjk
2.1.2 數(shù)據(jù)庫(kù)的相關(guān)處理 1.創(chuàng)建數(shù)據(jù)庫(kù) 2.數(shù)據(jù)集導(dǎo)入 3.設(shè)置主鍵 4.創(chuàng)建數(shù)據(jù)庫(kù)關(guān)系圖 2.1.3 實(shí)驗(yàn)的開(kāi)發(fā)平臺(tái) 1.實(shí)驗(yàn)設(shè)備:PC 2.主要開(kāi)發(fā)軟件:SQL Sever 2005 3.輔助軟件:Office
2.2 數(shù)據(jù)庫(kù)的結(jié)構(gòu)模塊簡(jiǎn)介 本數(shù)據(jù)庫(kù)有兩個(gè)數(shù)據(jù)集組成,超市交易數(shù)據(jù)集和 影響小學(xué)生自控能力的因素分析調(diào)查表兩個(gè)數(shù)據(jù)集。超市交易中有 ID 和 Items 兩個(gè)屬性;影響小學(xué)生自控能力的因素分析調(diào)查表數(shù)據(jù)集中有年級(jí)、學(xué)號(hào)、姓名、年齡、性別、民族、是否單親、是否獨(dú)生子女、父母文化程度、家庭經(jīng)濟(jì)狀況、是否為班委、教師要求、師生關(guān)系、興趣、性格、自控能力等屬性。
第 3 章 數(shù)據(jù)挖掘過(guò)程 3.1 關(guān)聯(lián)規(guī)則 3.1.1 關(guān)聯(lián)規(guī)則挖掘過(guò)程圖解
1.商業(yè)智能項(xiàng)目創(chuàng)建過(guò)程圖解
jxjk
2.數(shù)據(jù)源的創(chuàng)建過(guò)程圖解
jxjk
jxjk
jxjk
jxjk
jxjk
3.數(shù)據(jù)源視圖創(chuàng)建過(guò)程圖解
jxjk
jxjk
jxjk
jxjk
4.數(shù)據(jù)集挖掘結(jié)構(gòu)創(chuàng)建過(guò)程圖解
jxjk
jxjk
jxjk
jxjk
jxjk
jxjk
jxjk
jxjk
jxjk
5.設(shè)置算法參數(shù)
6.處理挖掘結(jié)構(gòu)過(guò)程圖解
jxjk
jxjk
3.1.2 決策樹(shù)挖掘過(guò)程圖解 決策樹(shù)的挖掘過(guò)程與關(guān)聯(lián)規(guī)則基本上相同,但有些是不同的,因此,我把不同過(guò)程的圖解在下面給出。
1.創(chuàng)建挖掘結(jié)構(gòu)過(guò)程中挖掘數(shù)據(jù)所用的列的選項(xiàng)
jxjk
2.算法參數(shù)設(shè)置
jxjk
3.1.3 聚類分析挖掘過(guò)程圖解 聚類分析的挖掘過(guò)成與決策樹(shù)、關(guān)聯(lián)規(guī)則也基本上相同,因此,我把不同過(guò)程的圖解和決策樹(shù)一樣也在下面給出。
1.挖掘數(shù)據(jù)集時(shí)所用到的屬性
jxjk
2.算法參數(shù)設(shè)置
jxjk
3.2 數(shù)據(jù)集挖掘結(jié)果 3.2.1 超市交易關(guān)聯(lián)規(guī)則的挖掘結(jié)果
1.項(xiàng)集
jxjk
2.鉆取
3.規(guī)則
jxjk
4.依賴關(guān)系網(wǎng)絡(luò)
jxjk
3.2.2 影響小學(xué)生自控能力調(diào)查數(shù)據(jù)集決策樹(shù)的挖掘結(jié)果 1.決策樹(shù)
2.依賴關(guān)系網(wǎng)絡(luò)
jxjk
jxjk
3.2.3 影響小學(xué)生自控能力因素調(diào)查數(shù)據(jù)集聚類分析的挖掘結(jié)果
jxjk
1.分類關(guān)系圖
2.分類剖面圖
jxjk
3.分類特征
jxjk
4.分類對(duì)比
jxjk
jxjk
第四章 數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)挖掘總結(jié) 4.1 關(guān)聯(lián)規(guī)則總結(jié)
從超市交易數(shù)據(jù)集中能挖掘到:能夠推測(cè)到顧客買(mǎi)商品的時(shí)候,大概會(huì)買(mǎi)那些商品。比如根據(jù)下圖:
從此挖掘結(jié)果中能夠看到,顧客買(mǎi) cream 也可能會(huì)買(mǎi) bread。
4.2 決策樹(shù)總結(jié)
從影響小學(xué)生自控能力因素調(diào)查表數(shù)據(jù)集中能夠挖掘出:小學(xué)生的自控能力與哪些因素有關(guān)聯(lián),關(guān)聯(lián)是否很強(qiáng),或者根據(jù)小學(xué)生的基本情況大概能判斷出小學(xué)生的自控能力的傾向。比如一下幾個(gè)圖:
jxjk
從以上幾個(gè)圖片可以看出,影響小學(xué)生的自控能力的因素有興趣、父母文化程度、年級(jí)、家庭經(jīng)濟(jì)情況、性別、是否是獨(dú)生子女、教師要求、是否為班委,影響小學(xué)生自控能力的最強(qiáng)因素
jxjk
是興趣因素,最弱的是性別。
4.3 聚類分析總結(jié)
從影響小學(xué)生自控能力因素調(diào)查表數(shù)據(jù)集中能夠挖掘出:影響小學(xué)生自控能力的調(diào)查對(duì)象中的基本分類,還有分類中的傾向。
第二篇:數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘?qū)W習(xí)心得.
數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘?qū)W習(xí)心得
通過(guò)數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘的這門(mén)課的學(xué)習(xí),掌握了數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘的一些基礎(chǔ)知識(shí)和基本概念,了解了數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)庫(kù)的區(qū)別。下面談?wù)勎覍?duì)數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘?qū)W習(xí)心得以及閱讀相關(guān)方面的論文的學(xué)習(xí)體會(huì)。
《淺談數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘》這篇論文主要是介紹數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘的的一些基本概念。數(shù)據(jù)倉(cāng)庫(kù)是支持管理決策過(guò)程的、面向主題的、集成的、穩(wěn)定的、不同時(shí)間的數(shù)據(jù)集合。主題是數(shù)據(jù)數(shù)據(jù)歸類的標(biāo)準(zhǔn),每個(gè)主題對(duì)應(yīng)一個(gè)客觀分析的領(lǐng)域,他可為輔助決策集成多個(gè)部門(mén)不同系統(tǒng)的大量數(shù)據(jù)。數(shù)據(jù)倉(cāng)庫(kù)包含了大量的歷史數(shù)據(jù),經(jīng)集成后進(jìn)入數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)極少更新的。數(shù)據(jù)倉(cāng)庫(kù)內(nèi)的數(shù)據(jù)時(shí)間一般為5年至10年,主要用于進(jìn)行時(shí)間趨勢(shì)分析。數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)量很大。
數(shù)據(jù)倉(cāng)庫(kù)的特點(diǎn)如下:
1、數(shù)據(jù)倉(cāng)庫(kù)是面向主題的;
2、數(shù)據(jù)倉(cāng)庫(kù)是集成的,數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)有來(lái)自于分散的操作型數(shù)據(jù),將所需數(shù)據(jù)從原來(lái)的數(shù)據(jù)中抽取出來(lái),進(jìn)行加工與集成,統(tǒng)一與綜合之后才能進(jìn)入數(shù)據(jù)倉(cāng)庫(kù);
3、數(shù)據(jù)倉(cāng)庫(kù)是不可更新的,數(shù)據(jù)倉(cāng)庫(kù)主要是為決策分析提供數(shù)據(jù),所涉及的操作主要是數(shù)據(jù)的查詢;
4、數(shù)據(jù)倉(cāng)庫(kù)是隨時(shí)間而變化的,傳統(tǒng)的關(guān)系數(shù)據(jù)庫(kù)系統(tǒng)比較適合處理格式化的數(shù)據(jù),能夠較好的滿足商業(yè)商務(wù)處理的需求,它在商業(yè)領(lǐng)域取得了巨大的成功。
作為一個(gè)系統(tǒng),數(shù)據(jù)倉(cāng)庫(kù)至少包括3個(gè)基本的功能部分:數(shù)據(jù)獲取:數(shù)據(jù)存儲(chǔ)和管理;信息訪問(wèn)。
數(shù)據(jù)挖掘的定義:數(shù)據(jù)挖掘從技術(shù)上來(lái)說(shuō)是從大量的、不完全的、有噪音的、模糊的、隨機(jī)的數(shù)據(jù)中提取隱含在其中的、人們事先不知道的、但又是潛在的有用的信息和知識(shí)的過(guò)程。
數(shù)據(jù)開(kāi)采技術(shù)的目標(biāo)是從大量數(shù)據(jù)中,發(fā)現(xiàn)隱藏于其后的規(guī)律或數(shù)據(jù)間的的關(guān)系,從而服務(wù)于決策。數(shù)據(jù)挖掘的主要任務(wù)有廣義知識(shí);分類和預(yù)測(cè);關(guān)聯(lián)分析;聚類。
《數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘技術(shù)在金融信息化中的應(yīng)用》論文主要通過(guò)介紹數(shù)據(jù)額倉(cāng)庫(kù)與數(shù)據(jù)挖掘的起源、定義以及特征的等方面的介紹引出其在金融信息化中的應(yīng)用。在金融信息化的應(yīng)用方面,金融機(jī)構(gòu)利用信息技術(shù)從過(guò)去積累的、海量的、以不同形式存儲(chǔ)的數(shù)據(jù)資料里提取隱藏著的許多
重要信息,并對(duì)它們進(jìn)行高層次的分析,發(fā)現(xiàn)和挖掘出這些數(shù)據(jù)間的整體特征描述及發(fā)展趨勢(shì)預(yù)測(cè),找出對(duì)決策有價(jià)值的信息,以防范銀行的經(jīng)營(yíng)風(fēng)險(xiǎn)、實(shí)現(xiàn)銀行科技管理及銀行科學(xué)決策。
現(xiàn)在銀行信息化正在以業(yè)務(wù)為中心向客戶為中心轉(zhuǎn)變6銀行信息化不僅是數(shù)據(jù)的集中整合,而且要在數(shù)據(jù)集中和整合的基礎(chǔ)上向以客為中心的方向轉(zhuǎn)變。銀行信息化要適應(yīng)競(jìng)爭(zhēng)環(huán)境客戶需求的變化,創(chuàng)造性地用信息技術(shù)對(duì)傳統(tǒng)過(guò)程進(jìn)行集成和優(yōu)化,實(shí)現(xiàn)信息共享、資源整合綜合利用,把銀行的各項(xiàng)作用統(tǒng)一起來(lái),優(yōu)勢(shì)互補(bǔ)統(tǒng)一調(diào)配各種資源,為銀行的客戶開(kāi)發(fā)、服務(wù)、綜理財(cái)、管理、風(fēng)險(xiǎn)防范創(chuàng)立堅(jiān)實(shí)的基礎(chǔ),從而適應(yīng)日益發(fā)展的數(shù)據(jù)技術(shù)需要,全面提高銀行競(jìng)爭(zhēng)力,為金融創(chuàng)新和提高市場(chǎng)反映能力服務(wù)。沃爾瑪利用信息技術(shù)建設(shè)的數(shù)據(jù)倉(cāng)庫(kù),在1997年圣誕節(jié)進(jìn)行市場(chǎng)技術(shù)建立的數(shù)據(jù)倉(cāng)庫(kù),即分析顧客最可能一起購(gòu)買(mǎi)那些商品,結(jié)果產(chǎn)生了經(jīng)典的“啤酒與尿布”的故事,這便是借助于數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)
第三篇:數(shù)據(jù)挖掘與數(shù)據(jù)倉(cāng)庫(kù)--教學(xué)大綱
數(shù)據(jù)挖掘與數(shù)據(jù)倉(cāng)庫(kù)(教學(xué)大綱)
Data mining and data warehouse
課程編碼:05405140 學(xué)分: 2.5 課程類別: 專業(yè)方向課 計(jì)劃學(xué)時(shí): 48 其中講課:32 實(shí)驗(yàn)或?qū)嵺`: 上機(jī):16 適用專業(yè):信息管理與信息系統(tǒng)、電子商務(wù) 推薦教材:
陳文偉,數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘教程,清華大學(xué)出版社,2008 參考書(shū)目:
1.Richard J.Roiger, Michael W.Geatz.Data Mining: A Tutorial-Based Primer.2003.2.Ian H.Witten, Eibe Frank.Data Mining: Practical Machine Learning Tools and Techniques(第二版).機(jī)械工業(yè)出版社(影印版),2005.3.Jiawei Han, Micheline Kamber.Data Mining: Concepts and Techniques.2001.5.4.數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘技術(shù)(第2版),陳京民 編著,電子工業(yè)出版社,2007.11 5.數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)挖掘,蘇新寧 等編著,清華大學(xué)出版社,2006.4 6.數(shù)據(jù)挖掘Clementine應(yīng)用實(shí)務(wù),謝邦昌 主編,機(jī)械工業(yè)出版社,2008.4
課程的教學(xué)目的與任務(wù)
本課程將系統(tǒng)介紹數(shù)據(jù)挖掘的基本概念、基本原理和應(yīng)用基礎(chǔ),通過(guò)課堂講授、實(shí)例分析,提高學(xué)生數(shù)據(jù)挖掘技術(shù)的認(rèn)識(shí),熟悉基本工具應(yīng)用,并掌握設(shè)計(jì)和開(kāi)發(fā)數(shù)據(jù)挖掘算法和系統(tǒng)的初步能力。
課程的基本要求
1、了解數(shù)據(jù)倉(cāng)庫(kù)及數(shù)據(jù)挖掘的概念、特征、應(yīng)用范圍,以及主要數(shù)據(jù)挖掘工具
2、了解OLTP 和 OLAP的區(qū)別;熟悉OLAP 的體系結(jié)構(gòu),以及如何評(píng)價(jià)OLAP工具;掌握多維分析的基本分析動(dòng)作。
3、了解數(shù)據(jù)質(zhì)量,掌握數(shù)據(jù)預(yù)處理方法,4、掌握數(shù)據(jù)挖掘的定性歸納技術(shù)、關(guān)聯(lián)挖掘、聚類分析、分類方法、預(yù)測(cè)方法、文本挖掘、WEB挖掘
5、熟練掌握數(shù)據(jù)挖掘軟件Clementine在各類挖掘任務(wù)中的應(yīng)用。各章節(jié)授課內(nèi)容、教學(xué)方法及學(xué)時(shí)分配建議(含課內(nèi)實(shí)驗(yàn))
第一章.數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘概述 建議學(xué)時(shí):2 [教學(xué)目的與要求] 了解數(shù)據(jù)倉(cāng)庫(kù)及數(shù)據(jù)挖掘的概念、特征、應(yīng)用范圍,以及主要數(shù)據(jù)挖掘工具。[教學(xué)重點(diǎn)與難點(diǎn)] 數(shù)據(jù)倉(cāng)庫(kù)及數(shù)據(jù)挖掘的概念
[授 課 方 法] 以課堂講授為主,課堂討論和課下自學(xué)為輔 [授 課 內(nèi) 容] 1.1 為什么要數(shù)據(jù)挖掘 1.2 數(shù)據(jù)挖掘的應(yīng)用示例 1.3 數(shù)據(jù)挖掘方法簡(jiǎn)介
1.4 數(shù)據(jù)挖掘與其他學(xué)科的關(guān)系 1.5 商務(wù)智能的三大塊 1.6 常用數(shù)據(jù)挖掘工具簡(jiǎn)介
第二章 數(shù)據(jù)倉(cāng)庫(kù)技術(shù)
建議學(xué)時(shí):4 [教學(xué)目的與要求] 了解數(shù)據(jù)倉(cāng)庫(kù)的概念,區(qū)分與傳統(tǒng)數(shù)據(jù)庫(kù)技術(shù)的不同;掌握數(shù)據(jù)倉(cāng)庫(kù)存儲(chǔ)的抽取、轉(zhuǎn)換和裝載
[教學(xué)重點(diǎn)與難點(diǎn)] 數(shù)據(jù)倉(cāng)庫(kù)存儲(chǔ)的抽取、轉(zhuǎn)換和裝載;數(shù)據(jù)倉(cāng)庫(kù)存儲(chǔ)的數(shù)據(jù)模型 [授 課 方 法] 以課堂講授為主,課堂討論和課下自學(xué)為輔 [授 課 內(nèi) 容] 2.1 數(shù)據(jù)倉(cāng)庫(kù)的概念
2.2 數(shù)據(jù)倉(cāng)庫(kù)存儲(chǔ)的數(shù)據(jù)模型 2.3 數(shù)據(jù)倉(cāng)庫(kù)的體系結(jié)構(gòu)
2.4 數(shù)據(jù)倉(cāng)庫(kù)應(yīng)用的抽取、轉(zhuǎn)換和裝載
第三章 數(shù)據(jù)倉(cāng)庫(kù)開(kāi)發(fā)模型
建議學(xué)時(shí):4 [教學(xué)目的與要求] 了解數(shù)據(jù)倉(cāng)庫(kù)開(kāi)發(fā)模型的概念,了解數(shù)據(jù)倉(cāng)庫(kù)開(kāi)發(fā)過(guò)程,掌握數(shù)據(jù)倉(cāng)庫(kù)三種概念模型:星型模式、雪花模式、或事實(shí)星座模式,掌握數(shù)據(jù)粒度概念,元數(shù)據(jù)概念。
[教學(xué)重點(diǎn)與難點(diǎn)] 數(shù)據(jù)倉(cāng)庫(kù)三種概念模型,數(shù)據(jù)粒度概念,元數(shù)據(jù)概念 [授 課 方 法] 以課堂講授為主,課堂討論和課下自學(xué)為輔 [授 課 內(nèi) 容] 3.1 數(shù)據(jù)倉(cāng)庫(kù)開(kāi)發(fā)模型的概念
3.2 數(shù)據(jù)倉(cāng)庫(kù)的概念模型 3.3 數(shù)據(jù)倉(cāng)庫(kù)的邏輯模型 3.4 數(shù)據(jù)倉(cāng)庫(kù)的物理模型 3.5 數(shù)據(jù)倉(cāng)庫(kù)的生成
3.6 數(shù)據(jù)倉(cāng)庫(kù)的使用和維護(hù)
3.7 數(shù)據(jù)倉(cāng)庫(kù)的粒度、聚集和分割 3.8 元數(shù)據(jù)
第四章 聯(lián)機(jī)分析處理(OLAP)技術(shù) 建議學(xué)時(shí):4 [教學(xué)目的與要求] 了解OLTP 和 OLAP的區(qū)別;熟悉OLAP 的體系結(jié)構(gòu),以及如何評(píng)價(jià)OLAP工具;掌握多維分析的基本分析動(dòng)作。[教學(xué)重點(diǎn)與難點(diǎn)] OLAP 的體系結(jié)構(gòu);多維分析的基本分析動(dòng)作 [授 課 方 法] 以課堂講授為主,課堂討論和課下自學(xué)為輔 [授 課 內(nèi) 容] 4.1 從OLTP 到 OLAP 4.2 OLAP 的基本概念
4.3 多維分析的基本分析動(dòng)作 4.4 OLAP 的數(shù)據(jù)組織 4.5 OLAP 的體系結(jié)構(gòu) 4.6 OLAP 工具及評(píng)價(jià)
4.7 Codd 關(guān)于 OLAP 產(chǎn)品的十二條評(píng)價(jià)準(zhǔn)則
第五章 數(shù)據(jù)挖掘的原理與技術(shù) 建議學(xué)時(shí):4 [教學(xué)目的與要求] 了解為什么要數(shù)據(jù)挖掘、數(shù)據(jù)挖掘與其他學(xué)科的關(guān)系,熟悉常用數(shù)據(jù)挖掘方法和工具,掌握數(shù)據(jù)挖掘的原理與技術(shù)。
[教學(xué)重點(diǎn)與難點(diǎn)] 數(shù)據(jù)挖掘的原理與技術(shù),數(shù)據(jù)挖掘與其他學(xué)科的關(guān)系 [授 課 方 法] 以課堂講授為主,課堂討論和課下自學(xué)為輔 [授 課 內(nèi) 容] 5.1 知識(shí)發(fā)現(xiàn)的過(guò)程
5.2 數(shù)據(jù)挖掘的方法和技術(shù) 5.3 數(shù)據(jù)挖掘的知識(shí)表示
第六章 數(shù)據(jù)的獲取和管理 建議學(xué)時(shí):4 [教學(xué)目的與要求] 了解數(shù)據(jù)的數(shù)據(jù)獲取和管理,掌握數(shù)據(jù)質(zhì)量的多維度量,掌握數(shù)據(jù)預(yù)處理方法 [教學(xué)重點(diǎn)與難點(diǎn)] 數(shù)據(jù)質(zhì)量,數(shù)據(jù)預(yù)處理方法
[授 課 方 法] 以課堂講授為主,課堂討論和課下自學(xué)為輔 [授 課 內(nèi) 容] 6.1 數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)獲取 6.2 數(shù)據(jù)管理 6.3 系統(tǒng)管理 6.4 數(shù)據(jù)的預(yù)處理
6.5 數(shù)據(jù)質(zhì)量的多維度量 6.6 數(shù)據(jù)預(yù)處理的主要方法
第七章 定性歸納
建議學(xué)時(shí):2 [教學(xué)目的與要求] 了解數(shù)據(jù)挖掘的定性歸納技術(shù),掌握ID3算法、C5.0算法。[教學(xué)重點(diǎn)與難點(diǎn)] ID3算法、C5.0算法
[授 課 方 法] 以課堂講授為主,課堂討論和課下自學(xué)為輔 [授 課 內(nèi) 容] 7.1 基本概念 7.2 數(shù)據(jù)泛化 7.3 屬性相關(guān)分析 7.4 挖掘概念對(duì)比描述
7.5 挖掘大數(shù)據(jù)庫(kù)的描述型統(tǒng)計(jì)信息
第八章 關(guān)聯(lián)挖掘
建議學(xué)時(shí):2 [教學(xué)目的與要求] 了解關(guān)聯(lián)挖掘和的方法,掌握Apriori算法 [教學(xué)重點(diǎn)與難點(diǎn)] Apriori算法
[授 課 方 法] 以課堂講授為主,課堂討論和課下自學(xué)為輔 [授 課 內(nèi) 容] 8.1 基本概念
8.2 單維布爾邏輯關(guān)聯(lián)規(guī)則挖掘 8.3 多層關(guān)聯(lián)規(guī)則挖掘 8.4 多維關(guān)聯(lián)規(guī)則挖掘
8.5 關(guān)聯(lián)規(guī)則聚類系統(tǒng)(ARCS)8.6 關(guān)聯(lián)規(guī)則其它內(nèi)容
第九章
聚類分析
建議學(xué)時(shí):2 [教學(xué)目的與要求] 了解什么是聚類分析、聚類和分類的區(qū)別,掌握聚類分析的算法。[教學(xué)重點(diǎn)與難點(diǎn)] 聚類分析的算法
[授 課 方 法] 以課堂講授為主,課堂討論和課下自學(xué)為輔 [授 課 內(nèi) 容] 9.1 什么是聚類分析
9.2 聚類分析中的數(shù)據(jù)類型 9.3 主要聚類算法的分類
第十章 分類 建議學(xué)時(shí):2 [教學(xué)目的與要求] 了解什么是數(shù)據(jù)挖掘的分類,掌握KNN(K-Nearest Neighbor)分類和Bayes分類 [教學(xué)重點(diǎn)與難點(diǎn)] KNN(K-Nearest Neighbor)分類和Bayes分類 [授 課 方 法] 以課堂講授為主,課堂討論和課下自學(xué)為輔 [授 課 內(nèi) 容] 10.1 10.2 10.3 10.4 10.5
第十一章 預(yù)測(cè) 建議學(xué)時(shí):2 [教學(xué)目的與要求] 了解預(yù)測(cè)算法,掌握回歸預(yù)測(cè)、廣義線性GenLin模型預(yù)測(cè)、支持向量機(jī)預(yù)測(cè) [教學(xué)重點(diǎn)與難點(diǎn)] 回歸預(yù)測(cè)、廣義線性GenLin模型預(yù)測(cè)、支持向量機(jī)預(yù)測(cè) [授 課 方 法] 以課堂講授為主,課堂討論和課下自學(xué)為輔 [授 課 內(nèi) 容] 11.1 11.2 預(yù)測(cè)的基本知識(shí) 預(yù)測(cè)的數(shù)據(jù)準(zhǔn)備 分類的基本知識(shí) 決策樹(shù)分類 支持向量機(jī)分類
KNN(K-Nearest Neighbor)分類 Bayes分類 11.3 11.4 11.5 11.6
預(yù)測(cè)的主要方法 回歸預(yù)測(cè)
廣義線性GenLin模型預(yù)測(cè) 支持向量機(jī)預(yù)測(cè)
撰稿人:蔡永明 審核人:
第四篇:數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘論文
決策樹(shù)在教學(xué)評(píng)價(jià)中的應(yīng)用研究
摘 要 決策樹(shù)學(xué)習(xí)是人們廣泛使用的一種歸納推理形式。先就決策樹(shù)和決策樹(shù)學(xué)習(xí)算法進(jìn)行介紹,然后用實(shí)例闡述決策樹(shù)在教育信息處理中的應(yīng)用,主要以在教學(xué)評(píng)價(jià)中的應(yīng)用為例來(lái)加以介紹。
關(guān)鍵詞 決策樹(shù);數(shù)據(jù)挖掘;教育信息處理;教學(xué)評(píng)價(jià)
當(dāng)今社會(huì)處于一個(gè)信息爆炸的時(shí)代,海量的數(shù)據(jù)可以用來(lái)選擇和發(fā)掘信息,然而有時(shí)卻讓人無(wú)從下手,因此數(shù)據(jù)挖掘技術(shù)受到人們的高度關(guān)注。數(shù)據(jù)挖掘是從大量的、不完全的、有噪聲的、模糊的或者隨機(jī)的數(shù)據(jù)中提取人們事先不知道的但又是有用的信息和知識(shí)的過(guò)程。它的方法很多,其中決策樹(shù)是一種解決實(shí)際應(yīng)用分類問(wèn)題的數(shù)據(jù)挖掘方法。在教育教學(xué)中,根據(jù)決策樹(shù)算法的實(shí)際特點(diǎn),它可以在教育信息處理中的信息采集上發(fā)揮很大的作用。決策樹(shù)介紹
決策樹(shù)學(xué)習(xí)是人們廣泛使用的一種歸納推理形式。決策樹(shù)起源于概念學(xué)習(xí)系統(tǒng),其思路是找出最有分辨能力的屬性,把數(shù)據(jù)庫(kù)劃分為許多子集(對(duì)應(yīng)樹(shù)的一個(gè)分枝),構(gòu)成一個(gè)分枝過(guò)程,然后對(duì)每一個(gè)子集遞歸調(diào)用分支過(guò)程,直到所有子集包含同一類的數(shù)據(jù)。最后得到的決策樹(shù)能對(duì)新的例子進(jìn)行分類。它一般是從一組無(wú)次序、無(wú)規(guī)則的事例中推理出決策樹(shù)表示形式的分類規(guī)則。它一般需要給定一組訓(xùn)練例子,訓(xùn)練例子一般被看成用于創(chuàng)建模型的數(shù)據(jù)集。由此可以看出,決策樹(shù)是一個(gè)類似于流程圖的樹(shù)結(jié)構(gòu),其中每一個(gè)內(nèi)部結(jié)點(diǎn)表示對(duì)一個(gè)屬性的測(cè)試,每一個(gè)分支代表一個(gè)決策輸出,而每個(gè)葉節(jié)點(diǎn)代表一個(gè)目標(biāo)分類。決策樹(shù)通過(guò)把實(shí)例從根節(jié)點(diǎn)排列到某個(gè)葉子節(jié)點(diǎn)來(lái)分類實(shí)例,葉子結(jié)點(diǎn)即為實(shí)例所屬的分類,樹(shù)上每個(gè)節(jié)點(diǎn)說(shuō)明對(duì)實(shí)例的某個(gè)屬性的測(cè)試,節(jié)點(diǎn)的每個(gè)后繼分支對(duì)應(yīng)于該屬性的一個(gè)可能值。假如需要根據(jù)人員的外貌特征對(duì)人員進(jìn)行分類,用于人員的外貌特征有3個(gè),外貌列表={高度,發(fā)色,眼睛};各屬性的值域分別為:高度={高,矮},發(fā)色={黑色,紅色,金色},眼睛={黑色,棕色}。分類結(jié)果有兩種:種類={+,-}。提供的訓(xùn)練例子集為:T={<(矮,金色,黑色),+>,<(高,金色,棕色),->,<(高,紅色,黑色),+>,<(矮,黑色,黑色),->,<(高,黑色,黑色),->,<(高,金色,黑色),+>,<(高,黑色,棕色),->,<(矮,金色,棕色),->}。上述文字可構(gòu)造圖1所示決策樹(shù)。決策樹(shù)學(xué)習(xí)算法
決策樹(shù)算法有幾種,如ID3、C4.5、CA RT等。其中ID3算法是最經(jīng)典的算法,該算法從根節(jié)點(diǎn)開(kāi)始,這個(gè)根結(jié)點(diǎn)被賦予一個(gè)最好的屬性。隨后對(duì)該屬性的每個(gè)取值都生成相應(yīng)的分支,在每個(gè)分支的終點(diǎn)上又生成新的節(jié)點(diǎn)。然后按照該屬性的取值將每個(gè)訓(xùn)練例子都分別賦給一個(gè)相應(yīng)的新節(jié)點(diǎn)。如果沒(méi)有任何訓(xùn)練例子能賦給某個(gè)節(jié)點(diǎn),那么該節(jié)點(diǎn)連同相應(yīng)的分支都將被刪除。這時(shí),將每一個(gè)新節(jié)點(diǎn)都視作一個(gè)新的根節(jié)點(diǎn),重復(fù)執(zhí)行整個(gè)過(guò)程。這里,最好屬性的選擇要基于信息增益這個(gè)統(tǒng)計(jì)特性。在定義信息增益前,先要了解另一統(tǒng)計(jì)特性:熵。
給定一組有c個(gè)分類的訓(xùn)練例子,對(duì)屬性a來(lái)說(shuō),它有值v,其中pi是在第i類中屬性a取值為v的概率。為了能選出最好的屬性,需要使用度量信息增益。一屬性的信息增益就是按照該屬性對(duì)訓(xùn)練例子進(jìn)行劃分所帶來(lái)的熵的減少量。其中,T是訓(xùn)練例子的集合,Tj是屬性A取值為j的訓(xùn)練例子集合,為T(mén)的一個(gè)子集。決策樹(shù)在教育中的應(yīng)用
在教育教學(xué)中,尤其是在高等教育體系中,學(xué)校的數(shù)據(jù)庫(kù)中存貯著大量的教育教學(xué)信息,其中一部分和教學(xué)有關(guān),如學(xué)校的開(kāi)課排課情況、教師情況;一部分和學(xué)生有關(guān),如學(xué)生歷年的考試、測(cè)驗(yàn)成績(jī)等。這些大量的數(shù)據(jù)后面隱藏著大量的信息,只要加以分析,就能得到許多有用的信息,如教育規(guī)律、學(xué)生的培養(yǎng)模式、學(xué)生學(xué)科間的差異性和相關(guān)性的一些規(guī)律。這些規(guī)律對(duì)教育管理決策來(lái)說(shuō)是相當(dāng)重要的,對(duì)教育教學(xué)改革有指導(dǎo)性的意義。
3.1 決策樹(shù)在教育信息處理中的應(yīng)用
決策樹(shù)表示的是一個(gè)離散值函數(shù),樹(shù)中每一個(gè)節(jié)點(diǎn)表示一個(gè)屬性,同時(shí)目標(biāo)分類具有離散的輸出值信息。教育中的大量信息,一般都是對(duì)一些離散的數(shù)據(jù)進(jìn)行分析,比如學(xué)習(xí)成績(jī)一般分成優(yōu)、良、中、差,外語(yǔ)六級(jí)成績(jī)分成過(guò)與未過(guò),這些信息都可以用決策樹(shù)來(lái)加以分類歸納,對(duì)于連續(xù)的屬性值,也可以進(jìn)行離散化處理后再利用決策樹(shù)來(lái)加以分析。
3.2 決策樹(shù)在教學(xué)評(píng)價(jià)中的應(yīng)用案例
決策樹(shù)在教育信息處理中的應(yīng)用很廣泛,下面以決策樹(shù)在教學(xué)評(píng)價(jià)中的應(yīng)用為例,來(lái)說(shuō)明在教育信息處理中是如何使用決策樹(shù)來(lái)分析的。教學(xué)評(píng)價(jià)在教育中是一個(gè)重要的問(wèn)題,它是指依據(jù)一定的教學(xué)目標(biāo)與教學(xué)規(guī)范標(biāo)準(zhǔn),通過(guò)對(duì)學(xué)校教與學(xué)等教育情況的系統(tǒng)檢測(cè)與考核,評(píng)定其教學(xué)效果與教學(xué)目標(biāo)的實(shí)現(xiàn)程度。教學(xué)評(píng)價(jià)具有復(fù)雜性、多因素性和模糊性等特點(diǎn)。如何客觀、科學(xué)、全面地對(duì)教學(xué)進(jìn)行評(píng)價(jià),是教學(xué)評(píng)價(jià)中一個(gè)重要的課題,下面嘗試將決策樹(shù)應(yīng)用于教學(xué)評(píng)價(jià)。
在評(píng)價(jià)之初要有一個(gè)數(shù)據(jù)采集的過(guò)程,之后可以用決策樹(shù)來(lái)加以分析。課堂教學(xué)評(píng)價(jià)指標(biāo)體系分為若干項(xiàng),從教師的角度可以分為授課態(tài)度A1、授課方法A2、授課內(nèi)容A3、授課效果A4、教學(xué)評(píng)價(jià)A5,可以取訓(xùn)練例子如表1所示。
對(duì)給定的訓(xùn)練例子數(shù)據(jù)是把連續(xù)的數(shù)據(jù)離散化的結(jié)果,A為評(píng)分90~100,B為評(píng)分80~89,C為評(píng)分70~79,D為評(píng)分60~69,E為評(píng)分<60,N1為教師編號(hào),表中的A5為目標(biāo)分類。
如果利用前面的ID3算法建立決策樹(shù),先檢驗(yàn)所有信息增益的特征屬性,選擇信息增益最大的屬性作為決策樹(shù)的結(jié)點(diǎn),由該特征的不同取值建立分支,對(duì)此分支的實(shí)例子集遞歸該方法建立決策樹(shù)的結(jié)點(diǎn)和分支,直到某一子集中的例子屬于同一類。
對(duì)給定訓(xùn)練例子的熵為:E(T)= 1.295 46。
表1 訓(xùn)練例子
N1 A1 A2 A3 A4 A5 1 B B B B 良 2 B B B B 良 3 B B B C 良 4 A A A A 優(yōu) 5 B C C C 中 6 C C C C 中 7 B C B B 良 8 B B C C 良 9 C B C C 中 A A B B 良
以屬性A1為例,A1的值={A,B,C},由表中可以看出A3的信息增益最大,所以選A3屬性作為根節(jié)點(diǎn)的測(cè)試屬性,并根據(jù)其值向下分支,利用ID3算法進(jìn)一步劃分,當(dāng)根節(jié)點(diǎn)到當(dāng)前節(jié)點(diǎn)的路徑上包括所有屬性或當(dāng)前節(jié)點(diǎn)的訓(xùn)練樣本同屬一類時(shí),算法結(jié)束。根據(jù)以上分析給出圖2所示決策樹(shù)。
圖2 決策樹(shù)
可以根據(jù)生成的決策樹(shù),方便地提取其描述的知識(shí),比如授課內(nèi)容A3在這里產(chǎn)生的信息增益最大等信息。小結(jié)
在教育信息中存在隱藏在數(shù)據(jù)中的規(guī)則,這些規(guī)則可以用不同的方法被挖掘。本文只是對(duì)決策樹(shù)中的分類ID3算法在數(shù)據(jù)處理中的應(yīng)用進(jìn)行研究,目的是得到教育教學(xué)中存在的規(guī)則,利用發(fā)現(xiàn)的規(guī)則對(duì)教育管理決策提供有參考意義的信息。
參 考 文 獻(xiàn)
[1]Callan R.人工智能[M].北京:電子工業(yè)出版社,2004 [2]尹朝慶.人工智能與專家系統(tǒng)[M].北京:中國(guó)水利水電出版社,2003 [3]朱福喜,等.人工智能原理[M].武漢:武漢大學(xué)出版社,2002 [4]陳翔,劉軍麗.應(yīng)用決策樹(shù)方法構(gòu)建評(píng)價(jià)指標(biāo)體系[J].計(jì)算機(jī)應(yīng)用,2006,26(2):368-370 [5]谷瓊,等.基于決策樹(shù)技術(shù)的高校研究生信息庫(kù)數(shù)據(jù)挖掘研究[J].電子技術(shù)應(yīng)用,2006,32(1):20-22 [6]王中輝,等.決策樹(shù)在教學(xué)評(píng)價(jià)中的應(yīng)用[J]甘肅科技,2006,22(3):125-126,106
第五篇:數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘第一次作業(yè)
數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘第一次作業(yè)
電子商務(wù)這一行業(yè)目前還處于摸索期,有很多需要完善和可以創(chuàng)新的地方。這學(xué)期選修了袁老師的《電子商務(wù)》,印象最深的就是老師提過(guò)這樣的想法:電商(主要是B2B)、百度等搜索引擎以及新浪微博等社交平臺(tái)都是可以做咨詢業(yè)的,即根據(jù)客戶的消費(fèi)(或搜索)記錄、評(píng)價(jià)等信息定期為企業(yè)生成反饋報(bào)告。要實(shí)現(xiàn)之一定是需要數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)挖掘等這類技術(shù),通過(guò)收集、分析大量客戶數(shù)據(jù),為企業(yè)的預(yù)測(cè)、決策提供情報(bào)。
企業(yè)通過(guò)電子商務(wù)網(wǎng)站開(kāi)展網(wǎng)絡(luò)經(jīng)營(yíng)的過(guò)程中,利用數(shù)據(jù)倉(cāng)庫(kù)組織和存儲(chǔ)大量的客戶信息,在此基礎(chǔ)上利用數(shù)據(jù)挖掘技術(shù)對(duì)這些信息進(jìn)行抽取、分析,找出更深層次的隱藏信息,從而使企業(yè)的電子商務(wù)網(wǎng)站達(dá)到更高的客戶滿意度,將大大地提高企業(yè)網(wǎng)絡(luò)經(jīng)營(yíng)的效率,大大降低企業(yè)的運(yùn)營(yíng)成本。具體功能和作用如下: 首先,電子銷售商可以獲知訪問(wèn)者的個(gè)人愛(ài)好,更加充分地了解顧客的需要,并根據(jù)顧客的資料分析潛在的目標(biāo)市場(chǎng)。
其次,企業(yè)也可以了解客戶的價(jià)值,利用數(shù)據(jù)倉(cāng)庫(kù)的資料,發(fā)現(xiàn)什么樣的顧客群在網(wǎng)站上購(gòu)買(mǎi)什么商品,區(qū)分高價(jià)值顧客和一般價(jià)值顧客,對(duì)各類顧客采取相應(yīng)的營(yíng)銷策略。
再次,根據(jù)顧客的歷史資料,不僅可以預(yù)測(cè)需求趨勢(shì),還可以評(píng)估需求傾向的改變,為顧客提供更好的服務(wù)。
另外,企業(yè)通過(guò)理解訪問(wèn)者的動(dòng)態(tài)行為可以優(yōu)化電子商務(wù)網(wǎng)站的經(jīng)營(yíng)模式。最后,對(duì)涉及消費(fèi)行為的大量信息進(jìn)行收集、加工和處理,企業(yè)就可以確定特定消費(fèi)群體或個(gè)體的興趣、消費(fèi)習(xí)慣、消費(fèi)傾向和消費(fèi)需求,進(jìn)而推斷出相應(yīng)消費(fèi)群體或個(gè)體下一步的消費(fèi)行為,然后以此為基礎(chǔ),對(duì)所識(shí)別出來(lái)的消費(fèi)群體進(jìn)行特定內(nèi)容的定向營(yíng)銷。例如:(1)對(duì)那些要通過(guò)網(wǎng)站發(fā)送廣告的企業(yè),分析用戶訪問(wèn)模式有助于針對(duì)性地在某些用戶經(jīng)常訪問(wèn)的地方插播廣告條。這樣,根據(jù)這些信息,網(wǎng)站的建設(shè)者就可以對(duì)特定的顧客群提供個(gè)性化廣告服務(wù)。這種廣告要比泛泛的、隨意的廣告有價(jià)值得多;(2)在強(qiáng)大的數(shù)據(jù)挖掘技術(shù)與全面的顧客資料數(shù)據(jù)基礎(chǔ)上,企業(yè)可以根據(jù)各個(gè)細(xì)分市場(chǎng),甚至是每一個(gè)顧客的獨(dú)特需求來(lái)為他們?cè)O(shè)計(jì)“量身定造”的產(chǎn)品。高度細(xì)分化、定制化的產(chǎn)品有利于提高顧客滿意度,鞏固與他們的長(zhǎng)久關(guān)系,最終達(dá)到留住顧客的目的;(3)針對(duì)顧客設(shè)計(jì)個(gè)性化網(wǎng)站。利用數(shù)據(jù)挖掘工具,電子商務(wù)網(wǎng)站可以做到以顧客需求為導(dǎo)向,達(dá)到一對(duì)一行銷的目的。網(wǎng)站將改變?cè)械那宦傻男问?,而?qiáng)調(diào)信息個(gè)性化,亦即顧客所得到的信息將是網(wǎng)站針對(duì)其個(gè)人喜好、需求與特點(diǎn)的設(shè)定所給予的,也就是符合顧客的個(gè)人信息需求。例如顧客可以到一些新聞上去訂閱他喜歡看的信息類別,如政治新聞或科技新聞。當(dāng)使用者再次拜訪此網(wǎng)站時(shí),網(wǎng)站就會(huì)智能地只顯示出該顧客所喜歡看的信息。