數(shù)據(jù)挖掘心得體會(huì)

第一篇：數(shù)據(jù)挖掘心得體會(huì)

心得體會(huì)

這次數(shù)據(jù)挖掘?qū)嶒?yàn)結(jié)束了，期間我們小組明確分工并積極去完成，雖然有點(diǎn)辛苦，但我感覺充實(shí)而有收獲感！

根據(jù)老師給的一些資料，我們決定采用SQL Server 2000中的Northwind數(shù)據(jù)庫里的數(shù)據(jù)作為我們的實(shí)驗(yàn)數(shù)據(jù)。根據(jù)表Order Details中的數(shù)據(jù)，我們分別根據(jù)ProductID和OrderID字段，并結(jié)合我們規(guī)定的最小支持度閥值對(duì)數(shù)據(jù)進(jìn)行篩選。依次篩選出1項(xiàng)頻繁集、2項(xiàng)頻繁集和3項(xiàng)頻繁集，其中還會(huì)使用游標(biāo)的方式來遍歷2項(xiàng)集與3項(xiàng)集的候選集，分別選出2項(xiàng)頻繁集和3項(xiàng)頻繁集。

由于數(shù)據(jù)較多，因此過程比較復(fù)雜，要編寫很多的查詢語句，建立許多數(shù)據(jù)表，包括臨時(shí)表。開始不知道則操作，但經(jīng)過我們各自多次重復(fù)的建表與查詢，逐漸的理解和有了自己的思路。尤其是在運(yùn)用游標(biāo)的方法進(jìn)行遍歷這塊，因?yàn)槲覀儽容^陌生而不理解，操作時(shí)一時(shí)無法實(shí)現(xiàn)結(jié)果，但經(jīng)過我們?cè)诰W(wǎng)上查詢了解相關(guān)知識(shí)，最終得以解決。

經(jīng)過該次實(shí)驗(yàn)，使我對(duì)數(shù)據(jù)庫的操作更加熟練，而且還使我對(duì)課本上的“挖掘頻繁模式”這塊知識(shí)有了很好的掌握，今后我會(huì)多做實(shí)驗(yàn)，使我在實(shí)際操作過程中學(xué)得更好！

第二篇：數(shù)據(jù)挖掘講課心得體會(huì)

數(shù)據(jù)挖掘講課心得體會(huì)

今年的數(shù)據(jù)倉庫與數(shù)據(jù)挖掘課程，任課老師布置每人講一章，并課中研討的授課方式，我非常贊同這種自己備課，自己上去講課并課中和同學(xué)研討、最終老師點(diǎn)評(píng)的做法，因?yàn)樗茏屪约焊美斫馕恼?，同時(shí)又可以鍛煉自己的表達(dá)能力。

我主講《數(shù)據(jù)倉庫與數(shù)據(jù)挖掘技術(shù)》中的第二章“知識(shí)發(fā)現(xiàn)過程與應(yīng)用結(jié)構(gòu)”，在整個(gè)備課和講課當(dāng)中，存在很多不足，備課時(shí)參考的書目太少，使得在講課時(shí)關(guān)于概念和文章出現(xiàn)的例子不能進(jìn)行相關(guān)擴(kuò)展和補(bǔ)充，也不能用生活中通熟易懂的例子來闡述書本中的抽象概念；講課時(shí)更多的按著PPT所寫進(jìn)行概略性的講述，沒有形成自己的邏輯思維體系，我也知道，講課是門藝術(shù)，不是幾次就能掌握的，要經(jīng)過不斷的實(shí)踐積累經(jīng)驗(yàn)，不斷的研讀相關(guān)書目，形成自己的“知識(shí)樹”的基礎(chǔ)上，才能對(duì)所講的知識(shí)融會(huì)貫通。臺(tái)灣有位教育家曾說：如果你要講一門，至少要對(duì)該門課的五至六本經(jīng)典教材研讀幾遍，形成相應(yīng)的知識(shí)樹之后才好授課，這是題外話。

關(guān)于數(shù)據(jù)挖掘每一章算法的授課，我認(rèn)為在有限的時(shí)間里先把一個(gè)核心算法解釋清楚，對(duì)其他算法可以簡(jiǎn)略帶過(最后一次課XXX對(duì)PageRank的講解就很到位)，因?yàn)?，后面算法一般是前面所講算法的一種改進(jìn)。算法講解時(shí)，除了要對(duì)該算法的原理和概念講述清楚之外，要對(duì)該算法的實(shí)例最好用板書的形式解釋清楚，并演算每一步，而不是拘泥于PPT進(jìn)行講解。板書字體可大可小，速度可快可慢，可以寫寫停停，也可以一氣呵成，可以邊寫邊講，也可以只寫不講。而PPT是則是死的東西，參考的內(nèi)容也是書上的步驟，而不是授課人自己的理解，在講解過程中，不利于學(xué)生的理解和認(rèn)識(shí)。講解的過程中，語速要適當(dāng)放慢，語速太快是所有人剛開始講課的通病，我也不例外，講課講得很快，自己的思維被打亂不說，主要下面的同學(xué)不能理解，畢竟講課不是演講。

對(duì)于上學(xué)期的一頁紙開卷，我非常贊同這種考試方式，畢竟對(duì)于理工類課程，公式很長(zhǎng)，又特別難記，我們?cè)诶斫馄渌枷氲幕A(chǔ)上，完全沒必要再記很長(zhǎng)的公式，在考試的過程中，可以相應(yīng)的記錄些公式帶入考場(chǎng)。

以上是我個(gè)人在講課和聽課過程、及其考試過程中的一些總結(jié)和體會(huì)。

第三篇：數(shù)據(jù)挖掘與分析心得體會(huì)

正如柏拉圖所說：需要是發(fā)明之母。隨著信息時(shí)代的步伐不斷邁進(jìn)，大量數(shù)據(jù)日積月累。我們迫切需要一種工具來滿足從數(shù)據(jù)中發(fā)現(xiàn)知識(shí)的需求！而數(shù)據(jù)挖掘便應(yīng)運(yùn)而生了。正如書中所說：數(shù)據(jù)挖掘已經(jīng)并且將繼續(xù)在我們從數(shù)據(jù)時(shí)代大步跨入信息時(shí)代的歷程中做出貢獻(xiàn)。

1、數(shù)據(jù)挖掘

數(shù)據(jù)挖掘應(yīng)當(dāng)更正確的命名為：“從數(shù)據(jù)中挖掘知識(shí)”，不過后者顯得過長(zhǎng)了些。而“挖掘”一詞確是生動(dòng)形象的！人們把數(shù)據(jù)挖掘視為“數(shù)據(jù)中的知識(shí)發(fā)現(xiàn)（KDD）”的同義詞，而另一些人只是把數(shù)據(jù)挖掘視為知識(shí)發(fā)現(xiàn)過程的一個(gè)基本步驟！

由此而產(chǎn)生數(shù)據(jù)挖掘的定義：從大量數(shù)據(jù)中挖掘有趣模式和知識(shí)的過程！數(shù)據(jù)源包括數(shù)據(jù)庫、數(shù)據(jù)倉庫、Web、其他信息存儲(chǔ)庫或動(dòng)態(tài)地流入系統(tǒng)的數(shù)據(jù)。作為知識(shí)發(fā)現(xiàn)過程，它通常包括數(shù)據(jù)清理、數(shù)據(jù)集成、數(shù)據(jù)變換、模式發(fā)現(xiàn)、模式評(píng)估和知識(shí)表示六個(gè)步驟。

數(shù)據(jù)挖掘處理數(shù)據(jù)之多，挖掘模式之有趣，使用技術(shù)之大量，應(yīng)用范圍之廣泛都將會(huì)是前所未有的；而數(shù)據(jù)挖掘任務(wù)之重也一直并存。這些問題將繼續(xù)激勵(lì)數(shù)據(jù)挖掘的進(jìn)一步研究與改進(jìn)！

2、數(shù)據(jù)分析

數(shù)據(jù)分析是指用適當(dāng)?shù)慕y(tǒng)計(jì)方法對(duì)收集來的大量第一手資料和第二手資料進(jìn)行分析，以求最大化地開發(fā)數(shù)據(jù)資料的功能，發(fā)揮數(shù)據(jù)的作用。是為了提取有用信息和形成結(jié)論而對(duì)數(shù)據(jù)加以詳細(xì)研究和概括總結(jié)的過程。

數(shù)據(jù)分析有極廣泛的應(yīng)用范圍。典型的數(shù)據(jù)分析可能包含以下三個(gè)步：

1、探索性數(shù)據(jù)分析：當(dāng)數(shù)據(jù)剛?cè)〉脮r(shí)，可能雜亂無章，看不出規(guī)律，通過作圖、造表、用各種形式的方程擬合，計(jì)算某些特征量等手段探索規(guī)律性的可能形式，即往什么方向和用何種方式去尋找和揭示隱含在數(shù)據(jù)中的規(guī)律性。

2、模型選定分析，在探索性分析的基礎(chǔ)上提出一類或幾類可能的模型，然后通過進(jìn)一步的分析從中挑選一定的模型。

3、推斷分析：通常使用數(shù)理統(tǒng)計(jì)方法對(duì)所定模型或估計(jì)的可靠程度和精確程度作出推斷。

數(shù)據(jù)分析的目的是把隱沒在一大批看來雜亂無章的數(shù)據(jù)中的信息集中、萃取和提煉出來，以找出所研究對(duì)象的內(nèi)在規(guī)律。在實(shí)用中，數(shù)據(jù)分析可幫助人們作出判斷，以便采取適當(dāng)行動(dòng)。數(shù)據(jù)分析是組織有目的地收集數(shù)據(jù)、分析數(shù)據(jù)，使之成為信息的過程。這一過程是質(zhì)量管理體系的支持過程。在產(chǎn)品的整個(gè)壽命周期，包括從市場(chǎng)調(diào)研到售后服務(wù)和最終處置的各個(gè)過程都需要適當(dāng)運(yùn)用數(shù)據(jù)分析過程，以提升有效性。

由上可見，數(shù)據(jù)挖掘和數(shù)據(jù)分析雖然概念上層次清晰，作用上分工明確（數(shù)據(jù)分析主要以上數(shù)理統(tǒng)計(jì)為主，數(shù)據(jù)挖掘主要是挖掘算法為主）。但很明顯的是，數(shù)據(jù)挖掘必須借助數(shù)據(jù)分析的有關(guān)方法來挖掘出有效的，對(duì)目標(biāo)應(yīng)用有意義的模式和知識(shí)?；蛘呖梢哉f：數(shù)據(jù)挖掘也可以是數(shù)據(jù)分析的一種！

在這樣一個(gè)信息迅速膨脹的時(shí)代，數(shù)據(jù)挖掘和分析都與大量數(shù)據(jù)打交道。兩者都離不開一種80年代后期興起的一種高級(jí)數(shù)據(jù)分析技術(shù)：數(shù)據(jù)倉庫和聯(lián)機(jī)分析處理。

3、數(shù)據(jù)倉庫

數(shù)據(jù)倉庫是一個(gè)從多個(gè)數(shù)據(jù)源收集的信息存儲(chǔ)庫，存放在一致的的模式下，并且通常駐留在單個(gè)站點(diǎn)上。數(shù)據(jù)倉庫通過數(shù)據(jù)清理、數(shù)據(jù)變換、數(shù)據(jù)集成、數(shù)據(jù)裝入和定期數(shù)據(jù)刷新來構(gòu)造。為便于決策，數(shù)據(jù)倉庫中的數(shù)據(jù)圍繞主題組織。數(shù)據(jù)存儲(chǔ)從歷史的角度提供信息，并且通常是匯總的。數(shù)據(jù)倉庫提供一些數(shù)據(jù)分析能力，稱作聯(lián)機(jī)分析處理（OLAP）。

數(shù)據(jù)倉庫有以下四種關(guān)鍵特征：

面向主題的：數(shù)據(jù)倉庫圍繞一些重要主題，如顧客、供應(yīng)商、產(chǎn)品、和銷售組織。數(shù)據(jù)倉庫關(guān)注決策者的數(shù)據(jù)建模與分析，而不是單位的日常操作和事務(wù)處理。因此，數(shù)據(jù)倉庫通常排除對(duì)于決策無用的數(shù)據(jù)，提供特定主題的簡(jiǎn)明視圖。

集成的：通常，構(gòu)造數(shù)據(jù)倉庫是將多個(gè)異構(gòu)數(shù)據(jù)源，使用數(shù)據(jù)清理和數(shù)據(jù)集成技術(shù)，確保命名約定，編碼結(jié)構(gòu)，屬性度量等的一致性。

時(shí)變的：數(shù)據(jù)存儲(chǔ)從歷史的角度提供信息。數(shù)據(jù)倉庫中的關(guān)鍵結(jié)構(gòu)都隱式或顯式地包含時(shí)間元素。

非易失的：數(shù)據(jù)倉庫總是物理地分離存放數(shù)據(jù)，這些數(shù)據(jù)源于操作環(huán)境下的應(yīng)用數(shù)據(jù)。由于這種分離，數(shù)據(jù)倉庫不需要事務(wù)處理、恢復(fù)和并發(fā)控制機(jī)制。通常，它只需要兩種數(shù)據(jù)訪問操作：數(shù)據(jù)的初始化裝入和數(shù)據(jù)訪問。

4、分類及算法

分類是一種重要的數(shù)據(jù)分析形式，它提取刻畫重要數(shù)據(jù)類的模型。分類是找出數(shù)據(jù)庫中一組數(shù)據(jù)對(duì)象的共同特點(diǎn)并按照分類模式將其劃分為不同的類，其目的是通過分類模型，將數(shù)據(jù)庫中的數(shù)據(jù)項(xiàng)映射到某個(gè)給定的類別。它可以應(yīng)用到客戶的分類、客戶的屬性和特征分析、客戶滿意度分析、客戶的購買趨勢(shì)預(yù)測(cè)等，如一個(gè)汽車零售商將客戶按照對(duì)汽車的喜好劃分成不同的類，這樣營銷人員就可以將新型汽車的廣告手冊(cè)直接郵寄到有這種喜好的客戶手中，從而大大增加了商業(yè)機(jī)會(huì)。

分類算法主要有決策樹歸納、貝葉斯分類、使用IF-THEN規(guī)則分類、神經(jīng)網(wǎng)絡(luò)、支持向量機(jī)等。

5、聚類分析

聚類分析是把一組數(shù)據(jù)按照相似性和差異性分為幾個(gè)類別，其目的是使得屬于同一類別的數(shù)據(jù)間的相似性盡可能大，不同類別中的數(shù)據(jù)間的相似性盡可能小。它可以應(yīng)用到客戶群體的分類、客戶背景分析、客戶購買趨勢(shì)預(yù)測(cè)、市場(chǎng)的細(xì)分等。

常用的算法有：

劃分方法：k-均值算法，k-中心點(diǎn)算法。

層次方法：層次聚類算法、平衡迭代歸約和算法、Chameleon（變色龍）、基于密度的方法：DBSCAN算法，OPTICS算法，DENCLUE算法?；诰W(wǎng)格的方法：STING（統(tǒng)計(jì)信息網(wǎng)格），CLIQUE

6、廣泛應(yīng)用

作為一個(gè)應(yīng)用驅(qū)動(dòng)的領(lǐng)域，數(shù)據(jù)挖掘融匯來自其他一些領(lǐng)域的技術(shù)。這些領(lǐng)域包括統(tǒng)計(jì)學(xué)、機(jī)器學(xué)習(xí)、數(shù)據(jù)庫和數(shù)據(jù)倉庫系統(tǒng)，以及信息檢索。數(shù)據(jù)挖掘研究與開發(fā)的多學(xué)科特點(diǎn)大大促進(jìn)了數(shù)據(jù)挖掘的成功和廣泛應(yīng)用。

數(shù)據(jù)挖掘已經(jīng)有許多成功的應(yīng)用，如商務(wù)智能，Web搜索，生物信息學(xué)，衛(wèi)生保健信息學(xué)，金融，數(shù)字圖書館和數(shù)字政府等。

7、學(xué)習(xí)總結(jié)

數(shù)據(jù)挖掘技術(shù)已經(jīng)形成很廣泛的應(yīng)用空間，而目前JDMP的版本也在完善當(dāng)中，大多數(shù)數(shù)據(jù)挖掘開發(fā)工具涌現(xiàn)出來。各種相關(guān)的框架如Hadoop也如雨后春筍紛紛出現(xiàn)。這些現(xiàn)象的出現(xiàn)，正是因?yàn)閿?shù)據(jù)挖掘的發(fā)展會(huì)有越來越廣泛的天空。然而數(shù)據(jù)挖掘還是有很多需要面臨并且急需解決的問題??而我們也希望其越來越深刻的研究和改進(jìn)。

對(duì)于數(shù)據(jù)挖掘的學(xué)習(xí)，還是要注重算法的研究和開發(fā)。目前我還很欠缺這一塊知識(shí)。包括統(tǒng)計(jì)學(xué)、概率論，機(jī)器學(xué)習(xí)等。數(shù)據(jù)挖掘是個(gè)繁復(fù)的過程，需要我們長(zhǎng)此以往的研究！

第四篇：數(shù)據(jù)挖掘試題

《數(shù)據(jù)挖掘》總復(fù)習(xí)題

1．?dāng)?shù)據(jù)挖掘系統(tǒng)可以根據(jù)什么標(biāo)準(zhǔn)進(jìn)行分類？

答：根據(jù)挖掘的數(shù)據(jù)庫類型分類、根據(jù)挖掘的知識(shí)類型分類、根據(jù)挖掘所用的技術(shù)分類、根據(jù)應(yīng)用分類

2．知識(shí)發(fā)現(xiàn)過程包括哪些步驟？

答：數(shù)據(jù)清理、數(shù)據(jù)集成、數(shù)據(jù)選擇、數(shù)據(jù)變換、數(shù)據(jù)挖掘、模式評(píng)估、知識(shí)表示3．什么是概念分層？

答：一個(gè)映射序列，將低層概念映射到更一般的較高層概念。4．多維數(shù)據(jù)模型上的 OLAP 操作包括哪些？

答：上卷、下鉆、切片和切塊、轉(zhuǎn)軸 / 旋轉(zhuǎn)、其他OLAP操作5．OLAP 服務(wù)器類型有哪幾種？

答：關(guān)系 OLAP 服務(wù)器(ROLAP)、多維 OLAP 服務(wù)器(MOLAP)、混合 OLAP 服務(wù)器(HOLAP)、特殊的 SQL 服務(wù)器6．?dāng)?shù)據(jù)預(yù)處理技術(shù)包括哪些？

答：聚集、抽樣、維規(guī)約、特征子集選擇、特征創(chuàng)建、離散化和二元化、變量變換。7．什么是數(shù)據(jù)清理？

答：填寫缺失的值，平滑噪聲數(shù)據(jù)，識(shí)別、刪除離群點(diǎn)，解決不一致性 8．什么是數(shù)據(jù)集成？

答：集成多個(gè)數(shù)據(jù)庫、數(shù)據(jù)立方體或文件 9．什么是數(shù)據(jù)歸約？

答：得到數(shù)據(jù)集的壓縮表示，它小得多，但可以得到相同或相近的結(jié)果 10．?dāng)?shù)據(jù)清理的內(nèi)容包括哪些？

答：缺失值、噪聲數(shù)據(jù)、數(shù)據(jù)平滑、聚類、回歸11.將下列縮略語復(fù)原

OLAP——on-line analytical processing DM——data mining

KDD——knowledge discovery in databases OLTP——on-line transaction processingDBMS——database management system DWT——discrete wavelet transform

（DMQL）－－Data Mining Query Language 12．什么是數(shù)據(jù)挖掘？

答：簡(jiǎn)單地說，數(shù)據(jù)挖掘是從大量數(shù)據(jù)中提取或挖掘知識(shí)。具體地說，數(shù)據(jù)挖掘就是從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的實(shí)際應(yīng)用數(shù)據(jù)中，提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識(shí)的過程。13．什么是關(guān)聯(lián)規(guī)則？答：（關(guān)聯(lián)規(guī)則是形如X→Y的蘊(yùn)涵式，其中且，X和Y分別稱為關(guān)聯(lián)規(guī)則的先導(dǎo)和后繼。）假設(shè)I是項(xiàng)的集合。給定一個(gè)交易數(shù)據(jù)庫，其中每個(gè)事務(wù)(Transaction)t是I的非空子集，即，每一個(gè)交易都與一個(gè)唯一的標(biāo)識(shí)符TID(Transaction ID)對(duì)應(yīng)。關(guān)聯(lián)規(guī)則在D中的支持度(support)是D中事務(wù)同時(shí)包含X、Y的百分比，即概率；置信度(confidence)是包含X的事務(wù)中同時(shí)又包含Y的百分比，即條件概率。關(guān)聯(lián)規(guī)則是有趣的，如果滿足最小支持度閾值和最小置信度閾值。這些閾值是根據(jù)挖掘需要人為設(shè)定。

（關(guān)聯(lián)規(guī)則反映一個(gè)事物與其它事物之間的相互依存性和關(guān)聯(lián)性，如果兩個(gè)事物或者多個(gè)事物之間存在一定的關(guān)聯(lián)關(guān)系，那么其中一個(gè)事物就能夠通過其他事物預(yù)測(cè)到。）15.什么是概念描述？什么是特征化？什么是屬性相關(guān)分析？

答：概念描述：用匯總的、簡(jiǎn)潔的和精確的方式描述各個(gè)類和概念可能是有用的。特征化：是目標(biāo)類數(shù)據(jù)的一般特性或特征的匯總。

屬性相關(guān)分析：可能需要在分類和預(yù)測(cè)之前進(jìn)行，它試圖識(shí)別對(duì)于分類或預(yù)測(cè)過程無用的屬性。這些屬性應(yīng)當(dāng)排除。

16．什么是數(shù)據(jù)倉庫？其主要特征是什么？

答：數(shù)據(jù)倉庫是一個(gè)提供決策支持功能的數(shù)據(jù)庫，它與組織機(jī)構(gòu)的操作數(shù)據(jù)庫分別維護(hù)。它允許將各種應(yīng)用系統(tǒng)集成在一起，為統(tǒng)一的歷史數(shù)據(jù)分析提供堅(jiān)實(shí)的平臺(tái)，對(duì)信息處理提供支持。

特征：面向主題、數(shù)據(jù)集成、隨時(shí)間而變化、數(shù)據(jù)不易丟失（數(shù)據(jù)不易丟失是最明顯特征）17．什么是數(shù)據(jù)集市？

答：數(shù)據(jù)集市包含企業(yè)范圍數(shù)據(jù)的一個(gè)子集，對(duì)于特定的用戶群是有用的。其范圍限于選定的主題。

(是完整的數(shù)據(jù)倉庫的一個(gè)邏輯子集，而數(shù)據(jù)倉庫正是由所有的數(shù)據(jù)集市有機(jī)組合而成的)18．?dāng)?shù)據(jù)庫中的知識(shí)發(fā)現(xiàn)過程由哪幾個(gè)步驟組成？

答：數(shù)據(jù)清理、數(shù)據(jù)倉庫、任務(wù)相關(guān)數(shù)據(jù)、數(shù)據(jù)挖掘、模式評(píng)估、知識(shí)表示 19．典型的數(shù)據(jù)挖掘系統(tǒng)有哪幾個(gè)主要成分？

答：數(shù)據(jù)庫、數(shù)據(jù)倉庫、萬維網(wǎng)或其他信息庫；數(shù)據(jù)庫或數(shù)據(jù)倉庫服務(wù)器；知識(shí)庫；數(shù)據(jù)挖掘引擎；模式評(píng)估模塊；用戶界面

20．從軟件工程的觀點(diǎn)來看，數(shù)據(jù)倉庫的設(shè)計(jì)和構(gòu)造包含哪些步驟？

答：規(guī)劃、需求研究、問題分析、倉庫設(shè)計(jì)、數(shù)據(jù)集成和測(cè)試、部署數(shù)據(jù)倉庫。21．在數(shù)據(jù)挖掘系統(tǒng)中，為什么數(shù)據(jù)清理十分重要？

答：臟數(shù)據(jù)的普遍存在，使得在大型數(shù)據(jù)庫中維護(hù)數(shù)據(jù)的正確性和一致性成為一個(gè)極其困難的任務(wù)。

22．臟數(shù)據(jù)形成的原因有哪些？

答：濫用縮寫詞、數(shù)據(jù)輸入錯(cuò)誤、數(shù)據(jù)中的內(nèi)嵌控制信息、不同的的慣用語、重復(fù)記錄、丟失值、拼寫變化、不同的計(jì)量單位、過時(shí)的編碼23．?dāng)?shù)據(jù)清理時(shí)，對(duì)空缺值有哪些處理方法？

答：忽略元組、人工填寫缺失值、使用一個(gè)全局變量填充缺失值、使用屬性的平均值填充缺失值、使用與給定元組屬同一類的所有樣本的屬性均值、使用最可能的值填充缺失值 24．什么是數(shù)據(jù)變換？包括哪些內(nèi)容？

答：將數(shù)據(jù)轉(zhuǎn)換或統(tǒng)一成適合于挖掘的形式。包括：光滑、聚集、數(shù)據(jù)泛化、規(guī)范化、屬性構(gòu)造 25．數(shù)據(jù)歸約的策略包括哪些？

答：數(shù)據(jù)立方體聚集、性子集選擇、維度歸約、數(shù)值歸約、離散化和概念分層產(chǎn)生 26．提高數(shù)據(jù)挖掘算法效率有哪幾種思路？

答：減少對(duì)數(shù)據(jù)的掃描次數(shù)；縮小產(chǎn)生的候選項(xiàng)集；改進(jìn)對(duì)候選項(xiàng)集的支持度計(jì)算方法 27．假定屬性income的最小值與最大值分別為12000和980到區(qū)間[0.0，1.0]，根據(jù) min-max 規(guī)范化，income的值73600將變?yōu)椋?631/551＿。

28．假定屬性income的平均值和標(biāo)準(zhǔn)差分別為54000和16000，使用 Z-score 規(guī)范化，值73600被轉(zhuǎn)換為＿1.225＿。

29．假定A的值由-986到917.A的最大絕對(duì)值為986，使用小數(shù)定標(biāo)規(guī)范化，-986被規(guī)范化為＿-0.986＿

30．從結(jié)構(gòu)角度來看，有哪三種數(shù)據(jù)倉庫模型。答：企業(yè)倉庫、數(shù)據(jù)集市、虛擬倉庫

31．什么是聚類分析？它與分類有什么區(qū)別？

答：將物理或抽象對(duì)象的集合分組成為由類似的對(duì)象組成的多個(gè)類的過程區(qū)別：分類有監(jiān)督聚類無監(jiān)督分類要靠學(xué)習(xí)聚類要靠啟發(fā)式搜索 32．與數(shù)據(jù)挖掘類似的術(shù)語有哪些?

答：數(shù)據(jù)庫中挖掘知識(shí)、知識(shí)提取、數(shù)據(jù)/模式分析、數(shù)據(jù)考古和數(shù)據(jù)捕撈。33．解釋下列術(shù)語 34．翻譯下列術(shù)語

Data Mining 數(shù)據(jù)挖掘Data warehousing 數(shù)據(jù)倉庫Data Mart 數(shù)據(jù)集市

drill-down 下鉆roll-up上卷OLAP 聯(lián)機(jī)分析處理Data cube 數(shù)據(jù)立方體 Association rule 關(guān)聯(lián)規(guī)則Data cleaning數(shù)據(jù)清理Data integration 數(shù)據(jù)集成 Data transformation數(shù)據(jù)變換Data reduction 數(shù)據(jù)歸約

35．可以對(duì)按季度匯總的銷售數(shù)據(jù)進(jìn)行___B___，來觀察按月匯總的數(shù)據(jù)。A 上卷 B 下鉆 C 切片 D 切塊

36．可以對(duì)按城市匯總的銷售數(shù)據(jù)進(jìn)行____A__，來觀察按國家總的數(shù)據(jù)。A 上卷 B 下鉆 C 切片 D 切塊

37．通過不太詳細(xì)的數(shù)據(jù)得到更詳細(xì)的數(shù)據(jù)，稱為____B____。A 上卷 B 下鉆 C 細(xì)化 D 維規(guī)約

38．三層數(shù)據(jù)倉庫結(jié)構(gòu)中，從底層到尾層分別是_倉庫數(shù)據(jù)服務(wù)器、OLAP服務(wù)器、前端客戶層__。

42．常用的四種興趣度的客觀度量。

答：簡(jiǎn)單性確定性實(shí)用性新穎性43．四種常用的概念分層類型。

答：模式分層、集合分組分層、操作導(dǎo)出的分層、基于規(guī)則的分層45．如何理解現(xiàn)實(shí)世界的數(shù)據(jù)是“骯臟的”？答：不完整的、含噪聲的、不一致的、重復(fù)的 46．多維數(shù)據(jù)倉庫有哪幾種概念模型？

答：星形模式、雪花形模式或事實(shí)星座形模式。

48.在多路數(shù)組聚集算法中，如何盡量少地占用內(nèi)存？

答：將最小的平面放在內(nèi)存中，將最大的平面每次只是提取并計(jì)算一塊。49.給出方體的維數(shù)，會(huì)計(jì)算各D方體有多少，總的方體個(gè)數(shù)有多少？2^n50．什么是離群點(diǎn)？離群點(diǎn)都需要?jiǎng)h除嗎？為什么？

答：離群點(diǎn)：一些與數(shù)據(jù)的一般行為或模型不一致的孤立數(shù)據(jù)。不需要。通常離群點(diǎn)被作為“噪音”或異常被丟棄，但在欺詐檢測(cè)中卻可以通過對(duì)罕見事件進(jìn)行離群點(diǎn)分析而得到結(jié)論。

【51.所有模式都是有趣的嗎？

答：一個(gè)模式是有趣的，如果(1)它易于被人理解；（2）在某種程度上，對(duì)于新的或測(cè)試數(shù)據(jù)是有效的；（3）具有潛在效用；（4）新穎的；（5）符合用戶確信的某種假設(shè)?！?/p>

第五篇：2年數(shù)據(jù)挖掘服務(wù)工作心得體會(huì)

因?yàn)槟杏炎罱[著想轉(zhuǎn)行，想從大數(shù)據(jù)平臺(tái)交付轉(zhuǎn)到數(shù)據(jù)挖掘崗位（我自己是在同一家公司的數(shù)據(jù)挖掘偏業(yè)務(wù)咨詢方面工作），于是想借此機(jī)會(huì)思考下自己這兩年的工作體會(huì)，也希望通過這篇文，讓他對(duì)數(shù)據(jù)挖掘要做的事情有所了解。。

1.數(shù)據(jù)挖掘?yàn)槭裁催@么火？（關(guān)鍵詞：高薪、行業(yè)前景）

1.社會(huì)進(jìn)步，競(jìng)爭(zhēng)加劇，如何運(yùn)用數(shù)據(jù)資產(chǎn)提高生產(chǎn)效率、優(yōu)化管理流程和拓展?fàn)I銷市場(chǎng)是制勝的關(guān)鍵；決策支撐、營銷建議

2.涉及多行業(yè)、多專業(yè)技能；對(duì)人才的要求很高，需要具備跨專業(yè)整合能力，不斷學(xué)習(xí)、不斷積累、不斷進(jìn)步。

3.2.缺少能對(duì)數(shù)據(jù)進(jìn)行有效應(yīng)用人才

對(duì)數(shù)據(jù)挖掘從業(yè)人員的要求？

1.懂業(yè)務(wù)

1.精通所在行業(yè)的行業(yè)狀況，包括所在行業(yè)生態(tài)系統(tǒng)、所在企業(yè)經(jīng)營狀況包括企業(yè)產(chǎn)品優(yōu)劣、市場(chǎng)營銷策略、企業(yè)管理流程、與行業(yè)內(nèi)其他企業(yè)的利益鏈、用戶需求等；

2.良好的溝通表達(dá)能力：準(zhǔn)確的接受訊息、清晰的傳達(dá)信息，涉及到與客戶、上級(jí)和同事之間的高效溝通；

3.優(yōu)秀的文檔編寫能力：全面、高效、簡(jiǎn)潔的通過書面的方式將自己的思想表達(dá)出來。

2.懂管理

1.了解營銷、管理學(xué)的基礎(chǔ)知識(shí)，提供數(shù)據(jù)分析思路，為決策者或管理人員、一線營銷人員提供貼近業(yè)務(wù)的建議；

2.當(dāng)需要帶領(lǐng)一個(gè)臨時(shí)團(tuán)隊(duì)解決一個(gè)問題的時(shí)候，需要能夠盡可能的安排好每個(gè)成員的工作、分解項(xiàng)目?jī)?nèi)容、掌握項(xiàng)目的進(jìn)度；

3.懂分析

1.懂得基本的分析思想和方法，如對(duì)比分析、綜合分析、相關(guān)分析等，利于從已有數(shù)據(jù)中得到需要的事實(shí)依據(jù)；

4.懂工具

1.精通數(shù)據(jù)處理,運(yùn)用SQL或者其他語言； 2.精通一種數(shù)據(jù)分析工具，如excel（適合小數(shù)據(jù)集）、SPSS（較大數(shù)據(jù)集）；

3.4.5.精通一種數(shù)據(jù)挖掘工具，如MODELER、R、PYTHON等；精通一門語言：R、Python。

懂技術(shù)（涉及的技術(shù)非常多）

1.2.3.4.5.機(jī)器學(xué)習(xí)：掌握挖掘算法的基本原理和實(shí)現(xiàn)方式；統(tǒng)計(jì)學(xué)：加深對(duì)挖掘算法的掌握和分析原理的掌握；線性代數(shù)：加深對(duì)挖掘算法的掌握；概率論：加深對(duì)挖掘算法的掌握；信息論：加深對(duì)挖掘算法的掌握。

6.懂設(shè)計(jì)

1.2.3.數(shù)據(jù)可視化需要懂些美學(xué)設(shè)計(jì)；匯報(bào)文檔的編寫需要設(shè)計(jì)。

產(chǎn)品原型設(shè)計(jì)需要懂得產(chǎn)品的設(shè)計(jì)流程和方式。

比咨詢師更懂分析挖掘技術(shù) 比產(chǎn)品經(jīng)理更懂分析挖掘技術(shù)

3.我們要怎么做達(dá)到這些要求？

1.多看

1.多看書

《麥肯錫原理》、《誰說菜鳥不會(huì)數(shù)據(jù)分析》、《機(jī)器學(xué)習(xí)實(shí)戰(zhàn)》等

2.網(wǎng)上資料學(xué)習(xí)

1.2.微博大V學(xué)習(xí)微信公眾號(hào)

3.多看前輩做事

1.2.3.前輩的文檔前輩的溝通風(fēng)格前輩的思路

2.多思 1.2.3.3.理解透徹定義明白原理和流程提出優(yōu)化建議

多動(dòng)手

1.2.動(dòng)手寫寫報(bào)告

動(dòng)手實(shí)踐分析/挖掘流程

4.其他要說的話

? 個(gè)人內(nèi)在修養(yǎng)很重要：無論在哪里工作，想要在崗位上不斷提升自己的能力，針對(duì)性的看一些提升修養(yǎng)的書、培養(yǎng)一些提升內(nèi)在的愛好有助于提升自己的個(gè)人魅力，與客戶、領(lǐng)導(dǎo)或同事溝通更順暢，絕對(duì)有利于自身職場(chǎng)發(fā)展。1.看書：思維訓(xùn)練、哲學(xué)素養(yǎng)、藝術(shù)相關(guān)的書籍； 2.愛好：音樂、繪畫等。

? 個(gè)人外在形象很重要：相對(duì)與IT程序員，數(shù)據(jù)挖掘工程師往往需要去到現(xiàn)場(chǎng)與客戶溝通或者說服領(lǐng)導(dǎo)投資、又或是說服頑固的開發(fā)測(cè)試優(yōu)先開發(fā)，這些都需要注意個(gè)人形象、同事注意口頭表達(dá)能力的培養(yǎng)。這不是虛的，因?yàn)槲以谝粋€(gè)挖掘項(xiàng)目中擔(dān)任小leader的角色，從我的角度出發(fā)，我根本不愿意找一個(gè)不注重自身形象的人去與客戶溝通。

備注：本人工作經(jīng)驗(yàn)兩年，在一家為國內(nèi)運(yùn)營商提供IT解決方案的公司工作，任職大數(shù)據(jù)部門的數(shù)據(jù)挖掘偏業(yè)務(wù)咨詢崗位。

工作兩年來，因?yàn)楸旧砉ぷ餍再|(zhì)及公司剛成立數(shù)據(jù)挖掘團(tuán)隊(duì)的原因，公司給了我與很多客戶有過接觸、與很多項(xiàng)目上的同行有過接觸，也與其他崗位的同事接觸的機(jī)會(huì)，雖然技術(shù)上的提升有限，但是對(duì)我找到了自己未來的職業(yè)方向、有了要實(shí)現(xiàn)的目標(biāo)。接下來一定會(huì)根據(jù)自己的理解，一步步的提升技術(shù)的能力，我想一定會(huì)比那些從一開始鉆研技術(shù)的人少走很多的彎路，少做很多無用功。

欧美色欧美亚洲高清在线观看,国产特黄特色a级在线视频,国产一区视频一区欧美,亚洲成a 人在线观看中文

數(shù)據(jù)挖掘心得體會(huì)

第一篇：數(shù)據(jù)挖掘心得體會(huì)

第二篇：數(shù)據(jù)挖掘講課心得體會(huì)

第三篇：數(shù)據(jù)挖掘與分析心得體會(huì)

第四篇：數(shù)據(jù)挖掘試題

第五篇：2年數(shù)據(jù)挖掘服務(wù)工作心得體會(huì)

相關(guān)范文推薦

大數(shù)據(jù)建模與數(shù)據(jù)挖掘培訓(xùn)心得體會(huì)

數(shù)據(jù)挖掘論文（合集）

數(shù)據(jù)挖掘?qū)嶒?yàn)三

數(shù)據(jù)挖掘研究現(xiàn)狀

數(shù)據(jù)挖掘與電子商務(wù)

數(shù)據(jù)挖掘背景文摘

數(shù)據(jù)倉庫與數(shù)據(jù)挖掘?qū)W習(xí)心得.

電子商務(wù)數(shù)據(jù)挖掘方法論文