第一篇:數(shù)據(jù)挖掘心得體會(huì)
心得體會(huì)
這次數(shù)據(jù)挖掘?qū)嶒?yàn)結(jié)束了,期間我們小組明確分工并積極去完成,雖然有點(diǎn)辛苦,但我感覺充實(shí)而有收獲感!
根據(jù)老師給的一些資料,我們決定采用SQL Server 2000中的Northwind數(shù)據(jù)庫里的數(shù)據(jù)作為我們的實(shí)驗(yàn)數(shù)據(jù)。根據(jù)表Order Details中的數(shù)據(jù),我們分別根據(jù)ProductID和OrderID字段,并結(jié)合我們規(guī)定的最小支持度閥值對(duì)數(shù)據(jù)進(jìn)行篩選。依次篩選出1項(xiàng)頻繁集、2項(xiàng)頻繁集和3項(xiàng)頻繁集,其中還會(huì)使用游標(biāo)的方式來遍歷2項(xiàng)集與3項(xiàng)集的候選集,分別選出2項(xiàng)頻繁集和3項(xiàng)頻繁集。
由于數(shù)據(jù)較多,因此過程比較復(fù)雜,要編寫很多的查詢語句,建立許多數(shù)據(jù)表,包括臨時(shí)表。開始不知道則操作,但經(jīng)過我們各自多次重復(fù)的建表與查詢,逐漸的理解和有了自己的思路。尤其是在運(yùn)用游標(biāo)的方法進(jìn)行遍歷這塊,因?yàn)槲覀儽容^陌生而不理解,操作時(shí)一時(shí)無法實(shí)現(xiàn)結(jié)果,但經(jīng)過我們?cè)诰W(wǎng)上查詢了解相關(guān)知識(shí),最終得以解決。
經(jīng)過該次實(shí)驗(yàn),使我對(duì)數(shù)據(jù)庫的操作更加熟練,而且還使我對(duì)課本上的“挖掘頻繁模式”這塊知識(shí)有了很好的掌握,今后我會(huì)多做實(shí)驗(yàn),使我在實(shí)際操作過程中學(xué)得更好!
第二篇:數(shù)據(jù)挖掘講課心得體會(huì)
數(shù)據(jù)挖掘講課心得體會(huì)
今年的數(shù)據(jù)倉庫與數(shù)據(jù)挖掘課程,任課老師布置每人講一章,并課中研討的授課方式,我非常贊同這種自己備課,自己上去講課并課中和同學(xué)研討、最終老師點(diǎn)評(píng)的做法,因?yàn)樗茏屪约焊美斫馕恼?,同時(shí)又可以鍛煉自己的表達(dá)能力。
我主講《數(shù)據(jù)倉庫與數(shù)據(jù)挖掘技術(shù)》中的第二章“知識(shí)發(fā)現(xiàn)過程與應(yīng)用結(jié)構(gòu)”,在整個(gè)備課和講課當(dāng)中,存在很多不足,備課時(shí)參考的書目太少,使得在講課時(shí)關(guān)于概念和文章出現(xiàn)的例子不能進(jìn)行相關(guān)擴(kuò)展和補(bǔ)充,也不能用生活中通熟易懂的例子來闡述書本中的抽象概念;講課時(shí)更多的按著PPT所寫進(jìn)行概略性的講述,沒有形成自己的邏輯思維體系,我也知道,講課是門藝術(shù),不是幾次就能掌握的,要經(jīng)過不斷的實(shí)踐積累經(jīng)驗(yàn),不斷的研讀相關(guān)書目,形成自己的“知識(shí)樹”的基礎(chǔ)上,才能對(duì)所講的知識(shí)融會(huì)貫通。臺(tái)灣有位教育家曾說:如果你要講一門,至少要對(duì)該門課的五至六本經(jīng)典教材研讀幾遍,形成相應(yīng)的知識(shí)樹之后才好授課,這是題外話。
關(guān)于數(shù)據(jù)挖掘每一章算法的授課,我認(rèn)為在有限的時(shí)間里先把一個(gè)核心算法解釋清楚,對(duì)其他算法可以簡(jiǎn)略帶過(最后一次課XXX對(duì)PageRank的講解就很到位),因?yàn)?,后面算法一般是前面所講算法的一種改進(jìn)。算法講解時(shí),除了要對(duì)該算法的原理和概念講述清楚之外,要對(duì)該算法的實(shí)例最好用板書的形式解釋清楚,并演算每一步,而不是拘泥于PPT進(jìn)行講解。板書字體可大可小,速度可快可慢,可以寫寫停停,也可以一氣呵成,可以邊寫邊講,也可以只寫不講。而PPT是則是死的東西,參考的內(nèi)容也是書上的步驟,而不是授課人自己的理解,在講解過程中,不利于學(xué)生的理解和認(rèn)識(shí)。講解的過程中,語速要適當(dāng)放慢,語速太快是所有人剛開始講課的通病,我也不例外,講課講得很快,自己的思維被打亂不說,主要下面的同學(xué)不能理解,畢竟講課不是演講。
對(duì)于上學(xué)期的一頁紙開卷,我非常贊同這種考試方式,畢竟對(duì)于理工類課程,公式很長(zhǎng),又特別難記,我們?cè)诶斫馄渌枷氲幕A(chǔ)上,完全沒必要再記很長(zhǎng)的公式,在考試的過程中,可以相應(yīng)的記錄些公式帶入考場(chǎng)。
以上是我個(gè)人在講課和聽課過程、及其考試過程中的一些總結(jié)和體會(huì)。
第三篇:數(shù)據(jù)挖掘與分析心得體會(huì)
正如柏拉圖所說:需要是發(fā)明之母。隨著信息時(shí)代的步伐不斷邁進(jìn),大量數(shù)據(jù)日積月累。我們迫切需要一種工具來滿足從數(shù)據(jù)中發(fā)現(xiàn)知識(shí)的需求!而數(shù)據(jù)挖掘便應(yīng)運(yùn)而生了。正如書中所說:數(shù)據(jù)挖掘已經(jīng)并且將繼續(xù)在我們從數(shù)據(jù)時(shí)代大步跨入信息時(shí)代的歷程中做出貢獻(xiàn)。
1、數(shù)據(jù)挖掘
數(shù)據(jù)挖掘應(yīng)當(dāng)更正確的命名為:“從數(shù)據(jù)中挖掘知識(shí)”,不過后者顯得過長(zhǎng)了些。而“挖掘”一詞確是生動(dòng)形象的!人們把數(shù)據(jù)挖掘視為“數(shù)據(jù)中的知識(shí)發(fā)現(xiàn)(KDD)”的同義詞,而另一些人只是把數(shù)據(jù)挖掘視為知識(shí)發(fā)現(xiàn)過程的一個(gè)基本步驟!
由此而產(chǎn)生數(shù)據(jù)挖掘的定義:從大量數(shù)據(jù)中挖掘有趣模式和知識(shí)的過程!數(shù)據(jù)源包括數(shù)據(jù)庫、數(shù)據(jù)倉庫、Web、其他信息存儲(chǔ)庫或動(dòng)態(tài)地流入系統(tǒng)的數(shù)據(jù)。作為知識(shí)發(fā)現(xiàn)過程,它通常包括數(shù)據(jù)清理、數(shù)據(jù)集成、數(shù)據(jù)變換、模式發(fā)現(xiàn)、模式評(píng)估和知識(shí)表示六個(gè)步驟。
數(shù)據(jù)挖掘處理數(shù)據(jù)之多,挖掘模式之有趣,使用技術(shù)之大量,應(yīng)用范圍之廣泛都將會(huì)是前所未有的;而數(shù)據(jù)挖掘任務(wù)之重也一直并存。這些問題將繼續(xù)激勵(lì)數(shù)據(jù)挖掘的進(jìn)一步研究與改進(jìn)!
2、數(shù)據(jù)分析
數(shù)據(jù)分析是指用適當(dāng)?shù)慕y(tǒng)計(jì)方法對(duì)收集來的大量第一手資料和第二手資料進(jìn)行分析,以求最大化地開發(fā)數(shù)據(jù)資料的功能,發(fā)揮數(shù)據(jù)的作用。是為了提取有用信息和形成結(jié)論而對(duì)數(shù)據(jù)加以詳細(xì)研究和概括總結(jié)的過程。
數(shù)據(jù)分析有極廣泛的應(yīng)用范圍。典型的數(shù)據(jù)分析可能包含以下三個(gè)步:
1、探索性數(shù)據(jù)分析:當(dāng)數(shù)據(jù)剛?cè)〉脮r(shí),可能雜亂無章,看不出規(guī)律,通過作圖、造表、用各種形式的方程擬合,計(jì)算某些特征量等手段探索規(guī)律性的可能形式,即往什么方向和用何種方式去尋找和揭示隱含在數(shù)據(jù)中的規(guī)律性。
2、模型選定分析,在探索性分析的基礎(chǔ)上提出一類或幾類可能的模型,然后通過進(jìn)一步的分析從中挑選一定的模型。
3、推斷分析:通常使用數(shù)理統(tǒng)計(jì)方法對(duì)所定模型或估計(jì)的可靠程度和精確程度作出推斷。
數(shù)據(jù)分析的目的是把隱沒在一大批看來雜亂無章的數(shù)據(jù)中的信息集中、萃取和提煉出來,以找出所研究對(duì)象的內(nèi)在規(guī)律。在實(shí)用中,數(shù)據(jù)分析可幫助人們作出判斷,以便采取適當(dāng)行動(dòng)。數(shù)據(jù)分析是組織有目的地收集數(shù)據(jù)、分析數(shù)據(jù),使之成為信息的過程。這一過程是質(zhì)量管理體系的支持過程。在產(chǎn)品的整個(gè)壽命周期,包括從市場(chǎng)調(diào)研到售后服務(wù)和最終處置的各個(gè)過程都需要適當(dāng)運(yùn)用數(shù)據(jù)分析過程,以提升有效性。
由上可見,數(shù)據(jù)挖掘和數(shù)據(jù)分析雖然概念上層次清晰,作用上分工明確(數(shù)據(jù)分析主要以上數(shù)理統(tǒng)計(jì)為主,數(shù)據(jù)挖掘主要是挖掘算法為主)。但很明顯的是,數(shù)據(jù)挖掘必須借助數(shù)據(jù)分析的有關(guān)方法來挖掘出有效的,對(duì)目標(biāo)應(yīng)用有意義的模式和知識(shí)?;蛘呖梢哉f:數(shù)據(jù)挖掘也可以是數(shù)據(jù)分析的一種!
在這樣一個(gè)信息迅速膨脹的時(shí)代,數(shù)據(jù)挖掘和分析都與大量數(shù)據(jù)打交道。兩者都離不開一種80年代后期興起的一種高級(jí)數(shù)據(jù)分析技術(shù):數(shù)據(jù)倉庫和聯(lián)機(jī)分析處理。
3、數(shù)據(jù)倉庫
數(shù)據(jù)倉庫是一個(gè)從多個(gè)數(shù)據(jù)源收集的信息存儲(chǔ)庫,存放在一致的的模式下,并且通常駐留在單個(gè)站點(diǎn)上。數(shù)據(jù)倉庫通過數(shù)據(jù)清理、數(shù)據(jù)變換、數(shù)據(jù)集成、數(shù)據(jù)裝入和定期數(shù)據(jù)刷新來構(gòu)造。為便于決策,數(shù)據(jù)倉庫中的數(shù)據(jù)圍繞主題組織。數(shù)據(jù)存儲(chǔ)從歷史的角度提供信息,并且通常是匯總的。數(shù)據(jù)倉庫提供一些數(shù)據(jù)分析能力,稱作聯(lián)機(jī)分析處理(OLAP)。
數(shù)據(jù)倉庫有以下四種關(guān)鍵特征:
面向主題的:數(shù)據(jù)倉庫圍繞一些重要主題,如顧客、供應(yīng)商、產(chǎn)品、和銷售組織。數(shù)據(jù)倉庫關(guān)注決策者的數(shù)據(jù)建模與分析,而不是單位的日常操作和事務(wù)處理。因此,數(shù)據(jù)倉庫通常排除對(duì)于決策無用的數(shù)據(jù),提供特定主題的簡(jiǎn)明視圖。
集成的:通常,構(gòu)造數(shù)據(jù)倉庫是將多個(gè)異構(gòu)數(shù)據(jù)源,使用數(shù)據(jù)清理和數(shù)據(jù)集成技術(shù),確保命名約定,編碼結(jié)構(gòu),屬性度量等的一致性。
時(shí)變的:數(shù)據(jù)存儲(chǔ)從歷史的角度提供信息。數(shù)據(jù)倉庫中的關(guān)鍵結(jié)構(gòu)都隱式或顯式地包含時(shí)間元素。
非易失的:數(shù)據(jù)倉庫總是物理地分離存放數(shù)據(jù),這些數(shù)據(jù)源于操作環(huán)境下的應(yīng)用數(shù)據(jù)。由于這種分離,數(shù)據(jù)倉庫不需要事務(wù)處理、恢復(fù)和并發(fā)控制機(jī)制。通常,它只需要兩種數(shù)據(jù)訪問操作:數(shù)據(jù)的初始化裝入和數(shù)據(jù)訪問。
4、分類及算法
分類是一種重要的數(shù)據(jù)分析形式,它提取刻畫重要數(shù)據(jù)類的模型。分類是找出數(shù)據(jù)庫中一組數(shù)據(jù)對(duì)象的共同特點(diǎn)并按照分類模式將其劃分為不同的類,其目的是通過分類模型,將數(shù)據(jù)庫中的數(shù)據(jù)項(xiàng)映射到某個(gè)給定的類別。它可以應(yīng)用到客戶的分類、客戶的屬性和特征分析、客戶滿意度分析、客戶的購買趨勢(shì)預(yù)測(cè)等,如一個(gè)汽車零售商將客戶按照對(duì)汽車的喜好劃分成不同的類,這樣營銷人員就可以將新型汽車的廣告手冊(cè)直接郵寄到有這種喜好的客戶手中,從而大大增加了商業(yè)機(jī)會(huì)。
分類算法主要有決策樹歸納、貝葉斯分類、使用IF-THEN規(guī)則分類、神經(jīng)網(wǎng)絡(luò)、支持向量機(jī)等。
5、聚類分析
聚類分析是把一組數(shù)據(jù)按照相似性和差異性分為幾個(gè)類別,其目的是使得屬于同一類別的數(shù)據(jù)間的相似性盡可能大,不同類別中的數(shù)據(jù)間的相似性盡可能小。它可以應(yīng)用到客戶群體的分類、客戶背景分析、客戶購買趨勢(shì)預(yù)測(cè)、市場(chǎng)的細(xì)分等。
常用的算法有:
劃分方法:k-均值算法,k-中心點(diǎn)算法。
層次方法:層次聚類算法、平衡迭代歸約和算法、Chameleon(變色龍)、基于密度的方法:DBSCAN算法,OPTICS算法,DENCLUE算法?;诰W(wǎng)格的方法:STING(統(tǒng)計(jì)信息網(wǎng)格),CLIQUE
6、廣泛應(yīng)用
作為一個(gè)應(yīng)用驅(qū)動(dòng)的領(lǐng)域,數(shù)據(jù)挖掘融匯來自其他一些領(lǐng)域的技術(shù)。這些領(lǐng)域包括統(tǒng)計(jì)學(xué)、機(jī)器學(xué)習(xí)、數(shù)據(jù)庫和數(shù)據(jù)倉庫系統(tǒng),以及信息檢索。數(shù)據(jù)挖掘研究與開發(fā)的多學(xué)科特點(diǎn)大大促進(jìn)了數(shù)據(jù)挖掘的成功和廣泛應(yīng)用。
數(shù)據(jù)挖掘已經(jīng)有許多成功的應(yīng)用,如商務(wù)智能,Web搜索,生物信息學(xué),衛(wèi)生保健信息學(xué),金融,數(shù)字圖書館和數(shù)字政府等。
7、學(xué)習(xí)總結(jié)
數(shù)據(jù)挖掘技術(shù)已經(jīng)形成很廣泛的應(yīng)用空間,而目前JDMP的版本也在完善當(dāng)中,大多數(shù)數(shù)據(jù)挖掘開發(fā)工具涌現(xiàn)出來。各種相關(guān)的框架如Hadoop也如雨后春筍紛紛出現(xiàn)。這些現(xiàn)象的出現(xiàn),正是因?yàn)閿?shù)據(jù)挖掘的發(fā)展會(huì)有越來越廣泛的天空。然而數(shù)據(jù)挖掘還是有很多需要面臨并且急需解決的問題??而我們也希望其越來越深刻的研究和改進(jìn)。
對(duì)于數(shù)據(jù)挖掘的學(xué)習(xí),還是要注重算法的研究和開發(fā)。目前我還很欠缺這一塊知識(shí)。包括統(tǒng)計(jì)學(xué)、概率論,機(jī)器學(xué)習(xí)等。數(shù)據(jù)挖掘是個(gè)繁復(fù)的過程,需要我們長(zhǎng)此以往的研究!
第四篇:數(shù)據(jù)挖掘試題
《數(shù)據(jù)挖掘》總復(fù)習(xí)題
1.?dāng)?shù)據(jù)挖掘系統(tǒng)可以根據(jù)什么標(biāo)準(zhǔn)進(jìn)行分類?
答:根據(jù)挖掘的數(shù)據(jù)庫類型分類、根據(jù)挖掘的知識(shí)類型分類、根據(jù)挖掘所用的技術(shù)分類、根據(jù)應(yīng)用分類
2.知識(shí)發(fā)現(xiàn)過程包括哪些步驟?
答:數(shù)據(jù)清理、數(shù)據(jù)集成、數(shù)據(jù)選擇、數(shù)據(jù)變換、數(shù)據(jù)挖掘、模式評(píng)估、知識(shí)表示3.什么是概念分層?
答:一個(gè)映射序列,將低層概念映射到更一般的較高層概念。4.多維數(shù)據(jù)模型上的 OLAP 操作包括哪些?
答:上卷、下鉆、切片和切塊、轉(zhuǎn)軸 / 旋轉(zhuǎn)、其他OLAP操作5.OLAP 服務(wù)器類型有哪幾種?
答:關(guān)系 OLAP 服務(wù)器(ROLAP)、多維 OLAP 服務(wù)器(MOLAP)、混合 OLAP 服務(wù)器(HOLAP)、特殊的 SQL 服務(wù)器6.?dāng)?shù)據(jù)預(yù)處理技術(shù)包括哪些?
答:聚集、抽樣、維規(guī)約、特征子集選擇、特征創(chuàng)建、離散化和二元化、變量變換。7. 什么是數(shù)據(jù)清理?
答:填寫缺失的值,平滑噪聲數(shù)據(jù),識(shí)別、刪除離群點(diǎn),解決不一致性 8. 什么是數(shù)據(jù)集成?
答:集成多個(gè)數(shù)據(jù)庫、數(shù)據(jù)立方體或文件 9.什么是數(shù)據(jù)歸約?
答:得到數(shù)據(jù)集的壓縮表示,它小得多,但可以得到相同或相近的結(jié)果 10.?dāng)?shù)據(jù)清理的內(nèi)容包括哪些?
答:缺失值、噪聲數(shù)據(jù)、數(shù)據(jù)平滑、聚類、回歸11.將下列縮略語復(fù)原
OLAP——on-line analytical processing DM——data mining
KDD——knowledge discovery in databases OLTP——on-line transaction processingDBMS——database management system DWT——discrete wavelet transform
(DMQL)--Data Mining Query Language 12.什么是數(shù)據(jù)挖掘?
答:簡(jiǎn)單地說,數(shù)據(jù)挖掘是從大量數(shù)據(jù)中提取或挖掘知識(shí)。具體地說,數(shù)據(jù)挖掘就是從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的實(shí)際 應(yīng)用數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和 知識(shí)的過程。13.什么是關(guān)聯(lián)規(guī)則? 答:(關(guān)聯(lián)規(guī)則是形如X→Y的蘊(yùn)涵式,其中且,X和Y分別稱為關(guān)聯(lián)規(guī)則的先導(dǎo)和后繼。)假設(shè)I是項(xiàng)的集合。給定一個(gè)交易數(shù)據(jù)庫,其中每個(gè)事務(wù)(Transaction)t是I的非空子集,即,每一個(gè)交易都與一個(gè)唯一的標(biāo)識(shí)符TID(Transaction ID)對(duì)應(yīng)。關(guān)聯(lián)規(guī)則在D中的支持度(support)是D中事務(wù)同時(shí)包含X、Y的百分比,即概率;置信度(confidence)是包含X的事務(wù)中同時(shí)又包含Y的百分比,即條件概率。關(guān)聯(lián)規(guī)則是有趣的,如果滿足最小支持度閾值和最小置信度閾值。這些閾值是根據(jù)挖掘需要人為設(shè)定。
(關(guān)聯(lián)規(guī)則反映一個(gè)事物與其它事物之間的相互依存性和關(guān)聯(lián)性,如果兩個(gè)事物或者多個(gè)事物之間存在一定的關(guān)聯(lián)關(guān)系,那么其中一個(gè)事物就能夠通過其他事物預(yù)測(cè)到。)15.什么是概念描述?什么是特征化?什么是屬性相關(guān)分析?
答:概念描述:用匯總的、簡(jiǎn)潔的和精確的方式描述各個(gè)類和概念可能是有用的。特征化:是目標(biāo)類數(shù)據(jù)的一般特性或特征的匯總。
屬性相關(guān)分析:可能需要在分類和預(yù)測(cè)之前進(jìn)行,它試圖識(shí)別對(duì)于分類或預(yù)測(cè)過程無用的屬性。這些屬性應(yīng)當(dāng)排除。
16.什么是數(shù)據(jù)倉庫?其主要特征是什么?
答:數(shù)據(jù)倉庫是一個(gè)提供決策支持功能的數(shù)據(jù)庫,它與組織機(jī)構(gòu)的操作數(shù)據(jù)庫分別維護(hù)。它允許將各種應(yīng)用系統(tǒng)集成在一起,為統(tǒng)一的歷史數(shù)據(jù)分析提供堅(jiān)實(shí)的平臺(tái),對(duì)信息處理提供支持。
特征:面向主題、數(shù)據(jù)集成、隨時(shí)間而變化、數(shù)據(jù)不易丟失(數(shù)據(jù)不易丟失是最明顯特征)17.什么是數(shù)據(jù)集市?
答:數(shù)據(jù)集市包含企業(yè)范圍數(shù)據(jù)的一個(gè)子集,對(duì)于特定的用戶群是有用的。其范圍限于選定的主題。
(是完整的數(shù)據(jù)倉庫的一個(gè)邏輯子集,而數(shù)據(jù)倉庫正是由所有的數(shù)據(jù)集市有機(jī)組合而成的)18.?dāng)?shù)據(jù)庫中的知識(shí)發(fā)現(xiàn)過程由哪幾個(gè)步驟組成?
答:數(shù)據(jù)清理、數(shù)據(jù)倉庫、任務(wù)相關(guān)數(shù)據(jù)、數(shù)據(jù)挖掘、模式評(píng)估、知識(shí)表示 19.典型的數(shù)據(jù)挖掘系統(tǒng)有哪幾個(gè)主要成分?
答:數(shù)據(jù)庫、數(shù)據(jù)倉庫、萬維網(wǎng)或其他信息庫;數(shù)據(jù)庫或數(shù)據(jù)倉庫服務(wù)器;知識(shí)庫;數(shù)據(jù)挖掘引擎;模式評(píng)估模塊;用戶界面
20.從軟件工程的觀點(diǎn)來看,數(shù)據(jù)倉庫的設(shè)計(jì)和構(gòu)造包含哪些步驟?
答:規(guī)劃、需求研究、問題分析、倉庫設(shè)計(jì)、數(shù)據(jù)集成和測(cè)試、部署數(shù)據(jù)倉庫。21.在數(shù)據(jù)挖掘系統(tǒng)中,為什么數(shù)據(jù)清理十分重要?
答: 臟數(shù)據(jù)的普遍存在,使得在大型數(shù)據(jù)庫中維護(hù)數(shù)據(jù)的正確性和一致性成為一個(gè)極其困難的任務(wù)。
22.臟數(shù)據(jù)形成的原因有哪些?
答:濫用縮寫詞、數(shù)據(jù)輸入錯(cuò)誤、數(shù)據(jù)中的內(nèi)嵌控制信息、不同的的慣用語、重復(fù)記錄、丟失值、拼寫變化、不同的計(jì)量單位、過時(shí)的編碼23.?dāng)?shù)據(jù)清理時(shí),對(duì)空缺值有哪些處理方法?
答:忽略元組、人工填寫缺失值、使用一個(gè)全局變量填充缺失值、使用屬性的平均值填充缺失值、使用與給定元組屬同一類的所有樣本的屬性均值、使用最可能的值填充缺失值 24.什么是數(shù)據(jù)變換?包括哪些內(nèi)容?
答:將數(shù)據(jù)轉(zhuǎn)換或統(tǒng)一成適合于挖掘的形式。包括:光滑、聚集、數(shù)據(jù)泛化、規(guī)范化、屬性構(gòu)造 25. 數(shù)據(jù)歸約的策略包括哪些?
答:數(shù)據(jù)立方體聚集、性子集選擇、維度歸約、數(shù)值歸約、離散化和概念分層產(chǎn)生 26.提高數(shù)據(jù)挖掘算法效率有哪幾種思路?
答:減少對(duì)數(shù)據(jù)的掃描次數(shù);縮小產(chǎn)生的候選項(xiàng)集;改進(jìn)對(duì)候選項(xiàng)集的支持度計(jì)算方法 27.假定屬性income的最小值與最大值分別為12000和980到區(qū)間[0.0,1.0],根據(jù) min-max 規(guī)范化,income的值73600將變?yōu)椋?631/551_。
28.假定屬性income的平均值和標(biāo)準(zhǔn)差分別為54000和16000,使用 Z-score 規(guī)范化,值73600被轉(zhuǎn)換為_1.225_。
29.假定A的值由-986到917.A的最大絕對(duì)值為986,使用小數(shù)定標(biāo)規(guī)范化,-986被規(guī)范化為_-0.986_
30.從結(jié)構(gòu)角度來看,有哪三種數(shù)據(jù)倉庫模型。答:企業(yè)倉庫、數(shù)據(jù)集市、虛擬倉庫
31.什么是聚類分析?它與分類有什么區(qū)別?
答:將物理或抽象對(duì)象的集合分組成為由類似的對(duì)象組成的多個(gè)類的過程 區(qū)別:分類有監(jiān)督 聚類無監(jiān)督 分類要靠學(xué)習(xí)聚類要靠啟發(fā)式搜索 32.與數(shù)據(jù)挖掘類似的術(shù)語有哪些?
答:數(shù)據(jù)庫中挖掘知識(shí)、知識(shí)提取、數(shù)據(jù)/模式分析、數(shù)據(jù)考古和數(shù)據(jù)捕撈。33.解釋下列術(shù)語 34.翻譯下列術(shù)語
Data Mining 數(shù)據(jù)挖掘Data warehousing 數(shù)據(jù)倉庫Data Mart 數(shù)據(jù)集市
drill-down 下鉆roll-up上卷OLAP 聯(lián)機(jī)分析處理Data cube 數(shù)據(jù)立方體 Association rule 關(guān)聯(lián)規(guī)則Data cleaning數(shù)據(jù)清理Data integration 數(shù)據(jù)集成 Data transformation數(shù)據(jù)變換Data reduction 數(shù)據(jù)歸約
35.可以對(duì)按季度匯總的銷售數(shù)據(jù)進(jìn)行___B___,來觀察按月匯總的數(shù)據(jù)。A 上卷 B 下鉆 C 切片 D 切塊
36.可以對(duì)按城市匯總的銷售數(shù)據(jù)進(jìn)行____A__,來觀察按國家總的數(shù)據(jù)。A 上卷 B 下鉆 C 切片 D 切塊
37.通過不太詳細(xì)的數(shù)據(jù)得到更詳細(xì)的數(shù)據(jù),稱為____B____。A 上卷 B 下鉆 C 細(xì)化 D 維規(guī)約
38.三層數(shù)據(jù)倉庫結(jié)構(gòu)中,從底層到尾層分別是_倉庫數(shù)據(jù)服務(wù)器、OLAP服務(wù)器、前端客戶層__。
42.常用的四種興趣度的客觀度量。
答:簡(jiǎn)單性 確定性 實(shí)用性 新穎性43.四種常用的概念分層類型。
答:模式分層、集合分組分層、操作導(dǎo)出的分層、基于規(guī)則的分層45.如何理解現(xiàn)實(shí)世界的數(shù)據(jù)是“骯臟的”?答:不完整的、含噪聲的、不一致的、重復(fù)的 46.多維數(shù)據(jù)倉庫有哪幾種概念模型?
答:星形模式、雪花形模式或事實(shí)星座形模式。
48.在多路數(shù)組聚集算法中,如何盡量少地占用內(nèi)存?
答:將最小的平面放在內(nèi)存中,將最大的平面每次只是提取并計(jì)算一塊。49.給出方體的維數(shù),會(huì)計(jì)算各D方體有多少,總的方體個(gè)數(shù)有多少?2^n50.什么是離群點(diǎn)?離群點(diǎn)都需要?jiǎng)h除嗎?為什么?
答:離群點(diǎn):一些與數(shù)據(jù)的一般行為或模型不一致的孤立數(shù)據(jù)。不需要。通常離群點(diǎn)被作為“噪音”或異常被丟棄,但在欺詐檢測(cè)中卻可以通過對(duì)罕見事件進(jìn)行離群點(diǎn)分析而得到結(jié)論。
【51.所有模式都是有趣的嗎?
答:一個(gè)模式是有趣的,如果(1)它易于被人理解 ;(2)在某種程度上,對(duì)于新的或測(cè)試數(shù)據(jù)是有效的;(3)具有潛在效用;(4)新穎的;(5)符合用戶確信的某種假設(shè)?!?/p>
第五篇:2年數(shù)據(jù)挖掘服務(wù)工作心得體會(huì)
因?yàn)槟杏炎罱[著想轉(zhuǎn)行,想從大數(shù)據(jù)平臺(tái)交付轉(zhuǎn)到數(shù)據(jù)挖掘崗位(我自己是在同一家公司的數(shù)據(jù)挖掘偏業(yè)務(wù)咨詢方面工作),于是想借此機(jī)會(huì)思考下自己這兩年的工作體會(huì),也希望通過這篇文,讓他對(duì)數(shù)據(jù)挖掘要做的事情有所了解。。
1.數(shù)據(jù)挖掘?yàn)槭裁催@么火?(關(guān)鍵詞:高薪、行業(yè)前景)
1.社會(huì)進(jìn)步,競(jìng)爭(zhēng)加劇,如何運(yùn)用數(shù)據(jù)資產(chǎn)提高生產(chǎn)效率、優(yōu)化管理流程和拓展?fàn)I銷市場(chǎng)是制勝的關(guān)鍵;決策支撐、營銷建議
2.涉及多行業(yè)、多專業(yè)技能;對(duì)人才的要求很高,需要具備跨專業(yè)整合能力,不斷學(xué)習(xí)、不斷積累、不斷進(jìn)步。
3.2.缺少能對(duì)數(shù)據(jù)進(jìn)行有效應(yīng)用人才
對(duì)數(shù)據(jù)挖掘從業(yè)人員的要求?
1.懂業(yè)務(wù)
1.精通所在行業(yè)的行業(yè)狀況,包括所在行業(yè)生態(tài)系統(tǒng)、所在企業(yè)經(jīng)營狀況包括企業(yè)產(chǎn)品優(yōu)劣、市場(chǎng)營銷策略、企業(yè)管理流程、與行業(yè)內(nèi)其他企業(yè)的利益鏈、用戶需求等;
2.良好的溝通表達(dá)能力:準(zhǔn)確的接受訊息、清晰的傳達(dá)信息,涉及到與客戶、上級(jí)和同事之間的高效溝通;
3.優(yōu)秀的文檔編寫能力:全面、高效、簡(jiǎn)潔的通過書面的方式將自己的思想表達(dá)出來。
2.懂管理
1.了解營銷、管理學(xué)的基礎(chǔ)知識(shí),提供數(shù)據(jù)分析思路,為決策者或管理人員、一線營銷人員提供貼近業(yè)務(wù)的建議;
2.當(dāng)需要帶領(lǐng)一個(gè)臨時(shí)團(tuán)隊(duì)解決一個(gè)問題的時(shí)候,需要能夠盡可能的安排好每個(gè)成員的工作、分解項(xiàng)目?jī)?nèi)容、掌握項(xiàng)目的進(jìn)度;
3.懂分析
1.懂得基本的分析思想和方法,如對(duì)比分析、綜合分析、相關(guān)分析等,利于從已有數(shù)據(jù)中得到需要的事實(shí)依據(jù);
4.懂工具
1.精通數(shù)據(jù)處理,運(yùn)用SQL或者其他語言; 2.精通一種數(shù)據(jù)分析工具,如excel(適合小數(shù)據(jù)集)、SPSS(較大數(shù)據(jù)集);
3.4.5.精通一種數(shù)據(jù)挖掘工具,如MODELER、R、PYTHON等; 精通一門語言:R、Python。
懂技術(shù)(涉及的技術(shù)非常多)
1.2.3.4.5.機(jī)器學(xué)習(xí):掌握挖掘算法的基本原理和實(shí)現(xiàn)方式; 統(tǒng)計(jì)學(xué):加深對(duì)挖掘算法的掌握和分析原理的掌握; 線性代數(shù):加深對(duì)挖掘算法的掌握; 概率論:加深對(duì)挖掘算法的掌握; 信息論:加深對(duì)挖掘算法的掌握。
6.懂設(shè)計(jì)
1.2.3.數(shù)據(jù)可視化需要懂些美學(xué)設(shè)計(jì); 匯報(bào)文檔的編寫需要設(shè)計(jì)。
產(chǎn)品原型設(shè)計(jì)需要懂得產(chǎn)品的設(shè)計(jì)流程和方式。
比咨詢師更懂分析挖掘技術(shù) 比產(chǎn)品經(jīng)理更懂分析挖掘技術(shù)
3.我們要怎么做達(dá)到這些要求?
1.多看
1.多看書
《麥肯錫原理》、《誰說菜鳥不會(huì)數(shù)據(jù)分析》、《機(jī)器學(xué)習(xí)實(shí)戰(zhàn)》等
2.網(wǎng)上資料學(xué)習(xí)
1.2.微博大V學(xué)習(xí)微信公眾號(hào)
3.多看前輩做事
1.2.3.前輩的文檔 前輩的溝通風(fēng)格 前輩的思路
2.多思 1.2.3.3.理解透徹定義 明白原理和流程 提出優(yōu)化建議
多動(dòng)手
1.2.動(dòng)手寫寫報(bào)告
動(dòng)手實(shí)踐分析/挖掘流程
4.其他要說的話
? 個(gè)人內(nèi)在修養(yǎng)很重要:無論在哪里工作,想要在崗位上不斷提升自己的能力,針對(duì)性的看一些提升修養(yǎng)的書、培養(yǎng)一些提升內(nèi)在的愛好有助于提升自己的個(gè)人魅力,與客戶、領(lǐng)導(dǎo)或同事溝通更順暢,絕對(duì)有利于自身職場(chǎng)發(fā)展。1.看書:思維訓(xùn)練、哲學(xué)素養(yǎng)、藝術(shù)相關(guān)的書籍; 2.愛好:音樂、繪畫等。
? 個(gè)人外在形象很重要:相對(duì)與IT程序員,數(shù)據(jù)挖掘工程師往往需要去到現(xiàn)場(chǎng)與客戶溝通或者說服領(lǐng)導(dǎo)投資、又或是說服頑固的開發(fā)測(cè)試優(yōu)先開發(fā),這些都需要注意個(gè)人形象、同事注意口頭表達(dá)能力的培養(yǎng)。這不是虛的,因?yàn)槲以谝粋€(gè)挖掘項(xiàng)目中擔(dān)任小leader的角色,從我的角度出發(fā),我根本不愿意找一個(gè)不注重自身形象的人去與客戶溝通。
備注:本人工作經(jīng)驗(yàn)兩年,在一家為國內(nèi)運(yùn)營商提供IT解決方案的公司工作,任職大數(shù)據(jù)部門的數(shù)據(jù)挖掘偏業(yè)務(wù)咨詢崗位。
工作兩年來,因?yàn)楸旧砉ぷ餍再|(zhì)及公司剛成立數(shù)據(jù)挖掘團(tuán)隊(duì)的原因,公司給了我與很多客戶有過接觸、與很多項(xiàng)目上的同行有過接觸,也與其他崗位的同事接觸的機(jī)會(huì),雖然技術(shù)上的提升有限,但是對(duì)我找到了自己未來的職業(yè)方向、有了要實(shí)現(xiàn)的目標(biāo)。接下來一定會(huì)根據(jù)自己的理解,一步步的提升技術(shù)的能力,我想一定會(huì)比那些從一開始鉆研技術(shù)的人少走很多的彎路,少做很多無用功。