欧美色欧美亚洲高清在线观看,国产特黄特色a级在线视频,国产一区视频一区欧美,亚洲成a 人在线观看中文

  1. <ul id="fwlom"></ul>

    <object id="fwlom"></object>

    <span id="fwlom"></span><dfn id="fwlom"></dfn>

      <object id="fwlom"></object>

      數(shù)據(jù)挖掘心得體會(huì)

      時(shí)間:2019-05-14 03:26:05下載本文作者:會(huì)員上傳
      簡(jiǎn)介:寫寫幫文庫小編為你整理了多篇相關(guān)的《數(shù)據(jù)挖掘心得體會(huì)》,但愿對(duì)你工作學(xué)習(xí)有幫助,當(dāng)然你在寫寫幫文庫還可以找到更多《數(shù)據(jù)挖掘心得體會(huì)》。

      第一篇:數(shù)據(jù)挖掘心得體會(huì)

      心得體會(huì)

      這次數(shù)據(jù)挖掘?qū)嶒?yàn)結(jié)束了,期間我們小組明確分工并積極去完成,雖然有點(diǎn)辛苦,但我感覺充實(shí)而有收獲感!

      根據(jù)老師給的一些資料,我們決定采用SQL Server 2000中的Northwind數(shù)據(jù)庫里的數(shù)據(jù)作為我們的實(shí)驗(yàn)數(shù)據(jù)。根據(jù)表Order Details中的數(shù)據(jù),我們分別根據(jù)ProductID和OrderID字段,并結(jié)合我們規(guī)定的最小支持度閥值對(duì)數(shù)據(jù)進(jìn)行篩選。依次篩選出1項(xiàng)頻繁集、2項(xiàng)頻繁集和3項(xiàng)頻繁集,其中還會(huì)使用游標(biāo)的方式來遍歷2項(xiàng)集與3項(xiàng)集的候選集,分別選出2項(xiàng)頻繁集和3項(xiàng)頻繁集。

      由于數(shù)據(jù)較多,因此過程比較復(fù)雜,要編寫很多的查詢語句,建立許多數(shù)據(jù)表,包括臨時(shí)表。開始不知道則操作,但經(jīng)過我們各自多次重復(fù)的建表與查詢,逐漸的理解和有了自己的思路。尤其是在運(yùn)用游標(biāo)的方法進(jìn)行遍歷這塊,因?yàn)槲覀儽容^陌生而不理解,操作時(shí)一時(shí)無法實(shí)現(xiàn)結(jié)果,但經(jīng)過我們?cè)诰W(wǎng)上查詢了解相關(guān)知識(shí),最終得以解決。

      經(jīng)過該次實(shí)驗(yàn),使我對(duì)數(shù)據(jù)庫的操作更加熟練,而且還使我對(duì)課本上的“挖掘頻繁模式”這塊知識(shí)有了很好的掌握,今后我會(huì)多做實(shí)驗(yàn),使我在實(shí)際操作過程中學(xué)得更好!

      第二篇:數(shù)據(jù)挖掘講課心得體會(huì)

      數(shù)據(jù)挖掘講課心得體會(huì)

      今年的數(shù)據(jù)倉庫與數(shù)據(jù)挖掘課程,任課老師布置每人講一章,并課中研討的授課方式,我非常贊同這種自己備課,自己上去講課并課中和同學(xué)研討、最終老師點(diǎn)評(píng)的做法,因?yàn)樗茏屪约焊美斫馕恼?,同時(shí)又可以鍛煉自己的表達(dá)能力。

      我主講《數(shù)據(jù)倉庫與數(shù)據(jù)挖掘技術(shù)》中的第二章“知識(shí)發(fā)現(xiàn)過程與應(yīng)用結(jié)構(gòu)”,在整個(gè)備課和講課當(dāng)中,存在很多不足,備課時(shí)參考的書目太少,使得在講課時(shí)關(guān)于概念和文章出現(xiàn)的例子不能進(jìn)行相關(guān)擴(kuò)展和補(bǔ)充,也不能用生活中通熟易懂的例子來闡述書本中的抽象概念;講課時(shí)更多的按著PPT所寫進(jìn)行概略性的講述,沒有形成自己的邏輯思維體系,我也知道,講課是門藝術(shù),不是幾次就能掌握的,要經(jīng)過不斷的實(shí)踐積累經(jīng)驗(yàn),不斷的研讀相關(guān)書目,形成自己的“知識(shí)樹”的基礎(chǔ)上,才能對(duì)所講的知識(shí)融會(huì)貫通。臺(tái)灣有位教育家曾說:如果你要講一門,至少要對(duì)該門課的五至六本經(jīng)典教材研讀幾遍,形成相應(yīng)的知識(shí)樹之后才好授課,這是題外話。

      關(guān)于數(shù)據(jù)挖掘每一章算法的授課,我認(rèn)為在有限的時(shí)間里先把一個(gè)核心算法解釋清楚,對(duì)其他算法可以簡(jiǎn)略帶過(最后一次課XXX對(duì)PageRank的講解就很到位),因?yàn)?,后面算法一般是前面所講算法的一種改進(jìn)。算法講解時(shí),除了要對(duì)該算法的原理和概念講述清楚之外,要對(duì)該算法的實(shí)例最好用板書的形式解釋清楚,并演算每一步,而不是拘泥于PPT進(jìn)行講解。板書字體可大可小,速度可快可慢,可以寫寫停停,也可以一氣呵成,可以邊寫邊講,也可以只寫不講。而PPT是則是死的東西,參考的內(nèi)容也是書上的步驟,而不是授課人自己的理解,在講解過程中,不利于學(xué)生的理解和認(rèn)識(shí)。講解的過程中,語速要適當(dāng)放慢,語速太快是所有人剛開始講課的通病,我也不例外,講課講得很快,自己的思維被打亂不說,主要下面的同學(xué)不能理解,畢竟講課不是演講。

      對(duì)于上學(xué)期的一頁紙開卷,我非常贊同這種考試方式,畢竟對(duì)于理工類課程,公式很長(zhǎng),又特別難記,我們?cè)诶斫馄渌枷氲幕A(chǔ)上,完全沒必要再記很長(zhǎng)的公式,在考試的過程中,可以相應(yīng)的記錄些公式帶入考場(chǎng)。

      以上是我個(gè)人在講課和聽課過程、及其考試過程中的一些總結(jié)和體會(huì)。

      第三篇:數(shù)據(jù)挖掘與分析心得體會(huì)

      正如柏拉圖所說:需要是發(fā)明之母。隨著信息時(shí)代的步伐不斷邁進(jìn),大量數(shù)據(jù)日積月累。我們迫切需要一種工具來滿足從數(shù)據(jù)中發(fā)現(xiàn)知識(shí)的需求!而數(shù)據(jù)挖掘便應(yīng)運(yùn)而生了。正如書中所說:數(shù)據(jù)挖掘已經(jīng)并且將繼續(xù)在我們從數(shù)據(jù)時(shí)代大步跨入信息時(shí)代的歷程中做出貢獻(xiàn)。

      1、數(shù)據(jù)挖掘

      數(shù)據(jù)挖掘應(yīng)當(dāng)更正確的命名為:“從數(shù)據(jù)中挖掘知識(shí)”,不過后者顯得過長(zhǎng)了些。而“挖掘”一詞確是生動(dòng)形象的!人們把數(shù)據(jù)挖掘視為“數(shù)據(jù)中的知識(shí)發(fā)現(xiàn)(KDD)”的同義詞,而另一些人只是把數(shù)據(jù)挖掘視為知識(shí)發(fā)現(xiàn)過程的一個(gè)基本步驟!

      由此而產(chǎn)生數(shù)據(jù)挖掘的定義:從大量數(shù)據(jù)中挖掘有趣模式和知識(shí)的過程!數(shù)據(jù)源包括數(shù)據(jù)庫、數(shù)據(jù)倉庫、Web、其他信息存儲(chǔ)庫或動(dòng)態(tài)地流入系統(tǒng)的數(shù)據(jù)。作為知識(shí)發(fā)現(xiàn)過程,它通常包括數(shù)據(jù)清理、數(shù)據(jù)集成、數(shù)據(jù)變換、模式發(fā)現(xiàn)、模式評(píng)估和知識(shí)表示六個(gè)步驟。

      數(shù)據(jù)挖掘處理數(shù)據(jù)之多,挖掘模式之有趣,使用技術(shù)之大量,應(yīng)用范圍之廣泛都將會(huì)是前所未有的;而數(shù)據(jù)挖掘任務(wù)之重也一直并存。這些問題將繼續(xù)激勵(lì)數(shù)據(jù)挖掘的進(jìn)一步研究與改進(jìn)!

      2、數(shù)據(jù)分析

      數(shù)據(jù)分析是指用適當(dāng)?shù)慕y(tǒng)計(jì)方法對(duì)收集來的大量第一手資料和第二手資料進(jìn)行分析,以求最大化地開發(fā)數(shù)據(jù)資料的功能,發(fā)揮數(shù)據(jù)的作用。是為了提取有用信息和形成結(jié)論而對(duì)數(shù)據(jù)加以詳細(xì)研究和概括總結(jié)的過程。

      數(shù)據(jù)分析有極廣泛的應(yīng)用范圍。典型的數(shù)據(jù)分析可能包含以下三個(gè)步:

      1、探索性數(shù)據(jù)分析:當(dāng)數(shù)據(jù)剛?cè)〉脮r(shí),可能雜亂無章,看不出規(guī)律,通過作圖、造表、用各種形式的方程擬合,計(jì)算某些特征量等手段探索規(guī)律性的可能形式,即往什么方向和用何種方式去尋找和揭示隱含在數(shù)據(jù)中的規(guī)律性。

      2、模型選定分析,在探索性分析的基礎(chǔ)上提出一類或幾類可能的模型,然后通過進(jìn)一步的分析從中挑選一定的模型。

      3、推斷分析:通常使用數(shù)理統(tǒng)計(jì)方法對(duì)所定模型或估計(jì)的可靠程度和精確程度作出推斷。

      數(shù)據(jù)分析的目的是把隱沒在一大批看來雜亂無章的數(shù)據(jù)中的信息集中、萃取和提煉出來,以找出所研究對(duì)象的內(nèi)在規(guī)律。在實(shí)用中,數(shù)據(jù)分析可幫助人們作出判斷,以便采取適當(dāng)行動(dòng)。數(shù)據(jù)分析是組織有目的地收集數(shù)據(jù)、分析數(shù)據(jù),使之成為信息的過程。這一過程是質(zhì)量管理體系的支持過程。在產(chǎn)品的整個(gè)壽命周期,包括從市場(chǎng)調(diào)研到售后服務(wù)和最終處置的各個(gè)過程都需要適當(dāng)運(yùn)用數(shù)據(jù)分析過程,以提升有效性。

      由上可見,數(shù)據(jù)挖掘和數(shù)據(jù)分析雖然概念上層次清晰,作用上分工明確(數(shù)據(jù)分析主要以上數(shù)理統(tǒng)計(jì)為主,數(shù)據(jù)挖掘主要是挖掘算法為主)。但很明顯的是,數(shù)據(jù)挖掘必須借助數(shù)據(jù)分析的有關(guān)方法來挖掘出有效的,對(duì)目標(biāo)應(yīng)用有意義的模式和知識(shí)?;蛘呖梢哉f:數(shù)據(jù)挖掘也可以是數(shù)據(jù)分析的一種!

      在這樣一個(gè)信息迅速膨脹的時(shí)代,數(shù)據(jù)挖掘和分析都與大量數(shù)據(jù)打交道。兩者都離不開一種80年代后期興起的一種高級(jí)數(shù)據(jù)分析技術(shù):數(shù)據(jù)倉庫和聯(lián)機(jī)分析處理。

      3、數(shù)據(jù)倉庫

      數(shù)據(jù)倉庫是一個(gè)從多個(gè)數(shù)據(jù)源收集的信息存儲(chǔ)庫,存放在一致的的模式下,并且通常駐留在單個(gè)站點(diǎn)上。數(shù)據(jù)倉庫通過數(shù)據(jù)清理、數(shù)據(jù)變換、數(shù)據(jù)集成、數(shù)據(jù)裝入和定期數(shù)據(jù)刷新來構(gòu)造。為便于決策,數(shù)據(jù)倉庫中的數(shù)據(jù)圍繞主題組織。數(shù)據(jù)存儲(chǔ)從歷史的角度提供信息,并且通常是匯總的。數(shù)據(jù)倉庫提供一些數(shù)據(jù)分析能力,稱作聯(lián)機(jī)分析處理(OLAP)。

      數(shù)據(jù)倉庫有以下四種關(guān)鍵特征:

      面向主題的:數(shù)據(jù)倉庫圍繞一些重要主題,如顧客、供應(yīng)商、產(chǎn)品、和銷售組織。數(shù)據(jù)倉庫關(guān)注決策者的數(shù)據(jù)建模與分析,而不是單位的日常操作和事務(wù)處理。因此,數(shù)據(jù)倉庫通常排除對(duì)于決策無用的數(shù)據(jù),提供特定主題的簡(jiǎn)明視圖。

      集成的:通常,構(gòu)造數(shù)據(jù)倉庫是將多個(gè)異構(gòu)數(shù)據(jù)源,使用數(shù)據(jù)清理和數(shù)據(jù)集成技術(shù),確保命名約定,編碼結(jié)構(gòu),屬性度量等的一致性。

      時(shí)變的:數(shù)據(jù)存儲(chǔ)從歷史的角度提供信息。數(shù)據(jù)倉庫中的關(guān)鍵結(jié)構(gòu)都隱式或顯式地包含時(shí)間元素。

      非易失的:數(shù)據(jù)倉庫總是物理地分離存放數(shù)據(jù),這些數(shù)據(jù)源于操作環(huán)境下的應(yīng)用數(shù)據(jù)。由于這種分離,數(shù)據(jù)倉庫不需要事務(wù)處理、恢復(fù)和并發(fā)控制機(jī)制。通常,它只需要兩種數(shù)據(jù)訪問操作:數(shù)據(jù)的初始化裝入和數(shù)據(jù)訪問。

      4、分類及算法

      分類是一種重要的數(shù)據(jù)分析形式,它提取刻畫重要數(shù)據(jù)類的模型。分類是找出數(shù)據(jù)庫中一組數(shù)據(jù)對(duì)象的共同特點(diǎn)并按照分類模式將其劃分為不同的類,其目的是通過分類模型,將數(shù)據(jù)庫中的數(shù)據(jù)項(xiàng)映射到某個(gè)給定的類別。它可以應(yīng)用到客戶的分類、客戶的屬性和特征分析、客戶滿意度分析、客戶的購買趨勢(shì)預(yù)測(cè)等,如一個(gè)汽車零售商將客戶按照對(duì)汽車的喜好劃分成不同的類,這樣營銷人員就可以將新型汽車的廣告手冊(cè)直接郵寄到有這種喜好的客戶手中,從而大大增加了商業(yè)機(jī)會(huì)。

      分類算法主要有決策樹歸納、貝葉斯分類、使用IF-THEN規(guī)則分類、神經(jīng)網(wǎng)絡(luò)、支持向量機(jī)等。

      5、聚類分析

      聚類分析是把一組數(shù)據(jù)按照相似性和差異性分為幾個(gè)類別,其目的是使得屬于同一類別的數(shù)據(jù)間的相似性盡可能大,不同類別中的數(shù)據(jù)間的相似性盡可能小。它可以應(yīng)用到客戶群體的分類、客戶背景分析、客戶購買趨勢(shì)預(yù)測(cè)、市場(chǎng)的細(xì)分等。

      常用的算法有:

      劃分方法:k-均值算法,k-中心點(diǎn)算法。

      層次方法:層次聚類算法、平衡迭代歸約和算法、Chameleon(變色龍)、基于密度的方法:DBSCAN算法,OPTICS算法,DENCLUE算法?;诰W(wǎng)格的方法:STING(統(tǒng)計(jì)信息網(wǎng)格),CLIQUE

      6、廣泛應(yīng)用

      作為一個(gè)應(yīng)用驅(qū)動(dòng)的領(lǐng)域,數(shù)據(jù)挖掘融匯來自其他一些領(lǐng)域的技術(shù)。這些領(lǐng)域包括統(tǒng)計(jì)學(xué)、機(jī)器學(xué)習(xí)、數(shù)據(jù)庫和數(shù)據(jù)倉庫系統(tǒng),以及信息檢索。數(shù)據(jù)挖掘研究與開發(fā)的多學(xué)科特點(diǎn)大大促進(jìn)了數(shù)據(jù)挖掘的成功和廣泛應(yīng)用。

      數(shù)據(jù)挖掘已經(jīng)有許多成功的應(yīng)用,如商務(wù)智能,Web搜索,生物信息學(xué),衛(wèi)生保健信息學(xué),金融,數(shù)字圖書館和數(shù)字政府等。

      7、學(xué)習(xí)總結(jié)

      數(shù)據(jù)挖掘技術(shù)已經(jīng)形成很廣泛的應(yīng)用空間,而目前JDMP的版本也在完善當(dāng)中,大多數(shù)數(shù)據(jù)挖掘開發(fā)工具涌現(xiàn)出來。各種相關(guān)的框架如Hadoop也如雨后春筍紛紛出現(xiàn)。這些現(xiàn)象的出現(xiàn),正是因?yàn)閿?shù)據(jù)挖掘的發(fā)展會(huì)有越來越廣泛的天空。然而數(shù)據(jù)挖掘還是有很多需要面臨并且急需解決的問題??而我們也希望其越來越深刻的研究和改進(jìn)。

      對(duì)于數(shù)據(jù)挖掘的學(xué)習(xí),還是要注重算法的研究和開發(fā)。目前我還很欠缺這一塊知識(shí)。包括統(tǒng)計(jì)學(xué)、概率論,機(jī)器學(xué)習(xí)等。數(shù)據(jù)挖掘是個(gè)繁復(fù)的過程,需要我們長(zhǎng)此以往的研究!

      第四篇:數(shù)據(jù)挖掘試題

      《數(shù)據(jù)挖掘》總復(fù)習(xí)題

      1.?dāng)?shù)據(jù)挖掘系統(tǒng)可以根據(jù)什么標(biāo)準(zhǔn)進(jìn)行分類?

      答:根據(jù)挖掘的數(shù)據(jù)庫類型分類、根據(jù)挖掘的知識(shí)類型分類、根據(jù)挖掘所用的技術(shù)分類、根據(jù)應(yīng)用分類

      2.知識(shí)發(fā)現(xiàn)過程包括哪些步驟?

      答:數(shù)據(jù)清理、數(shù)據(jù)集成、數(shù)據(jù)選擇、數(shù)據(jù)變換、數(shù)據(jù)挖掘、模式評(píng)估、知識(shí)表示3.什么是概念分層?

      答:一個(gè)映射序列,將低層概念映射到更一般的較高層概念。4.多維數(shù)據(jù)模型上的 OLAP 操作包括哪些?

      答:上卷、下鉆、切片和切塊、轉(zhuǎn)軸 / 旋轉(zhuǎn)、其他OLAP操作5.OLAP 服務(wù)器類型有哪幾種?

      答:關(guān)系 OLAP 服務(wù)器(ROLAP)、多維 OLAP 服務(wù)器(MOLAP)、混合 OLAP 服務(wù)器(HOLAP)、特殊的 SQL 服務(wù)器6.?dāng)?shù)據(jù)預(yù)處理技術(shù)包括哪些?

      答:聚集、抽樣、維規(guī)約、特征子集選擇、特征創(chuàng)建、離散化和二元化、變量變換。7. 什么是數(shù)據(jù)清理?

      答:填寫缺失的值,平滑噪聲數(shù)據(jù),識(shí)別、刪除離群點(diǎn),解決不一致性 8. 什么是數(shù)據(jù)集成?

      答:集成多個(gè)數(shù)據(jù)庫、數(shù)據(jù)立方體或文件 9.什么是數(shù)據(jù)歸約?

      答:得到數(shù)據(jù)集的壓縮表示,它小得多,但可以得到相同或相近的結(jié)果 10.?dāng)?shù)據(jù)清理的內(nèi)容包括哪些?

      答:缺失值、噪聲數(shù)據(jù)、數(shù)據(jù)平滑、聚類、回歸11.將下列縮略語復(fù)原

      OLAP——on-line analytical processing DM——data mining

      KDD——knowledge discovery in databases OLTP——on-line transaction processingDBMS——database management system DWT——discrete wavelet transform

      (DMQL)--Data Mining Query Language 12.什么是數(shù)據(jù)挖掘?

      答:簡(jiǎn)單地說,數(shù)據(jù)挖掘是從大量數(shù)據(jù)中提取或挖掘知識(shí)。具體地說,數(shù)據(jù)挖掘就是從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的實(shí)際 應(yīng)用數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和 知識(shí)的過程。13.什么是關(guān)聯(lián)規(guī)則? 答:(關(guān)聯(lián)規(guī)則是形如X→Y的蘊(yùn)涵式,其中且,X和Y分別稱為關(guān)聯(lián)規(guī)則的先導(dǎo)和后繼。)假設(shè)I是項(xiàng)的集合。給定一個(gè)交易數(shù)據(jù)庫,其中每個(gè)事務(wù)(Transaction)t是I的非空子集,即,每一個(gè)交易都與一個(gè)唯一的標(biāo)識(shí)符TID(Transaction ID)對(duì)應(yīng)。關(guān)聯(lián)規(guī)則在D中的支持度(support)是D中事務(wù)同時(shí)包含X、Y的百分比,即概率;置信度(confidence)是包含X的事務(wù)中同時(shí)又包含Y的百分比,即條件概率。關(guān)聯(lián)規(guī)則是有趣的,如果滿足最小支持度閾值和最小置信度閾值。這些閾值是根據(jù)挖掘需要人為設(shè)定。

      (關(guān)聯(lián)規(guī)則反映一個(gè)事物與其它事物之間的相互依存性和關(guān)聯(lián)性,如果兩個(gè)事物或者多個(gè)事物之間存在一定的關(guān)聯(lián)關(guān)系,那么其中一個(gè)事物就能夠通過其他事物預(yù)測(cè)到。)15.什么是概念描述?什么是特征化?什么是屬性相關(guān)分析?

      答:概念描述:用匯總的、簡(jiǎn)潔的和精確的方式描述各個(gè)類和概念可能是有用的。特征化:是目標(biāo)類數(shù)據(jù)的一般特性或特征的匯總。

      屬性相關(guān)分析:可能需要在分類和預(yù)測(cè)之前進(jìn)行,它試圖識(shí)別對(duì)于分類或預(yù)測(cè)過程無用的屬性。這些屬性應(yīng)當(dāng)排除。

      16.什么是數(shù)據(jù)倉庫?其主要特征是什么?

      答:數(shù)據(jù)倉庫是一個(gè)提供決策支持功能的數(shù)據(jù)庫,它與組織機(jī)構(gòu)的操作數(shù)據(jù)庫分別維護(hù)。它允許將各種應(yīng)用系統(tǒng)集成在一起,為統(tǒng)一的歷史數(shù)據(jù)分析提供堅(jiān)實(shí)的平臺(tái),對(duì)信息處理提供支持。

      特征:面向主題、數(shù)據(jù)集成、隨時(shí)間而變化、數(shù)據(jù)不易丟失(數(shù)據(jù)不易丟失是最明顯特征)17.什么是數(shù)據(jù)集市?

      答:數(shù)據(jù)集市包含企業(yè)范圍數(shù)據(jù)的一個(gè)子集,對(duì)于特定的用戶群是有用的。其范圍限于選定的主題。

      (是完整的數(shù)據(jù)倉庫的一個(gè)邏輯子集,而數(shù)據(jù)倉庫正是由所有的數(shù)據(jù)集市有機(jī)組合而成的)18.?dāng)?shù)據(jù)庫中的知識(shí)發(fā)現(xiàn)過程由哪幾個(gè)步驟組成?

      答:數(shù)據(jù)清理、數(shù)據(jù)倉庫、任務(wù)相關(guān)數(shù)據(jù)、數(shù)據(jù)挖掘、模式評(píng)估、知識(shí)表示 19.典型的數(shù)據(jù)挖掘系統(tǒng)有哪幾個(gè)主要成分?

      答:數(shù)據(jù)庫、數(shù)據(jù)倉庫、萬維網(wǎng)或其他信息庫;數(shù)據(jù)庫或數(shù)據(jù)倉庫服務(wù)器;知識(shí)庫;數(shù)據(jù)挖掘引擎;模式評(píng)估模塊;用戶界面

      20.從軟件工程的觀點(diǎn)來看,數(shù)據(jù)倉庫的設(shè)計(jì)和構(gòu)造包含哪些步驟?

      答:規(guī)劃、需求研究、問題分析、倉庫設(shè)計(jì)、數(shù)據(jù)集成和測(cè)試、部署數(shù)據(jù)倉庫。21.在數(shù)據(jù)挖掘系統(tǒng)中,為什么數(shù)據(jù)清理十分重要?

      答: 臟數(shù)據(jù)的普遍存在,使得在大型數(shù)據(jù)庫中維護(hù)數(shù)據(jù)的正確性和一致性成為一個(gè)極其困難的任務(wù)。

      22.臟數(shù)據(jù)形成的原因有哪些?

      答:濫用縮寫詞、數(shù)據(jù)輸入錯(cuò)誤、數(shù)據(jù)中的內(nèi)嵌控制信息、不同的的慣用語、重復(fù)記錄、丟失值、拼寫變化、不同的計(jì)量單位、過時(shí)的編碼23.?dāng)?shù)據(jù)清理時(shí),對(duì)空缺值有哪些處理方法?

      答:忽略元組、人工填寫缺失值、使用一個(gè)全局變量填充缺失值、使用屬性的平均值填充缺失值、使用與給定元組屬同一類的所有樣本的屬性均值、使用最可能的值填充缺失值 24.什么是數(shù)據(jù)變換?包括哪些內(nèi)容?

      答:將數(shù)據(jù)轉(zhuǎn)換或統(tǒng)一成適合于挖掘的形式。包括:光滑、聚集、數(shù)據(jù)泛化、規(guī)范化、屬性構(gòu)造 25. 數(shù)據(jù)歸約的策略包括哪些?

      答:數(shù)據(jù)立方體聚集、性子集選擇、維度歸約、數(shù)值歸約、離散化和概念分層產(chǎn)生 26.提高數(shù)據(jù)挖掘算法效率有哪幾種思路?

      答:減少對(duì)數(shù)據(jù)的掃描次數(shù);縮小產(chǎn)生的候選項(xiàng)集;改進(jìn)對(duì)候選項(xiàng)集的支持度計(jì)算方法 27.假定屬性income的最小值與最大值分別為12000和980到區(qū)間[0.0,1.0],根據(jù) min-max 規(guī)范化,income的值73600將變?yōu)椋?631/551_。

      28.假定屬性income的平均值和標(biāo)準(zhǔn)差分別為54000和16000,使用 Z-score 規(guī)范化,值73600被轉(zhuǎn)換為_1.225_。

      29.假定A的值由-986到917.A的最大絕對(duì)值為986,使用小數(shù)定標(biāo)規(guī)范化,-986被規(guī)范化為_-0.986_

      30.從結(jié)構(gòu)角度來看,有哪三種數(shù)據(jù)倉庫模型。答:企業(yè)倉庫、數(shù)據(jù)集市、虛擬倉庫

      31.什么是聚類分析?它與分類有什么區(qū)別?

      答:將物理或抽象對(duì)象的集合分組成為由類似的對(duì)象組成的多個(gè)類的過程 區(qū)別:分類有監(jiān)督 聚類無監(jiān)督 分類要靠學(xué)習(xí)聚類要靠啟發(fā)式搜索 32.與數(shù)據(jù)挖掘類似的術(shù)語有哪些?

      答:數(shù)據(jù)庫中挖掘知識(shí)、知識(shí)提取、數(shù)據(jù)/模式分析、數(shù)據(jù)考古和數(shù)據(jù)捕撈。33.解釋下列術(shù)語 34.翻譯下列術(shù)語

      Data Mining 數(shù)據(jù)挖掘Data warehousing 數(shù)據(jù)倉庫Data Mart 數(shù)據(jù)集市

      drill-down 下鉆roll-up上卷OLAP 聯(lián)機(jī)分析處理Data cube 數(shù)據(jù)立方體 Association rule 關(guān)聯(lián)規(guī)則Data cleaning數(shù)據(jù)清理Data integration 數(shù)據(jù)集成 Data transformation數(shù)據(jù)變換Data reduction 數(shù)據(jù)歸約

      35.可以對(duì)按季度匯總的銷售數(shù)據(jù)進(jìn)行___B___,來觀察按月匯總的數(shù)據(jù)。A 上卷 B 下鉆 C 切片 D 切塊

      36.可以對(duì)按城市匯總的銷售數(shù)據(jù)進(jìn)行____A__,來觀察按國家總的數(shù)據(jù)。A 上卷 B 下鉆 C 切片 D 切塊

      37.通過不太詳細(xì)的數(shù)據(jù)得到更詳細(xì)的數(shù)據(jù),稱為____B____。A 上卷 B 下鉆 C 細(xì)化 D 維規(guī)約

      38.三層數(shù)據(jù)倉庫結(jié)構(gòu)中,從底層到尾層分別是_倉庫數(shù)據(jù)服務(wù)器、OLAP服務(wù)器、前端客戶層__。

      42.常用的四種興趣度的客觀度量。

      答:簡(jiǎn)單性 確定性 實(shí)用性 新穎性43.四種常用的概念分層類型。

      答:模式分層、集合分組分層、操作導(dǎo)出的分層、基于規(guī)則的分層45.如何理解現(xiàn)實(shí)世界的數(shù)據(jù)是“骯臟的”?答:不完整的、含噪聲的、不一致的、重復(fù)的 46.多維數(shù)據(jù)倉庫有哪幾種概念模型?

      答:星形模式、雪花形模式或事實(shí)星座形模式。

      48.在多路數(shù)組聚集算法中,如何盡量少地占用內(nèi)存?

      答:將最小的平面放在內(nèi)存中,將最大的平面每次只是提取并計(jì)算一塊。49.給出方體的維數(shù),會(huì)計(jì)算各D方體有多少,總的方體個(gè)數(shù)有多少?2^n50.什么是離群點(diǎn)?離群點(diǎn)都需要?jiǎng)h除嗎?為什么?

      答:離群點(diǎn):一些與數(shù)據(jù)的一般行為或模型不一致的孤立數(shù)據(jù)。不需要。通常離群點(diǎn)被作為“噪音”或異常被丟棄,但在欺詐檢測(cè)中卻可以通過對(duì)罕見事件進(jìn)行離群點(diǎn)分析而得到結(jié)論。

      【51.所有模式都是有趣的嗎?

      答:一個(gè)模式是有趣的,如果(1)它易于被人理解 ;(2)在某種程度上,對(duì)于新的或測(cè)試數(shù)據(jù)是有效的;(3)具有潛在效用;(4)新穎的;(5)符合用戶確信的某種假設(shè)?!?/p>

      第五篇:2年數(shù)據(jù)挖掘服務(wù)工作心得體會(huì)

      因?yàn)槟杏炎罱[著想轉(zhuǎn)行,想從大數(shù)據(jù)平臺(tái)交付轉(zhuǎn)到數(shù)據(jù)挖掘崗位(我自己是在同一家公司的數(shù)據(jù)挖掘偏業(yè)務(wù)咨詢方面工作),于是想借此機(jī)會(huì)思考下自己這兩年的工作體會(huì),也希望通過這篇文,讓他對(duì)數(shù)據(jù)挖掘要做的事情有所了解。。

      1.數(shù)據(jù)挖掘?yàn)槭裁催@么火?(關(guān)鍵詞:高薪、行業(yè)前景)

      1.社會(huì)進(jìn)步,競(jìng)爭(zhēng)加劇,如何運(yùn)用數(shù)據(jù)資產(chǎn)提高生產(chǎn)效率、優(yōu)化管理流程和拓展?fàn)I銷市場(chǎng)是制勝的關(guān)鍵;決策支撐、營銷建議

      2.涉及多行業(yè)、多專業(yè)技能;對(duì)人才的要求很高,需要具備跨專業(yè)整合能力,不斷學(xué)習(xí)、不斷積累、不斷進(jìn)步。

      3.2.缺少能對(duì)數(shù)據(jù)進(jìn)行有效應(yīng)用人才

      對(duì)數(shù)據(jù)挖掘從業(yè)人員的要求?

      1.懂業(yè)務(wù)

      1.精通所在行業(yè)的行業(yè)狀況,包括所在行業(yè)生態(tài)系統(tǒng)、所在企業(yè)經(jīng)營狀況包括企業(yè)產(chǎn)品優(yōu)劣、市場(chǎng)營銷策略、企業(yè)管理流程、與行業(yè)內(nèi)其他企業(yè)的利益鏈、用戶需求等;

      2.良好的溝通表達(dá)能力:準(zhǔn)確的接受訊息、清晰的傳達(dá)信息,涉及到與客戶、上級(jí)和同事之間的高效溝通;

      3.優(yōu)秀的文檔編寫能力:全面、高效、簡(jiǎn)潔的通過書面的方式將自己的思想表達(dá)出來。

      2.懂管理

      1.了解營銷、管理學(xué)的基礎(chǔ)知識(shí),提供數(shù)據(jù)分析思路,為決策者或管理人員、一線營銷人員提供貼近業(yè)務(wù)的建議;

      2.當(dāng)需要帶領(lǐng)一個(gè)臨時(shí)團(tuán)隊(duì)解決一個(gè)問題的時(shí)候,需要能夠盡可能的安排好每個(gè)成員的工作、分解項(xiàng)目?jī)?nèi)容、掌握項(xiàng)目的進(jìn)度;

      3.懂分析

      1.懂得基本的分析思想和方法,如對(duì)比分析、綜合分析、相關(guān)分析等,利于從已有數(shù)據(jù)中得到需要的事實(shí)依據(jù);

      4.懂工具

      1.精通數(shù)據(jù)處理,運(yùn)用SQL或者其他語言; 2.精通一種數(shù)據(jù)分析工具,如excel(適合小數(shù)據(jù)集)、SPSS(較大數(shù)據(jù)集);

      3.4.5.精通一種數(shù)據(jù)挖掘工具,如MODELER、R、PYTHON等; 精通一門語言:R、Python。

      懂技術(shù)(涉及的技術(shù)非常多)

      1.2.3.4.5.機(jī)器學(xué)習(xí):掌握挖掘算法的基本原理和實(shí)現(xiàn)方式; 統(tǒng)計(jì)學(xué):加深對(duì)挖掘算法的掌握和分析原理的掌握; 線性代數(shù):加深對(duì)挖掘算法的掌握; 概率論:加深對(duì)挖掘算法的掌握; 信息論:加深對(duì)挖掘算法的掌握。

      6.懂設(shè)計(jì)

      1.2.3.數(shù)據(jù)可視化需要懂些美學(xué)設(shè)計(jì); 匯報(bào)文檔的編寫需要設(shè)計(jì)。

      產(chǎn)品原型設(shè)計(jì)需要懂得產(chǎn)品的設(shè)計(jì)流程和方式。

      比咨詢師更懂分析挖掘技術(shù) 比產(chǎn)品經(jīng)理更懂分析挖掘技術(shù)

      3.我們要怎么做達(dá)到這些要求?

      1.多看

      1.多看書

      《麥肯錫原理》、《誰說菜鳥不會(huì)數(shù)據(jù)分析》、《機(jī)器學(xué)習(xí)實(shí)戰(zhàn)》等

      2.網(wǎng)上資料學(xué)習(xí)

      1.2.微博大V學(xué)習(xí)微信公眾號(hào)

      3.多看前輩做事

      1.2.3.前輩的文檔 前輩的溝通風(fēng)格 前輩的思路

      2.多思 1.2.3.3.理解透徹定義 明白原理和流程 提出優(yōu)化建議

      多動(dòng)手

      1.2.動(dòng)手寫寫報(bào)告

      動(dòng)手實(shí)踐分析/挖掘流程

      4.其他要說的話

      ? 個(gè)人內(nèi)在修養(yǎng)很重要:無論在哪里工作,想要在崗位上不斷提升自己的能力,針對(duì)性的看一些提升修養(yǎng)的書、培養(yǎng)一些提升內(nèi)在的愛好有助于提升自己的個(gè)人魅力,與客戶、領(lǐng)導(dǎo)或同事溝通更順暢,絕對(duì)有利于自身職場(chǎng)發(fā)展。1.看書:思維訓(xùn)練、哲學(xué)素養(yǎng)、藝術(shù)相關(guān)的書籍; 2.愛好:音樂、繪畫等。

      ? 個(gè)人外在形象很重要:相對(duì)與IT程序員,數(shù)據(jù)挖掘工程師往往需要去到現(xiàn)場(chǎng)與客戶溝通或者說服領(lǐng)導(dǎo)投資、又或是說服頑固的開發(fā)測(cè)試優(yōu)先開發(fā),這些都需要注意個(gè)人形象、同事注意口頭表達(dá)能力的培養(yǎng)。這不是虛的,因?yàn)槲以谝粋€(gè)挖掘項(xiàng)目中擔(dān)任小leader的角色,從我的角度出發(fā),我根本不愿意找一個(gè)不注重自身形象的人去與客戶溝通。

      備注:本人工作經(jīng)驗(yàn)兩年,在一家為國內(nèi)運(yùn)營商提供IT解決方案的公司工作,任職大數(shù)據(jù)部門的數(shù)據(jù)挖掘偏業(yè)務(wù)咨詢崗位。

      工作兩年來,因?yàn)楸旧砉ぷ餍再|(zhì)及公司剛成立數(shù)據(jù)挖掘團(tuán)隊(duì)的原因,公司給了我與很多客戶有過接觸、與很多項(xiàng)目上的同行有過接觸,也與其他崗位的同事接觸的機(jī)會(huì),雖然技術(shù)上的提升有限,但是對(duì)我找到了自己未來的職業(yè)方向、有了要實(shí)現(xiàn)的目標(biāo)。接下來一定會(huì)根據(jù)自己的理解,一步步的提升技術(shù)的能力,我想一定會(huì)比那些從一開始鉆研技術(shù)的人少走很多的彎路,少做很多無用功。

      下載數(shù)據(jù)挖掘心得體會(huì)word格式文檔
      下載數(shù)據(jù)挖掘心得體會(huì).doc
      將本文檔下載到自己電腦,方便修改和收藏,請(qǐng)勿使用迅雷等下載。
      點(diǎn)此處下載文檔

      文檔為doc格式


      聲明:本文內(nèi)容由互聯(lián)網(wǎng)用戶自發(fā)貢獻(xiàn)自行上傳,本網(wǎng)站不擁有所有權(quán),未作人工編輯處理,也不承擔(dān)相關(guān)法律責(zé)任。如果您發(fā)現(xiàn)有涉嫌版權(quán)的內(nèi)容,歡迎發(fā)送郵件至:645879355@qq.com 進(jìn)行舉報(bào),并提供相關(guān)證據(jù),工作人員會(huì)在5個(gè)工作日內(nèi)聯(lián)系你,一經(jīng)查實(shí),本站將立刻刪除涉嫌侵權(quán)內(nèi)容。

      相關(guān)范文推薦

        大數(shù)據(jù)建模與數(shù)據(jù)挖掘培訓(xùn)心得體會(huì)

        大數(shù)據(jù)建模與數(shù)據(jù)挖掘培訓(xùn)心得體會(huì) 公司在2017年08月24日 — 08月27日組織參加了在北京舉辦的“大數(shù)據(jù)建模與分析挖掘”培訓(xùn)班,首先感謝公司給予的這次難得的機(jī)會(huì),雖然只有短......

        數(shù)據(jù)挖掘論文(合集)

        數(shù)據(jù)挖掘論文在現(xiàn)實(shí)的學(xué)習(xí)、工作中,許多人都有過寫論文的經(jīng)歷,對(duì)論文都不陌生吧,論文是一種綜合性的文體,通過論文可直接看出一個(gè)人的綜合能力和專業(yè)基礎(chǔ)。那么你知道一篇好的論......

        數(shù)據(jù)挖掘?qū)嶒?yàn)三

        實(shí)驗(yàn)三 設(shè)計(jì)并構(gòu)造AdventureWorks數(shù)據(jù)倉庫實(shí)例 【實(shí)驗(yàn)要求】 在SQL Server平臺(tái)上,利用AdventureWorks數(shù)據(jù)庫作為商業(yè)智能解決方案的數(shù)據(jù)源,設(shè)計(jì)并構(gòu)造數(shù)據(jù)倉庫,建立OLAP和數(shù)據(jù)......

        數(shù)據(jù)挖掘研究現(xiàn)狀

        一、 時(shí)代的挑戰(zhàn)近十幾年來,人們利用信息技術(shù)生產(chǎn)和搜集數(shù)據(jù)的能力大幅度提高,千萬萬個(gè)數(shù)據(jù)庫被用于商業(yè)管理、政府辦公、科學(xué)研究和工程開發(fā)等等,這一勢(shì)頭仍將持續(xù)發(fā)展下去......

        數(shù)據(jù)挖掘與電子商務(wù)

        數(shù)據(jù)挖掘與電子商務(wù)姓名:龔洪虎 學(xué)號(hào):X2009230111 [摘 要] 企業(yè)的競(jìng)爭(zhēng)優(yōu)勢(shì)并不取決于信息的擁有量,而是取決于信息的處理利用能力。如何化信息優(yōu)勢(shì)為競(jìng)爭(zhēng)優(yōu)勢(shì),是企業(yè)制勝于市場(chǎng)......

        數(shù)據(jù)挖掘背景文摘

        數(shù)據(jù)挖掘是通過仔細(xì)分析大量數(shù)據(jù)來揭示有意義的新的關(guān)系、趨勢(shì)和模式的過程.其出現(xiàn)于 20 世紀(jì) 80年代后期,是數(shù)據(jù)庫研究中一個(gè)很有應(yīng)用價(jià)值 的新領(lǐng)域,是一門交叉性學(xué)科 ,融......

        數(shù)據(jù)倉庫與數(shù)據(jù)挖掘?qū)W習(xí)心得.

        數(shù)據(jù)倉庫與數(shù)據(jù)挖掘?qū)W習(xí)心得 通過數(shù)據(jù)倉庫與數(shù)據(jù)挖掘的這門課的學(xué)習(xí),掌握了數(shù)據(jù)倉庫與數(shù)據(jù)挖掘的一些基礎(chǔ)知識(shí)和基本概念,了解了數(shù)據(jù)倉庫與數(shù)據(jù)庫的區(qū)別。下面談?wù)勎覍?duì)數(shù)據(jù)......

        電子商務(wù)數(shù)據(jù)挖掘方法論文

        摘要: 電子商務(wù)是現(xiàn)代商業(yè)的主流趨勢(shì),如何充分利用網(wǎng)絡(luò)技術(shù)和數(shù)據(jù)庫技術(shù)發(fā)揮企業(yè)優(yōu)勢(shì),成為企業(yè)制勝的法寶。本文介紹了常用的數(shù)據(jù)挖掘方法,以及在電子商務(wù)領(lǐng)域的應(yīng)用,分析了利用......