第一篇:云計(jì)算環(huán)境下的數(shù)據(jù)挖掘研究論文
摘要:文章首先對(duì)云計(jì)算的特點(diǎn)進(jìn)行簡(jiǎn)要分析, 在此基礎(chǔ)上對(duì)云計(jì)算環(huán)境下的數(shù)據(jù)挖掘進(jìn)行研究。期望通過本文的論述能夠?qū)?shù)據(jù)挖掘效率的提高有所幫助。
關(guān)鍵詞:云計(jì)算;數(shù)據(jù)挖掘;服務(wù);云計(jì)算的特點(diǎn)分析
1.1 超大規(guī)模
國(guó)內(nèi)外大型互聯(lián)網(wǎng)企業(yè)紛紛建立起云平臺(tái), 開啟一大批服務(wù)器, 如Google公司、亞馬遜公司、微軟公司等公司都建立了云平臺(tái), 大幅度提升了網(wǎng)絡(luò)平臺(tái)數(shù)據(jù)運(yùn)算效率、存儲(chǔ)效率和交互效率, 使云計(jì)算具備超大規(guī)模特點(diǎn)。
1.2 虛擬化
云平臺(tái)是向網(wǎng)絡(luò)平臺(tái)提供資源的平臺(tái), 網(wǎng)絡(luò)用戶可借助云計(jì)算技術(shù)在任意位置獲取應(yīng)用服務(wù), 這種應(yīng)用服務(wù)不是固定實(shí)體, 而是虛擬化的。在云平臺(tái)上, 需要運(yùn)行虛擬化的搜索、儲(chǔ)存、上傳下載操作, 網(wǎng)絡(luò)用戶無需了解資源的獲取渠道, 只要通過終端設(shè)備就可以獲取網(wǎng)絡(luò)服務(wù)信息, 實(shí)現(xiàn)數(shù)據(jù)快速互傳。
1.3 可靠性高
云平臺(tái)可提高數(shù)據(jù)互傳、存儲(chǔ)的可靠性, 其采用計(jì)算節(jié)點(diǎn)同構(gòu)可互傳、數(shù)據(jù)多副本容錯(cuò)等措施增強(qiáng)服務(wù)的可靠性, 即使在數(shù)據(jù)傳輸或存儲(chǔ)丟失的情況下, 也可以找回渠道恢復(fù)數(shù)據(jù), 與計(jì)算機(jī)自帶硬盤相比, 網(wǎng)絡(luò)云計(jì)算平臺(tái)的可靠性更高。
1.4 通用性強(qiáng)
云計(jì)算技術(shù)的針對(duì)性不強(qiáng), 對(duì)其他設(shè)備沒有過高的要求, 只需在網(wǎng)絡(luò)平臺(tái)上建設(shè)平臺(tái), 配備足夠的服務(wù)器, 就可以實(shí)現(xiàn)云計(jì)算技術(shù)的應(yīng)用。在同一云平臺(tái)的支撐下, 可滿足不同設(shè)備的運(yùn)行要求。
1.5 擴(kuò)展性好
云平臺(tái)既可以滿足不同類型企業(yè)的需求, 也可以滿足個(gè)人用戶需求, 其本身帶有動(dòng)態(tài)伸縮性。用戶可根據(jù)自身需求對(duì)空間、功能進(jìn)行定制, 滿足個(gè)性化的應(yīng)用要求, 使云平臺(tái)具備良好的擴(kuò)展性。
1.6 按需服務(wù)
云平臺(tái)可提供充足的空間, 便于用戶在云平臺(tái)上存儲(chǔ)、調(diào)用、傳輸數(shù)據(jù)資源。為了避免用戶過度占用云平臺(tái)資源, 云平臺(tái)一般設(shè)置了計(jì)費(fèi)標(biāo)準(zhǔn), 要求用戶按需購(gòu)入占用量, 促使云平臺(tái)成為可交易的資源。云計(jì)算環(huán)境下的數(shù)據(jù)挖掘
2.1 數(shù)據(jù)挖掘服務(wù)層次結(jié)構(gòu)
2.1.1 基礎(chǔ)設(shè)施層
該層主要為整個(gè)數(shù)據(jù)挖掘服務(wù)提供存儲(chǔ)和計(jì)算資源, 在基礎(chǔ)設(shè)施層運(yùn)行中, 通過接口可連接網(wǎng)絡(luò)資源與物理資源, 實(shí)現(xiàn)不同類型資源的高度共享。該層還提供數(shù)據(jù)挖掘服務(wù)的虛擬化接口, 滿足資源對(duì)接要求, 為資源存儲(chǔ)、共享提供技術(shù)支撐。
2.1.2 虛擬化層
在云計(jì)算技術(shù)上建立數(shù)據(jù)挖掘服務(wù)模式, 利用虛擬化層快速處理大量資源。在結(jié)構(gòu)體系中, 虛擬化層根據(jù)云計(jì)算技術(shù)虛擬化匯聚分布式資源, 在封裝處理虛擬資源的基礎(chǔ)上, 分類和管理不同資源, 從而提高挖掘服務(wù)執(zhí)行效率。在對(duì)資源進(jìn)行封裝后, 通過開發(fā)和利用平臺(tái)層實(shí)現(xiàn)資源共享。虛擬化技術(shù)是資源封裝的重要技術(shù), 既可以提高資源運(yùn)行效率, 也可以實(shí)現(xiàn)對(duì)資源的合理調(diào)動(dòng), 提高服務(wù)模式的便捷性。
2.1.3平臺(tái)層
在數(shù)據(jù)挖掘服務(wù)模式中,平臺(tái)層作為數(shù)據(jù)核心服務(wù)部分, 負(fù)責(zé)管理不同數(shù)據(jù)及其功能, 實(shí)現(xiàn)不同服務(wù)目錄的高效管理。用戶可根據(jù)服務(wù)內(nèi)容和使用需求組合不同服務(wù)目錄, 發(fā)揮數(shù)據(jù)功能性管理作用。在平臺(tái)層中, 可有效調(diào)度計(jì)算資源, 提高計(jì)算資源的運(yùn)行效率, 這使得平臺(tái)層在數(shù)據(jù)挖掘服務(wù)中占據(jù)著不可替代的地位。
2.1.4 應(yīng)用層
該層由終端層和接口層組成, 其中接口層為用戶提供服務(wù)等級(jí), 滿足各種服務(wù)請(qǐng)求, 終端層將服務(wù)請(qǐng)求顯示出來, 并且可根據(jù)請(qǐng)求的服務(wù)內(nèi)容作出評(píng)價(jià)。在終端層的內(nèi)容訪問中, 根據(jù)用戶訪問請(qǐng)求、訪問內(nèi)容對(duì)訪問接入作出不同選擇, 再結(jié)合用戶訪問情況, 借助終端設(shè)備實(shí)現(xiàn)數(shù)據(jù)挖掘服務(wù)。
2.2 體系的建模流程
2.2.1 對(duì)服務(wù)進(jìn)行自定義
在數(shù)據(jù)挖掘服務(wù)運(yùn)行時(shí), 可通過自定義完成相關(guān)數(shù)據(jù)的搜集, 從而快速找到與之相關(guān)的資源。由此可以使數(shù)據(jù)挖掘人員開展工作時(shí), 對(duì)候選加以充分利用, 進(jìn)而形成服務(wù)目錄, 為用戶使用提供方便。
2.2.2 組件構(gòu)建
在對(duì)數(shù)據(jù)挖掘服務(wù)組件進(jìn)行構(gòu)建時(shí), 應(yīng)當(dāng)確保調(diào)用服務(wù)接口的統(tǒng)一性, 同時(shí)在構(gòu)建其它服務(wù)組件時(shí), 需要綁定服務(wù)和數(shù)據(jù), 從而構(gòu)建起數(shù)量更多的組件, 為用戶提供所需的數(shù)據(jù)挖掘服務(wù)模式。
2.3 數(shù)據(jù)挖掘體系的服務(wù)過程
2.3.1 分析階段
該階段主要負(fù)責(zé)分析數(shù)據(jù)挖掘內(nèi)容, 確定需要挖掘的數(shù)據(jù), 根據(jù)對(duì)應(yīng)的數(shù)據(jù)服務(wù)內(nèi)容設(shè)置相應(yīng)的服務(wù)模式, 并對(duì)服務(wù)模式作出定義。為保證數(shù)據(jù)挖掘與實(shí)際需求相符, 在數(shù)據(jù)挖掘時(shí)需先進(jìn)行數(shù)據(jù)分析, 深入到外部環(huán)境中調(diào)查市場(chǎng)發(fā)展趨勢(shì)和市場(chǎng)需求情況, 以市場(chǎng)為導(dǎo)向開發(fā)大數(shù)據(jù)挖掘模式, 使云計(jì)算下的數(shù)據(jù)挖掘服務(wù)更具備高效性、實(shí)用性和針對(duì)性。
2.3.2 設(shè)計(jì)階段
該階段要根據(jù)前期市場(chǎng)調(diào)查情況對(duì)數(shù)據(jù)挖掘服務(wù)方案進(jìn)行設(shè)計(jì), 最終確定符合用戶使用習(xí)慣的數(shù)據(jù)處理模式。數(shù)據(jù)挖掘服務(wù)模式設(shè)計(jì)不僅關(guān)系到用戶體驗(yàn)的滿意程度, 而且還影響著數(shù)據(jù)挖掘服務(wù)運(yùn)行效率。在某些特定的情況下, 甚至可能對(duì)供應(yīng)商與消費(fèi)者帶來利益沖突, 阻礙數(shù)據(jù)挖掘服務(wù)在信息化環(huán)境中的有效應(yīng)用, 為了解決上述問題, 必須以市場(chǎng)調(diào)查為前提開展數(shù)據(jù)挖掘服務(wù)模式設(shè)計(jì), 避免不必要的矛盾。
2.3.3 開發(fā)階段
在該階段, 一套相對(duì)完整的數(shù)據(jù)挖掘服務(wù)體系會(huì)隨著設(shè)計(jì)得以呈現(xiàn), 各種服務(wù)內(nèi)容與方法在該階段中得到合理應(yīng)用。體系開發(fā)時(shí), 應(yīng)對(duì)各項(xiàng)功能進(jìn)行定義, 并將所有的功能整合到一起, 以此來實(shí)現(xiàn)多種不同的服務(wù)目標(biāo), 確保數(shù)據(jù)挖掘服務(wù)模式的高效運(yùn)行。對(duì)體系進(jìn)行開發(fā)的過程中, 可基于服務(wù)接口的實(shí)現(xiàn), 對(duì)相關(guān)的功能進(jìn)行有效地協(xié)調(diào), 從而使開發(fā)出來的功能更符合用戶的使用需要, 由此可使數(shù)據(jù)挖掘服務(wù)的價(jià)值得以充分體現(xiàn), 有利于推動(dòng)數(shù)據(jù)挖掘服務(wù)市場(chǎng)的持續(xù)、穩(wěn)定發(fā)展。結(jié)論
綜上所述, 云計(jì)算以其自身所具備的諸多特點(diǎn), 在諸多領(lǐng)域中得到越來越廣泛的應(yīng)用。本文在簡(jiǎn)要闡述云計(jì)算特點(diǎn)的基礎(chǔ)上, 對(duì)云計(jì)算環(huán)境下的數(shù)據(jù)挖掘進(jìn)行分析研究, 提出數(shù)據(jù)挖掘服務(wù)模式的構(gòu)建方法, 以期能夠?qū)?shù)據(jù)挖掘效率的進(jìn)一步提升有所幫助。
參考文獻(xiàn)
[1]孫亮.數(shù)據(jù)挖掘服務(wù)模式應(yīng)用云計(jì)算的優(yōu)化策略探究[J].黑河學(xué)院學(xué)報(bào), 2018(01):23-25.[2]王勃, 徐靜.基于云計(jì)算的Web數(shù)據(jù)挖掘Hadoop仿真平臺(tái)研究[J].電子設(shè)計(jì)工程, 2018(01):43-44.[3]包科, 蔡明.高速接入網(wǎng)云計(jì)算平臺(tái)的大數(shù)據(jù)挖掘算法研究[J].機(jī)床與液壓, 2017(12):143-144.[4]馮麗慧.云計(jì)算和挖掘服務(wù)融合下的大數(shù)據(jù)挖掘體系架構(gòu)設(shè)計(jì)及應(yīng)用[J].電腦編程技巧與維護(hù), 2017(12):132-133.
第二篇:云計(jì)算和大數(shù)據(jù)下在線教育研究
云計(jì)算和大數(shù)據(jù)環(huán)境下的在線教育研究
1.引言
當(dāng)前云計(jì)算和大數(shù)據(jù)技術(shù)的出現(xiàn),面對(duì)在線教育交互中產(chǎn)生的大量復(fù)雜數(shù)據(jù),可以實(shí)現(xiàn)識(shí)別、分析、挖掘并組織隱含在學(xué)習(xí)者交互過程中的結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)信息,開發(fā)交互過程數(shù)據(jù)的價(jià)值,發(fā)現(xiàn)其隱性訴求并預(yù)測(cè)學(xué)習(xí)支持服務(wù)趨勢(shì),并以其為導(dǎo)向改進(jìn)和拓寬在線教育服務(wù),達(dá)到在線教育服務(wù)與學(xué)習(xí)者需求的雙向平衡。本文就是立足于對(duì)在線教育的交互瓶頸和需求分析,構(gòu)建基于大數(shù)據(jù)和云計(jì)算支持的在線教育交互平臺(tái)模型。重點(diǎn)研究交互平臺(tái)功能實(shí)現(xiàn),使在線的學(xué)習(xí)者和教師可以實(shí)現(xiàn)完美的在線交互活動(dòng),并且對(duì)交互的數(shù)據(jù)進(jìn)行深入挖掘分析,解決目前在線教育所面臨的弊端。
2.在線教育交互平臺(tái)現(xiàn)狀分析
在線教育交互分為個(gè)別化交互和社會(huì)性交互,前者是學(xué)習(xí)者和學(xué)習(xí)資料之問的交互,后者是學(xué)習(xí)者和教師或者學(xué)習(xí)者之問的交互,社會(huì)性交互是提高在線教育交互水平的關(guān)鍵因素。隨著在線教育的交互信息資源增加,在線學(xué)習(xí)者和在線教師的需求不斷發(fā)展和提高,在線教育出現(xiàn)了許多問題。
針對(duì)服務(wù)應(yīng)用。目前在線教育的交互平臺(tái)缺乏統(tǒng)一身份認(rèn)證體系,需要進(jìn)行身份重復(fù)驗(yàn)證,給用戶造成不便同時(shí)給系統(tǒng)增加安全隱患;缺乏統(tǒng)一的應(yīng)用展現(xiàn),用戶信息分散在各個(gè)應(yīng)用中,且服務(wù)功能重復(fù),堆砌浪費(fèi);使用方法、界面和質(zhì)量不統(tǒng)一,給平臺(tái)使用和維護(hù)管理造成不便。在線學(xué)習(xí)時(shí)間的碎片化趨勢(shì)對(duì)學(xué)習(xí)者的終端設(shè)備要求很高,造成學(xué)習(xí)質(zhì)量下降;缺乏跨終端的資源共享系統(tǒng),影響學(xué)習(xí)效率和滿意度,改變終端學(xué)習(xí),增加數(shù)據(jù)丟失、病毒入侵等安全問題。
針對(duì)信息資源的存儲(chǔ)和分析挖掘。隨著在線學(xué)習(xí)者和在線教師的服務(wù)需求日益?zhèn)€性化和專業(yè)化,對(duì)于服務(wù)質(zhì)量也越來越看重,在線教育交互平臺(tái)必須根據(jù)在線學(xué)習(xí)者和在線教師的需求作出相應(yīng)的策略改變,以適應(yīng)服務(wù)需求的不斷改變和提高。由于在線教育是基于互聯(lián)網(wǎng)的學(xué)習(xí)方式,學(xué)生和學(xué)習(xí)資源、教師與學(xué)生、學(xué)生與學(xué)生之間的交流是通過網(wǎng)絡(luò)全方位進(jìn)行,所以需要通過對(duì)學(xué)習(xí)交流的分析挖掘出在線學(xué)習(xí)者和教師的需求。在線教育的信息資源總量日益增大,主要的數(shù)據(jù)資源包括結(jié)構(gòu)化和非結(jié)構(gòu)化信息,以及在線教育平臺(tái)內(nèi)部以異構(gòu)化數(shù)據(jù)為主的相關(guān)信息,且每天以大量的非結(jié)構(gòu)化數(shù)據(jù)和異構(gòu)性數(shù)據(jù)資源為主。但是目前對(duì)于這些異構(gòu)性數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)的記錄、存儲(chǔ)和統(tǒng)計(jì)技術(shù),完全不能滿足在線教育交互平臺(tái)的數(shù)據(jù)需求。因此對(duì)平臺(tái)產(chǎn)生的結(jié)構(gòu)化、非結(jié)構(gòu)化、異構(gòu)性大量數(shù)據(jù)進(jìn)行分析和深度挖掘潛在價(jià)值成為必然,為在線學(xué)習(xí)者和教師反饋快速、及時(shí)、高效、安全的信息分析結(jié)果。3.在線教育交互平臺(tái)應(yīng)用云計(jì)算和大數(shù)據(jù)
3.1 云計(jì)算和大數(shù)據(jù)與在線教育交互平臺(tái)
云計(jì)算是通過互聯(lián)網(wǎng)絡(luò)龐大的計(jì)算處理能力,將待處理程序自動(dòng)分拆成無數(shù)個(gè)較小的子程序,再交由多部服務(wù)器所組成的龐大系統(tǒng)經(jīng)搜尋、計(jì)算和分析,最后將處理結(jié)果回傳給用戶。大數(shù)據(jù)技術(shù)是數(shù)據(jù)分析的前沿技術(shù),需要從各種各樣類型的數(shù)據(jù)中,快速獲得有價(jià)值信息的能力,是需要新處理模式才能實(shí)現(xiàn)更強(qiáng)的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長(zhǎng)率和多樣化的信息資產(chǎn)。云計(jì)算強(qiáng)調(diào)的是動(dòng)態(tài)計(jì)算能力,大數(shù)據(jù)注重的是靜態(tài)的計(jì)算對(duì)象。云計(jì)算彌補(bǔ)了目前大數(shù)據(jù)的存儲(chǔ)和運(yùn)行的最大問題,就是提供了運(yùn)算平臺(tái),而大數(shù)據(jù)則運(yùn)用分布式處理手段應(yīng)用于這個(gè)平臺(tái)之上,兩者是相輔相成的關(guān)系。
云計(jì)算與大數(shù)據(jù)結(jié)合應(yīng)用,前者強(qiáng)調(diào)計(jì)算能力,后者看重存儲(chǔ)能力。大數(shù)據(jù)需要處理大量復(fù)雜數(shù)據(jù)的能力,包括數(shù)據(jù)獲取、整理、轉(zhuǎn)換、統(tǒng)計(jì),即強(qiáng)大的計(jì)算能力,而云計(jì)算需要大量數(shù)據(jù)作為運(yùn)算的基礎(chǔ),所以兩者的結(jié)合是必然趨勢(shì)。實(shí)際應(yīng)用中,云計(jì)算的出現(xiàn)和興起促進(jìn)了大數(shù)據(jù)的廣泛應(yīng)用,而大數(shù)據(jù)和云計(jì)算的結(jié)合應(yīng)用更是出現(xiàn)在許多領(lǐng)域,現(xiàn)已擴(kuò)展到公共問題領(lǐng)域。但是目前還沒有進(jìn)入在線教育行業(yè)。
借助云計(jì)算的優(yōu)勢(shì),在線教育交互平臺(tái)上的用戶無需考慮在線學(xué)習(xí)時(shí)終端設(shè)備的運(yùn)算、存儲(chǔ)和負(fù)載能力的問題,可以更好的實(shí)現(xiàn)教育資源共享和教育網(wǎng)絡(luò)協(xié)同工作,大幅度提高教育資源的利用率和運(yùn)行效率。云存儲(chǔ)屏蔽了數(shù)據(jù)丟失、病毒入侵等問題,保障了數(shù)據(jù)安全和用戶信息私密,是在線教育交互平臺(tái)最安全可靠的數(shù)據(jù)存儲(chǔ)中心。用戶使用終端設(shè)備訪問教育資源進(jìn)行在線學(xué)習(xí)和交流,都會(huì)產(chǎn)生并積累大量結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù),不僅體量大而且增長(zhǎng)速度很快。其中非結(jié)構(gòu)化數(shù)據(jù)已占數(shù)據(jù)總量的八成以上,但目前的數(shù)據(jù)分析處理算法和軟件不能達(dá)到對(duì)非結(jié)構(gòu)化數(shù)據(jù)的處理要求。大數(shù)據(jù)技術(shù)的應(yīng)用卻可以高速實(shí)時(shí)處理在線教育平臺(tái)產(chǎn)生的復(fù)雜海量數(shù)據(jù),為在線教育平臺(tái)實(shí)時(shí)洞察學(xué)習(xí)者的變化、把握學(xué)習(xí)者的需求、提高教育質(zhì)量提供支持。對(duì)在線教育平臺(tái)上大量的不相關(guān)信息,進(jìn)行深度復(fù)雜分析,為未來教育需求趨勢(shì)提供預(yù)測(cè)分析,這是應(yīng)用大數(shù)據(jù)的在線教育與傳統(tǒng)在線教育本質(zhì)的不同。
3.2 基于云計(jì)算和大數(shù)據(jù)的在線教育交互平臺(tái)應(yīng)用模型分析
根據(jù)上述分析,隨著在線教育日益同質(zhì)化,在線教育機(jī)構(gòu)需要在保障教育資源豐富和高質(zhì)量的同時(shí),更好的分析在線學(xué)習(xí)者和教師的偏好,為平臺(tái)的每個(gè)用戶提供有針對(duì)性的個(gè)性化服務(wù)。下面將利用云計(jì)算和大數(shù)據(jù)的優(yōu)勢(shì)構(gòu)建符合學(xué)習(xí)者和教師需求的高質(zhì)量在線教育交互平臺(tái)模型,如圖1所示。
應(yīng)用云計(jì)算和大數(shù)據(jù)技術(shù)的在線教育交互平臺(tái)主要分為用戶應(yīng)用服務(wù)層、數(shù)據(jù)資源處理層、基礎(chǔ)設(shè)施硬件層三部分,依次分析三部分功能實(shí)現(xiàn)。
3.2.1用戶服務(wù)應(yīng)用層
在線教育交互平臺(tái)的用戶主要為兩類,即在線教師和在線學(xué)習(xí)者。針對(duì)不同的用戶,訪問的授權(quán)和界面不同,盡可能為用戶提供個(gè)性化的精準(zhǔn)服務(wù),主要表現(xiàn)為屬于用戶自己的展現(xiàn)網(wǎng)頁。服務(wù)應(yīng)用內(nèi)容主要分為四類,包括在線教學(xué)內(nèi)容、教學(xué)管理、交流互動(dòng)和學(xué)習(xí)管理,如圖2所示。
服務(wù)應(yīng)用層是資源對(duì)外交互的窗口,是用戶使用資源的橋梁,與用戶體驗(yàn)的便捷性有很大關(guān)系。因此應(yīng)用服務(wù)層是根據(jù)用戶需求,對(duì)信息資源請(qǐng)求重構(gòu)和提供,實(shí)現(xiàn)信息資源的服務(wù)分類,用戶享受個(gè)性化的服務(wù)資源。
平臺(tái)對(duì)每個(gè)用戶展現(xiàn)的內(nèi)容是不相同的。針對(duì)教師,平臺(tái)實(shí)時(shí)反饋在線學(xué)習(xí)者的情況和分析結(jié)果,尤其是對(duì)學(xué)習(xí)者的學(xué)習(xí)風(fēng)格和偏好的分析,實(shí)時(shí)跟蹤學(xué)生在課前、課中和課后的情況,完成課程反饋,對(duì)學(xué)生在平臺(tái)上的行為、學(xué)習(xí)記錄智能跟蹤記錄分析。針對(duì)學(xué)習(xí)者,構(gòu)成學(xué)習(xí)、答疑、測(cè)評(píng)、互動(dòng)四位一體的學(xué)習(xí)模式,運(yùn)用豐富的學(xué)習(xí)資源,根據(jù)后臺(tái)的數(shù)據(jù)挖掘。提供學(xué)習(xí)進(jìn)度安排和個(gè)性化的學(xué)習(xí)方案。實(shí)現(xiàn)以學(xué)生為中心的在線教育方式。實(shí)現(xiàn)自主個(gè)性化學(xué)習(xí)、個(gè)性化即時(shí)筆記、針對(duì)性課程復(fù)習(xí)和測(cè)評(píng),多方式在線交互的方式。
在線教育交互平臺(tái)的用戶看到的是良好的服務(wù)交互界面,無需知道后臺(tái)數(shù)據(jù)資源整合過程,完全由平臺(tái)的數(shù)據(jù)資源處理層完成,所以擁有更好的用戶體驗(yàn)。平臺(tái)是所有教學(xué)資源的集散地,整合資源方便統(tǒng)一管理和使用,同一份資源,只需保存一份,通過資源關(guān)聯(lián),可以在任意系統(tǒng)中快速調(diào)用。同時(shí)避免數(shù)據(jù)庫(kù)急劇增長(zhǎng),極大地減輕網(wǎng)絡(luò)負(fù)荷,減少用戶和平臺(tái)的工作時(shí)間,維持資源唯一性,資源發(fā)生更改時(shí)所有使用該資源的應(yīng)用均自動(dòng)更新。
3.2.2數(shù)據(jù)資源處理層
中問層是數(shù)據(jù)資源處理層,主要為三部分。第一部分是對(duì)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理,第二部分是進(jìn)行數(shù)據(jù)挖掘分析整合。第三部分是數(shù)據(jù)庫(kù)。中問層的核心是第二部分,也是在線教育交互平臺(tái)的核心。如圖3所示。
面對(duì)迅速增加的復(fù)雜數(shù)據(jù),在線教育交互平臺(tái)利用云計(jì)算和大數(shù)據(jù)進(jìn)行現(xiàn)代數(shù)據(jù)管理,支持所有數(shù)據(jù)類型,如文件、圖片、視頻、博客、點(diǎn)擊流和地理空問數(shù)據(jù)等,并以“云存儲(chǔ)”持久存儲(chǔ)于數(shù)據(jù)中心,保持?jǐn)?shù)據(jù)實(shí)時(shí)更新,實(shí)現(xiàn)數(shù)據(jù)共享、分析、發(fā)現(xiàn)、整合和優(yōu)化數(shù)據(jù),提升數(shù)據(jù)價(jià)值。
利用負(fù)載平衡優(yōu)勢(shì),有效透明地?cái)U(kuò)展網(wǎng)絡(luò)設(shè)備和服務(wù)器的帶寬、增加在線教育交互平臺(tái)的吞葉量、加強(qiáng)平臺(tái)網(wǎng)絡(luò)數(shù)據(jù)處理能力、提高服務(wù)的靈活性和可用性。面對(duì)用戶大量的并發(fā)訪問或數(shù)據(jù)流量,可以分擔(dān)到多臺(tái)設(shè)備上處理,減少教師和學(xué)習(xí)者的等待響應(yīng)的時(shí)間;同時(shí)做并行處理,處理結(jié)果匯總返回到在線交互平臺(tái),平臺(tái)系統(tǒng)處理能力得到大幅度提高。
離線數(shù)據(jù)是用戶訪問的各種數(shù)據(jù)庫(kù)中的信息資源,是從服務(wù)器端、客戶端、代理服務(wù)器端中采集的用戶訪問信息和行為信息。利用大數(shù)據(jù)技術(shù)進(jìn)行數(shù)據(jù)處理,清除不需要的數(shù)據(jù),用聚類、分類等算法對(duì)處理之后的數(shù)據(jù)進(jìn)行模式分析,成立樣本數(shù)據(jù)資源為數(shù)據(jù)流挖掘分析作準(zhǔn)備。在線數(shù)據(jù)是由于數(shù)據(jù)流的動(dòng)態(tài)性和流量大的特點(diǎn),在實(shí)現(xiàn)數(shù)據(jù)流挖掘時(shí),對(duì)流入的數(shù)據(jù)流,利用云計(jì)算做到占用內(nèi)存少,處理速度快,實(shí)現(xiàn)關(guān)聯(lián)規(guī)則、分類和聚類的挖掘。
整合數(shù)據(jù)是將離線數(shù)據(jù)作為樣本庫(kù)的參考,對(duì)在線數(shù)據(jù)進(jìn)行分析,及時(shí)有效的反饋結(jié)果,并且隨著時(shí)間的推移和用戶對(duì)信息資源的需求改變,及時(shí)更新資源分析結(jié)果。通過數(shù)據(jù)挖掘過程,對(duì)數(shù)據(jù)過濾、分析和整合,建立多資源分類結(jié)果,按照用戶的不同需求進(jìn)行決策,形成索引為用戶訪問和使用服務(wù)提供便利。整合數(shù)據(jù)主要是為整合用戶做準(zhǔn)備,將用戶的信息資源進(jìn)行相似度分析,對(duì)于類似的用戶歸類,進(jìn)行同類信息資源的分配。根據(jù)在線學(xué)習(xí)者的基本信息、學(xué)習(xí)風(fēng)格、學(xué)習(xí)滿意度和學(xué)習(xí)感知四維度的服務(wù)需求,可實(shí)現(xiàn)用戶的定制服務(wù)、個(gè)性化服務(wù)、精準(zhǔn)服務(wù),便于用戶方便提取自己需要的資源。最后將用戶需要的資源根據(jù)授權(quán)不同。做統(tǒng)一標(biāo)準(zhǔn)化處理。上傳至服務(wù)應(yīng)用層,展現(xiàn)于用戶的界面。
4.基于云計(jì)算和大數(shù)據(jù)的在線教育交互平臺(tái)應(yīng)用優(yōu)勢(shì)
云計(jì)算和大數(shù)據(jù)結(jié)合對(duì)在線教育的發(fā)展具有巨大的促進(jìn)作用,不僅是針對(duì)提供的服務(wù),更是對(duì)教育發(fā)展的促進(jìn),增強(qiáng)在線教育的核心競(jìng)爭(zhēng)力,保持在線教育的健康發(fā)展。4.1實(shí)現(xiàn)針對(duì)不同用戶的個(gè)性化精準(zhǔn)服務(wù)
在從以資源為核心的在線教育平臺(tái)建設(shè)到以用戶為核心的個(gè)性化在線教育平臺(tái)建設(shè)過程中,最主要的變化的就是針對(duì)不同用戶提供不同的個(gè)性化服務(wù)。而云計(jì)算和大數(shù)據(jù)的應(yīng)用就在于加強(qiáng)對(duì)在線教育的平臺(tái)用戶研究與交互數(shù)據(jù)的分析利用。并基于分析結(jié)果。改善服務(wù)內(nèi)容,提升個(gè)性化服務(wù)的質(zhì)量,完成平臺(tái)對(duì)用戶的跟蹤服務(wù)、精準(zhǔn)服務(wù)、知識(shí)關(guān)聯(lián)服務(wù)和宣傳推廣服務(wù)。面對(duì)平臺(tái)快速增長(zhǎng)的數(shù)據(jù),從中提取有價(jià)值的信息,實(shí)時(shí)分析反饋,建立不同類別的用戶模型,達(dá)到針對(duì)不同用戶提供針對(duì)性服務(wù)、增強(qiáng)用戶體驗(yàn)、提高服務(wù)質(zhì)量的目標(biāo)。即使分析的數(shù)據(jù)源相同,但是由于提供對(duì)象不同,分析結(jié)果會(huì)不同,提供的服務(wù)也不同,做到精準(zhǔn)服務(wù)。即使是同類用戶,針對(duì)不同的個(gè)體,分析數(shù)據(jù)源不同,結(jié)果不同,提供的服務(wù)也不盡相同,做到個(gè)性化服務(wù)。
4.2提供教育發(fā)展動(dòng)向以及熱點(diǎn)的變化
通過大數(shù)據(jù)和云計(jì)算技術(shù),改變了被動(dòng)更新教學(xué)資源的情況,變成根據(jù)在線學(xué)習(xí)者的需求主動(dòng)更新資源,提升了在線教育平臺(tái)的作用。不僅為在線學(xué)習(xí)者提供了需要的學(xué)習(xí)資源,也為在線教師提供更有質(zhì)量的教學(xué)資源和研究依據(jù)。在線教育交互平臺(tái)通過對(duì)用戶數(shù)據(jù)的收集、整理、分析、深度挖掘和匯總,在宏觀上分析相關(guān)教育領(lǐng)域的發(fā)展動(dòng)向和熱點(diǎn)變化,更快地洞察最新的學(xué)習(xí)者興趣走向,以及相關(guān)領(lǐng)域的內(nèi)容進(jìn)展,更新在線平臺(tái)的學(xué)習(xí)資源,并且保證學(xué)習(xí)內(nèi)容的實(shí)時(shí)性和前沿性。同時(shí)通過匯總結(jié)果有效評(píng)估在線學(xué)習(xí)者對(duì)各種教學(xué)資源的使用情況,并且根據(jù)熱點(diǎn)分析和目前已有教學(xué)資源交叉對(duì)比,可以有效評(píng)估教學(xué)資源的質(zhì)量,利于在線教育交互平臺(tái)持久發(fā)展。4.3提供無限量的數(shù)據(jù)存儲(chǔ)能力和更可靠的數(shù)據(jù)安全性
隨著在線教育交互的發(fā)展,信息數(shù)據(jù)量迅猛增長(zhǎng),產(chǎn)生出大量的半結(jié)構(gòu)化、非結(jié)構(gòu)化信息數(shù)據(jù),對(duì)存儲(chǔ)的要求愈加嚴(yán)格。云計(jì)算的出現(xiàn)使得海量數(shù)據(jù)的存儲(chǔ)與運(yùn)算得到了解決,分布式存儲(chǔ)的方式可以持續(xù)收集大量數(shù)據(jù),不會(huì)造成存儲(chǔ)空問的不足。在線教育交互平臺(tái)應(yīng)用“云存儲(chǔ)”方式,保證存儲(chǔ)數(shù)據(jù)的可靠性,并能夠?qū)崟r(shí)更新,有效解決海量數(shù)據(jù)資源的查詢、管理等問題。云計(jì)算使用數(shù)據(jù)多副本容錯(cuò)、設(shè)備同構(gòu)可互換等手段來保障平臺(tái)的數(shù)據(jù)存儲(chǔ)安全。數(shù)據(jù)存儲(chǔ)到“云”中,不會(huì)受到計(jì)算機(jī)病毒或硬盤損壞造成的數(shù)據(jù)丟失。同時(shí)解放了用戶對(duì)終端設(shè)備能力的要求。4.4提高在線教育交互平臺(tái)管理能力
應(yīng)用云計(jì)算和大數(shù)據(jù)的在線教育交互平臺(tái),能夠面向具體應(yīng)用的數(shù)據(jù)需求,做到快速、及時(shí)和有效地響應(yīng)。根據(jù)需求的變化和增長(zhǎng),平臺(tái)具有很好的性能擴(kuò)展空問和擴(kuò)容時(shí)穩(wěn)定和可靠的支持,高效處理多種類型數(shù)據(jù)。在線教育機(jī)構(gòu)以此平臺(tái)為基礎(chǔ)利用云計(jì)算技術(shù)和大數(shù)據(jù)的優(yōu)勢(shì),充分挖掘自身數(shù)據(jù)價(jià)值,實(shí)現(xiàn)數(shù)據(jù)資產(chǎn)從成本中心到利潤(rùn)中心的轉(zhuǎn)變。通過整合數(shù)據(jù)資產(chǎn),對(duì)數(shù)據(jù)資產(chǎn)進(jìn)行標(biāo)準(zhǔn)化,形成靈活可擴(kuò)展、易于更新、可管控的、可隔離、綠色環(huán)保的高效分析型數(shù)據(jù)管理交互平臺(tái),實(shí)現(xiàn)支持標(biāo)準(zhǔn)開發(fā)、用戶自服務(wù)、多元化開發(fā)多種應(yīng)用支持模式,形成松禍合、可異構(gòu)的基礎(chǔ)數(shù)據(jù)和應(yīng)用數(shù)據(jù)兩級(jí)數(shù)據(jù)管理層次。同時(shí),在線教育機(jī)構(gòu)可以駕馭自身數(shù)據(jù)資產(chǎn),全面提升平臺(tái)的數(shù)據(jù)信息管理能力,盡力獲取對(duì)在線學(xué)習(xí)者和在線教師的洞察,以數(shù)據(jù)驅(qū)動(dòng)在線教育的發(fā)展。
5.結(jié)論
對(duì)于在線教育交互這個(gè)重要研究領(lǐng)域而言,云計(jì)算和大數(shù)據(jù)技術(shù)的出現(xiàn)不僅影響著在線教育交互的形態(tài),也為交互信息分析提供了新的思路和手段。一方面,新的技術(shù)使交互行為不斷向著實(shí)時(shí)化和碎片化的方向發(fā)展,使交互過程日益復(fù)雜;另一方面,新的技術(shù)又使獲得大量交互數(shù)據(jù)、特別是行為數(shù)據(jù)成為了可能,從而有更多了解在線學(xué)習(xí)過程和進(jìn)行教學(xué)決策的依據(jù)。在線教育交互作為信息服務(wù),盡管在線教育交互平臺(tái)有資源的優(yōu)勢(shì),但在技術(shù)等方面的劣勢(shì)也限制了其本身的發(fā)展。本文構(gòu)建基于大數(shù)據(jù)和云計(jì)算支持的在線教育交互平臺(tái)模型,分析平臺(tái)的功能實(shí)現(xiàn),使在線的學(xué)習(xí)者和教師可以實(shí)現(xiàn)完美的在線交互活動(dòng),總結(jié)出利用云計(jì)算和大數(shù)據(jù)的在線教育交互平臺(tái)的特點(diǎn)優(yōu)勢(shì)。因此,在線教育交互平臺(tái)的快速發(fā)展需要利用云計(jì)算和大數(shù)據(jù)創(chuàng)新提升在線教育交互的核心競(jìng)爭(zhēng)力。
第三篇:數(shù)據(jù)挖掘教學(xué)方法研究論文
摘要:在本科高年級(jí)學(xué)生中開設(shè)符合學(xué)術(shù)研究和工業(yè)應(yīng)用熱點(diǎn)的進(jìn)階課程是十分必要的。以數(shù)據(jù)挖掘課程為例,本科高年級(jí)學(xué)生了解并掌握數(shù)據(jù)挖掘的相關(guān)技術(shù),對(duì)于其今后的工作、學(xué)習(xí)不無裨益。著重闡述數(shù)據(jù)挖掘等進(jìn)階課程在本科高年級(jí)學(xué)生中的教學(xué)方法,基于本科高年級(jí)學(xué)生的實(shí)際情況,以及進(jìn)階課程的知識(shí)體系特點(diǎn),提出有針對(duì)性的教學(xué)方法參考,從而提高進(jìn)階課程的教學(xué)效果。
關(guān)鍵詞:數(shù)據(jù)挖掘;進(jìn)階課程;教學(xué)方法研究;本科高年級(jí)
學(xué)生在本科高年級(jí)學(xué)生中開設(shè)數(shù)據(jù)挖掘等進(jìn)階課程是十分必要的,以大數(shù)據(jù)、數(shù)據(jù)挖掘?yàn)槔?,其相關(guān)技術(shù)不僅是當(dāng)前學(xué)術(shù)界的研究熱點(diǎn),也是各家企事業(yè)單位招聘中重要崗位的要求之一。對(duì)于即將攻讀碩士或博士學(xué)位的學(xué)生,對(duì)于即將走上工作崗位的學(xué)生,了解并掌握一些大數(shù)據(jù)相關(guān)技術(shù),尤其是數(shù)據(jù)挖掘技術(shù),都是不無裨益的。在目前本科教學(xué)中,對(duì)于數(shù)據(jù)挖掘等課程的教學(xué),由于前序課程的要求,往往是放在本科四年級(jí)進(jìn)行。如何激發(fā)本科四年級(jí)學(xué)生在考研,找工作等繁雜事務(wù)中的學(xué)習(xí)興趣,從而更好地掌握數(shù)據(jù)挖掘的相關(guān)技術(shù)是本課程面臨的主要挑戰(zhàn),也是所有本科進(jìn)階課程所面臨的難題之一。
1數(shù)據(jù)挖掘等進(jìn)階課程所面臨的問題
1.1進(jìn)階課程知識(shí)體系的綜合性
進(jìn)階課程由于其理論與技術(shù)的先進(jìn)性,往往是學(xué)術(shù)研究的前沿,工業(yè)應(yīng)用的熱點(diǎn),是綜合多方面知識(shí)的課程。以數(shù)據(jù)挖掘課程為例,其中包括數(shù)據(jù)庫(kù)、機(jī)器學(xué)習(xí)、模式識(shí)別、統(tǒng)計(jì)、可視化、高性能技術(shù),算法等多方面的知識(shí)內(nèi)容。雖然學(xué)生在前期的本科學(xué)習(xí)中已經(jīng)掌握了部分相關(guān)內(nèi)容,如數(shù)據(jù)庫(kù)、統(tǒng)計(jì)、算法等,但對(duì)于其他內(nèi)容如機(jī)器學(xué)習(xí)、人工智能、模式識(shí)別、可視化等,有的是與數(shù)據(jù)挖掘課程同時(shí)開設(shè)的進(jìn)階課程,有的已經(jīng)是研究生的教學(xué)內(nèi)容。對(duì)于進(jìn)階課程繁雜的知識(shí)體系,應(yīng)該如何把握廣度和深度的關(guān)系尤為重要。
1.2進(jìn)階課程的教學(xué)的目的要求
進(jìn)階課程的知識(shí)體系的綜合性體現(xiàn)在知識(shí)點(diǎn)過多、技術(shù)特征復(fù)雜。從教學(xué)效益的角度出發(fā),進(jìn)階課程的教學(xué)目的是在有限的課時(shí)內(nèi)最大化學(xué)生的知識(shí)收獲。從教學(xué)結(jié)果的可測(cè)度出發(fā),進(jìn)階課程的教學(xué)需要能夠有效驗(yàn)證學(xué)生掌握重點(diǎn)知識(shí)的學(xué)習(xí)成果。1.3本科高年級(jí)學(xué)生的實(shí)際情況本科高年級(jí)學(xué)生需要處理考研復(fù)習(xí),找工作等繁雜事務(wù),往往對(duì)于剩余本科階段的學(xué)習(xí)不重視,存在得過且過的心態(tài)。進(jìn)階課程往往是專業(yè)選修課程,部分學(xué)分已經(jīng)修滿的學(xué)生往往放棄這部分課程的學(xué)習(xí),一來沒有時(shí)間,二來怕拖累學(xué)分。
2數(shù)據(jù)挖掘等進(jìn)階課程的具體教學(xué)方法
進(jìn)階課程的教學(xué)理念是在有限的課時(shí)內(nèi),盡可能地提高課程的廣度,增加介紹性內(nèi)容,在授課中著重講解1~2個(gè)關(guān)鍵技術(shù),如在數(shù)據(jù)挖掘課程中,著重講解分類中的決策樹算法,聚類中的K-Means算法等復(fù)雜度一般,應(yīng)用廣泛的重要知識(shí)點(diǎn),并利用實(shí)踐來檢驗(yàn)學(xué)習(xí)成果。
2.1進(jìn)階課程的課堂教學(xué)
數(shù)據(jù)挖掘等進(jìn)階課程所涉及的知識(shí)點(diǎn)眾多,在課堂上則采用演示和講授相結(jié)合的方法,對(duì)大部分知識(shí)點(diǎn)做廣度介紹,而對(duì)需要重點(diǎn)掌握知識(shí)點(diǎn)具體講授,結(jié)合實(shí)踐案例及板書。在介紹工業(yè)實(shí)踐案例的過程中,對(duì)于具體數(shù)據(jù)挖掘任務(wù)的來龍去脈解釋清楚,尤其是對(duì)于問題的歸納,數(shù)據(jù)的處理,算法的選擇等步驟,并在不同的知識(shí)點(diǎn)的教學(xué)中重復(fù)介紹和總結(jié)數(shù)據(jù)挖掘的一般性流程,可以加深學(xué)生對(duì)于數(shù)據(jù)挖掘的深入理解。對(duì)于一些需要記憶的知識(shí)點(diǎn),在課堂上采用隨機(jī)問答的方式,必要的時(shí)候可以在每堂課的開始重復(fù)提問,提高學(xué)習(xí)的效果。
2.2進(jìn)階課程的課后教學(xué)
對(duì)于由于時(shí)間限制無法在課上深入討論的知識(shí)點(diǎn),只能依靠學(xué)生在課后自學(xué)掌握。本科高年級(jí)學(xué)生的課后自學(xué)的動(dòng)力不像低年級(jí)學(xué)生那么充足,可以布置需要?jiǎng)邮謱?shí)踐并涵蓋相關(guān)知識(shí)點(diǎn)的課后實(shí)踐,但盡量降低作業(yè)的工程量。鼓勵(lì)學(xué)生利用開源軟件和框架,基于提供的數(shù)據(jù)集,實(shí)際解決一些簡(jiǎn)單的數(shù)據(jù)挖掘任務(wù),讓學(xué)生掌握相關(guān)算法技術(shù)的使用,并對(duì)算法有一定的了解。利用學(xué)院與大數(shù)據(jù)相關(guān)企業(yè)建立的合作關(guān)系,在課后通過參觀,了解大數(shù)據(jù)技術(shù)在當(dāng)前企業(yè)實(shí)踐中是如何應(yīng)用的,激發(fā)學(xué)生的學(xué)習(xí)興趣。
2.3進(jìn)階課程的教學(xué)效果考察進(jìn)階課程的考察不宜采取考試的形式,可以采用大作業(yè)的形式。從具體的數(shù)據(jù)挖掘?qū)嵺`中檢驗(yàn)教學(xué)的成果,力求是學(xué)生在上完本課程后可以解決一些簡(jiǎn)單的數(shù)據(jù)挖掘任務(wù),將較復(fù)雜的數(shù)據(jù)挖掘技術(shù)的學(xué)習(xí)留給學(xué)生自己。
3結(jié)語
數(shù)據(jù)挖掘是來源于實(shí)踐的科學(xué),學(xué)習(xí)完本課程的學(xué)生需要真正理解,掌握相關(guān)的數(shù)據(jù)挖掘技術(shù),并能夠在實(shí)際數(shù)據(jù)挖掘任務(wù)中應(yīng)用相關(guān)算法解決問題。這也對(duì)教師的教學(xué)水平提出了挑戰(zhàn),并直接與教師的科研水平相關(guān)。在具體的教學(xué)過程中,發(fā)現(xiàn)往往是在講授實(shí)際科研中遇到的問題時(shí),學(xué)生的興趣較大,對(duì)于書本上的例子則反映一般。進(jìn)階課程在注重教學(xué)方法的基礎(chǔ)上,對(duì)于教師的科研水平提出了新的要求,這也是對(duì)于教師科研的反哺,使教學(xué)過程變成了教學(xué)相長(zhǎng)的過程。
參考文獻(xiàn):
[1]孫宇,梁俊斌,鐘淑瑛.面向工程的《數(shù)據(jù)挖掘》課程教學(xué)方法探討[J].現(xiàn)代計(jì)算機(jī),2014(13).[2]蔣盛益,李霞,鄭琪.研究性學(xué)習(xí)和研究性教學(xué)的實(shí)證研究———以數(shù)據(jù)挖掘課程為例[J].計(jì)算機(jī)教育,2014(24).[3]張曉芳,王芬,黃曉.國(guó)內(nèi)外大數(shù)據(jù)課程體系與專業(yè)建設(shè)調(diào)查研究[C].2ndInternationalConferenceonEducation,ManagementandSocialScience(ICEMSS2014),2014.[4]郝潔.《無線傳感器網(wǎng)絡(luò)》課程特點(diǎn)、挑戰(zhàn)和解決方案[J].現(xiàn)代計(jì)算機(jī),2016(35).[5]王永紅.計(jì)算機(jī)類專業(yè)剖析中課程分析探討[J].現(xiàn)代計(jì)算機(jī),2011(04).
第四篇:大數(shù)據(jù)與云計(jì)算論文
大數(shù)據(jù)與云計(jì)算
摘 要:大數(shù)據(jù)(Big Data)這個(gè)概念近年來在越來越多的場(chǎng)合、被越來越多的人提及,并且經(jīng)常和云計(jì)算聯(lián)系在一起,云計(jì)算與大數(shù)據(jù)之間到底是什么關(guān)系成為熱點(diǎn)話題。本
專題報(bào)告包含以下四個(gè)方面內(nèi)容:1.大數(shù)據(jù)的價(jià)值;2.大數(shù)據(jù)帶來的挑戰(zhàn);3.大數(shù)據(jù)研究成果;4.云計(jì)算是大數(shù)據(jù)挖掘的主流方式。通過本報(bào)告闡述我們對(duì)大數(shù)據(jù)的理解,以及對(duì)大數(shù)據(jù)的價(jià)值的認(rèn)識(shí),探討大數(shù)據(jù)處理與挖掘技術(shù),大數(shù)據(jù)主要著眼于“數(shù)據(jù)”,提供數(shù)據(jù)采集、挖掘、分析的技術(shù)和方法;云計(jì)算技術(shù)主要關(guān)注“計(jì)算”,提供IT 解決方案。大數(shù)據(jù)、云計(jì)算技術(shù)可以促進(jìn)持續(xù)審計(jì)方式的發(fā)展、總體審計(jì)模式的應(yīng)用、審計(jì)成果的綜合應(yīng)用、相關(guān)關(guān)系證據(jù)的應(yīng)用、高效數(shù)據(jù)審計(jì)的發(fā)展和大數(shù)據(jù)審計(jì)師的發(fā)展。強(qiáng)化大數(shù)據(jù)、云計(jì)算技術(shù)審計(jì)應(yīng)用的措施包括制定長(zhǎng)遠(yuǎn)發(fā)展戰(zhàn)略、加快審計(jì)法規(guī)建設(shè)、建立行業(yè)平臺(tái)、加強(qiáng)研發(fā)和提高利用能力。關(guān)鍵詞:大數(shù)據(jù) 云計(jì)算 數(shù)據(jù)挖掘 對(duì)審計(jì)影響 政策建議 引言
目前,大數(shù)據(jù)伴隨著云計(jì)算技術(shù)的發(fā)展,正在對(duì)全球經(jīng)濟(jì)社會(huì)生活產(chǎn)生巨大的影響。大數(shù)據(jù)、云計(jì)算技術(shù)給現(xiàn)代審計(jì)提供了新的技術(shù)和方法,要求審計(jì)組織和審計(jì)人員把握大數(shù)據(jù)、云計(jì)算技術(shù)的內(nèi)容與特征,促進(jìn)現(xiàn)代審計(jì)技術(shù)和方法的進(jìn)一步發(fā)展。
一、大數(shù)據(jù)、云計(jì)算的涵義與特征
隨著云計(jì)算技術(shù)的出現(xiàn),大數(shù)據(jù)吸引了全世界越來越多的關(guān)注。哈佛大學(xué)社會(huì)學(xué)教授加里·金(2012)說: “這是一場(chǎng)革命,龐大的數(shù)據(jù)資源使得各個(gè)領(lǐng)域開始了量化進(jìn)程,無論學(xué)術(shù)界、商界還是政府,所有領(lǐng)域都將開始這種進(jìn)程。”(一)大數(shù)據(jù)的涵義與特征
“數(shù)據(jù)”(data)這個(gè)詞在拉丁文里是“已知”的意思,也可以理解為“事實(shí)”。2009 年,“大數(shù)據(jù)”概念才逐漸開始在社會(huì)上傳播。而“大數(shù)據(jù)”概念真正變得火爆,卻是因?yàn)槊绹?guó)奧巴馬政府在2012 年高調(diào)宣布了其“大數(shù)據(jù)研究和開發(fā)計(jì)劃”。這標(biāo)志著“大數(shù)據(jù)”時(shí)代真正開始進(jìn)入社會(huì)經(jīng)濟(jì)生活中來了。“大數(shù)據(jù)”(big data),或稱巨量資料,指的是所涉及的數(shù)據(jù)量規(guī)模大到無法利用現(xiàn)行主流軟件工具,在一定的時(shí)間內(nèi)實(shí)現(xiàn)收集、分析、處理或轉(zhuǎn)化成為幫助決策者決策的可用信息?;ヂ?lián)網(wǎng)數(shù)據(jù)中心(IDC)認(rèn)為“大數(shù)據(jù)”是為了更經(jīng)濟(jì)、更有效地從高頻率、大容量、不同結(jié)構(gòu)和類型的數(shù)據(jù)中獲取價(jià)值而設(shè)計(jì)的新一代架構(gòu)和技術(shù),用它來描述和定義信息爆炸時(shí)代產(chǎn)生的海量數(shù)據(jù),并命名與之相關(guān)的技術(shù)發(fā)展與創(chuàng)新。大數(shù)據(jù)具有4 個(gè)特點(diǎn): 第一,數(shù)據(jù)體量巨大(Volume),從TB 級(jí)別躍升到PB 級(jí)別。第二,處理速度快(Velocity),這與傳統(tǒng)的數(shù)據(jù)挖掘技術(shù)有著本質(zhì)的不同。第三,數(shù)據(jù)種類多(Variety),有圖片、地理位置信息、視頻、網(wǎng)絡(luò)日志等多種形式。第四,價(jià)值密度低,商業(yè)價(jià)值高(Value)。存在單一數(shù)據(jù)的價(jià)值并不大,但將相關(guān)數(shù)據(jù)聚集在一起,就會(huì)有很高的商業(yè)價(jià)值(金良,2012)。大數(shù)據(jù)時(shí)代,不僅改變了傳統(tǒng)的數(shù)據(jù)采集、處理和應(yīng)用技術(shù)與方法,還促使人們思維方式的改變。大數(shù)據(jù)的精髓在于促使人們?cè)诓杉?、處理和使用?shù)據(jù)時(shí)思維的轉(zhuǎn)變,這些轉(zhuǎn)變將改變?nèi)藗兝斫夂脱芯可鐣?huì)經(jīng)濟(jì)現(xiàn)象的技術(shù)和方法。
(1)是在大數(shù)據(jù)時(shí)代,不依賴抽樣分析,而可以采集和處理事物整體的全部數(shù)據(jù)。19 世紀(jì)以來,當(dāng)面臨大的樣本量時(shí),人們都主要依靠抽樣來分析總體。但是,抽樣技術(shù)是在數(shù)據(jù)缺乏和取得數(shù)據(jù)受限制的條件下不得不采用的一種方法,這其實(shí)是一種人為的限制。過去,因?yàn)橛涗洝?chǔ)存和分析數(shù)據(jù)的工具不夠科學(xué),只能收集少量數(shù)據(jù)進(jìn)行分析。如今,科學(xué)技術(shù)條件已經(jīng)有了很大的提高,雖然人類可以處理的數(shù)據(jù)依然是有限的,但是可以處理的數(shù)據(jù)量已經(jīng)大量增加,而且未來會(huì)越來越多。隨著大數(shù)據(jù)分析取代抽樣分析,社會(huì)科學(xué)不再單純依賴于抽樣調(diào)查和分析實(shí)證數(shù)據(jù),現(xiàn)在可以收集過去無法收集到的數(shù)據(jù),更重要的是,現(xiàn)在可以不再依賴抽樣分析。
(2)是在大數(shù)據(jù)時(shí)代,不再熱衷于追求數(shù)據(jù)的精確度,而是追求利用數(shù)據(jù)的效率。當(dāng)測(cè)量事物的能力受限制時(shí),關(guān)注的是獲取最精確的結(jié)果。但是,在大數(shù)據(jù)時(shí)代,追求精確度已經(jīng)既無必要又不可行,甚至變得不受歡迎。大數(shù)據(jù)紛繁多樣,優(yōu)劣摻雜,精準(zhǔn)度已不再是分析事物總體的主要手段。擁有了大數(shù)據(jù),不再需要對(duì)一個(gè)事物的現(xiàn)象深究,只要掌握事物的大致發(fā)展趨勢(shì)即可,更重要的是追求數(shù)據(jù)的及時(shí)性和使用效率。與依賴于小數(shù)據(jù)和精確性的時(shí)代相比較,大數(shù)據(jù)更注重?cái)?shù)據(jù)的完整性和混雜性,幫助人們進(jìn)一步認(rèn)識(shí)事物的全貌和真相。
(3)是在大數(shù)據(jù)時(shí)代,人們難以尋求事物直接的因果關(guān)系,而是深入認(rèn)識(shí)和利用事物的相關(guān)關(guān)系。長(zhǎng)期以來,尋找因果關(guān)系是人類發(fā)展過程中形成的傳統(tǒng)習(xí)慣。尋求因果關(guān)系即使很困難且用途不大,但人們無法擺脫認(rèn)識(shí)的傳統(tǒng)思維。在大數(shù)據(jù)時(shí)代,人們不必將主要精力放在事物之間因果關(guān)系的分析上,而是將主要精力放在尋找事物之間的相關(guān)關(guān)系上。事物之間的相關(guān)關(guān)系可能不會(huì)準(zhǔn)確地告知事物發(fā)生的內(nèi)在原因,但是它會(huì)提醒人們事情之間的相互聯(lián)系。人們可以通過找到一個(gè)事物的良好相關(guān)關(guān)系,幫助其捕捉到事物的現(xiàn)在和預(yù)測(cè)未來。(二)云計(jì)算的涵義與特征
“云計(jì)算”概念產(chǎn)生于谷歌和IBM 等大型互聯(lián)網(wǎng)公司處理海量數(shù)據(jù)的實(shí)踐。2006 年8 月9 日,Google首席執(zhí)行官埃里克·施密特(Eric Schmidt)在搜索引擎大會(huì)首次提出“云計(jì)算”的概念。2007 年10 月,Google 與IBM 開始在美國(guó)大學(xué)校園推廣云計(jì)算技術(shù)的計(jì)劃,這項(xiàng)計(jì)劃希望能降低分布式計(jì)算技術(shù)在學(xué)術(shù)研究方面的成本,并為這些大學(xué)提供相關(guān)的軟硬件設(shè)備及技術(shù)支持(Michael Mille,2009)。目前全世界關(guān)于“云計(jì)算”的定義有很多?!霸朴?jì)算”是基于互聯(lián)網(wǎng)的相關(guān)服務(wù)的增加、使用和交付模式,是通過互聯(lián)網(wǎng)來提供動(dòng)態(tài)易擴(kuò)展且經(jīng)常是虛擬化的資源。美國(guó)國(guó)家標(biāo)準(zhǔn)技術(shù)研究院(NIST)2009年關(guān)于云計(jì)算的定義是: “云計(jì)算是一種按使用量付費(fèi)的模式,這種模式提供可用的、便捷的、按需的網(wǎng)絡(luò)訪問,進(jìn)入可配置的計(jì)算資源共享池(資源包括網(wǎng)絡(luò)、服務(wù)器、存儲(chǔ)、應(yīng)用軟件、服務(wù)等),這些資源能夠被快速提供,只需投入很少的管理工作,或與服務(wù)供應(yīng)商進(jìn)行很少的交互?!备鶕?jù)這一定義,云計(jì)算的特征主要表現(xiàn)為: 首先,云計(jì)算是一種計(jì)算模式,具有時(shí)間和網(wǎng)絡(luò)存儲(chǔ)的功能。其次,云計(jì)算是一條接入路徑,通過廣泛接入網(wǎng)絡(luò)以獲取計(jì)算能力,通過標(biāo)準(zhǔn)機(jī)制進(jìn)行訪問。第三,云計(jì)算是一個(gè)資源池,云計(jì)算服務(wù)提供商的計(jì)算資源,通過多租戶模式為不同用戶提供服務(wù),并根據(jù)用戶的需求動(dòng)態(tài)提供不同的物理的或虛擬的資源。第四,云計(jì)算是一系列伸縮技術(shù),在信息化和互聯(lián)網(wǎng)環(huán)境下的計(jì)算規(guī)模可以快速擴(kuò)大或縮小,計(jì)算能力可以快速、彈性獲得。第五,云計(jì)算是一項(xiàng)可計(jì)量的服務(wù),云計(jì)算資源的使用情況可以通過云計(jì)算系統(tǒng)檢測(cè)、控制、計(jì)量,以自動(dòng)控制和優(yōu)化資源使用。(三)大數(shù)據(jù)與云計(jì)算的關(guān)系
從整體上看,大數(shù)據(jù)與云計(jì)算是相輔相成的。大數(shù)據(jù)主要專注實(shí)際業(yè)務(wù),著眼于“數(shù)據(jù)”,提供數(shù)據(jù)采集、挖掘、分析的技術(shù)和方法,強(qiáng)調(diào)的是數(shù)據(jù)存儲(chǔ)能力。云計(jì)算主要關(guān)注“計(jì)算”,關(guān)注IT 架構(gòu),提供IT 解決方案,強(qiáng)調(diào)的是計(jì)算能力,即數(shù)據(jù)處理能力。如果沒有大數(shù)據(jù)的數(shù)據(jù)存儲(chǔ),那么云計(jì)算的計(jì)算能力再?gòu)?qiáng)大,也難以找到用武之地;如果沒有云計(jì)算的數(shù)據(jù)處理能力,則大數(shù)據(jù)的數(shù)據(jù)存儲(chǔ)再豐富,也終究難以用于實(shí)踐中去。
從技術(shù)上看,大數(shù)據(jù)依賴于云計(jì)算。海量數(shù)據(jù)存儲(chǔ)技術(shù)、海量數(shù)據(jù)管理技術(shù)、MapReduce 編程模型都是云計(jì)算的關(guān)鍵技術(shù),也都是大數(shù)據(jù)的技術(shù)基礎(chǔ)。而數(shù)據(jù)之所以會(huì)變“大”,最重要的便是云計(jì)算提供的技術(shù)平臺(tái)。數(shù)據(jù)被放到“云”上之后,打破了過去那種各自分割的數(shù)據(jù)存儲(chǔ),更容易被收集和獲得,大數(shù)據(jù)才能呈現(xiàn)在人們眼前。而巨量的數(shù)據(jù)也只能依靠云計(jì)算強(qiáng)大的數(shù)據(jù)處理能力,才能夠“淘盡黃沙始得金”。
從側(cè)重點(diǎn)看,大數(shù)據(jù)與云計(jì)算的側(cè)重點(diǎn)不同。大數(shù)據(jù)的側(cè)重點(diǎn)是各種數(shù)據(jù),廣泛、深入挖掘巨量數(shù)據(jù),發(fā)現(xiàn)數(shù)據(jù)中的價(jià)值,迫使企業(yè)從“業(yè)務(wù)驅(qū)動(dòng)”轉(zhuǎn)變?yōu)椤皵?shù)據(jù)驅(qū)動(dòng)”。而云計(jì)算主要通過互聯(lián)網(wǎng)廣泛獲取、擴(kuò)展和管理計(jì)算及存儲(chǔ)資源和能力,其側(cè)重點(diǎn)是IT 資源、處理能力和各種應(yīng)用,以幫助企業(yè)節(jié)省IT部署成本。云計(jì)算使企業(yè)的IT 部門受益,而大數(shù)據(jù)使企業(yè)的業(yè)務(wù)管理部門受益。
從結(jié)果看,大數(shù)據(jù)與云計(jì)算帶來不同的變化。大數(shù)據(jù)對(duì)社會(huì)經(jīng)濟(jì)帶來的變化是巨大的,涉及到各個(gè)領(lǐng)域。大數(shù)據(jù)已經(jīng)與資本、人力一起作為生產(chǎn)的主要因素影響著社會(huì)經(jīng)濟(jì)的發(fā)展。數(shù)據(jù)創(chuàng)造價(jià)值,而挖掘數(shù)據(jù)價(jià)值、利用數(shù)據(jù)的“推動(dòng)力”就是云計(jì)算。云計(jì)算將信息存儲(chǔ)、分享和挖掘能力極大提高,更經(jīng)濟(jì)、高效地將巨量、高速、多變的終端數(shù)據(jù)存儲(chǔ)下來,并隨時(shí)進(jìn)行計(jì)算與分析。通過云計(jì)算對(duì)大數(shù)據(jù)進(jìn)行分析、總結(jié)與預(yù)測(cè),會(huì)使得決策更可靠,釋放出更多大數(shù)據(jù)的內(nèi)在價(jià)值。
二、大數(shù)據(jù)、云計(jì)算技術(shù)對(duì)審計(jì)的影響分析
審計(jì)技術(shù)和方法的發(fā)展是隨著科學(xué)和管理技術(shù)的發(fā)展而發(fā)展的?,F(xiàn)代審計(jì)技術(shù)和方法體系是在原始的查賬基礎(chǔ)上從低級(jí)向高級(jí)、從不完備到比較完備發(fā)展起來的。在業(yè)務(wù)和會(huì)計(jì)處理手工操作階段,審計(jì)實(shí)施的是賬表導(dǎo)向的審計(jì)技術(shù)和方法;當(dāng)內(nèi)部控制理論和方法全面應(yīng)用于業(yè)務(wù)和會(huì)計(jì)處理時(shí),審計(jì)實(shí)施的是系統(tǒng)導(dǎo)向的審計(jì)技術(shù)和方法;當(dāng)風(fēng)險(xiǎn)管理理論和方法全面應(yīng)用于業(yè)務(wù)和財(cái)務(wù)管理時(shí),審計(jì)實(shí)施的是風(fēng)險(xiǎn)導(dǎo)向?qū)徲?jì)技術(shù)和方法;與風(fēng)險(xiǎn)導(dǎo)向?qū)徲?jì)技術(shù)和方法并行的是,計(jì)算機(jī)技術(shù)廣泛應(yīng)用于業(yè)務(wù)和會(huì)計(jì)處理時(shí),審計(jì)實(shí)施的是IT 審計(jì)技術(shù)和方法。目前,面對(duì)大數(shù)據(jù)、云計(jì)算技術(shù)的產(chǎn)生和發(fā)展,審計(jì)人員需要應(yīng)時(shí)而變來適應(yīng)由此而帶來的變化,分析大數(shù)據(jù)、云計(jì)算技術(shù)對(duì)審計(jì)方式、審計(jì)抽樣技術(shù)、審計(jì)報(bào)告模式、審計(jì)證據(jù)搜集等技術(shù)和方法的影響。(一)大數(shù)據(jù)、云計(jì)算技術(shù)促進(jìn)持續(xù)審計(jì)方式的發(fā)展
傳統(tǒng)審計(jì)中,審計(jì)人員只是在被審計(jì)單位業(yè)務(wù)完成后才進(jìn)行審計(jì),而且審計(jì)過程中并不是審計(jì)所有的數(shù)據(jù)和信息,只是抽取其中有的一部分進(jìn)行審計(jì)。這種事后和有限的審計(jì)對(duì)被審計(jì)單位復(fù)雜的生產(chǎn)經(jīng)營(yíng)和管理系統(tǒng)來說很難及時(shí)做出正確的評(píng)價(jià),而且對(duì)于評(píng)價(jià)日益頻繁和復(fù)雜的經(jīng)營(yíng)管理活動(dòng)的真實(shí)性和合法性則顯得過于遲緩。隨著信息技術(shù)迅速發(fā)展,越來越多的審計(jì)組織對(duì)被審計(jì)單位開始實(shí)施持續(xù)審計(jì)方式,以解決審計(jì)結(jié)果與經(jīng)濟(jì)活動(dòng)的時(shí)差問題。但是,審計(jì)人員實(shí)施持續(xù)審計(jì)時(shí),往往受目前業(yè)務(wù)條件和信息化手段的限制,取得的非結(jié)構(gòu)化數(shù)據(jù)無法數(shù)據(jù)化,或者無法取得相關(guān)的明細(xì)數(shù)據(jù),致使對(duì)問題的判斷也難以進(jìn)一步具體和深入。而大數(shù)據(jù)、云計(jì)算技術(shù)可以促進(jìn)持續(xù)審計(jì)方式的發(fā)展,使信息技術(shù)與大數(shù)據(jù)、云計(jì)算技術(shù)較好交叉融合,尤其對(duì)業(yè)務(wù)數(shù)據(jù)和風(fēng)險(xiǎn)控制“實(shí)時(shí)性”要求較高的特定行業(yè),如銀行、證券、保險(xiǎn)等行業(yè),在這些行業(yè)中實(shí)施持續(xù)審計(jì)迫在眉睫。如審計(jì)組織對(duì)商業(yè)銀行的審計(jì),實(shí)行與商業(yè)銀行建立業(yè)務(wù)和數(shù)據(jù)系統(tǒng)的接口,在開發(fā)的持續(xù)審計(jì)系統(tǒng)中固化了非結(jié)構(gòu)化數(shù)據(jù)結(jié)構(gòu)化和數(shù)據(jù)分析模塊,該模塊可以在海量貸款客戶中挖掘、分析出行業(yè)性和區(qū)域性貸款風(fēng)險(xiǎn)趨勢(shì),實(shí)現(xiàn)在線的風(fēng)險(xiǎn)預(yù)警,并將發(fā)現(xiàn)的風(fēng)險(xiǎn)數(shù)據(jù)、超預(yù)警值指標(biāo)及問題登記為疑點(diǎn),并建立實(shí)時(shí)審計(jì)工作底稿,按照重要程度進(jìn)行歸類、核實(shí)或下發(fā)給現(xiàn)場(chǎng)審計(jì)人員進(jìn)行現(xiàn)場(chǎng)核實(shí),以較好處理非結(jié)構(gòu)化數(shù)據(jù)的利用和數(shù)據(jù)的實(shí)時(shí)分析利用問題。(二)大數(shù)據(jù)、云計(jì)算技術(shù)促進(jìn)總體審計(jì)模式的應(yīng)用
現(xiàn)時(shí)的審計(jì)模式是在評(píng)價(jià)被審計(jì)單位風(fēng)險(xiǎn)基礎(chǔ)上實(shí)施抽樣審計(jì)。在不可能收集和分析被審計(jì)單位全部經(jīng)濟(jì)業(yè)務(wù)數(shù)據(jù)的情況下,現(xiàn)時(shí)的審計(jì)模式主要依賴于審計(jì)抽樣,從局部入手推斷整體,即從抽取的樣本著手進(jìn)行審計(jì),再據(jù)此推斷審計(jì)對(duì)象的整體情況。這種抽樣審計(jì)模式,由于抽取樣本的有限性,而忽視了大量和具體的業(yè)務(wù)活動(dòng),使審計(jì)人員無法完全發(fā)現(xiàn)和揭示被審計(jì)單位的重大舞弊行為,隱藏著重大的審計(jì)風(fēng)險(xiǎn)。而大數(shù)據(jù)、云計(jì)算技術(shù)對(duì)審計(jì)人員而言,不僅僅是一種可供采用的技術(shù)手段,這些技術(shù)和方法將給審計(jì)人員提供實(shí)施總體審計(jì)模式的可行性。利用大數(shù)據(jù)、云計(jì)算技術(shù),對(duì)數(shù)據(jù)的跨行業(yè)、跨企業(yè)搜集和分析,可以不用隨機(jī)抽樣方法,而采用搜集和分析被審計(jì)單位所有數(shù)據(jù)的總體審計(jì)模式。利用大數(shù)據(jù)、云計(jì)算技術(shù)的總體審計(jì)模式是要分析與審計(jì)對(duì)象相關(guān)的所有數(shù)據(jù),使得審計(jì)人員可以建立總體審計(jì)的思維模式,可以使現(xiàn)代審計(jì)獲得革命性的變化。審計(jì)人員實(shí)施總體審計(jì)模式,可以規(guī)避審計(jì)抽樣風(fēng)險(xiǎn)。如果能夠收集總體的所有數(shù)據(jù),就能看到更細(xì)微、深入的信息,對(duì)數(shù)據(jù)進(jìn)行多角度的深層次分析,從而發(fā)現(xiàn)隱藏在細(xì)節(jié)數(shù)據(jù)中的對(duì)審計(jì)問題更具價(jià)值的信息。同時(shí),審計(jì)人員實(shí)施總體審計(jì)模式,能發(fā)現(xiàn)從審計(jì)抽樣模式所不能發(fā)現(xiàn)的問題。大數(shù)據(jù)、云計(jì)算技術(shù)給審計(jì)人員提供了一種能夠從總體把握審計(jì)對(duì)象的技術(shù)手段,從而幫助審計(jì)人員能從總體的視角發(fā)現(xiàn)以前難以發(fā)現(xiàn)的問題。
(三)大數(shù)據(jù)、云計(jì)算技術(shù)促進(jìn)審計(jì)成果的綜合應(yīng)用
目前,審計(jì)人員的審計(jì)成果主要是提供給被審計(jì)單位的審計(jì)報(bào)告,其格式固定,內(nèi)容單一,包含的信息量較少。隨著大數(shù)據(jù)、云計(jì)算技術(shù)在審計(jì)中廣泛應(yīng)用,審計(jì)人員的審計(jì)成果除了審計(jì)報(bào)告外,還有在審計(jì)過程中采集、挖掘、分析和處理的大量的資料和數(shù)據(jù),可以提供給被審計(jì)單位用于改進(jìn)經(jīng)營(yíng)管理,促進(jìn)審計(jì)成果的綜合應(yīng)用,提高審計(jì)成果的綜合應(yīng)用效果。首先,審計(jì)人員通過對(duì)審計(jì)中獲取的大量數(shù)據(jù)和相關(guān)情況資料的匯總、歸納,從中找出財(cái)務(wù)、業(yè)務(wù)和經(jīng)營(yíng)管理等方面的內(nèi)在規(guī)律、共性問題和發(fā)展趨勢(shì),通過匯總歸納宏觀性和綜合性較強(qiáng)的審計(jì)信息,為被審計(jì)單位投資者和其他利益相關(guān)者提供數(shù)據(jù)證明、關(guān)聯(lián)分析和決策建議,從而促進(jìn)被審計(jì)單位管理水平的提高。其次,審計(jì)人員通過應(yīng)用大數(shù)據(jù)、云計(jì)算技術(shù),可以將同一問題歸入不同的類別進(jìn)行分析和處理,從不同的角度、不同的層面整合提煉以滿足不同層次的需求。再次,審計(jì)人員將審計(jì)成果進(jìn)行智能化留存,通過大數(shù)據(jù)、云計(jì)算技術(shù),將問題規(guī)則化并固化到系統(tǒng)中,以便于計(jì)算或判斷問題發(fā)展趨勢(shì),向被審計(jì)單位進(jìn)行預(yù)警。最后。審計(jì)人員將審計(jì)成果、被審計(jì)單位與審計(jì)問題進(jìn)行關(guān)聯(lián),并進(jìn)行信息化處理,在進(jìn)行下次審計(jì)時(shí),減少實(shí)地審計(jì)的時(shí)間和工作量,提高審計(jì)工作的效率。(四)大數(shù)據(jù)、云計(jì)算技術(shù)促進(jìn)相關(guān)關(guān)系證據(jù)的應(yīng)用
審計(jì)人員在審計(jì)過程中,應(yīng)根據(jù)充分、適當(dāng)?shù)膶徲?jì)證據(jù)發(fā)表審計(jì)意見,出具審計(jì)報(bào)告。但是,在大數(shù)據(jù)、云計(jì)算環(huán)境下,審計(jì)人員既面臨巨量數(shù)據(jù)篩選的考驗(yàn),又面臨搜集適當(dāng)審計(jì)證據(jù)的挑戰(zhàn)。審計(jì)人員在搜集審計(jì)證據(jù)時(shí),傳統(tǒng)的思維路徑都是基于因果關(guān)系來搜集審計(jì)證據(jù),而大數(shù)據(jù)分析將會(huì)更多地運(yùn)用相關(guān)關(guān)系分析來搜集和發(fā)現(xiàn)審計(jì)證據(jù)。但從審計(jì)證據(jù)發(fā)現(xiàn)的角度來看,由于大數(shù)據(jù)技術(shù)提供了前所未有的跨領(lǐng)域、可供量化的維度,使得審計(jì)問題大量的相關(guān)信息能夠得以記錄和計(jì)算分析。大數(shù)據(jù)、云計(jì)算技術(shù)沒有改變事物間的因果關(guān)系,但在大數(shù)據(jù)、云計(jì)算技術(shù)中對(duì)相關(guān)關(guān)系的開發(fā)和利用,使得數(shù)據(jù)分析對(duì)因果邏輯關(guān)系的依賴降低了,甚至更多地傾向于應(yīng)用基于相關(guān)關(guān)系的數(shù)據(jù)分析,以相關(guān)關(guān)系分析為基礎(chǔ)的驗(yàn)證是大數(shù)據(jù)、云計(jì)算技術(shù)的一項(xiàng)重要特征。在大數(shù)據(jù)、云計(jì)算技術(shù)環(huán)境下,審計(jì)人員能搜集到的審計(jì)證據(jù)大多是電子證據(jù)(秦榮生,2013)。電子證據(jù)本身就非常復(fù)雜,云計(jì)算技術(shù)使獲取有因果關(guān)系的證據(jù)更加困難。審計(jì)人員應(yīng)從長(zhǎng)期依賴因果關(guān)系來搜集和發(fā)現(xiàn)審計(jì)證據(jù),轉(zhuǎn)變成為利用相關(guān)關(guān)系來搜集和發(fā)現(xiàn)審計(jì)證據(jù)。(五)大數(shù)據(jù)、云計(jì)算技術(shù)促進(jìn)高效數(shù)據(jù)審計(jì)的發(fā)展
直到今天,審計(jì)人員的數(shù)字審計(jì)技術(shù)依然建立在精準(zhǔn)的基礎(chǔ)上。這種思維方式適用于掌握“小數(shù)據(jù)量”的情況,因?yàn)樾枰治龅臄?shù)據(jù)很少,所以審計(jì)人員必須盡可能精準(zhǔn)地量化被審計(jì)單位的業(yè)務(wù)。隨著大數(shù)據(jù)、云計(jì)算技術(shù)成為日常生活中的一部分,審計(jì)人員應(yīng)開始從一個(gè)比以前更大、更全面的角度來理解被審計(jì)單位,將“樣本= 總體”植入審計(jì)人員的思維中。相比依賴于小數(shù)據(jù)和精確性的時(shí)代,大數(shù)據(jù)更強(qiáng)調(diào)數(shù)據(jù)的完整性和混雜性,幫助審計(jì)人員進(jìn)一步接近事情的真相,“局部”和“精確”將不再是審計(jì)人員追求的目標(biāo),審計(jì)人員追求的是事物的“全貌”和“高效”。圍繞大數(shù)據(jù),一批新興的數(shù)據(jù)挖掘、數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)處理與分析技術(shù)將不斷涌現(xiàn)。在實(shí)施審計(jì)時(shí),審計(jì)人員應(yīng)利用大數(shù)據(jù)、云計(jì)算技術(shù),使用分布式拓樸結(jié)構(gòu)、云數(shù)據(jù)庫(kù)、聯(lián)網(wǎng)審計(jì)、數(shù)據(jù)挖掘等新型的技術(shù)手段和工具,以提高審計(jì)的效率。
(六)大數(shù)據(jù)、云計(jì)算技術(shù)促進(jìn)大數(shù)據(jù)審計(jì)師的發(fā)展
大數(shù)據(jù)、云計(jì)算時(shí)代,數(shù)據(jù)的真實(shí)、可靠是大數(shù)據(jù)發(fā)揮作用的前提。這客觀上要求專業(yè)人員來對(duì)大數(shù)據(jù)的真實(shí)性、可靠性進(jìn)行鑒證,審計(jì)人員可以扮演這種角色,或者稱為數(shù)據(jù)審計(jì)師。能對(duì)大數(shù)據(jù)真實(shí)性、可靠性進(jìn)行鑒證的數(shù)據(jù)審計(jì)師應(yīng)該是計(jì)算機(jī)科學(xué)、數(shù)學(xué)、統(tǒng)計(jì)學(xué)和審計(jì)學(xué)領(lǐng)域的專家,他們應(yīng)有大數(shù)據(jù)分析和預(yù)測(cè)的評(píng)估能力。數(shù)據(jù)審計(jì)師應(yīng)恪守公正的立場(chǎng)和嚴(yán)守保密的原則,面對(duì)海量的數(shù)據(jù)和紛繁復(fù)雜的相關(guān)關(guān)系,選取分析和預(yù)測(cè)工具,以及解讀數(shù)據(jù)及數(shù)據(jù)計(jì)算結(jié)果是否真實(shí)、可靠。一旦出現(xiàn)爭(zhēng)議,數(shù)據(jù)審計(jì)師有權(quán)審查與分析結(jié)果相關(guān)的運(yùn)算法則、統(tǒng)計(jì)方法以及數(shù)據(jù)采集、挖掘和處理過程。數(shù)據(jù)審計(jì)師的出現(xiàn)是為滿足以市場(chǎng)為導(dǎo)向來解決數(shù)據(jù)真實(shí)性、可靠性問題的需求,這與20 世紀(jì)初期為了處理財(cái)務(wù)信息虛假而出現(xiàn)的審計(jì)人員一樣,都是為了滿足新需求而出現(xiàn)的。
三、大數(shù)據(jù)挖掘
數(shù)據(jù)的價(jià)值只有通過數(shù)據(jù)挖掘才能從低價(jià)值密度的數(shù)據(jù)中發(fā)現(xiàn)其潛在價(jià)值,而大數(shù)據(jù)挖掘技術(shù)的實(shí)現(xiàn)離不開云計(jì)算技術(shù)。在業(yè)界,全球著名的Google、EMC、惠普、IBM、微軟等互聯(lián)網(wǎng)公司都已經(jīng)意識(shí)到大數(shù)據(jù)挖掘的重要意義。上述IT 巨頭們紛紛通過收購(gòu)大數(shù)據(jù)分析公司,進(jìn)行技術(shù)整合,希望從大數(shù)據(jù)中挖掘更多的商業(yè)價(jià)值。數(shù)據(jù)挖掘通常需要遍歷訓(xùn)練數(shù)據(jù)獲得相關(guān)的統(tǒng)計(jì)信息,用于求解或優(yōu)化模型參數(shù),在大規(guī)模數(shù)據(jù)上進(jìn)行頻繁的數(shù)據(jù)訪問需要耗費(fèi)大量運(yùn)算時(shí)間。數(shù)據(jù)挖掘領(lǐng)域長(zhǎng)期受益于并行算法和架構(gòu)的使用,使得性能逐漸提升。過去15 年來,效果尤其顯著。試圖將這些進(jìn)步結(jié)合起來,并且提煉。GPU平臺(tái)從并行上得到的性能提升十分顯著。這些GPU平臺(tái)由于采用并行架構(gòu),使用并行編程方法,使得計(jì)算能力呈幾何級(jí)數(shù)增長(zhǎng)。即便是圖形處理、游戲編程是公認(rèn)的復(fù)雜,它們也從并行化受益頗多。研究顯示數(shù)據(jù)挖掘、圖遍歷、有限狀態(tài)機(jī)是并行化未來的熱門方向。MapReduce 框架已經(jīng)被證明是提升GPU 運(yùn)行數(shù)據(jù)挖掘算法性能的重要工具。D.Luo 等提出一種非平凡的策略用來并行一系列數(shù)據(jù)挖掘與數(shù)據(jù)挖掘問題,包括一類分類SVM 和兩類分類SVM,非負(fù)最小二乘問題,及L1 正則化回歸(lasso)問題。由此得到的乘法算法,可以被直截了當(dāng)?shù)卦谌鏜apReduce 和CUDA 的并行計(jì)算環(huán)境中實(shí)現(xiàn)。K.Shim 在MapReduce 框架下,討論如何設(shè)計(jì)高M(jìn)apReduce 算法,對(duì)當(dāng)前一些基于MapReduce 的數(shù)據(jù)挖掘和數(shù)據(jù)挖掘算法進(jìn)行歸納總結(jié),以便進(jìn)行大數(shù)據(jù)的分析。Junbo Zhang 等提出一種新的大數(shù)據(jù)挖掘技術(shù),即利用MapRedue 實(shí)現(xiàn)并行的基于粗糙集的知識(shí)獲取算法,還提出了下一步的研究方向,即集中于用基于并行技術(shù)的粗糙集算法處理非結(jié)構(gòu)化數(shù)據(jù)。F.Gao 提出了一種新的近似算法使基于核的數(shù)據(jù)挖掘算法可以有效的處理大規(guī)模數(shù)據(jù)集。當(dāng)前的基于核的數(shù)據(jù)挖掘算法由于需要計(jì)算核矩陣面臨著可伸縮性問題,計(jì)算核矩陣需要O(N2)的時(shí)間和空間復(fù)雜度來計(jì)算和存儲(chǔ)。該算法計(jì)算核矩陣時(shí)大幅度降低計(jì)算和內(nèi)存開銷,而且并沒有明顯影響結(jié)果的精確度。此外,通過折中結(jié)果的一些精度可以控制近似水平。它獨(dú)立于隨后使用的數(shù)據(jù)挖掘算法并且可以被它們使用。為了闡明近似算法的效果,在其上開發(fā)了一個(gè)變種的譜聚類算法,此外設(shè)計(jì)了一個(gè)所提出算法的基于MapReduce 的實(shí)現(xiàn)。在合成和真實(shí)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果顯示,所提出的算法可以獲得顯著的時(shí)間和空間節(jié)省。Christian Kaiser 等還利用MapReduce 框架分布式實(shí)現(xiàn)了訓(xùn)練一系列核函數(shù)學(xué)習(xí)機(jī),該方法適用于基于核的分類和回歸。Christian Kaiser 還介紹了一種擴(kuò)展版的區(qū)域到點(diǎn)建模方法,來適應(yīng)來自空間區(qū)域的大量數(shù)據(jù)。Yael Ben-Haim 研究了三種MapReduce 實(shí)現(xiàn)架構(gòu)下并行決策樹分類算法的設(shè)計(jì), 并在Phoenix 共享內(nèi)存架構(gòu)上對(duì)SPRINT 算法進(jìn)行了具體的并行實(shí)現(xiàn)。F.Yan 考慮了潛在狄利克雷分配(LDA)的兩種推理方法——塌縮吉布斯采樣(collapsed Gibbssampling,CGS)和塌縮變分貝葉斯推理(collapsedvariational Bayesian,CVB)在GPU 上的并行化問題。為解決GPU 上的有限內(nèi)存限制問題,F(xiàn).Yan 提出一種能有效降低內(nèi)存開銷的新穎數(shù)據(jù)劃分方案。這種劃分方案也能平衡多重處理器的計(jì)算開銷,并能容易地避免內(nèi)存訪問沖突。他們使用數(shù)據(jù)流來處理超大的數(shù)據(jù)集。大量實(shí)驗(yàn)表明F.Yan 的并行推理方法得到的LDA 模型一貫地具有與串行推理方法相同的預(yù)測(cè)能力;但在一個(gè)有30 個(gè)多核處理器的GPU 上,CGS 方法得到了26倍的加速,CVB 方法得到了196 倍的加速。他們提出的劃分方案和數(shù)據(jù)流方式使他們的方法在有更多多重處理器時(shí)可伸縮,而且可被作為通用技術(shù)來并行其它數(shù)據(jù)挖掘模型。Bao-Liang Lu 提出了一種并行的支持向量機(jī),稱為最小最大模塊化網(wǎng)絡(luò)(M3),它是基“分而治之”的思想解決大規(guī)模問題的有效的學(xué)習(xí)算法。針對(duì)異構(gòu)云中進(jìn)行大數(shù)據(jù)分析服務(wù)的并行化問題G.Jung 提出了最大覆蓋裝箱算法來決定系統(tǒng)中多少節(jié)點(diǎn)、哪些節(jié)點(diǎn)應(yīng)該應(yīng)用于大數(shù)據(jù)分析的并行執(zhí)行。這種方法可以使大數(shù)據(jù)進(jìn)行分配使得各個(gè)計(jì)算節(jié)點(diǎn)可以同步的結(jié)束計(jì)算,并且使數(shù)據(jù)塊的傳輸可以和上一個(gè)塊的計(jì)算進(jìn)行重疊來節(jié)省時(shí)間。實(shí)驗(yàn)表明,這種方法比其他的方法可以提高大約60% 的性能。在分布式系統(tǒng)方面,Cheng 等人 提出一個(gè)面向大規(guī)??缮炜s數(shù)據(jù)分析的可伸縮的分布式系統(tǒng)——GLADE。GLADE 通過用戶自定義聚合(UDA)接口并且在輸入數(shù)據(jù)上有效地運(yùn)行來進(jìn)行數(shù)據(jù)分析。文章從兩個(gè)方面來論證了系統(tǒng)的有效性。第一,文章展示了如何使用一系列分析功能來完成數(shù)據(jù)處理。第二,文章將GLADE 與兩種不同類型的系統(tǒng)進(jìn)行比較:一個(gè)用UDA 進(jìn)行改良的關(guān)系型數(shù)據(jù)庫(kù)(PostgreSQL)和MapReduce(Hadoop)。然后從運(yùn)行結(jié)果、伸縮性以及運(yùn)行時(shí)間上對(duì)不同類型的系統(tǒng)進(jìn)行了比較。
四、總結(jié) 大數(shù)據(jù)的超大容量自然需要容量大,速度快,安全的存儲(chǔ),滿足這種要求的存儲(chǔ)離不開云計(jì)算。高速產(chǎn)生的大數(shù)據(jù)只有通過云計(jì)算的方式才能在可等待的時(shí)間內(nèi)對(duì)其進(jìn)行處理。同時(shí),云計(jì)算是提高對(duì)大數(shù)據(jù)的分析與理解能力的一個(gè)可行方案。大數(shù)據(jù)的價(jià)值也只有通
過數(shù)據(jù)挖掘才能從低價(jià)值密度的數(shù)據(jù)中發(fā)現(xiàn)其潛在價(jià)值,而大數(shù)據(jù)挖掘技術(shù)的實(shí)現(xiàn)離不開云計(jì)算技術(shù)。總之,云計(jì)算是大數(shù)據(jù)處理的核心支撐技術(shù),是大數(shù)據(jù)挖掘的主流方式。沒有互聯(lián)網(wǎng),就沒有虛擬化技術(shù)為核心的云計(jì)算技術(shù),沒有云計(jì)算就沒有大數(shù)據(jù)處理的支撐技術(shù)。
參考文獻(xiàn)
秦榮生.大數(shù)據(jù)、云計(jì)算技術(shù)對(duì)審計(jì)的影響研究 何清.大數(shù)據(jù)與云計(jì)算
張為民.云計(jì)算: 深刻改變未來
文峰.云計(jì)算與云審計(jì)———關(guān)于未來審計(jì)的概念與框架的一些思考
Big data and cloud computing Big Data(Big Data)in recent years, more and more occasions, the concept is mentioned more and more people, And often, and cloud computing together, what is the relationship between cloud computing and big data become a hot topic.this Special report contains the following four aspects: 1.The value of big data;2.Big data challenge;3.Big data research;4.Cloud computing is the mainstream way of data mining.Through this report on our understanding of big data, as well as the understanding of the value of big data, large data processing and mining technology, large data mainly focus on “data”, provide the technology and methods of data collection, mining and analysis;Cloud computing technology focusing on “computing”, providing IT solutions.Big data and cloud computing technology can promote the development of continuous audit mode, the overall audit mode of application, the audit results of comprehensive application, the application of related evidence, the development of efficient data audit and the development of large data auditor.Strengthen big data and cloud computing technology measures of audit applications include set up long-term development strategy, accelerate the construction of the audit regulations, establish a platform, to strengthen research and development and improve the utilization ability.Keywords: big data cloud computing data mining impact on the audit policy Suggestions
第五篇:數(shù)據(jù)挖掘研究現(xiàn)狀
一、時(shí)代的挑戰(zhàn)
近十幾年來,人們利用信息技術(shù)生產(chǎn)和搜集數(shù)據(jù)的能力大幅度提高,千萬萬個(gè)數(shù)據(jù)庫(kù)被用于商業(yè)管理、政府辦公、科學(xué)研究和工程開發(fā)等等,這一勢(shì)頭仍將持續(xù)發(fā)展下去。于是,一個(gè)新的挑戰(zhàn)被提了出來:在這被稱之為信息爆炸的時(shí)代,信息過量幾乎成為人人需要面對(duì)的問題。如何才能不被信息的汪洋大海所淹沒,從中及時(shí)發(fā)現(xiàn)有用的知識(shí),提高信息利用率呢?要想使數(shù)據(jù)真正成為一個(gè)公司的資源,只有充分利用它為公司自身的業(yè)務(wù)決策和戰(zhàn)略發(fā)展服務(wù)才行,否則大量的數(shù)據(jù)可能成為包袱,甚至成為垃圾。因此,面對(duì)“人們被數(shù)據(jù)淹沒,人們卻饑餓于知識(shí)”的挑戰(zhàn),數(shù)據(jù)挖掘和知識(shí)發(fā)現(xiàn)(DMKD)技術(shù)應(yīng)運(yùn)而生,并得以蓬勃發(fā)展,越來越顯示出其強(qiáng)大的生命力。
數(shù)據(jù)挖掘(Data Mining)就是從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識(shí)的過程。還有很多和這一術(shù)語相近似的術(shù)語,如從數(shù)據(jù)庫(kù)中發(fā)現(xiàn)知識(shí)(KDD)、數(shù)據(jù)分析、數(shù)據(jù)融合(Data Fusion)以及決策支持等。人們把原始數(shù)據(jù)看作是形成知識(shí)的源泉,就像從礦石中采礦一樣。原始數(shù)據(jù)可以是結(jié)構(gòu)化的,如關(guān)系數(shù)據(jù)庫(kù)中的數(shù)據(jù),也可以是半結(jié)構(gòu)化的,如文本、圖形、圖像數(shù)據(jù),甚至是分布在網(wǎng)絡(luò)上的異構(gòu)型數(shù)據(jù)。發(fā)現(xiàn)知識(shí)的方法可以是數(shù)學(xué)的,也可以是非數(shù)學(xué)的;可以是演繹的,也可以是歸納的。發(fā)現(xiàn)了的知識(shí)可以被用于信息管理、查詢優(yōu)化、決策支持、過程控制等,還可以用于數(shù)據(jù)自身的維護(hù)。因此,數(shù)據(jù)挖掘是一門很廣義的交叉學(xué)科,它匯聚了不同領(lǐng)域的研究者,尤其是數(shù)據(jù)庫(kù)、人工智能、數(shù)理統(tǒng)計(jì)、可視化、并行計(jì)算等方面的學(xué)者和工程技術(shù)人員。
特別要指出的是,數(shù)據(jù)挖掘技術(shù)從一開始就是面向應(yīng)用的。它不僅是面向特定數(shù)據(jù)庫(kù)的簡(jiǎn)單檢索查詢調(diào)用,而且要對(duì)這些數(shù)據(jù)進(jìn)行微觀、中觀乃至宏觀的統(tǒng)計(jì)、分析、綜合和推理,以指導(dǎo)實(shí)際問題的求解,企圖發(fā)現(xiàn)事件間的相互關(guān)聯(lián),甚至利用已有的數(shù)據(jù)對(duì)未來的活動(dòng)進(jìn)行預(yù)測(cè)。
二、研究現(xiàn)狀
KDD一詞首次出現(xiàn)在1989年8月舉行的第11屆國(guó)際聯(lián)合人工智能學(xué)術(shù)會(huì)議上。迄今為止,由美國(guó)人工智能協(xié)會(huì)主辦的KDD國(guó)際研討會(huì)已經(jīng)召開了7次,規(guī)模由原來的專題討論會(huì)發(fā)展到國(guó)際學(xué)術(shù)大會(huì),人數(shù)由二三十人到七八百人,論文收錄比例從2X1到6X1,研究重點(diǎn)也逐漸從發(fā)現(xiàn)方法轉(zhuǎn)向系統(tǒng)應(yīng)用,并且注重多種發(fā)現(xiàn)策略和技術(shù)的集成,以及多種學(xué)科之間的相互滲透。其 諶蕕淖ㄌ饣嵋橐舶咽萃誥蠔橢斗⑾至形樘庵?成為當(dāng)前計(jì)算機(jī)科學(xué)界的一大熱點(diǎn)。
此外,數(shù)據(jù)庫(kù)、人工智能、信息處理、知識(shí)工程等領(lǐng)域的國(guó)際學(xué)術(shù)刊物也紛紛開辟了 KDD專題或?qū)??。IEEE的Knowledge and Data Engineering 會(huì)刊領(lǐng)先在1993年出版了KD D技術(shù)???所發(fā)表的5篇論文代表了當(dāng)時(shí)KDD研究的最新成果和動(dòng)態(tài),較全面地論述了KDD 系統(tǒng)方法論、發(fā)現(xiàn)結(jié)果的評(píng)價(jià)、KDD系統(tǒng)設(shè)計(jì)的邏輯方法,集中討論了鑒于數(shù)據(jù)庫(kù)的動(dòng)態(tài)性冗余、高噪聲和不確定性、空值等問題,KDD系統(tǒng)與其它傳統(tǒng)的機(jī)器學(xué)習(xí)、專家系統(tǒng)、人工神經(jīng)網(wǎng)絡(luò)、數(shù)理統(tǒng)計(jì)分析系統(tǒng)的聯(lián)系和區(qū)別,以及相應(yīng)的基本對(duì)策。6篇論文摘要展示了KDD在從建立分子模型到設(shè)計(jì)制造業(yè)的具體應(yīng)用。
不僅如此,在Internet上還有不少KDD電子出版物,其中以半月刊Knowledge Discove
ryNuggets最為權(quán)威,另一份在線周刊為DS*(DS代表決策支持),1997年10月7日開始出版。在網(wǎng)上,還有一個(gè)自由論壇 DM Email Club, 人們通過電子郵件相互討論DMKD的熱點(diǎn)問題。而領(lǐng)導(dǎo)整個(gè)潮流的DMKD開發(fā)和研究中心,當(dāng)數(shù)設(shè)在美國(guó)EMDEN的IBM公司開發(fā)部。至于DMKD書籍,可以在任何計(jì)算機(jī)書店找到十多本,但大多帶有商業(yè)色彩。
三、內(nèi)容和本質(zhì)
隨著DMKD研究逐步走向深入,人們?cè)絹碓角宄卣J(rèn)識(shí)到,DMKD的研究主要有3個(gè)技術(shù)支柱,即數(shù)據(jù)庫(kù)、人工智能和數(shù)理統(tǒng)計(jì)。
數(shù)據(jù)庫(kù)技術(shù)在經(jīng)過了80年代的輝煌之后,已經(jīng)在各行各業(yè)成為一種數(shù)據(jù)庫(kù)文化或時(shí)尚,數(shù)據(jù)庫(kù)界目前除了關(guān)注萬維網(wǎng)數(shù)據(jù)庫(kù)、分布式數(shù)據(jù)庫(kù)、面向?qū)ο髷?shù)據(jù)庫(kù)、多媒體數(shù)據(jù)庫(kù)、查詢優(yōu)化和并行計(jì)算等技術(shù)外,已經(jīng)在開始反思。數(shù)據(jù)庫(kù)最實(shí)質(zhì)的應(yīng)用僅僅是查詢嗎?理論根基最深的關(guān)系數(shù)據(jù)庫(kù)最本質(zhì)的技術(shù)進(jìn)步點(diǎn),就是數(shù)據(jù)存放和數(shù)據(jù)使用之間的相互分離。查詢是數(shù)據(jù)庫(kù)的奴隸,發(fā)現(xiàn)才是數(shù)據(jù)庫(kù)的主人;數(shù)據(jù)只為職員服務(wù),不為老板服務(wù)!這是很多單位的領(lǐng)導(dǎo)在熱心數(shù)據(jù)庫(kù)建設(shè)后發(fā)出的感嘆。
由于數(shù)據(jù)庫(kù)文化的迅速普及,用數(shù)據(jù)庫(kù)作為知識(shí)源具有堅(jiān)實(shí)的基礎(chǔ);另一方面,對(duì)于一個(gè)感興趣的特定領(lǐng)域——客觀世界,先用數(shù)據(jù)庫(kù)技術(shù)將其形式化并組織起來,就會(huì)大大提高知識(shí)獲取起點(diǎn),以后從中發(fā)掘或發(fā)現(xiàn)的所有知識(shí)都是針對(duì)該數(shù)據(jù)庫(kù)而言的。因此,在需求的驅(qū)動(dòng)下,很多數(shù)據(jù)庫(kù)學(xué)者轉(zhuǎn)向?qū)?shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)挖掘的研究,從對(duì)演繹數(shù)據(jù)庫(kù)的研究轉(zhuǎn)向?qū)w納數(shù)據(jù)庫(kù)的研究。
專家系統(tǒng)曾經(jīng)是人工智能研究工作者的驕傲。專家系統(tǒng)實(shí)質(zhì)上是一個(gè)問題求解系統(tǒng) ,目前的主要理論工具是基于謂詞演算的機(jī)器定理證明技術(shù)——二階演繹系統(tǒng)。領(lǐng)域?qū)<议L(zhǎng)期以來面向一個(gè)特定領(lǐng)域的經(jīng)驗(yàn)世界,通過人腦的思維活動(dòng)積累了大量有用信息。
在研制一個(gè)專家系統(tǒng)時(shí),知識(shí)工程師首先要從領(lǐng)域?qū)<夷抢铽@取知識(shí),這一過程實(shí)質(zhì)上是歸納過程,是非常復(fù)雜的個(gè)人到個(gè)人之間的交互過程,有很強(qiáng)的個(gè)性和隨機(jī)性。因此 ,知識(shí)獲取成為專家系統(tǒng)研究中公認(rèn)的瓶頸問題。
其次,知識(shí)工程師在整理表達(dá)從領(lǐng)域?qū)<夷抢铽@得的知識(shí)時(shí),用if-then等類的規(guī)則表達(dá),約束性太大,用常規(guī)數(shù)理邏輯來表達(dá)社會(huì)現(xiàn)象和人的思維活動(dòng)局限性太大,也太困難, 勉強(qiáng)抽象出來的規(guī)則有很強(qiáng)的工藝色彩,差異性極大,知識(shí)表示又成為一大難題。
此外,即使某個(gè)領(lǐng)域的知識(shí)通過一定手段獲取并表達(dá)了,但這樣做成的專家系統(tǒng)對(duì)常識(shí)和百科知識(shí)出奇地貧乏,而人類專家的知識(shí)是以擁有大量常識(shí)為基礎(chǔ)的。人工智能學(xué)家 Feigenbaum估計(jì),一般人擁有的常識(shí)存入計(jì)算機(jī)大約有100萬條事實(shí)和抽象經(jīng)驗(yàn)法則,離開常識(shí)的專家系統(tǒng)有時(shí)會(huì)比傻子還傻。例如戰(zhàn)場(chǎng)指揮員會(huì)根據(jù)“在某地發(fā)現(xiàn)一只剛死的波斯貓”的情報(bào)很快斷定敵高級(jí)指揮所的位置,而再好的軍事專家系統(tǒng)也難以顧全到如此的信息。
以上這3大難題大大限制了專家系統(tǒng)的應(yīng)用,使得專家系統(tǒng)目前還停留在構(gòu)造諸如發(fā)動(dòng)機(jī)故障論斷一類的水平上。人工智能學(xué)者開始著手基于案例的推理,尤其是從事機(jī)器學(xué)習(xí)的科學(xué)家們,不再滿足自己構(gòu)造的小樣本學(xué)習(xí)模式的象牙塔,開始正視現(xiàn)實(shí)生活中大量的、不完全的、有噪聲的、模糊的、隨機(jī)的大數(shù)據(jù)樣本,也走上了數(shù)據(jù)挖掘的道路。
數(shù)理統(tǒng)計(jì)是應(yīng)用數(shù)學(xué)中最重要、最活躍的學(xué)科之一,它在計(jì)算機(jī)發(fā)明之前就誕生了, 迄今已有幾百年的發(fā)展歷史。如今相當(dāng)強(qiáng)大有效的數(shù)理統(tǒng)計(jì)方法和工具,已成為信息咨詢業(yè)的基礎(chǔ)。信息時(shí)代,咨詢業(yè)更為發(fā)達(dá)。然而,數(shù)理統(tǒng)計(jì)和數(shù)據(jù)庫(kù)技術(shù)結(jié)合得并不算快,數(shù)據(jù)庫(kù)查詢語言SQL中的聚合函數(shù)功能極其簡(jiǎn)單,就是一個(gè)證明。咨詢業(yè)用數(shù)據(jù)庫(kù)查詢數(shù)據(jù)還遠(yuǎn)遠(yuǎn)不夠。一旦人們有了從數(shù)據(jù)查詢到知識(shí)發(fā)現(xiàn)、從數(shù)據(jù)演繹到數(shù)據(jù)歸納的要求,概率論和數(shù)理統(tǒng)計(jì)就獲得了新的生命力,所以才會(huì)在DMKD這個(gè)結(jié)合點(diǎn)上,立即呈現(xiàn)出“忽如一夜春風(fēng)來,千樹萬樹梨花開”的繁榮景象。一向以數(shù)理統(tǒng)計(jì)工具和可視化計(jì)算聞名的美國(guó)SA S公司,領(lǐng)先宣布進(jìn)入DMKD行列。
數(shù)據(jù)挖掘所能發(fā)現(xiàn)的知識(shí)有如下幾種:廣義型知識(shí),反映同類事物共同性質(zhì)的知識(shí);特征型知識(shí),反映事物各方面的特征知識(shí);差異型知識(shí),反映不同事物之間屬性差別的知識(shí);關(guān)聯(lián)型知識(shí),反映事物之間依賴或關(guān)聯(lián)的知識(shí);預(yù)測(cè)型知識(shí),根據(jù)歷史的和當(dāng)前的數(shù)據(jù)推測(cè)未來數(shù)據(jù);偏離型知識(shí),揭示事物偏離常規(guī)的異?,F(xiàn)象。所有這些知識(shí)都可以在不同的概念層次上被發(fā)現(xiàn),隨著概念樹的提升,從微觀到中觀再到宏觀,以滿足不同用戶、不同層次決策的需要。
四、發(fā)展方向
當(dāng)前,DMKD研究正方興未艾,預(yù)計(jì)在21世紀(jì)還會(huì)形成更大的高潮,研究焦點(diǎn)可能會(huì)集中到以下幾個(gè)方面:研究專門用于知識(shí)發(fā)現(xiàn)的數(shù)據(jù)挖掘語言,也許會(huì)像SQL語言一樣走向形式化和標(biāo)準(zhǔn)化;尋求數(shù)據(jù)挖掘過程中的可視化方法,使得知識(shí)發(fā)現(xiàn)的過程能夠被用戶理解 ,也便于在知識(shí)發(fā)現(xiàn)過程中的人機(jī)交互;研究在網(wǎng)絡(luò)環(huán)境下的數(shù)據(jù)挖掘技術(shù),特別是在Int ernet上建立DMKD服務(wù)器,與數(shù)據(jù)庫(kù)服務(wù)器配合,實(shí)現(xiàn)數(shù)據(jù)挖掘;加強(qiáng)對(duì)各種非結(jié)構(gòu)化數(shù)據(jù)的挖掘,如文本數(shù)據(jù)、圖形圖像數(shù)據(jù)、多媒體數(shù)據(jù)。但是,無論怎樣,需求牽引,市場(chǎng)驅(qū)動(dòng)是永恒的,DMKD將首先滿足信息時(shí)代用戶的急需,大量基于DMKD的決策支持軟件工具產(chǎn)品將會(huì)問世