第一篇:集群存儲系統(tǒng)數(shù)據(jù)安全研究論文
借鑒P2P的思想實現(xiàn)了一個基于集群的安全存儲系統(tǒng),并介紹了構(gòu)建在該存儲體系結(jié)構(gòu)之上的一種數(shù)據(jù)安全存取方案。引入基于共享鑒別密鑰的鑒別機制,以確保用戶數(shù)據(jù)的授權(quán)訪問,防止未授權(quán)用戶的閱讀和修改。系統(tǒng)采用廣泛用于加/解密技術(shù)中的SHA-1算法作為密碼校驗函數(shù),與采用數(shù)字簽名鑒別機制相比,該算法具有較高的性能。初步分析和實驗表明,該系統(tǒng)在現(xiàn)實條件下,在消耗較低的維護帶寬的同時維持了較高的可靠性,并提供了較好的讀寫性能。
近幾年來,基于P2P技術(shù)的分布式存儲系統(tǒng)[1,2]已經(jīng)成為一個研究熱點。廣域網(wǎng)中的分布式文件存儲系統(tǒng)能夠更好地為用戶提供文件存儲服務(wù),使用戶可以隨時隨地訪問存放在網(wǎng)上的數(shù)據(jù),并且能夠為文件共享、多用戶之間的協(xié)作提供支持?;赑2P構(gòu)建的分布式文件存儲系統(tǒng),一般都是面向廣域網(wǎng)提供大規(guī)模網(wǎng)絡(luò)存儲服務(wù),利用其分布在廣域網(wǎng)上的大量服務(wù)器為用戶提供安全的、可靠的和高效的存儲訪問服務(wù)。P2P強調(diào)的是對等服務(wù),不區(qū)分服務(wù)器和客戶端,每個節(jié)點在索取其他節(jié)點服務(wù)的同時,也與其他節(jié)點相配合提供相同的服務(wù),每個參與節(jié)點的位置均相等。借鑒P2P技術(shù)的思想,采用高速網(wǎng)絡(luò)將普通PC機相連成一個可擴展集群存儲系統(tǒng)方案[3~B6]相對于價格昂貴的大型磁盤陣列,具有極高的性能價格比。
基于以上現(xiàn)狀,本文提出了一個基于集群的安全存儲系統(tǒng)設(shè)計[3]。在以前的研究工作中[7]解決了集群存儲系統(tǒng)的數(shù)據(jù)容錯問題。本文致力于解決集群存儲系統(tǒng)的信息安全性問題,保證存儲系統(tǒng)中的數(shù)據(jù)只被合法用戶讀寫。
1系統(tǒng)架構(gòu)
集群存儲系統(tǒng)將局域網(wǎng)內(nèi)單個PC上的存儲資源整合成具有統(tǒng)一邏輯視圖的高性能存儲系統(tǒng)。如圖1所示,系統(tǒng)中的存儲節(jié)點是一臺PC機,每個節(jié)點運行Linux操作系統(tǒng),通過局域網(wǎng)將各個節(jié)點連接起來,構(gòu)成一個存儲實體,對外提供存儲服務(wù)。圖中LAN1的主要功能是實現(xiàn)節(jié)點之間的數(shù)據(jù)備份和恢復(fù),以及節(jié)點的全局管理等;LAN2則起到用戶之間進行數(shù)據(jù)交換的作用。LAN通過高速以太網(wǎng)連接,采用通用的TCP/IP協(xié)議通信形成一個集群存儲系統(tǒng)。
在圖1的體系結(jié)構(gòu)中,本地主機上裝有存儲虛擬化的客戶端存儲代理軟件SA(storage agent)。用戶的請求由駐留在客戶端的這些SA截獲,并將請求發(fā)送給適當(dāng)?shù)拇鎯?jié)點。應(yīng)用程序訪問數(shù)據(jù)對象的步驟如下:a)將用戶可理解的數(shù)據(jù)對象的名字通過一個目錄服務(wù)器解析為數(shù)據(jù)對象的惟一標(biāo)志DOID(data object identification);b)將DOID作為偽隨機函數(shù)的種子提交給本地客戶端存儲代理SA,返回數(shù)據(jù)對象的位置;c)用戶直接與選中的存儲節(jié)點連接,完成數(shù)據(jù)的讀寫請求。
2安全存取機制
系統(tǒng)數(shù)據(jù)安全性的增強主要取決于存儲在各個節(jié)點的數(shù)據(jù)對象的安全性,只有授權(quán)的合法用戶有權(quán)存取數(shù)據(jù)。假設(shè)用戶從密鑰對象中得到了對稱加密密鑰(RC5密鑰),安全數(shù)據(jù)對象包含了足夠的信息來保護其所包含數(shù)據(jù)的保密性和完整性。這就意味著即使惡意用戶能夠得到存儲節(jié)點中的所有數(shù)據(jù),或是嗅探到所有在網(wǎng)絡(luò)上傳輸?shù)臄?shù)據(jù),仍能夠維持?jǐn)?shù)據(jù)的保密性和完整性。
2.1主要數(shù)據(jù)結(jié)構(gòu)
系統(tǒng)中主要有三個基本的數(shù)據(jù)結(jié)構(gòu),即安全數(shù)據(jù)對象包括加密的用戶數(shù)據(jù)和元數(shù)據(jù);密鑰對象與一個或一組文件相關(guān),保存各個用戶用于解密文件數(shù)據(jù)的密鑰;認(rèn)證對象存儲在每個存儲節(jié)點上,用于決定一個特定的用戶能否從一個數(shù)據(jù)對象中寫或刪除數(shù)據(jù)。
1)安全數(shù)據(jù)對象每個數(shù)據(jù)對象由兩部分組成,即用戶數(shù)據(jù)和元數(shù)據(jù),如圖2所示。用戶數(shù)據(jù)是加密存儲的。元數(shù)據(jù)包括文件id、用戶id、文件相對應(yīng)密鑰文件id。HMAC(hashed message authentication code)字段用于證明數(shù)據(jù)的完整性和鑒別用戶的合法性;IV(初始向量)用于防止相同數(shù)據(jù)在相同密鑰加密時密文相同;timestamp字段用于防止hacker用一個已經(jīng)存儲過的文件來覆蓋新的文件。
2)密鑰對象每個密鑰對象如圖3所示,包括兩種類型的信息。密鑰對象的頭部:key file id是系統(tǒng)中惟一的文件標(biāo)志;用戶標(biāo)志域(uid)是指出最后一個修改密鑰對象的用戶。當(dāng)用戶修改了密鑰對象后,對整個密鑰對象用自己的私鑰簽名,將結(jié)果存放在signature中,這種機制能夠防止非授權(quán)用戶非法修改密鑰文件。密鑰對象主體信息是一組三元組,包括uid、encrypted key和權(quán)限位。Uid不僅可以是一個用戶,還可以是幾個用戶或是一個用戶組;encrypted key是一個對稱密鑰用于加解密文件,由用戶的公鑰加密;權(quán)限位類似于UNIX系統(tǒng)的權(quán)限位。一個密鑰對象可以不僅僅對應(yīng)一個文件,也可以是一組文件,這樣這組文件都用同樣的密鑰加/解密。
3)認(rèn)證對象每個存儲節(jié)點包含一個認(rèn)證對象,如圖4所示。存儲節(jié)點利用認(rèn)證對象來鑒別用戶,作出是否授權(quán)該用戶的寫操作的判斷。KeyMAC是一個共享密鑰,以密文形式存儲,用于HMAC生成及用戶與存儲節(jié)點之間的驗證。當(dāng)存儲節(jié)點啟動時,將認(rèn)證對象調(diào)入內(nèi)存,keyMAC被解密緩存在內(nèi)存中。KeyPUB是用戶的公鑰,存儲用戶的公鑰主要是為方便查找用戶的公鑰,而不用去求助于一個集中的密鑰服務(wù)器。時戳字段在一個文件塊被寫入時更新,用于防止重演攻擊。
uidkeyPUBkeyMACtimestamp
uidkeyPUBkeyMACtimestamp
…
gidkeyPUBkeyMACtimestamp
2.2鑒別機制
系統(tǒng)的主要目標(biāo)是提供鑒別和加密的存儲服務(wù)。加密和解密由客戶端來完成,盡管不容易減少加/解密的時間開銷,但是采用對稱加密算法時間相對要快一些。目前的主要鑒別方法在安全性和速度上均有差別,最常用的是采用數(shù)字簽名機制。但是數(shù)字簽名是一個相對比較慢的操作,對用戶和存儲節(jié)點的CPU有較高的要求。本文提出一種基于密鑰的哈希散列方法來保證整個系統(tǒng)的數(shù)據(jù)完整性。與數(shù)字簽名方案相比,該方法具有相對較快的鑒別速度。
如圖5所示,在讀或?qū)懖僮鲿r,存儲節(jié)點需要完成用戶身份的鑒別。在本系統(tǒng)中,每個存儲節(jié)點存有一個認(rèn)證對象,其中存有各個用戶的用戶標(biāo)志、公鑰以及由存儲節(jié)點加密的共享鑒別密鑰所得的密文keyMAC和時戳信息。每個用戶均與存儲節(jié)點有一個共享鑒別密鑰,這個鑒別密鑰僅由用戶和存儲節(jié)點兩方知道,用來完成用戶身份的鑒別。每當(dāng)一個新用戶加入系統(tǒng)時,可以通過RSA加密機制將用戶的鑒別密鑰發(fā)送到每個存儲節(jié)點,存儲節(jié)點在收到加密的密文keyMAC之后,在認(rèn)證對象中,為該用戶添加一行信息。
在這種方案中并沒有采用數(shù)字簽名機制,而只是在寫數(shù)據(jù)時計算HMAC散列來鑒別寫者。HMAC不同于數(shù)字簽名之處,在于用戶端可以驗證一個基于密鑰的散列也可以創(chuàng)建這個散列。寫操作需要客戶端加密安全數(shù)據(jù)對象,并且計算HMAC,然后將這些信息發(fā)送給存儲節(jié)點。存儲節(jié)點使用存儲在認(rèn)證對象中的共享鑒別密鑰重新計算HMAC來鑒別發(fā)送者的身份。如果通過鑒別,客戶有權(quán)修改或創(chuàng)建安全數(shù)據(jù)對象,存儲節(jié)點完成寫操作,并更新相應(yīng)的數(shù)據(jù)結(jié)構(gòu)。注意存儲節(jié)點并不存儲HMAC。如果讀數(shù)據(jù)的用戶不是創(chuàng)建這個數(shù)據(jù)對象的用戶,那么需要重新計算一個新的HMAC。
2.3數(shù)據(jù)讀寫過程
數(shù)據(jù)的讀寫過程大致相同,首先用戶將與存儲節(jié)點共享的鑒別密鑰私鑰提供給客戶端,這可以通過要求用戶輸入密碼形式或是鑒別服務(wù)器來完成。對于每一個文件,通過文件的放置與定位算法找到相應(yīng)的存儲節(jié)點,完成存儲節(jié)點鑒別用戶的合法性。如果鑒別用戶有權(quán)對此文件讀或?qū)懖僮?,打開文件,獲得相應(yīng)的密鑰文件標(biāo)志,然后去讀密鑰文件,得到該文件的加/解密密鑰。如果是寫操作,這個密鑰用于加密數(shù)據(jù);如果是讀操作,用于解密數(shù)據(jù)。
2.4數(shù)據(jù)對象的復(fù)制機制
隨著系統(tǒng)規(guī)模的擴大,節(jié)點失效和磁盤損壞現(xiàn)象不可避免,因此考慮到數(shù)據(jù)對象的冗余是很有必要的。數(shù)據(jù)對象標(biāo)志符DOID由事先定義好的函數(shù),根據(jù)文件在其名字空間的全路徑和名字空間的標(biāo)志生成。將數(shù)據(jù)對象的全局統(tǒng)一標(biāo)志DOID作為SHA-1算法的輸入,產(chǎn)生一個160 bit的消息摘要x;將160 bit的消息摘要x分成五個32 bit偽隨機數(shù)k1~k5。如果需要更多的隨機數(shù),可以將x作為SHA-1算法的輸入,產(chǎn)生另外五個32 bit偽隨機數(shù)k6~k10。假定系統(tǒng)要求的副本數(shù)量是k,需要產(chǎn)生三倍于k的偽隨機數(shù),再根據(jù)這些偽隨機數(shù)將數(shù)據(jù)對象散列到不同的磁盤上。產(chǎn)生三倍于k的偽隨機數(shù)降低了3k個偽隨機數(shù)全部散列到同一個磁盤的概率。
2.5數(shù)據(jù)對象的修復(fù)機制
系統(tǒng)在運行一段時間后,存儲在系統(tǒng)中的數(shù)據(jù)副本可能會因為某些不可預(yù)知的原因而丟失或者被損壞,從而降低了存儲在系統(tǒng)中數(shù)據(jù)對象的可靠性。單獨使用冗余機制無法有效地提高分布式存儲系統(tǒng)中數(shù)據(jù)存儲的可靠性。對于高可靠性的存儲系統(tǒng),設(shè)計并實現(xiàn)一個簡單而且高效的修復(fù)算法相當(dāng)重要。在分布式文件存儲系統(tǒng)中存在三種基本的修復(fù)機制,即本地數(shù)據(jù)維護、被動檢測和主動掃描。文獻[8]中詳細(xì)敘述了在OceanStore中如何應(yīng)用這三種修復(fù)機制以及相應(yīng)的性能分析。
考慮到系統(tǒng)實現(xiàn)的復(fù)雜性及性能,本文設(shè)計了簡單的數(shù)據(jù)對象副本修復(fù)機制。系統(tǒng)中每個存儲節(jié)點定期掃描存儲在本地的文件元數(shù)據(jù)信息,并檢查在其他副本存儲節(jié)點上的元數(shù)據(jù)信息,在多于quorum個(包括quorum)元數(shù)據(jù)信息中找出具有最大時間戳的元數(shù)據(jù)信息,并覆蓋其他副本。
3性能分析
3.1修復(fù)算法的可行性
首先分析修復(fù)算法的可行性,包括帶寬消耗和文件的可靠性。假定副本的死亡分布服從負(fù)指數(shù)分布,即Pdeath(t)=1-eλt。其中1/λ是副本的壽命期望。下面是推導(dǎo)過程中用到的其他符號的定義:bandwidth為系統(tǒng)節(jié)點的帶寬;N為系統(tǒng)的節(jié)點數(shù)目;F/N是每個節(jié)點保存在系統(tǒng)中文件的平均數(shù)目;filesize為系統(tǒng)中文件的平均大小;uptime為每個節(jié)點每天的平均在線時間;T為系統(tǒng)的修復(fù)周期;R為一個文件的副本數(shù)。
假如沒有修復(fù),一個文件經(jīng)過T時間后它存活的可能性為Pliving(1)=1-PRdeath(T)。文件的修復(fù)是需要時間的,修復(fù)文件所需時間的上界是一個節(jié)點修復(fù)所有丟失的副本所需的時間,即T2R=(filesize×R)/bandwidth。一個節(jié)點進行修復(fù)時可能由于下線等原因?qū)е滦迯?fù)失敗,可以假定修復(fù)在上線期間是均勻進行的,則修復(fù)失敗的上限為T2r/uptime。如果修復(fù)時文件還存活,從這一時刻往前看:如果修復(fù)成功,死亡分布的無記憶性,文件將以概率1存活下去;否則,文件以Pliving(T)的概率繼續(xù)存活。由此可以得到文件存活的遞推公式:
3.2系統(tǒng)的可擴展性分析
系統(tǒng)所采用的鑒別機制中,在客戶端和存儲節(jié)點執(zhí)行的操作分工如表1所示。值得一提的是這種方案不需要產(chǎn)生簽名或驗證簽名,而在讀和寫操作時,存儲節(jié)點均要計算一次HMAC。因為加密比散列需要更長的時間,存儲節(jié)點的工作量還不到客戶端完成工作量的1/2,這將保證系統(tǒng)能夠擴展到更大規(guī)模。存儲節(jié)點的瓶頸主要是在網(wǎng)卡,因為完成散列的操作要比在100 Mbps鏈路上傳送包所花費的時間少得多。
4結(jié)束語
集群存儲是一種網(wǎng)絡(luò)存儲體系結(jié)構(gòu),本文重點介紹了構(gòu)建在該存儲體系結(jié)構(gòu)上的一種數(shù)據(jù)安全存取方案。它采用基于共享鑒別密鑰的鑒別機制,防止未授權(quán)用戶的閱讀和修改,并且對上層應(yīng)用透明。系統(tǒng)采用廣泛用于加/解密技術(shù)中的SHA-1算法作為密碼校驗函數(shù),與采用數(shù)字簽名鑒別機制相比,該算法具有較高的性能。系統(tǒng)修復(fù)機制能夠自動地修復(fù)系統(tǒng)中存在錯誤的數(shù)據(jù)對象,保證了系統(tǒng)的高可靠性。通過分析推導(dǎo),證明系統(tǒng)的自動修復(fù)機制是可行的。通過比較客戶端和存儲節(jié)點所執(zhí)行的任務(wù),存儲節(jié)點的工作量不到客戶端的一半,從而保證系統(tǒng)能夠擴展到更大規(guī)模。
第二篇:數(shù)據(jù)挖掘教學(xué)方法研究論文
摘要:在本科高年級學(xué)生中開設(shè)符合學(xué)術(shù)研究和工業(yè)應(yīng)用熱點的進階課程是十分必要的。以數(shù)據(jù)挖掘課程為例,本科高年級學(xué)生了解并掌握數(shù)據(jù)挖掘的相關(guān)技術(shù),對于其今后的工作、學(xué)習(xí)不無裨益。著重闡述數(shù)據(jù)挖掘等進階課程在本科高年級學(xué)生中的教學(xué)方法,基于本科高年級學(xué)生的實際情況,以及進階課程的知識體系特點,提出有針對性的教學(xué)方法參考,從而提高進階課程的教學(xué)效果。
關(guān)鍵詞:數(shù)據(jù)挖掘;進階課程;教學(xué)方法研究;本科高年級
學(xué)生在本科高年級學(xué)生中開設(shè)數(shù)據(jù)挖掘等進階課程是十分必要的,以大數(shù)據(jù)、數(shù)據(jù)挖掘為例,其相關(guān)技術(shù)不僅是當(dāng)前學(xué)術(shù)界的研究熱點,也是各家企事業(yè)單位招聘中重要崗位的要求之一。對于即將攻讀碩士或博士學(xué)位的學(xué)生,對于即將走上工作崗位的學(xué)生,了解并掌握一些大數(shù)據(jù)相關(guān)技術(shù),尤其是數(shù)據(jù)挖掘技術(shù),都是不無裨益的。在目前本科教學(xué)中,對于數(shù)據(jù)挖掘等課程的教學(xué),由于前序課程的要求,往往是放在本科四年級進行。如何激發(fā)本科四年級學(xué)生在考研,找工作等繁雜事務(wù)中的學(xué)習(xí)興趣,從而更好地掌握數(shù)據(jù)挖掘的相關(guān)技術(shù)是本課程面臨的主要挑戰(zhàn),也是所有本科進階課程所面臨的難題之一。
1數(shù)據(jù)挖掘等進階課程所面臨的問題
1.1進階課程知識體系的綜合性
進階課程由于其理論與技術(shù)的先進性,往往是學(xué)術(shù)研究的前沿,工業(yè)應(yīng)用的熱點,是綜合多方面知識的課程。以數(shù)據(jù)挖掘課程為例,其中包括數(shù)據(jù)庫、機器學(xué)習(xí)、模式識別、統(tǒng)計、可視化、高性能技術(shù),算法等多方面的知識內(nèi)容。雖然學(xué)生在前期的本科學(xué)習(xí)中已經(jīng)掌握了部分相關(guān)內(nèi)容,如數(shù)據(jù)庫、統(tǒng)計、算法等,但對于其他內(nèi)容如機器學(xué)習(xí)、人工智能、模式識別、可視化等,有的是與數(shù)據(jù)挖掘課程同時開設(shè)的進階課程,有的已經(jīng)是研究生的教學(xué)內(nèi)容。對于進階課程繁雜的知識體系,應(yīng)該如何把握廣度和深度的關(guān)系尤為重要。
1.2進階課程的教學(xué)的目的要求
進階課程的知識體系的綜合性體現(xiàn)在知識點過多、技術(shù)特征復(fù)雜。從教學(xué)效益的角度出發(fā),進階課程的教學(xué)目的是在有限的課時內(nèi)最大化學(xué)生的知識收獲。從教學(xué)結(jié)果的可測度出發(fā),進階課程的教學(xué)需要能夠有效驗證學(xué)生掌握重點知識的學(xué)習(xí)成果。1.3本科高年級學(xué)生的實際情況本科高年級學(xué)生需要處理考研復(fù)習(xí),找工作等繁雜事務(wù),往往對于剩余本科階段的學(xué)習(xí)不重視,存在得過且過的心態(tài)。進階課程往往是專業(yè)選修課程,部分學(xué)分已經(jīng)修滿的學(xué)生往往放棄這部分課程的學(xué)習(xí),一來沒有時間,二來怕拖累學(xué)分。
2數(shù)據(jù)挖掘等進階課程的具體教學(xué)方法
進階課程的教學(xué)理念是在有限的課時內(nèi),盡可能地提高課程的廣度,增加介紹性內(nèi)容,在授課中著重講解1~2個關(guān)鍵技術(shù),如在數(shù)據(jù)挖掘課程中,著重講解分類中的決策樹算法,聚類中的K-Means算法等復(fù)雜度一般,應(yīng)用廣泛的重要知識點,并利用實踐來檢驗學(xué)習(xí)成果。
2.1進階課程的課堂教學(xué)
數(shù)據(jù)挖掘等進階課程所涉及的知識點眾多,在課堂上則采用演示和講授相結(jié)合的方法,對大部分知識點做廣度介紹,而對需要重點掌握知識點具體講授,結(jié)合實踐案例及板書。在介紹工業(yè)實踐案例的過程中,對于具體數(shù)據(jù)挖掘任務(wù)的來龍去脈解釋清楚,尤其是對于問題的歸納,數(shù)據(jù)的處理,算法的選擇等步驟,并在不同的知識點的教學(xué)中重復(fù)介紹和總結(jié)數(shù)據(jù)挖掘的一般性流程,可以加深學(xué)生對于數(shù)據(jù)挖掘的深入理解。對于一些需要記憶的知識點,在課堂上采用隨機問答的方式,必要的時候可以在每堂課的開始重復(fù)提問,提高學(xué)習(xí)的效果。
2.2進階課程的課后教學(xué)
對于由于時間限制無法在課上深入討論的知識點,只能依靠學(xué)生在課后自學(xué)掌握。本科高年級學(xué)生的課后自學(xué)的動力不像低年級學(xué)生那么充足,可以布置需要動手實踐并涵蓋相關(guān)知識點的課后實踐,但盡量降低作業(yè)的工程量。鼓勵學(xué)生利用開源軟件和框架,基于提供的數(shù)據(jù)集,實際解決一些簡單的數(shù)據(jù)挖掘任務(wù),讓學(xué)生掌握相關(guān)算法技術(shù)的使用,并對算法有一定的了解。利用學(xué)院與大數(shù)據(jù)相關(guān)企業(yè)建立的合作關(guān)系,在課后通過參觀,了解大數(shù)據(jù)技術(shù)在當(dāng)前企業(yè)實踐中是如何應(yīng)用的,激發(fā)學(xué)生的學(xué)習(xí)興趣。
2.3進階課程的教學(xué)效果考察進階課程的考察不宜采取考試的形式,可以采用大作業(yè)的形式。從具體的數(shù)據(jù)挖掘?qū)嵺`中檢驗教學(xué)的成果,力求是學(xué)生在上完本課程后可以解決一些簡單的數(shù)據(jù)挖掘任務(wù),將較復(fù)雜的數(shù)據(jù)挖掘技術(shù)的學(xué)習(xí)留給學(xué)生自己。
3結(jié)語
數(shù)據(jù)挖掘是來源于實踐的科學(xué),學(xué)習(xí)完本課程的學(xué)生需要真正理解,掌握相關(guān)的數(shù)據(jù)挖掘技術(shù),并能夠在實際數(shù)據(jù)挖掘任務(wù)中應(yīng)用相關(guān)算法解決問題。這也對教師的教學(xué)水平提出了挑戰(zhàn),并直接與教師的科研水平相關(guān)。在具體的教學(xué)過程中,發(fā)現(xiàn)往往是在講授實際科研中遇到的問題時,學(xué)生的興趣較大,對于書本上的例子則反映一般。進階課程在注重教學(xué)方法的基礎(chǔ)上,對于教師的科研水平提出了新的要求,這也是對于教師科研的反哺,使教學(xué)過程變成了教學(xué)相長的過程。
參考文獻:
[1]孫宇,梁俊斌,鐘淑瑛.面向工程的《數(shù)據(jù)挖掘》課程教學(xué)方法探討[J].現(xiàn)代計算機,2014(13).[2]蔣盛益,李霞,鄭琪.研究性學(xué)習(xí)和研究性教學(xué)的實證研究———以數(shù)據(jù)挖掘課程為例[J].計算機教育,2014(24).[3]張曉芳,王芬,黃曉.國內(nèi)外大數(shù)據(jù)課程體系與專業(yè)建設(shè)調(diào)查研究[C].2ndInternationalConferenceonEducation,ManagementandSocialScience(ICEMSS2014),2014.[4]郝潔.《無線傳感器網(wǎng)絡(luò)》課程特點、挑戰(zhàn)和解決方案[J].現(xiàn)代計算機,2016(35).[5]王永紅.計算機類專業(yè)剖析中課程分析探討[J].現(xiàn)代計算機,2011(04).
第三篇:Web數(shù)據(jù)研究與應(yīng)用論文
1知如何能夠投其所好,為用戶實現(xiàn)主動推薦,提供個性化服務(wù);這些都是電子商務(wù)成敗的關(guān)鍵問題。在這種新型的商務(wù)模式下,如何對網(wǎng)絡(luò)上大量的信息進行有效組織利用,幫助海量數(shù)據(jù)的擁有者們找出真正有價值的信息和知識,以指導(dǎo)他們的商業(yè)決策行為,成為電子商務(wù)經(jīng)營者關(guān)注的問題。迅速發(fā)展的基于Web的數(shù)據(jù)挖掘技術(shù),為解決電子商務(wù)所面臨的問題提供了有效途徑。Web數(shù)據(jù)挖掘
2.1 Web數(shù)據(jù)挖掘概述
數(shù)據(jù)挖掘(Data Mining)是從大量的、不完全的、有噪聲的、模糊的和隨機的數(shù)據(jù)中提取人們事先不知道的、潛在有用的信息和知識的非平凡過程。
Web數(shù)據(jù)挖掘(Web Mining)是從Web文檔和Web活動中抽取感興趣的、潛在的有用模式和隱藏的信息,是數(shù)據(jù)庫、數(shù)據(jù)挖掘、人工智能、信息檢索、自然語言理解等技術(shù)的綜合應(yīng)用,是在一定基礎(chǔ)上應(yīng)用數(shù)據(jù)挖掘的方法以發(fā)現(xiàn)有用的知識來幫助人們從004km.cnputer processing of Oriental Languages,2003,16(2).
第四篇:大數(shù)據(jù)時代管理會計研究論文
一、大數(shù)據(jù)時代
1.大數(shù)據(jù)。大數(shù)據(jù)原來是計算機領(lǐng)域處理信息的一種方法。為了得到更精確的結(jié)果,大數(shù)據(jù)采納了很多看起來毫無關(guān)聯(lián)的信息,比如天氣、溫度等,構(gòu)成了龐大繁雜的數(shù)據(jù)庫。這些信息平均價值較低,利用新的處理模式刪繁就簡,實現(xiàn)高效準(zhǔn)確的目的,于是大數(shù)據(jù)便發(fā)展成為一種新的信息處理模式,它包括海量的、高增長率的和多樣化的信息資產(chǎn),且具有更強的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力。大數(shù)據(jù)時代最大的轉(zhuǎn)變就是關(guān)注相關(guān)關(guān)系而不是因果關(guān)系,即只需要結(jié)果,而不需要理清其中的聯(lián)系,這顛覆了人們的思維習(xí)慣,對收集信息、管理信息和預(yù)測信息等方面提出了新的挑戰(zhàn)。
2.云計算。云計算是大數(shù)據(jù)的主要運算方法之一,也是支撐大數(shù)據(jù)的平臺,它可以挖掘出紛繁復(fù)雜、價值低廉的數(shù)據(jù)群下的真實價值。云計算由不同研究機構(gòu)共同開發(fā),普遍被認(rèn)為是一個由虛擬資源構(gòu)成的資源池,通過互聯(lián)網(wǎng)向外按需提供資源,其主要特點是多用戶共享、大數(shù)據(jù)處理與大數(shù)據(jù)儲存。云計算是在原有的并行計算和分布式計算等多種技術(shù)的基礎(chǔ)上進化而來,成熟度高,可靠性強,具備廉價和高效的優(yōu)點。
二、大數(shù)據(jù)時代的管理會計
管理會計的任務(wù)是將財務(wù)會計所記錄的總賬和報表等資料進行加工處理,使高層管理人員能夠?qū)θ粘;顒舆M行規(guī)劃、控制和決策。管理會計是對未來的規(guī)劃,側(cè)重于對未來的預(yù)測,相對于財務(wù)會計來說更依賴對數(shù)據(jù)、尤其是大數(shù)據(jù)的處理分析。管理會計大致可分為對經(jīng)營預(yù)測、決策和長期投資決策的預(yù)期效果綜合分析的“決策會計”和為了提高預(yù)期決策效率而進行的預(yù)算管理、責(zé)任會計、成本控制和績效評價的“執(zhí)行會計”。大數(shù)據(jù)時代大大擴展了管理會計的各項職能。
1.經(jīng)營預(yù)測。傳統(tǒng)的經(jīng)營預(yù)測存在偏差的最大原因是信息不對稱,很多信息沒有被利用或量化。大數(shù)據(jù)時代,可利用計算機、互聯(lián)網(wǎng)和云計算將巨量數(shù)據(jù)的信息載體處理成為簡單準(zhǔn)確的所需信息呈現(xiàn)在面前,只要挖掘數(shù)據(jù),即可得出預(yù)測結(jié)果?;ヂ?lián)網(wǎng)時代,人們習(xí)慣于在網(wǎng)上搜尋自己需求的信息,這就在網(wǎng)上留下了文本、音頻、視頻等瀏覽記錄。這些記錄之間缺乏邏輯與結(jié)構(gòu)的聯(lián)系,所以被稱為“非結(jié)構(gòu)性數(shù)據(jù)”。管理會計可通過云計算處理這些“非結(jié)構(gòu)性數(shù)據(jù)”,并利用計算結(jié)果進行經(jīng)營預(yù)測。
2.全面預(yù)算管理。預(yù)算管理既將企業(yè)制定的經(jīng)營目標(biāo)以貨幣形式表現(xiàn)出來,也將企業(yè)整體目標(biāo)拆分開來落實到每個部門和員工。大數(shù)據(jù)時代,預(yù)算人員面對復(fù)雜的巨量數(shù)據(jù)和動態(tài)實時的預(yù)算要求,需要將預(yù)算管理系統(tǒng)與大數(shù)據(jù)結(jié)合。
2.1大數(shù)據(jù)時代下的預(yù)算是動態(tài)、實時的。在編寫預(yù)算時,所有預(yù)算項目會經(jīng)審批后儲存進云端,在執(zhí)行預(yù)算時,云會計下的系統(tǒng)可以利用云端上新增的數(shù)據(jù)同步計算出實際與預(yù)算的差異,并可調(diào)整預(yù)算。
2.2有力的數(shù)據(jù)分析軟件使預(yù)算系統(tǒng)更加及時。應(yīng)用多維數(shù)據(jù)分析技術(shù),大數(shù)據(jù)下的預(yù)算系統(tǒng)可以很好的支持巨量數(shù)據(jù)的及時分析。
2.3預(yù)算的編寫更加智能。大數(shù)據(jù)下的預(yù)算系統(tǒng),可以先由IT部門制作標(biāo)準(zhǔn)模型和參數(shù)表,將它們與預(yù)算模塊中的具體數(shù)據(jù)建立動態(tài)聯(lián)系,再由預(yù)算管理人員通過自定義計算功能實現(xiàn)預(yù)算模塊各個數(shù)據(jù)之間的聯(lián)系,并且預(yù)算人員可以自己編寫、維護和更新業(yè)務(wù)規(guī)則,使預(yù)算要求更加明確有效的反映到預(yù)算模塊中。
3.績效評價??冃гu價系統(tǒng)的關(guān)鍵績效指標(biāo)是衡量員工工作的量化指標(biāo),其設(shè)定應(yīng)遵循具體、可度量、可實現(xiàn)、現(xiàn)實性和時限性五個原則,實際設(shè)計時容易出現(xiàn)偏差。應(yīng)用大數(shù)據(jù)系統(tǒng)可以解決其中一些問題。
3.1可度量原則可能導(dǎo)致的關(guān)鍵指標(biāo)遺漏??啥攘吭瓌t是指績效指標(biāo)應(yīng)是數(shù)量化或行為化的,過分追求量化指標(biāo)往往導(dǎo)致關(guān)鍵績效指標(biāo)遺漏。應(yīng)用大數(shù)據(jù)系統(tǒng),設(shè)計者可以在云端獲得形式多樣的間接反映績效的數(shù)據(jù),量化充分即可避免關(guān)鍵指標(biāo)的遺漏。
3.2現(xiàn)實性原則可能導(dǎo)致的指標(biāo)偏離?,F(xiàn)實性原則是指績效指標(biāo)的考察是現(xiàn)實可行的,而在操作時,設(shè)計者可能常為節(jié)省考核費用而忽略考察成本較高的指標(biāo),導(dǎo)致考核結(jié)果偏離戰(zhàn)略目標(biāo)。大數(shù)據(jù)系統(tǒng)下,大量數(shù)據(jù)的收集唾手可得,很多指標(biāo)的測定變得不再復(fù)雜昂貴,既可以通過委托專門的研究中心計算所需指標(biāo),也可以租用經(jīng)濟高效的虛擬服務(wù)器自己計算指標(biāo),成本低,更加符合現(xiàn)實性原則。
3.3時限原則可能導(dǎo)致的考核過于注重短期利益。時限原則是指指標(biāo)的完成應(yīng)在特定期限內(nèi),不能遙遙無期,這導(dǎo)致員工過于注重短期利益,對企業(yè)長期經(jīng)營不利。大數(shù)據(jù)是站在巨量數(shù)據(jù)之上進行分析的,數(shù)據(jù)基數(shù)很大,考量因素很多,有更大的把握對復(fù)雜和長遠(yuǎn)的投資進行預(yù)測,在一定程度上避免短視行為。
三、挑戰(zhàn)
大數(shù)據(jù)和云計算尚未引起普遍重視。麥肯錫公司2013年調(diào)查顯示,只有49%的高管關(guān)注大數(shù)據(jù)的發(fā)展,很多中小企業(yè)忽視對大數(shù)據(jù)的關(guān)注。這無疑會影響大數(shù)據(jù)的推廣應(yīng)用,落后企業(yè)也會因此增加機會成本與時間成本。大數(shù)據(jù)的信息真實性越來越被重視。大數(shù)據(jù)的引進,對外部信息和內(nèi)部信息真實性均提出了更高的標(biāo)準(zhǔn),這對目前還未做到公開透明的企業(yè)來說是個挑戰(zhàn)。大數(shù)據(jù)系統(tǒng)的處理技術(shù)尚不令人滿意。例如,處理非結(jié)構(gòu)化數(shù)據(jù)時,在轉(zhuǎn)化成結(jié)構(gòu)化數(shù)據(jù)的途中可能會產(chǎn)生意思曲解和信息遺漏;目前處理巨量數(shù)據(jù)較為成熟的Hadoop體系的應(yīng)用門檻較高,不利于大數(shù)據(jù)系統(tǒng)的推廣;網(wǎng)絡(luò)容量有限,儲存成本較高。信息和網(wǎng)絡(luò)安全問題的挑戰(zhàn)日益嚴(yán)重。一方面是企業(yè)取得的信息是否合法,是否尊重了客戶的隱私權(quán)。另一方面是企業(yè)能否保護好客戶的資料,不被竊取。網(wǎng)絡(luò)水平的快速發(fā)展與網(wǎng)絡(luò)高手的層出不窮,信息和網(wǎng)絡(luò)安全愈發(fā)重要。熟練掌握大數(shù)據(jù)處理技術(shù)的人才不足。企業(yè)需要能夠熟練應(yīng)用大數(shù)據(jù)工具的管理會計人才,只有通過他們專業(yè)解讀和提煉大數(shù)據(jù)系統(tǒng)處理得到的最終信息,管理層才能得到有利于經(jīng)營管理的信息,才能做出合理可行的決策。目前,這類人才嚴(yán)重缺少。
四、建議
1.大力宣傳和推廣大數(shù)據(jù)系統(tǒng),普及大數(shù)據(jù)和云計算知識,推動大數(shù)據(jù)時代的健康發(fā)展。
2.國家應(yīng)著重提升全民的計算機素質(zhì),鼓勵參與國家大型分布式計算項目,發(fā)展大數(shù)據(jù)計算技術(shù)。分布式計算項目是將一個超大型計算項目分解成可在單個電腦上計算的小塊兒,每一個擁有電腦的人只需下載正規(guī)軟件,即可參與其中。
3.高度重視云安全,不僅要建立殺毒系統(tǒng)保護信息免受侵害,還要在信息共享時注意混合云中數(shù)據(jù)的所有權(quán)問題,推廣使用分裂密鑰加密等技術(shù)對機密數(shù)據(jù)進行保護。
4.加大培養(yǎng)管理會計人才的力度,鼓勵使用大數(shù)據(jù)工具。逐步培養(yǎng)可以綜合掌握數(shù)學(xué)、統(tǒng)計學(xué)、計算機等多方面知識的復(fù)合型人才,提高管理會計的數(shù)據(jù)分析與挖掘能力,適應(yīng)大數(shù)據(jù)時代的變化。
第五篇:臨沂五金機械產(chǎn)業(yè)集群發(fā)展數(shù)據(jù)分析
臨沂五金機械產(chǎn)業(yè)集群發(fā)展數(shù)據(jù)分析 河?xùn)|區(qū)五金制造產(chǎn)業(yè)發(fā)展較早,早期以生產(chǎn)剪刀、錘子、翻砂聞名。改革開放后,九曲的三官廟、柳杭頭,太平的陳莊子等村莊就以生產(chǎn)的五金加工產(chǎn)品質(zhì)優(yōu)、價廉、品種多樣而贏得了良好的市場信譽。據(jù)初步統(tǒng)計,目前全區(qū)五金制造業(yè)發(fā)展到590家,加工業(yè)戶2100個,五金加工專業(yè)村30多個,從業(yè)人員近2萬多人,品種上千種,產(chǎn)品主要出口東南亞、非洲等三十多個國家和地區(qū)。2009年,五金機械產(chǎn)業(yè)完成產(chǎn)值100億元,收入98億元,利稅4.8億元,占全區(qū)工業(yè)的比重在35%左右,其中規(guī)模以上企業(yè)41家,實現(xiàn)產(chǎn)值40億元,從業(yè)人員7000人,利稅1.8億元,占五金產(chǎn)業(yè)集群的38.9%。被中國五金制品加工協(xié)會授予“中國五金產(chǎn)業(yè)工貿(mào)城”榮譽稱號。
資料顯示,山東蒙凌集團公司是集科研、鑄造、機械加工、裝配為一體的國家級新技術(shù)企業(yè),企業(yè)總資產(chǎn)5.2億元,職工2000人,其中,工程技術(shù)人員280余人。年產(chǎn)工程機械1100余臺套,年鑄造能力10萬噸,產(chǎn)品達100多個品種。2009年實現(xiàn)產(chǎn)值14億元,利稅1.3億元。該公司生產(chǎn)的“蒙凌”牌建筑扣件獲省科學(xué)進步二等獎,利用消失模技術(shù)生產(chǎn)的大型變速箱體獲國家專利,填補了國內(nèi)空白,被國家科技部列為國家火炬計劃項目。自主研發(fā)出低合金高強度汽車橋殼和消失模鑄造大型變速箱等4項產(chǎn)品獲國家發(fā)明專利,3個產(chǎn)品獲國家級重點新產(chǎn)品命名。2008年,投資1.2億元新上新型“V”法鑄造生產(chǎn)線,并從美國哈斯公司等引進了多套生產(chǎn)設(shè)備,項目建設(shè)完成后,可新增鑄造生產(chǎn)能力10萬噸,實現(xiàn)利稅7000萬元。
山東啟陽工具有限公司是一家開發(fā)和制造手動立式油壓千斤頂?shù)膶I(yè)企業(yè),占地14000平方米,建筑面積8000平方米,固定資產(chǎn)5500萬元,流動資金3000萬元,有固定員工560人,各類技術(shù)人員占18%,年產(chǎn)量達500萬臺,形成DYL、QYD兩大系列,多種規(guī)格,并可滿足客戶來樣來圖產(chǎn)品的特殊需要。2009年實現(xiàn)產(chǎn)值1億元元,利稅740萬元,公司在1999年通過了全國工業(yè)產(chǎn)品生產(chǎn)許可證和出口機電產(chǎn)品質(zhì)量許可證的驗收辦理,采用ISO9001國際標(biāo)準(zhǔn)控制產(chǎn)品質(zhì)量。公司以高質(zhì)量的產(chǎn)品,優(yōu)質(zhì)的服務(wù)立足國內(nèi)遠(yuǎn)銷國外。山東啟陽工具有限公司與上海啟陽千斤頂廠合作投資新建年產(chǎn)40萬臺臥式千斤頂項目,總投資5100萬元,占地面積69畝。項目建成投產(chǎn)后,年可實現(xiàn)銷售收入12680萬元,稅后利潤1748萬元,新增職工360人,推動當(dāng)?shù)亟?jīng)濟飛速增長。