第一篇:大數據環(huán)境下的數據安全性探討
大數據環(huán)境下的數據安全性探討
學號:E41314059 姓名:李俊梅 專業(yè):信息安全
一.引言
隨著互聯(lián)網、物聯(lián)網、云計算等新興技術的高速發(fā)展,各種智能終端、社交網絡服務的大量涌現(xiàn),全球數據量出現(xiàn)了巨幅增長。據相關數據統(tǒng)計,僅在2011年就達到1.8萬億GB?;ヂ?lián)網數據中心預計到2020年全球數據將翻50倍。顯而易見,真正的大數據時代已經到來。一方面,云計算技術的成熟,為這些多樣化的數據提供了存儲和運算的平臺。與此同時,數據挖掘和人工智能等技術為大數據時代提供了信息參考,大數據的快速發(fā)展進一步擴大信息的開放程度,但是隨之而帶來的數據的安全性,防止數據泄露和保障數據安全已經成為我們研究的課題
二.大數據的概念與特征
大數據本身是一個較為抽象的概念,我們從表面上理解規(guī)模龐大的數據,但是隨著應用的越來越廣泛,對大數據研究越來越深,可以發(fā)現(xiàn)大數據不僅是在數量規(guī)模上龐大,而且還包括數據結構相當復雜,數據與數據之間的關聯(lián)程度相當高。大數據是需要新處理模式才能具有更強的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長率和多樣化的信息資產。當前,普遍較為統(tǒng)一對大數據特征的認識可以用4V來表達:數據規(guī)模大(Volume),數據種類多(Varity),數據要求處理速度快(Velocity),數據價值密度低(Value),概括為所謂的四V特性。這些特征讓大數據即區(qū)別與傳統(tǒng)的數據概念,又體現(xiàn)出大數據的復雜。大數據除了有四個特性之外,大數據時代的數據還呈現(xiàn)出其他三個特征。第一個特征是數據類型繁多。第二個特征是數據價值密度相對較低。第三個特征是處理速度快,時效性要求高。這是大數據區(qū)分于傳統(tǒng)數據挖掘最顯著的特征。
三.大數據面臨的安全挑戰(zhàn)
大數據的廣泛應用注定了大數據的安全保衛(wèi)戰(zhàn)必須是持久戰(zhàn)。在大數據時代,各種智能終端、互聯(lián)網社交服務和各種數字化存儲無處不在。不得不承認,大數據已經遍布各行各業(yè),互聯(lián)網的高速發(fā)展使得獲得數據十分便利,同時也給信息安全帶來了巨大的挑戰(zhàn)。當前,數據安全的形勢也不容樂觀,需要保護的數據量增長已經超過了數據總量的增長。首先個人隱私很容易通過互聯(lián)網泄露,隨著社交網絡、電子商務的興起,們之間的聯(lián)系越來越依賴網絡,個人的信息會分散在不同的網絡位置,只要將個人的相關數據聚集起來分析,就可以很容易獲取個人的相關信息,從而分析出個人的隱私數據。上升到國家層面,大數據也可能給國家安全帶來隱患。但是在網絡高速發(fā)展的今天,如果在大數據處理技術方面落后的話,就可能導致數據的單向性。一些發(fā)達國家諸如美國已經開始大數據研發(fā)計劃,大數據技術的發(fā)展和完善有助于增強國家數據的安全性。其次,網絡普及化使大數據極易受到攻擊。網絡的高速發(fā)展,各個行業(yè)領域利用大數據技術能實現(xiàn)彼此資源共享和數據互通。加之云計算技術的普及,為大數據提供了一個開放的環(huán)境,將分布在不同區(qū)域的資源進行快速整合,智能化分配,從而實現(xiàn)數據資源的共享。正因為大數據處于一個開放的環(huán)境中,吸引黑客對其中的有價值的數據感興趣,比如個人的銀行賬戶信息等成為主要攻擊目標。也就是說,在當今開放的網絡化社會,大數據的本身數據量龐大,而且數據之間關聯(lián)性強,對于黑客而言,只要付出相對低的成本,就可以獲得巨大的收益。再次,數據的非結構化對大數據存儲提出新要求。在大數據之前,數據存儲一般分為關系型數據庫和文件服務器兩種。而相對于當前的大數據來說,數據類型的多樣化也使我們措手不及。如今大數據一般都采用NoSQL數據庫存儲技術,該技術具有可擴展性和可用性等優(yōu)點,但該技術仍然存在諸多漏洞,沒有內置足夠的安全性。所以時常會發(fā)生類似于身份驗證、輸入驗證等大量安全問題。最后,計算機技術的發(fā)展也增加了安全風險。隨著計算機網絡技術的發(fā)展,各種服務器、防火墻、無線路由等網絡設備的更新普及,數據挖掘等新興技術越來成熟,為大數據智能化采集以及智能化數據分析性提供極大的方便。但是,我們也必須注意到一個問題就是技術的快速發(fā)展也會相應地增加了大數據的安全風險。一方面,從大數據本身的安全性來說,自身的防護也有不完善的地方,存在著漏洞。雖然云計算對大數據提供極大的方便,但云畢竟是一個開放的環(huán)境,對大數據的安全性無法提供最大的保證;API(Application Programming Interface,應用程序編程接口)訪問安全權限控制以及密鑰生成、存儲技術和數據管理方面的不足都有造成數據泄漏的可能。同時大數據他本身可以成為一個可持續(xù)攻擊的載體,有大量的惡意代碼存在其中很難被發(fā)現(xiàn),從而達到持續(xù)隱藏性攻擊的目的。另一方面,黑客攻擊的技術也在逐步提高,數據挖掘和數據分析技術的原理被黑客利用作為攻擊的主要技術。
四.大數據安全策略
4.1 大數據存儲安全策略
基于云計算架構的大數據,數據的存儲和操作都是以服務的形式提供。目前,大數據的安全存儲采用虛擬化海量存儲技術來存儲數據資源,涉及數據傳輸、隔離、恢復等的問題。解決大數據的安全存儲,一是數據加密。在大數據安全服務的設計中,大數據可以按照數據安全存儲的需求,被存儲在數據集的任何存儲空間,通過SSL(安全套接層)加密,實現(xiàn)數據集的節(jié)點和應用程序之間移動保護大數據。在大數據的傳輸服務過程中,加密為數據流的上傳與下載提供有效的保護。應用隱私保護和外包數據計算,屏蔽網絡攻擊。二是分離密鑰和加密數據,使用加密把數據使用與數據保管分離,把密鑰與要保護的數據隔離開。同時,定義產生、存儲、備份、恢復等密鑰管理生命周期。三是使用過濾器。通過過濾器的監(jiān)控,一旦發(fā)現(xiàn)數據離開了用戶的網絡,就自動阻止數據的再次傳輸。四是數據備份。通過系統(tǒng)容災、敏感信息集中管控和數據管理等產品,實現(xiàn)端對端的數據保護,確保大數據損壞情況下有備無患和安全管控。4.2 大數據應用安全策略
隨著大數據應用所需的技術和工具快速發(fā)展,大數據應用安全策略主要從以下幾方面著手:一是防止APT攻擊。借助大數據處理技術,針對APT安全攻擊隱蔽能力強、長期潛伏、攻擊路徑和渠道不確定等特征,設計具備實時檢測能力與事后回溯能力的全流量審計方案,提醒隱藏有病毒的應用程序。二是用戶訪問控制。根據大數據的密級程度和用戶需求的不同,將大數據和用戶設定不同的權限等級,并嚴格控制訪問權限。而且,通過單點登錄的統(tǒng)一身份認證與權限控制技術,對用戶訪問進行嚴格的控制,有效地保證大數據應用安全。三是整合工具和流程。整合點平行于現(xiàn)有的連接的同時,減少通過連接企業(yè)或業(yè)務線的SIEM工具的輸出到大數據安全倉庫,以防止這些被預處理的數據被暴露算法和溢出加工后的數據集。同時,通過設計一個標準化的數據格式簡化整合過程,同時也可以改善分析算法的持續(xù)驗證。四是數據實時分析引擎。數據實時分析引擎融合了云計算、機器學習、語義分析、統(tǒng)計學等多個領域,通過數據實時分析引擎,從大數據中第一時間挖掘出黑客攻擊、非法操作、潛在威脅等各類安全事件,第一時間發(fā)出警告響應。
4.3 大數據管理安全策略
通過技術措施來保護大數據的安全必然重要,但管理也很關鍵。大數據的管理安全策略主要有:一是規(guī)范建設。大數據建設是一項有序的、動態(tài)的、可持續(xù)發(fā)展的系統(tǒng)工程,一套規(guī)范的運行機制、建設標準和共享平臺建設至關重要。規(guī)范化建設可以促進大數據管理過程的正規(guī)有序,實現(xiàn)各級各類信息系統(tǒng)的網絡互連、數據集成、資源共享,在統(tǒng)一的安全規(guī)范框架下運行。二是建立以數據為中心的安全系統(tǒng)?;谠朴嬎愕拇髷祿鎯υ谠乒蚕憝h(huán)境中,為了大數據的所有者可以對大數據使用進行控制,可以通過建設一個基于異構數據為中心的安全方法,從系統(tǒng)管理上保證大數據的安全。三是融合創(chuàng)新。大數據是在云計算的基礎上提出的新概念,大數據時代應以智慧創(chuàng)新理念融合大數據與云計算,以智能管道與聚合平臺為基礎,提升數據流量規(guī)模、層次及內涵,在大數據流中提升知識價值洞察力。積極創(chuàng)造大數據公司技術融合平臺,尋找數據洪流大潮中新的立足點,特別是在數據挖掘、人工智能、機器學習等新技術的創(chuàng)新應用融合創(chuàng)新。
五.結束語
大數據是信息化時代的“石油”。大數據轉化為信息和知識的速度與能力將成為這個時代的核心競爭力之一,而大數據面臨的安全挑戰(zhàn)卻不容忽視。只有大數據技術和大數據安全“兩條腿”走路時,大數據才可以真正成為這個時代的驅動力量。
第二篇:大數據環(huán)境下初中信息技術教學淺議
大數據環(huán)境下初中信息技術教學淺議
【摘 要】作為社會最前沿的技術,信息技術在時代進步過程中不斷發(fā)展。培養(yǎng)學生對信息技術的興趣和意識,讓學生掌握處理信息的基本技能,是初中信息技術課的主要目標。那么教學實踐中如何踐行這一目標呢?筆者通過本文簡談之。
【關鍵詞】初中;信息技術;教育教學
信息技術由于具有較強的實用性和實踐性,已經被納入到中學素質教育中,并以培養(yǎng)學生計算機知識應用能力為主要目標。隨著大數據時代的到來,中學信息技術教學既獲得了機遇又需面對挑戰(zhàn),而怎樣在機遇和挑戰(zhàn)中提升教學有效性、改善教學現(xiàn)狀,成為每個中學信息技術教師需要思考的問題。那么如何實施信息技術的教學呢?
一、注重培養(yǎng)學生的信息素養(yǎng)
在信息化社會的今天,信息素養(yǎng)已成為科學素養(yǎng)的重要構成部分。迅速地篩選和獲取信息、準確地鑒別信息、創(chuàng)造性地加工和處理信息,將是所有社會成員應具備的、如同“讀、寫、算”一樣重要的,終生有用的基礎能力之一。對于21世紀的學生來講,我們應努力培養(yǎng)他們基本的“信息素養(yǎng)”。
1.獲取信息的能力。能夠根據自己的學習要求,主動地、有目的地去發(fā)現(xiàn)信息,并能通過各種媒體,如互聯(lián)網、書籍、報紙、電視等,或者自己親自調查、參觀等,收集到所需要的信息。
2.分析信息的能力。能夠將豐富的獲取到的信息進行篩選鑒別自己所需要的信息,判斷它的可信度,然后對認為真實有用的信息進行分類。
3.加工信息的能力。將不同渠道獲取的同一類信息進行綜合,結合自己原有的知識,重新整理組織、存儲,并能夠簡潔明了地傳遞給他人。
4.利用信息的能力。利用所掌握的信息,使用信息技術或其他手段,分析、解決生活和學習中的各種實際問題。
我們要充分利用學校教學的優(yōu)勢,通過各種形式的教育,使學生將上述信息的獲取、分析、加工、利用等能力,內化為自身的思維習慣和行為方式。而在所有形式的教育中,創(chuàng)設一個在實際生活學習中使用信息技術解決問題的學習環(huán)境,是培養(yǎng)學生“信息素養(yǎng)”的關鍵。
二、注重學習興趣的培養(yǎng)
教育家蘇姆林斯基曾說過:“學習興趣是學習活動的重要動力。”學習興趣是學生基于自己的學習需要而表現(xiàn)出來的一種認識傾向,它在學生的學習中具有重要的作用。開始學習信息技術課時學生往往懷著好奇、興奮的心理,但隨著學習內容的深入,有的內容需要機械重復地訓練,有的內容枯燥無味難度大,這樣學生的學習熱情就會慢慢降下來。根據建構意義新的學習理論,教師應由知識的傳授者、灌輸者轉變?yōu)閷W生主動建構意義的幫助者、促進者,要充分激發(fā)學生的學習興趣,幫助他們形成正確的學習動機。因此,教師要采取靈活多樣的教學方式,激發(fā)學生的學習興趣和主動探索的愿望。
三、培養(yǎng)學生的創(chuàng)新意識和創(chuàng)新能力
當今世界正在進入知識經濟時代,知識的不斷創(chuàng)新,高科技的迅速產業(yè)化,使得經濟持續(xù)增長。而在這一時代,起核心作用的是知識創(chuàng)新,它是技術創(chuàng)新的基礎,是技術進步和經濟增長的革命性力量。因此二十一世紀需要的是有創(chuàng)新意識、具有創(chuàng)新精神和創(chuàng)新能力的人才。這就要求教育者,在教育過程中注重開發(fā)學生的創(chuàng)造潛力,鼓勵啟發(fā)學生主動思考,善于思考,學會獨立思考,突出創(chuàng)新意識的培?B,強調創(chuàng)新能力的提高。
培養(yǎng)學生的創(chuàng)新意識和創(chuàng)新能力,首先要為學生創(chuàng)造盡可能多的環(huán)境和機會,給學生留有更多的思維空間,不須面面俱到,包辦學生所做的一切。只有在自主學習的環(huán)境里,學生才有可能發(fā)揮創(chuàng)造性,體驗創(chuàng)新的樂趣。例如:在講WORD圖文混排時,需要用到繪圖工具欄,我只是把工具欄上重點工具,如陰影、三維效果、填充、自選圖形等提示了一下,具體的操作留給學生自己完成。學生們憑著他們敏銳的觀察,豐富的想象,做出了一幅幅好的作品。后來我對幾副想象力豐富的作品給予了表揚,課堂氣氛達到了高潮。在親自實踐的過程中,他們的創(chuàng)新意識和創(chuàng)新能力得到了充分的體現(xiàn)。
四、注重與其他學科的整合
信息技術課程的目的之一就是培養(yǎng)學生獲取信息、處理信息的能力,而相應的信息應是與中小學生各科的學習內容相關的知識,這就產生了信息技術課程如何與其他學科課程整合的問題。課程整合是指用不同課程的素材和能力整合在一起,使學習的目標處于一個具體的,現(xiàn)實的情況,要求用到多種知識和能力?,F(xiàn)代教育引入了以計算機為主的信息技術教學手段,提出了以超媒體方式組織教學信息的思想,這就為信息技術課程與其它學科課程的整合提供了理論基礎和技術手段。
將中小學信息技術課程與其他課程整合,就是以其他學科知識的學習作為載體,把信息技術課程作為工具和手段滲透到其他學科的教學中去,從而在學習信息技術課程的同時,又能培養(yǎng)學生解決其他學科問題的綜合能力。結合初一語文教學,我校采用的“計算機與語文識字教學整合”就是一個比較成功的例子。它主要是利用多媒體識字教學軟件,讓學生觀看生字的筆畫、筆順、部首、間架結構、正確讀音和漢字編碼,同時跟隨教學軟件進行聽、說、讀、寫、打(打字)的訓練,通過人機交互進行自我學習、自我檢查和自我提高。
五、注重青少年信息道德的培養(yǎng)
在信息技術蓬勃發(fā)展之際,人們往往只看到了它所帶來的巨大利益,而忽視了信息技術中某些不利因素給青少年成長造成的干擾和不良影響。例如:在互聯(lián)網上除了大量豐富的學科知識外,也有許多不健康的內容,有時還有計算機犯罪,計算機病毒肆虐等,而這些正是信息技術教育中容易忽略的問題。因此在學習網絡這一章時,我不僅要講解因特網的優(yōu)秀之處,而且不斷向學生滲透思想品德教育,培養(yǎng)學生健康的信息意識和信息倫理道德。
六、總結
隨著信息社會的發(fā)展,教育信息化的實現(xiàn),對教育既是機遇又是挑戰(zhàn),從培養(yǎng)模式上提出了更高的要求。在培養(yǎng)目標上,要求德智體美全面發(fā)展,具有高度創(chuàng)新能力和使用信息化手段能力;在培養(yǎng)內容上,教育需要對課程結構和教學內容進行改革。主要側重在使學生掌握學習的方法,使每一個受教育者都具有自我獲取知識和更新知識的能力;在培養(yǎng)方法上,教育需要更新觀念,要尋求新的模式和傳播手段,以適應終身教育,全民教育的需要。
第三篇:大數據環(huán)境下網絡輿情管理方法研究
大數據環(huán)境下網絡輿情管理方法研究
摘 要:隨著互聯(lián)網技術的快速發(fā)展及其廣泛的應用,網絡輿論信息的產生體量、傳播速度和影響范圍等方面都發(fā)生了巨大變化。這些變化要求輿情管理工作者在輿情管理理念、管理方法等方面必須與時俱進。大數據既是一種新技術,也是一種新方法,它側重于信息挖掘和預測。將大數據運用到網絡輿情管理工作之中,必將對輿情管理產生重要作用。在大數據環(huán)境下,網絡輿情的管理方法也必將發(fā)生變革與創(chuàng)新。探討大數據環(huán)境下網絡輿情分析方法,以大數據為背景和前提創(chuàng)新網絡輿情管理方法,總結大數據下輿情管理理念、視角、方式和方法等方面的變革與創(chuàng)新的思路,具有重要意義。
關鍵詞:網絡輿情;大數據;管理方法;變革與創(chuàng)新
DOI:10.15938/j.cnki.iper.2017.01.025
中圖分類號: G641文獻標識碼:A文章編號:1672-9749(2017)01-0124-06
據《第37次中國互聯(lián)網絡發(fā)展狀況統(tǒng)計報告》(由中國互聯(lián)網絡信息中心(簡稱:CNNIC)在2016年1月發(fā)布)顯示,截至2015年12月,中國網民規(guī)模達6.88億,全年新增網民3951萬人?;ヂ?lián)網普及率為50.3%,中國手機網民規(guī)模達6.20億,手機上網使用率為90.1%[1]。隨著移動互聯(lián)網(Mobile Internet)、社交網絡(Social Networking)、電子商務(Electronic Commerce)等的迅速發(fā)展,互聯(lián)網的邊界和應用范圍有了極大擴展,各種信息和數據極具增多,并正在迅速膨脹變大。
網民們經常通過互聯(lián)網表達意愿、觀點,討論各種話題,以表達自己的思想觀點和訴求?;ヂ?lián)網既是一個收納器,聚集網民思想動態(tài)表達、文化和社會生活信息;又是一個擴音器,傳播大眾的社會輿論。在社交媒體時代,人們通過互聯(lián)網平臺表達社情民意,體現(xiàn)自己的意愿、態(tài)度和評論觀點。輿情作為社會輿論的一個風向標,開展輿情分析主要是針對民眾態(tài)度、觀點的收集整理,分析出民眾相關的意見傾向,客觀體現(xiàn)輿情動態(tài)。
作為世界上網民數量最多、互聯(lián)網訪問量最大的國家,有效地分析網絡輿情,對于政府,媒體、大型企事業(yè)單位都有著非常重要的意義。從政府的角度,有效的輿情管理有利于政府了解公眾態(tài)度和訴求,有助于提升政府的政務管理和構建良好的社會和網絡環(huán)境;從企業(yè)的角度,有效的輿情管理有利于企業(yè)掌握用戶和大眾對產品質量、產品功能與服務的評價及客戶特征信息,更好地提供個性化產品與服務,實現(xiàn)利潤增長,更有利于企業(yè)了解用戶和大眾對企業(yè)社會形象的反饋和認知,提升企業(yè)品牌知名度和社會聲譽;從媒體的角度,有效的輿情管理能夠突破傳統(tǒng)信息搜集和發(fā)布渠道,更能夠通過對公眾輿論深入分析,提升新聞效果,實現(xiàn)新聞價值增值。因此,社會各界都非常重視網絡輿情分析,并不斷創(chuàng)新輿情的分析和管理的方式和方法,都是想最大化輿情的價值。
一、大數據及網絡輿情的相關定義及特點
1.大數據的定義及特點
隨著人們對大數據的研究和理解的不斷深入,大數據已不僅僅是一個技術方面的名詞了。而今,大數據相關的理論無論從內涵還是外延上,都在不斷豐富和充實。關于大數據的定義,不同的機構和學者從不同的角度給出略有差異的定義:如高德納咨詢公司(2013)提出,大數據是指具有更強的洞察力和流程優(yōu)化能力的海量、多樣化的信息[2]。維基百科對大數據的定義是“一個超大的、難以用現(xiàn)有常規(guī)的數據庫管理技術和工具處理的數據集”。Gartner對大數據的定義:“大數據是需要新處理模式才能具有更強的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量高增長率和多樣化的信息資產” [3]。
IDC市場研究公司2012年提出,“大數據”是為了從大容量的、不同類型的數據中獲取有價值的信息而設計的新型架構和技術[2],并對大數據的采用三步法進行了界定,如圖1所示。首先,從數據源場景方面,可以有三種情況,或者說需要具備三種情況至少滿足一種,即大數據的容量大于等于100TB或數據源于超高速的數據流(Data Streaming),或數據產生的年增速大于60%;其次,必須部署在可動態(tài)適應的基礎設施(dynamically adaptable infrastructure)上。這里的基礎設施既可以是傳統(tǒng)的scale-up架構,也可以是水平擴展架構(scale-out infrastructure);最后,必須有兩個以上的數據源或數據格式,或者高速流數據源(如點擊流或機器產生的數據流)。有了以上三個步驟的界定,才可以形成大數據。IDC指出“大數據技?g描述了一種新一代技術和架構,以非常經濟的方式,以高速的捕獲、發(fā)現(xiàn)和分析技術,從各種超大規(guī)模的數據中提取價值” [2]。
盡管對大數據的定義角度各有不同,但大數據的核心本質和特征的表述和定義相對比較統(tǒng)一,均認為大數據與傳統(tǒng)意義數據具有本質區(qū)別。較傳統(tǒng)數據相比,在數據基礎上,大數據更傾向于全體數據而非抽樣;在分析方法上,更強調相關分析而非因果分析;在分析效果上,追求的是效率而非絕對精確和在數據規(guī)模上強調相對數據而不是絕對數據。
在數據和信息的規(guī)模/體量方面、在內容形式和數據結構方面具有復雜性/變化頻度多樣、在產生速度方面及價值密度等四個方面都極大地超越了傳統(tǒng)的數據形態(tài),具有4V特征:
第一,數據規(guī)模大(Volume)
第二,數據種類多樣(Variety)
第三,數據處理速度快(Velocity)
第四,數據價值密度高(Value)
如圖2所示:大數據的4V特征。
具體而言,一是數據規(guī)模大(Volume):從容量角度,大數據具有數據容量大,“容量”或“體量”,從 TB→PB→EB級,每級都是按照進率1024(2的十次方)計算,這足以說明大數據規(guī)模之龐大。二是數據種類多樣(Variety):結構化數據、非結構化數據以及半結構化數據,Web數據、文字、語音音頻數據、圖片圖像數據、視頻數據、模擬信號等數據都體現(xiàn)了數據的多樣性。三是速數據處理速度快(Velocity):對數據訪問、處理、交付等速度的要求快,而且數據產生速度也非常之快;四是價值(Value):大數據的核心價值在于資源優(yōu)化配置,通過搜集海量數據,進而展開全量數據挖掘,分析數據背后的相關性,開展預測分析,獲得數據的應用價值。
這些特性使得大數據與傳統(tǒng)數據區(qū)別開來,強調了大數據是具有結構松散性、形式復雜性和有利用價值的數據信息資源[3]。
2.網絡輿情的定義與特點
“輿情(Public Opinion)”翻譯為“民眾或公眾的意愿、意見或觀點”。根據百度百科:輿情是“輿論情況”的簡稱,是指在一定的社會空間內,圍繞中介性社會事件的發(fā)生、發(fā)展和變化,作為主體的民眾?ψ魑?客體的社會管理者、企業(yè)、個人及其他各類組織及其政治、社會、道德等方面的取向產生和持有的社會態(tài)度。它是較多群眾關于社會中各種現(xiàn)象、問題所表達的信念、態(tài)度、意見和情緒等等表現(xiàn)的總和。
有學者從社會學視域考察輿情的定義,認為輿情是指社會各階層民眾對社會現(xiàn)象或事件所持有的情緒、態(tài)度、觀點、看法、意見和行為傾向等[4]。網絡輿情則是社會總體輿情的一個組成部分,是以網絡為載體存在,以網絡傳播方式匯聚、形成和表達的輿情,是在互聯(lián)網上的民眾情緒、態(tài)度和意見匯聚的總和[5]。
網絡輿情的信息來源主要有:網絡新聞(如:搜狐、新浪、人民網,或以RSS為基礎聚合類新聞,如頭條等),論壇貼吧(如:BBS,百度貼吧,天涯,西祠胡同等),新聞評論,社會化媒體社交網絡(即時通訊工具:如:聊天室、QQ、微信、微博、博客等),搜索引擎(如:百度,google等),網絡發(fā)起線上活動、網絡調查、電子郵件等。
通常我們把網絡輿情的基本特征概括為自由性與可控性、互動性與即時性、豐富性與多樣性、隱匿性與外顯性、情緒化與非理性、個體化與群體極化性[6]。如圖3所示:網絡輿情的特征
3.大數據是網絡輿情管理的有效方式之一
大數據的目的在于發(fā)現(xiàn)新的知識與洞察并進行科學決策。大數據與網絡輿情具有非常相似的特征。從這點上可見,利用大數據的手段管理網絡輿情是網絡輿情管理的有效方式之一。首先,大數據能夠全方位記錄民意,完整展現(xiàn)社會輿情,大數據體量巨大,從TB級到PB乃至ZB級別,能夠完全、完整的記錄社會民眾的社情民意;其次,大數據的特點是挖掘數據背后的相關聯(lián)性,因此,大數據能精準體現(xiàn)輿情背后的事件、相關人員以及讀者等要素內在邏輯和社會關聯(lián);最后,大數據具有很強的預測能力,通過分析事件的讀者特征(群體肖像刻畫)、被關注程度/熱度、傳播速度、傳播范圍、發(fā)展趨勢、影響程度和網民情緒變化等,也可以針對某個觀點的深度研究,從而預測輿情走向,幫助決策者進行決策和判斷。因此,大數據技術為網絡輿情的預測提供了重要的技術、理論支撐和保證,也成為輿情研究關鍵技術的支撐和核心概念。
二、基于大數據技術網絡輿情管理的一般步驟與方法
網絡輿情的管理模型主要分為:信息采集、信息預處理、輿情分析、輿情報告四個步驟。如圖4所示:大數據管理模塊及流程示意。
1.信息采集
信息采集當前常用方式是網絡爬蟲技術。在網絡爬蟲的爬行策略中,應用最為基礎的是深度優(yōu)先遍歷策略、廣度優(yōu)先遍歷策略。對于信息抓取過程,要求信息抓取的覆蓋范圍要全面。高速發(fā)展的信息高速路使得網絡信息數據容量不斷增大、信息和數據的類型更加豐富和復雜、網頁數量不斷增多,這對輿情信息抓取的效率和全面性提出了更高的要求。
大數據網絡輿情信息搜集改變了傳統(tǒng)網絡輿情信息的搜索采集方式,采用定向站點信息抓取輔以全面的實時監(jiān)控、聚合內容(RSS)、社交網站信息搜集和摘要搜集等搜集技術,與傳統(tǒng)人工監(jiān)測采集相結合的方式進行,抓取效率和覆蓋范圍都有突破性進展。
數據監(jiān)測要全面和實時,要做到精細采集信息數據。筆者整理了較為常用的監(jiān)測范圍和基本監(jiān)測指標,如表1所示。
2.信息處理
信息處理主要包括數據清洗(Data Cleaning)、信息提取、文本分類等。信息處理的主要任務是將采集的各種信息轉化成格式化文本存入數據庫。
網絡輿情在大數據環(huán)境中流動和變化速度非???,因此,在信息處理部分,要求信息處理的時效性。
3.輿情挖掘與分析
大數據分析就是對海量數據進行分析、梳理和加工,獲得具有價值的產品(Product)和服務(Service)或深刻洞見(Insight)的數據及處理方法。數據分析的主要技術手段是采用數據挖掘(Data Mining),數據挖掘又稱數據庫中的知識發(fā)現(xiàn),即從數據庫的大量數據中揭示出隱含的、前所未有的并具有潛在價值的信息的價值聚合、提煉的過程[7]。
輿情分析的技術方法主要有文本分類、聚類分析(不預先設定數據歸類類目,完全根據數據本身性質將數據聚合成不同類別)、熱點發(fā)現(xiàn)(利用關鍵詞過濾、語義分析、數值統(tǒng)計識別熱點和敏感話題)、話題識別、主題檢測與跟蹤、觀點/文本傾向性識別和分析(對文章的觀點進行傾向性分析和統(tǒng)計,識別正負面信息)、自動摘要等計算技術挖掘網絡文本內容蘊含的各種觀點(Opinion)、喜好(Preference)、態(tài)度(Attitude)、情感(Emotion)等,也可以明確網絡傳播者的意圖和傾向,以及影響程度、影響范圍和發(fā)展趨勢。
當前一些實驗室、研究機構等依據大數據分析的方法和實際的工作相結合,開發(fā)和建立了以下輿情專屬的分析模型和方法。如:人民網推出的“輿論共識度”指數將為中國網絡輿論場的研究和社會輿論的理性引導提供新的觀察視角和決策依據。它把網絡用戶分為媒體、網民和意見領袖三大群體,通過對不同群體的輿論分析,對每月前十或前100的社會熱點問題進行評估,形成“輿論共識度”,進而對用戶對輿論話題的共識程度進行評價。
互聯(lián)網與國家治理研究中心、中山大學大數據傳播實驗室設計的“網民認知模型”,通過透析網民對不同事件的情緒變化、態(tài)度偏向等,評測用戶“正負能量”,分別從“網民情緒指數”“網民理性指數”和“網民態(tài)度指數”三個維度來評價具體熱點事件當中網絡輿論場的“網民正能量指數”,對輿情分析和研判也非常有幫助。
還有機構建立的熱度評估指數,通過話題在傳統(tǒng)媒體報道量、網絡媒體報道量、微博量、論壇帖文量、博客文章量,轉發(fā)數量、用戶跟貼數量、評論數量、被關注數量、傳播的速度和范圍、關注的用戶形態(tài)特征等相關數據,之后加權各項指標,得到每個熱度事件或話題的綜合熱度指數。
更有一些專項深入分析,如針對傳播源頭的分析、傳播渠道的分析、意見領袖的分析、傳播主體挖掘分析或針對隱性數據(網絡日志)的分析。
也有專家學者提出,輿情分析需要是一個綜合分析模式,以大數據的方式為重點,同時要結合專項話?}市場調研、綜合民意調查(定性與定量)、軟件與人工、分析師與專家會商等方式相結合的方法來分析。
4.輿情報告
輿情分析的結果需要以報告的方式呈現(xiàn),并將分析報告反饋或發(fā)布,為用戶、管理者和決策者提供依據。
輿情報告要求輿情分析數據要真實可靠,分析方法要恰當準確,描述要符合客觀事實,結論要簡明扼要、通俗易懂。輿情報告中恰當采用示意圖、圖表、列表等展示形式,可以更形象、清晰、直觀,并且更邏輯地展示輿情事件的發(fā)生、發(fā)展和變化,輿情的發(fā)展態(tài)勢等。針對不同的表達目的可以選用不同的圖表或圖示方式,如:描述事件發(fā)展趨勢可用折線圖表示、展示用戶立場或觀點的比例可用餅狀圖、體現(xiàn)熱點人群的分布可以用散點分布圖、表示頻率分布可以用網狀圖或柱狀圖、說明事態(tài)發(fā)展變化可以用流程圖、用戶之前或背后的人際關系可以用網狀關系圖等。豐富的圖表工具可以更形象、生動的表述輿情的現(xiàn)狀、發(fā)展和變化。
三、大數據環(huán)境下輿情管理模式變革與管理方法創(chuàng)新
雖然,目前對大數據研究越來越熱,國內諸多大的互聯(lián)網公司、各行業(yè)內的企業(yè)及科研機構都投入了巨大的人力、物力開展大數據及大數據下輿情研究,但在我國大數據研究依然處于探索階段,在很多方面還只是停留在理論或對未來的暢想階段。例如:在技術方面,目前常見的輿情監(jiān)測工作的主要手段仍以人工檢索為主,盡管也使用了市面相對成熟的相關搜索軟件進行輔助搜索,但搜索輿情的技術仍采用傳統(tǒng)的二維搜索方式,即主題關鍵詞和網絡平臺二維坐標,由輿情管理的工作人員對采集的信息進行二次加工成輿情產品。而且搜索的輿情信息結果多為一級文本信息,對于深層次的多級輿情信息,如新聞、微博后的評論,網民的社會關系,網民針對某一事件評論反映出的情緒變化等數據無法深度挖掘,仍靠人工采集和分析判斷。受制于輿情分析人員的知識水平和價值判斷的不同,極有可能導致有價值的輿情信息丟失,無法準確及時預測輿情走勢,大大降低了輿情監(jiān)測工作的效率、準確性。
隨著互聯(lián)網的發(fā)展、自媒體的興起,網絡、通信技術在人們信息領域深入運用,發(fā)布者在人口統(tǒng)計學方面的特征、發(fā)布的載體、發(fā)布的形式、傳播渠道、信息的數量和形式等有了全新的變化,這對輿情的管理提出了更高的要求,要求變革網絡輿情管理方式以適應大數據時代的新形勢。因此,輿情管理工作者在輿情管理的理念、模式和方式方法上均需要有相應的變革與創(chuàng)新。
1.輿情工作者的研究視角需要發(fā)生轉變
輿情工作者要從全局角度,把輿情研究從單一向度的內容研究向多元化、多向度內容及關系研究方向轉化。網絡數據和信息背后體現(xiàn)的人的行為軌跡和復雜的人與人的社會關系(Social networking),所以關系研究將成為未來的研究重點。大數據的特征之一“關聯(lián)分析”,通過社會話語表達、社會關系分析、社會心理描繪、社會訴求預測等多個角度[8],進行多向度的分析研究能夠幫助構建立體化、全局化和動態(tài)化的網絡輿情數據系統(tǒng),通過輿情分析,挖掘網絡輿情和社會動態(tài)背后的深層次關系,實現(xiàn)網絡輿情管理和社會治理的緊密聯(lián)動、同步推進。
2.輿情的研究方法需要創(chuàng)新
即便是研究的視角發(fā)生了改變,要想真正落實到具體工作中,研究方法的創(chuàng)新尤為關鍵。要在分析方法上更加豐富,結合數據挖掘技術分析(Data Mining)方法與行為分析(Behavior Analysis)方法的研究、結合云計算、移動可追塑性分析、個性化特征識別的網絡機器人與社會心理分析實驗因果模型等方法,一是要提升數據監(jiān)測技術,實現(xiàn)對媒體、論壇、博客、微博、微信等各個網絡平臺數據的全面抓取和記錄,特別是要提高對圖片、音視頻、模擬信號等數據的自動識別能力;二方面提高數據挖掘技術,從海量數據中快速識別有價值數據,并挖掘數據背后隱藏的規(guī)律。三要注重數據分析技術,包括關聯(lián)分析、聚類分析、語義分析等等,自動分析網上言論背后的觀點、意見傾向和信息、相互之間的關聯(lián)性,揭示輿情發(fā)展趨勢。四是確保數據安全和保密技術,包括網絡攻擊與攻擊檢測與防范問題、安全漏洞與安全對策問題、數據備份與恢復問題、災難恢復問題等等,確保數據安全和保密[9]。
在數據分析方面,數據分析的準確性尤為重要。引入云計算的概念和技術,與大數據相結合,會使輿情分析更加準確。開展數據間、不同維度、不同領域的數據、多樣化的數據間的關聯(lián)分析,是十分重要的。專家認為輿情關聯(lián)關系是網絡輿情數據庫中存在的一類重要的、可被發(fā)現(xiàn)的知識,引入網絡輿情支持度和網絡輿情可信度,可以更準確表示網絡輿情間的關聯(lián)度,量化網絡輿情關聯(lián)規(guī)則的相關性,從而使挖掘結果更準確。
3.研究結果要易懂、易應用和可視化呈現(xiàn)
大數據的真正價值是運用,輿情的最終價值是指導工作。研究結果的使用者未必是大數據和輿情分析的專家。因此,研究結果要求易懂易識,界面必須友好,結果必須可以直觀識別?!坝脭祿f話”。數據最有說服力,由于圖表與列表能夠清晰、直觀、簡潔、深刻、形象地表現(xiàn)輿情事件,因此輿情的研究結果要注重運用圖表等可視化方式來展現(xiàn)。
4.重點強調輿情的預測,面向未來,做好輿情數據的再利用
大數據的核心是預測,未來輿情研究的重點應由輿情監(jiān)測轉向輿情預警和預測。輿情工作者通過收集分析互聯(lián)網上關于社會熱點或網民關注焦點事件的大量消息報道,發(fā)掘背后隱藏關系,進而預測事態(tài)發(fā)展趨勢,為輿情事件處置提供決策參考。
展望未來,大數據時代數據使用的關鍵是數據再利用,數據再利用的意義在于:挖掘數據的潛在價值,實現(xiàn)數據重組的創(chuàng)新價值。基于大數據的輿情分析,能同時分析更多數據,揭露更多隱藏價值,使預測更準確,決策更合理。未來大數據將使輿情監(jiān)測功能大大豐富,輿情分析功能更加強大,輿情預測能力進一步增強,這將實現(xiàn)全方位、立體式的綜合輿情管理模式,實現(xiàn)輿情管理的價值最大化。
參考文獻
[1] 中國互聯(lián)網絡信息中心(CNNIC).第37次中國互聯(lián)網絡發(fā)展狀況統(tǒng)計報告[EB/OL].[2016-01-22].http://004km.cn/hlwfzyj/hlwxzbg/hlwtjbg/201601/PO***51954.pdf.[2] 謝耘耕,劉銳,喬睿,等.大數據與社會輿情研究綜述[J].新媒體與社會,2014(4):133-154.[3] 張寧熙.大數據在突發(fā)公共事件網絡輿情信息工作中的應用[J].現(xiàn)代情報,2015(6):38-42.[4] 王宏偉.輿情信息工作策略與方法[M].北京: 中國人事出版社,2012:6.[5] 戴維民,劉軼.我國網絡輿情信息工作現(xiàn)狀及對策思考[J].圖書情報工作,2014(1):24-29.[6] 劉毅.網絡輿情研究概論[M].天津: 天津人民版社,2007:74.[7] 喻國明.大數據分析下的中國社會輿情:總體態(tài)勢與結構性特征――基于百度熱搜詞(2009―2012)的輿情模型構建[J].中國人民大學學報,2013(5):2-9.[8] 李小娜.大數據時代社會輿情監(jiān)測的轉變和發(fā)展[J].青年記者,2015(11):69-70.[9] 卿立新.創(chuàng)新大數據時代的網絡輿情管理[J].紅旗文稿,2014(22):28-29.[責任編輯:張學玲]
第四篇:大數據(推薦)
《新技術講座》論文2012-2013(1)
XXXX大學—
《微軟新技術系列講座》論文
大數據
一、背景及發(fā)展趨勢
1.1.背景
大數據(BigData),或稱巨量資料,指的是所涉及的資料規(guī)模巨大到無
/ 7
《新技術講座》論文2012-2013(1)
法透過目前主流軟件工具,在合理的時間內擷取、管理、處理并整理成為幫助企業(yè)經營決策更積極目的的資訊。大數據的4V特點:Volume(海量)、Velocity(高速)、Variety(多樣)、Value(價值)。
大數據作為時下最火熱的IT行業(yè)的詞匯,隨之數據倉庫、數據安全、數據分析、數據挖掘等等圍繞大數量的商業(yè)價值的利用逐漸成為行業(yè)人士爭相追捧的利潤焦點。
早在1980年,著名未來學家阿爾文·托夫勒便在《第三次浪潮》一書中,將大數據熱情地贊頌為“第三次浪潮的華彩樂章”。不過,大約從2009年開始,“大數據”才成為互聯(lián)網信息技術行業(yè)的流行詞匯。美國互聯(lián)網數據中心指出,互聯(lián)網上的數據每年將增長50%,每兩年便將翻一番,而目前世界上90%以上的數據是最近幾年才產生的。此外,數據又并非單純指人們在互聯(lián)網上發(fā)布的信息,全世界的工業(yè)設備、汽車、電表上有著無數的數碼傳感器,隨時測量和傳遞著有關位置、運動、震動、溫度、濕度乃至空氣中化學物質的變化,也產生了海量的數據信息。
隨著云時代的來臨,大數據也吸引了越來越多的關注。《著云臺》的分析師團隊認為,大數據通常用來形容一個公司創(chuàng)造的大量非結構化和半結構化數據,這些數據在下載到關系型數據庫用于分析時會花費過多時間和金錢。大數據分析常和云計算聯(lián)系到一起,因為實時的大型數據集分析需要像MapReduce一樣的框架來向數
十、數百或甚至數千的電腦分配工作。
1.2.發(fā)展趨勢
斯隆數字巡天收集在其最初的幾個星期,比在天文學的歷史,早在2000年的整個數據收集更多的數據。自那時以來,它已經積累了140兆兆 字節(jié)的信息。這個望遠鏡的繼任者,大天氣巡天望遠鏡,將于2016年在網上和將獲得的數據,每5天沃爾瑪處理超過100萬客戶的交易每隔一小時,反過來進口量數據庫估計超過2.5 PB的是相當于167次,在美國國會圖書館的書籍。FACEBOOK處理400億張照片,從它的用戶群。解碼最初的人類基因組花了10年來處理時,現(xiàn)在可以在一個星期內實現(xiàn)。
“大數據”的影響,增加了對信息管理專家的需求,甲骨文,IBM,微軟和SAP花了超過15億美元的在軟件智能數據管理和分析的專業(yè)公司。這個行業(yè)自
/ 7
《新技術講座》論文2012-2013(1)
身價值超過1000億美元,增長近10%,每年兩次,這大概是作為一個整體的軟件業(yè)務的快速。
大數據已經出現(xiàn),因為我們生活在一個社會中有更多的東西。有46億全球移動電話用戶有1億美元和20億人訪問互聯(lián)網?;旧?,人們比以往任何時候都與數據或信息交互。1990年至2005年,全球超過1億人進入中產階級,這意味著越來越多的人,誰收益的這筆錢將成為反過來導致更多的識字信息的增長。思科公司預計,到2013年,在互聯(lián)網上流動的交通量將達到每年667艾字節(jié)。
大數據,其影響除了經濟方面的,它同時也能在政治、文化等方面產生深遠的影響,大數據可以幫助人們開啟循“數”管理的模式,也是我們當下“大社會”的集中體現(xiàn),三分技術,七分數據,得數據者得天下。
谷歌搜索、Facebook的帖子和微博消息使得人們的行為和情緒的細節(jié)化測量成為可能。挖掘用戶的行為習慣和喜好,凌亂紛繁的數據背后找到更符合用戶興趣和習慣的產品和服務,并對產品和服務進行針對性地調整和優(yōu)化,這就是大數據的價值。大數據也日益顯現(xiàn)出對各個行業(yè)的推進力。
大數據時代來臨首先由數據豐富度決定的。社交網絡興起,大量的UGC(互聯(lián)網術語,全稱為User Generated Content,即用戶生成內容的意思)內容、音頻、文本信息、視頻、圖片等非結構化數據出現(xiàn)了。另外,物聯(lián)網的數據量更大,加上移動互聯(lián)網能更準確、更快地收集用戶信息,比如位置、生活信息等數據。從數據量來說,目前已進入大數據時代,但現(xiàn)在的硬件明顯已跟不上數據發(fā)展的腳步。
以往大數據通常用來形容一個公司創(chuàng)造的大量非結構化和半結構化數據,而現(xiàn)在提及“大數據”,通常是指解決問題的一種方法,即通過收集、整理生活中方方面面的數據,并對其進行分析挖掘,進而從中獲得有價值信息,最終衍化出一種新的商業(yè)模式。
雖然大數據目前在國內還處于初級階段,但是商業(yè)價值已經顯現(xiàn)出來。首先,手中握有數據的公司站在金礦上,基于數據交易即可產生很好的效益;其次,基于數據挖掘會有很多商業(yè)模式誕生,定位角度不同,或側重數據分析。比如幫企業(yè)做內部數據挖掘,或側重優(yōu)化,幫企業(yè)更精準找到用戶,降低營銷成本,提高企業(yè)銷售率,增加利潤。
/ 7
《新技術講座》論文2012-2013(1)
未來,數據可能成為最大的交易商品。但數據量大并不能算是大數據,大數據的特征是數據量大、數據種類多、非標準化數據的價值最大化。因此,大數據的價值是通過數據共享、交叉復用后獲取最大的數據價值。在他看來,未來大數據將會如基礎設施一樣,有數據提供方、管理者、監(jiān)管者,數據的交叉復用將大數據變成一大產業(yè)。據統(tǒng)計,目前大數據所形成的市場規(guī)模在51億美元左右,而到2017年,此數據預計會上漲到530億美元。
二、實施應用
大的數據需要特殊的技術,以有效地處理大量的容忍經過時間內的數據。適用于大數據的技術,包括大規(guī)模并行處理(MPP)數據庫,數據挖掘電網,分布式文件系統(tǒng),分布式數據庫,云計算平臺,互聯(lián)網,和可擴展的存儲系統(tǒng)。
“這是一場革命,龐大的數據資源使得各個領域開始了量化進程,無論學術界、商界還是政府,所有領域都將開始這種進程?!薄鸫髮W 社會學教授加里·金
隨著大數據應用的爆發(fā)性增長,它已經衍生出了自己獨特的架構,而且也直接推動了存儲、網絡以及計算技術的發(fā)展。畢竟處理大數據這種特殊的需求是一個新的挑戰(zhàn)。硬件的發(fā)展最終還是由軟件需求推動的,我們很明顯的看到大數據分析應用需求正在影響著數據存儲基礎設施的發(fā)展。從另一方面看,這一變化對存儲廠商和其他IT基礎設施廠商未嘗不是一個機會。隨著結構化數據和非結構化數據量的持續(xù)增長,以及分析數據來源的多樣化,此前存儲系統(tǒng)的設計已經無法滿足大數據應用的需要。存儲廠商已經意識到這一點,他們開始修改基于塊和文件的存儲系統(tǒng)的架構設計以適應這些新的要求。
針對大數據的世界領先品牌存儲企業(yè)有:IBM、EMC、LSISandForce、INTEL、惠普、戴爾、甲骨文、日立、賽門鐵克等 對于大數據的存儲問題,以下問題不可忽視:
容量問題
/ 7
《新技術講座》論文2012-2013(1)
這里所說的“大容量”通??蛇_到PB級的數據規(guī)模,因此,海量數據存儲系統(tǒng)也一定要有相應等級的擴展能力。與此同時,存儲系統(tǒng)的擴展一定要簡便,可以通過增加模塊或磁盤柜來增加容量,甚至不需要停機。在解決容量問題上,不得不提LSI公司的全新Nytro?智能化閃存解決方案,采用Nytro產品,客戶可以將數據庫事務處理性能提高30倍,并且超過每秒4.0GB1的持續(xù)吞吐能力,非常適用于大數據分析。延遲問題
“大數據”應用還存在實時性的問題。特別是涉及到與網上交易或者金融類相關的應用。有很多“大數據”應用環(huán)境需要較高的IOPS性能,比如HPC高性能計算。此外,服務器虛擬化的普及也導致了對高IOPS的需求,正如它改變了傳統(tǒng)IT環(huán)境一樣。為了迎接這些挑戰(zhàn),各種模式的固態(tài)存儲設備應運而生,小到簡單的在服務器內部做高速緩存,大到全固態(tài)介質可擴展存儲系統(tǒng)通過高性能閃存存儲,自動、智能地對熱點數據進行讀/寫高速緩存的LSI Nytro系列產品等等都在蓬勃發(fā)展。
安全問題
某些特殊行業(yè)的應用,比如金融數據、醫(yī)療信息以及政府情報等都有自己的安全標準和保密性需求。雖然對于IT管理者來說這些并沒有什么不同,而且都是必須遵從的,但是,大數據分析往往需要多類數據相互參考,而在過去并不會有這種數據混合訪問的情況,大數據應用催生出一些新的、需要考慮的安全性問題,這就充分體現(xiàn)出利用基于DuraClass? 技術的LSI SandForce?閃存處理器的優(yōu)勢了,實現(xiàn)了企業(yè)級閃存性能和可靠性,實現(xiàn)簡單、透明的應用加速,既安全又方便。
成本問題
對于那些正在使用大數據環(huán)境的企業(yè)來說,成本控制是關鍵的問題。想控制成本,就意味著我們要讓每一臺設備都實現(xiàn)更高的“效率”,同時還要減少那些昂貴的部件。目前,像重復數據刪除等技術已經進入到主存儲市場,而且現(xiàn)在還可以處理更多的數據類型,這都可以為大數據存儲應用帶來更多的價值,提升存儲效率。在數據量不斷增長的環(huán)境中,通過減少后端存儲的消耗,哪怕只是降低幾個百分點,這種錙銖必較的服務器也只有LSI推出的Syncro? MX-B機架服務器啟動盤設備都能夠獲得明顯的投資回報,當今,5 / 7
《新技術講座》論文2012-2013(1)
數據中心使用的傳統(tǒng)引導驅動器不僅故障率高,而且具有較高的維修和更換成本。如果用它替換數據中心的獨立服務器引導驅動器,則能將可靠性提升多達100倍。并且對主機系統(tǒng)是透明的,能為每一個附加服務器提供唯一的引導鏡像,可簡化系統(tǒng)管理,提升可靠性,并且節(jié)電率高達60%,真正做到了節(jié)省成本的問題。
數據的積累
許多大數據應用都會涉及到法規(guī)遵從問題,這些法規(guī)通常要求數據要保存幾年或者幾十年。比如醫(yī)療信息通常是為了保證患者的生命安全,而財務信息通常要保存7年。而有些使用大數據存儲的用戶卻希望數據能夠保存更長的時間,因為任何數據都是歷史記錄的一部分,而且數據的分析大都是基于時間段進行的。要實現(xiàn)長期的數據保存,就要求存儲廠商開發(fā)出能夠持續(xù)進行數據一致性檢測的功能以及其他保證長期高可用的特性。同時還要實現(xiàn)數據直接在原位更新的功能需求。
靈活性
大數據存儲系統(tǒng)的基礎設施規(guī)模通常都很大,因此必須經過仔細設計,才能保證存儲系統(tǒng)的靈活性,使其能夠隨著應用分析軟件一起擴容及擴展。在大數據存儲環(huán)境中,已經沒有必要再做數據遷移了,因為數據會同時保存在多個部署站點。一個大型的數據存儲基礎設施一旦開始投入使用,就很難再調整了,因此它必須能夠適應各種不同的應用類型和數據場景。
應用感知
最早一批使用大數據的用戶已經開發(fā)出了一些針對應用的定制的基礎設施,比如針對政府項目開發(fā)的系統(tǒng),還有大型互聯(lián)網服務商創(chuàng)造的專用服務器等。在主流存儲系統(tǒng)領域,應用感知技術的使用越來越普遍,它也是改善系統(tǒng)效率和性能的重要手段,所以,應用感知技術也應該用在大數據存儲環(huán)境里。
針對小用戶
依賴大數據的不僅僅是那些特殊的大型用戶群體,作為一種商業(yè)需求,小型企業(yè)未來也一定會應用到大數據。我們看到,有些存儲廠商已經在開發(fā)一些小型的“大數據”存儲系統(tǒng),主要吸引那些對成本比較敏感的用戶。
實際應用
/ 7
《新技術講座》論文2012-2013(1)
包括網絡日志,RFID,傳感器網絡,社會網絡,社會數據(由于數據革命的社會),互聯(lián)網文本和文件;互聯(lián)網搜索索引;呼叫詳細記錄,天文學,大氣科學,基因組學,生物地球化學,生物,和其他復雜和/或跨學科的科研,軍事偵察,醫(yī)療記錄;攝影檔案館視頻檔案;和大規(guī)模的電子商務。
三、心得體會
聽完此次王老師的《大數據》講座,讓我受益匪淺。不僅充分了解了大數據的概念,大數據時代的起源、發(fā)展及實際應用產品的問世,而且對大數據的神奇很是驚訝。的確,未來的世界需要科技創(chuàng)新,需要技術變革,而大數據就是改變世界的助推器之一,作為即將進入IT行業(yè)的我們來說,這既是機遇,也是挑戰(zhàn)!
/ 7
第五篇:大數據環(huán)境下的審計信息化(思路篇)
大數據環(huán)境下的審計信息化(思路篇)
前言:審計信息化工作十余年,面臨著云計算、物聯(lián)網、大數據、移動通訊和社交網絡等新技術的挑戰(zhàn)。本文希望通過對大數據的理解、審計中的應用分析,提出大數據服務與審計的一個角度或方向,進而形成相關信息化配套建設的思路。本文的編寫希望得到讀者的回饋,能夠收到您的批評、指正。
一、大數據的定義和理解
(一)廣泛定義對于大數據的理解現(xiàn)在并沒有一個標準的定義,不過大家對于大數據都有一個共同的認識,那就是4V(Volume、Velocity、Variety、Veracity):1.(Volume)數據量大,TB,PB,乃至EB等數據量的數據需要分析處理。2.(Velocity)要求快速響應,市場變化快,要求能及時快速的響應變化,那對數據的分析也要快速,在性能上有更高要求,所以數據量顯得對速度要求有些“大”。3.(Variety)數據多樣性:不同的數據源,非結構化數據越來越多,需要進行清洗,整理,篩選等操作,變?yōu)榻Y構數據。4.(Veracity)價值密度低,由于數據采集的不及時,數據樣本不全面,數據可能不連續(xù)等等,數據可能會失真,但當數據量達到一定規(guī)模,可以通過更多的數據達到更真實全面的反饋。而簡化一下描述,其實“大數據”是一個體量特別大,數據類別特別多的數據集,并且這樣的數據集無法用傳統(tǒng)數據庫工具對其內容進行抓取、管理和處理。
(二)審計的大數據特征從“大數據”概念產生的緣由來看審計行業(yè)是一個天然需要大數據概念及其實現(xiàn)技術的行業(yè)。我們分析如下:首先,審計行業(yè)的“生產對象”是被審計對象的數據,雖然說審計是對財政財務收支的監(jiān)督。但是為了了解財務的真實情況,必然需要關注業(yè)務數據,這些行業(yè)的數據每一個都可以說是數據體量巨大。同時這些數據也是復雜多樣的,結構化數據不用說了(二維表數據、立方體數據、空間數據等),非結構化數據例如:被審計單位的各種制度、文件、影像等。其次,審計的職責是查處財政財務的真實、合法和效益問題。查處過程中,需要在這些海量數據中進行關聯(lián)、匯聚的查詢或計算工作,而且這些計算需要同時作用在結構化、半結構化、非結構化數據之上。在沒有大數據技術支撐之前,采用抽樣或按領域分開的方式進行審計分析,無形中形成了數據之間的壁壘和分析的局限性。最后,審計工作中的審計思路、方法,雖然有章可循,但最終還要依賴于具體參與審計工作的人的智慧。這也就決定了所有的分析工作不能像其他的數據中心、數據分析、數據挖掘、決策支持系統(tǒng)一樣,是相對“固化”的。而思路的火花是稍縱即逝的,對任何一個突然閃出的分析思路都應該在“秒級”響應。
(三)大數據的關鍵技術大數據關鍵技術包括數據抽取與集成、數據分析、數據解釋3個領域。1.數據抽取與集成。大數據的一個重要特點是多樣性。意味著其數據來源極其廣泛。數據類型極為繁雜,這種復雜的數據環(huán)境要求必須對數據源中的數據進行抽取和集成。并采用統(tǒng)一定義的結構來存儲這些數據。為保證數據質量,需要在數據抽取與集成后進行數據清洗。(1)數據采集:ETL工具負責將分布的、異構數據源中的數據如關系數據、平面數據文件等抽取到臨時中間層后進行清洗、轉換、集成,最后加載到數據倉庫或數據集市中,成為聯(lián)機分析處理、數據挖掘的基礎。(2)數據存?。宏P系數據庫、NOSQL、SQL等。(3)數據處理:自然語言處理(NLP,NaturalLanguageProcessing)是研究人與計算機交互的語言問題的一門學科。處理自然語言的關鍵是要讓計算機'理解'自然語言,所以自然語言處理又叫做自然語言理解(NLU,NaturalLanguage Understanding),也稱為計算語言學(Computational Linguistics。一方面它是語言信息處理的一個分支,另一方面它是人工智能(AI, Artificial Intelligence)的核心課題之一。2.數據分析數據分析是大數據發(fā)揮其核心價值的重要流程,主要的分析技術有統(tǒng)計分析、數據挖掘、模型預測等,分析的結論可用于推薦系統(tǒng)、專家系統(tǒng)、商業(yè)智能和決策支持系統(tǒng)等。(1)統(tǒng)計分析:假設檢驗、顯著性檢驗、差異分析、相關分析、T檢驗、方差分析、卡方分析、偏相關分析、距離分析、回歸分析、簡單回歸分析、多元回歸分析、逐步回歸、回歸預測與殘差分析、嶺回歸、logistic回歸分析、曲線估計、因子分析、聚類分析、主成分分析、因子分析、快速聚類法與聚類法、判別分析、對應分析、多元對應分析(最優(yōu)尺度分析)、bootstrap技術等等。(2)數據挖掘:分類(Classification)、估計(Estimation)、預測(Prediction)、相關性分組或關聯(lián)規(guī)則(Affinity grouping or association rules)、聚類(Clustering)、描述和可視化、Description and Visualization)、復雜數據類型挖掘(Text,Web ,圖形圖像,視頻,音頻等)(3)模型預測:預測模型、機器學習、建模仿真。3.數據解釋在數據分析的基礎上,終端用戶往往最關心的是數據的展示方式,如果分析結果沒有采用適當的解釋方法,所得到的分析結論往往讓用戶難以理解,極端情況下甚至會誤導用戶。傳統(tǒng)的解釋方法僅是文本、圖表等電腦終端上的直觀顯示,未來提升數據解釋能力可以引入標簽云(tag cloud)、關系圖等可視化技術解決,甚至可以采用人機交互技術,在交互過程中逐步引導用戶進入分析流程,達到最佳的數據解釋效果。4.基礎架構大數據價值的完整體現(xiàn)需要多種技術的協(xié)同。為了便于數據管理,需要建立云存儲系統(tǒng)等存儲結構化、非結構化、半結構化類型的數據。為了加速數據處理,需要采用云計算、云存儲、分布式文件存儲等分布式計算技術。通過索引與查詢技術,提供搜索引擎服務,提高用戶對大數據的使用效率。
二、大數據技術為審計打開的“窗”我們都知道傳統(tǒng)的審計,無論是計算機輔助審計、計算機審計、自動化審計,都是在既定計劃、既定方向上開展的,這對于制定計劃、制定審計方案的人是一個考驗,同時執(zhí)行人也將艱難的去踐行。原來在電子審計體系發(fā)展的研究中,有人曾提出過智能審計和智慧審計的概念,如何定義智能、智慧呢,如何實現(xiàn)智能、智慧呢?其實一直沒有很好的可執(zhí)行方案,大數據時代的來臨,大數據技術的發(fā)展為我們破題了。我覺得大數據技術的運用至少能夠帶來以下幾個方面的進化:
(一)審計計劃徹底放開看到這個小標題,大家不要誤會,不是說不要計劃、隨性開展審計項目。今后的計劃分為兩類:一是固定審計工作,二是專題審計工作。1.固定審計類似現(xiàn)在每年都要開展的部門預算執(zhí)行審計一樣,今后像社保、稅收、環(huán)資、投資等審計都會進入固定審計工作。就因為大數據時代的來臨,對于審計來說數據已經極大豐富,而且能夠提供應對這些數據的采集、存儲、處理、分析的大數據技術。2.專題審計(或者叫隨機審計)不再像原來一樣,年初制定計劃,年中調整計劃。而是采用征集審計專題,組織評審后形成專題審計工作(當然這里會有一些安全保密的問題需要處理)。征集的已經不再是一個思路,而是有大數據分析的結論依據支撐的審計方案。這也就意味著,專題審計的方向、形成時間都不固定了,雖然是無計劃性的,但是很有“市場味”,不但廣開思路,而且對外界響應更快、更靈活。
(二)審計思路徹底解放大數據時代來臨,審計工作已經不再是計劃經濟了,對于審計人員來說可以去研究自己擅長的、關注的數據,通過大數據分析去尋找審計專題,形成審計項目。審計署通過鼓勵10萬審計人員進行“科研”,并擇優(yōu)支持(即形成專題審計項目)。專題提出人或團隊獲得支持(數據、資金、人員、政策等),開展審計實踐,形成審計成果和審計研究成果,即完成審計的揭示、預防功能,又形成審計抵御積累。在現(xiàn)今的社會,已經不強求全面發(fā)展的人才,木桶原理也已經略顯過時了。所以對于審計思路,也不要用條條框框去限制,讓所有審計人員像創(chuàng)業(yè)者一樣去發(fā)揮自己的特長,做某一點的冒尖者,何愁沒有審計思路,沒審計成果。
(三)審計效能進入藍海我們都知道全國審計機關的人數已經有很多年沒有增加了,但國民生產總值、財政資金總量都在大幅增長,經濟社會的復雜度更是呈幾何增長。通過計算機審計、數字化審計等方式,讓審計效能也獲得了大幅度提升。但是隨著互聯(lián)網時代的信息大爆炸(即摩爾第三定律),現(xiàn)有的信息化技術已經無法持續(xù)提升審計效能。審計效能的評價通常以審計人員數量作為基數,而提升審計效能的方法卻不是以審計人員數量為基數。在大數據時代來臨,我們將審計工作轉向每一個審計人員都是效能提升的一個節(jié)點,才能使我們能夠適應幾何式的增長。而且效能提升節(jié)點之間可以進行網狀連接,獲得更強的效能提升可能,也是下一步效能提升的重點,只有讓每個節(jié)點(審計人員)的都是效能提升因素,才能使審計效能進入藍海。
三、利用大數據服務審計工作的思路從上述分析,如果利用大數據服務審計,將形成怎樣的審計工作方式:
(一)審計模式的變化之前已經提到過,今后的審計沒有什么計劃規(guī)定,而只有固定和專題(隨機)審計兩類,固定的不需要計劃,專題的無法計劃。作為固定的審計工作,就像走流程一樣,安排人去執(zhí)行,類似巡邏,發(fā)現(xiàn)異常拉響警報,派人去調查。作為隨機的審計工作,首先是由思路提出人申報(當然也可以安排專門的團隊去研究),然后通過評審確定為審計項目。審計項目也往往不再是一個點、一個區(qū)域的項目,全部都是跨領域、跨地域(全國性)的綜合性審計項目。
(二)審計工作的工作變化可以說審計人員不再像傳統(tǒng)審計項目,在項目執(zhí)行階段不斷地去尋找審計思路。而是在項目確定之前,通過數據分析確定好審計思路(想明白如何審計),真的下項目了,更多的是“體力活”。審計項目的執(zhí)行方式也不再是派項目組到處跑,而是通過將專題審計分析的方案發(fā)給相關審計區(qū)域、領域的接口人,由他們幫助完成“體力活”。
(三)審計成果的變化審計成果的內容也將得到極大的擴展:首先成果的梳理方式都要像全國統(tǒng)一組織項目的成果一樣進行梳理;其次由于所有的成果都不再是單點的,所以數額都會成線性增長;最后每年提出的專題審計數量、質量將直接影響當年的審計成果數量和質量。
四、大數據信息化的基礎配套建設內容
(一)以大數據方式建設的數據中心大數據信息化,首先必須有一個大數據的數據中心。主要有以下幾個特征:1.任何數據都是中心、又不是中心,數據之間的關聯(lián)性是核心特征之一。數據之間的關聯(lián)不會因為數據量、數據類型、數據形態(tài)而受影響。2.數據的檢索速度都在秒級。對于數據的檢索與查詢都在秒級完成,這樣才能提供最基礎的數據服務。
(二)大數據的應用建設思路大數據應用功能可以拆分為四個層次:1.統(tǒng)計展示。此階段的目的是描述“發(fā)生了什么(whathappened)”;我們采用統(tǒng)計報表工具解決這類問題。2.統(tǒng)計分析。此階段更加注重的是“為什么發(fā)生(whydid it happen)”;我們采用的商務智能工具,即BI。3.數據挖掘。此階段面對的不再是歷史數據而是“正在發(fā)生、進行中(what’s happening)”的數據生產過程;采用數據挖掘和精算分析工具。4.模型預測。大數據分析正朝著有效預測這一目標發(fā)展,屆時分析“將要發(fā)生什么(whatwill happen)”將成為可能。采用預測仿真、機器學習、建模仿真等工具。