第一篇:大數(shù)據(jù)觀后感
2018年4月1日,我參加觀看了貴州省組織的“新時(shí)代學(xué)習(xí)大講堂”時(shí)代前沿知識專題講座第二期的直播,本期的主體是“大數(shù)據(jù)”。主講人是中國科學(xué)院院士,北京理工大學(xué)黨委常委、副校長,貴州省大數(shù)據(jù)產(chǎn)業(yè)發(fā)展應(yīng)用研究院院長梅宏同志。他從認(rèn)識大數(shù)據(jù)、應(yīng)對大數(shù)據(jù)、應(yīng)用大數(shù)據(jù)、現(xiàn)狀與思考四個(gè)方面作了全方面講解,并談了意見和建議。
總書記在中共中央政治局第二次集體學(xué)習(xí)時(shí)指出,大數(shù)據(jù)是信息化發(fā)展的新階段。善于獲取數(shù)據(jù)、分析數(shù)據(jù)、運(yùn)用數(shù)據(jù),是領(lǐng)導(dǎo)干部做好工作的基本功。所以,大力加快發(fā)展大數(shù)據(jù)是我們目前的重要工作之一。
梅院長在《認(rèn)識大數(shù)據(jù)》中表示:大數(shù)據(jù)現(xiàn)象源于互聯(lián)網(wǎng)及其延伸所帶來的無處不在的信息技術(shù)應(yīng)用、以及信息技術(shù)的不斷廉價(jià)化。近年來,大數(shù)據(jù)蘊(yùn)含的巨大應(yīng)用價(jià)值和潛力已被廣泛認(rèn)知和期待,并興起了大數(shù)據(jù)研究和應(yīng)用的熱潮,我們正在步入大數(shù)據(jù)時(shí)代?!彼偨Y(jié)和概括了大數(shù)據(jù)的本質(zhì)和內(nèi)涵。在《應(yīng)對大數(shù)據(jù)》一節(jié)分析了大數(shù)據(jù)對信息技術(shù)體系的挑戰(zhàn)以及相關(guān)的技術(shù)發(fā)展趨勢。在《應(yīng)用大數(shù)據(jù)》一節(jié)中梅院長舉了大量的實(shí)例來介紹大數(shù)據(jù)應(yīng)用的成功情況。梅院長指出,他第一次感受到時(shí)代和數(shù)據(jù)的變化是他領(lǐng)工資的時(shí)候,以前將工資裝入信封中,總是厚厚的一疊,突然有一天,信封里的厚度變薄了,里面只放一張工資條。,由此可見,數(shù)據(jù)時(shí)代給我們帶了很多的便利。
梅院長指出,大數(shù)據(jù)的發(fā)展也面臨著很多困難,如google的流感預(yù)測,2009年,GTF預(yù)判一個(gè)地區(qū)的流感爆發(fā)情況,其結(jié)果和CDC的數(shù)據(jù)十分接近,卻比CDC提前了一到兩周。這件事引發(fā)轟動后,其數(shù)據(jù)的準(zhǔn)確性卻在不斷下降。其原因包括行為動機(jī)隨時(shí)間變化和模型本身可能改變?nèi)说男袨榈取S纱丝梢?,?shù)據(jù)也會受很多因素的影響。梅院長舉了很多這方面的例子,如:人與機(jī)器同時(shí)回答一個(gè)問題:美國哪兩個(gè)機(jī)場是由人的名字命名的,對于人來說,只需要經(jīng)過一些篩選就可以得出答案,對于機(jī)器來說,他的數(shù)據(jù)只要在“機(jī)場”和“人名”中的某一項(xiàng)不完善,則無法得出結(jié)論。所以,我們還面臨著很大的挑戰(zhàn)。
我們從硬件為王的時(shí)代到軟件為主導(dǎo)的時(shí)代,現(xiàn)在我們已經(jīng)進(jìn)入到了以數(shù)據(jù)為王的時(shí)代。我們都還處于初級階段,還未到達(dá)我們的預(yù)期,我們所說的智能化到底有多智能,我們還尚未得知。梅院長指出,我國要發(fā)展大數(shù)據(jù),應(yīng)該借鑒已有的模式,兼顧現(xiàn)狀和發(fā)展,建立符合我國國情的體系
這次講座中我學(xué)習(xí)到了很多大數(shù)據(jù)的相關(guān)知識,受益匪淺。
第二篇:大數(shù)據(jù)時(shí)代觀后感
淺談《BBC地平線系列——大數(shù)據(jù)時(shí)代》 現(xiàn)今的我們正處于一個(gè)時(shí)代轉(zhuǎn)型中,因?yàn)榭萍嫉陌l(fā)展與互聯(lián)網(wǎng)的日益強(qiáng)大,數(shù)據(jù)將逐步取代舊事物,創(chuàng)造出新事物。當(dāng)今社會以一種前所未有的方式,通過對海量數(shù)據(jù)進(jìn)行分析,獲得巨大價(jià)值的產(chǎn)品和服務(wù),或深刻的洞見。數(shù)據(jù)可以反映出很多項(xiàng)指標(biāo),特別是海量數(shù)據(jù)的處理下,如何挖掘獲得價(jià)值更是需要一種具有新型的復(fù)合能力人才,而得以用數(shù)據(jù)改變對世界的認(rèn)知、改變市場、改變關(guān)系。以前單純依靠人類判斷力的領(lǐng)域都會被計(jì)算機(jī)系統(tǒng)所改變甚至取代,運(yùn)用大數(shù)據(jù)的處理與分析,為我們的生活創(chuàng)造出前所未有的可量化的維度。大數(shù)據(jù)是指不用隨機(jī)分析法這樣的捷徑,而采用所有數(shù)據(jù)的方法?!翱傮w=樣本”以前是做不到的,現(xiàn)在對于數(shù)據(jù)的儲存、處理能力、統(tǒng)計(jì)技術(shù)與數(shù)據(jù)資源等各方面都有了飛速的發(fā)展,信息總量的變化也導(dǎo)致量變到質(zhì)變的飛躍,并在其中去捕捉隨機(jī)抽樣所無法揭示的細(xì)節(jié)。
片中洛杉磯警方的犯罪預(yù)測系統(tǒng),其使用的數(shù)學(xué)模型居然是用來預(yù)測余震的模型,因?yàn)榉缸锇讣陌l(fā)生規(guī)律與余震的發(fā)生規(guī)律具有同種模式。片中我們可以看到模型根據(jù)過往的犯罪數(shù)據(jù)記錄給出每一天最可能的案件發(fā)生類型和發(fā)生區(qū)域,而警方也確實(shí)通過這套系統(tǒng)抓獲了罪犯,降低了區(qū)域案件發(fā)生率。
另一個(gè)很有趣的地方是對經(jīng)濟(jì)活動進(jìn)行預(yù)測,片中的那家預(yù)測分析公司收集的數(shù)據(jù)極其龐大,為了預(yù)測當(dāng)今人們的經(jīng)濟(jì)活動,竟然需要收集從中世紀(jì)至今的商品價(jià)格。但即便如此,他們預(yù)測的結(jié)果也更多是概率上的差別,比如51%對49%這樣的比率,但僅僅2%的差別,就能夠產(chǎn)生重大的結(jié)果。
而對人們的購買習(xí)慣進(jìn)行預(yù)測中,提到了一個(gè)數(shù)學(xué)分支:決策論。如何在紛繁復(fù)雜的各種決定中找到最關(guān)鍵和最重要的,進(jìn)而簡化整個(gè)決策程序。這種理論的基礎(chǔ)來源于:在超市購物。哪種食品我們最需要?哪種買了之后就必須買另一種?等等。從預(yù)測人們的購買習(xí)慣,到載人登陸火星,決策論應(yīng)用的方面相當(dāng)廣闊。
從數(shù)據(jù)中挖掘出各種各樣的模式用于預(yù)測未來犯罪,個(gè)性化廣告,金融等等,天文觀測等等,數(shù)據(jù)挖掘的前景很光明,但是人們的干預(yù)對數(shù)據(jù)也可能產(chǎn)生一定的影響,警察去巡邏了當(dāng)然犯罪率會下降啊。還是金融預(yù)測的那個(gè)例子說的在理:算法并不一定要預(yù)測的100%正確,只需要正確率比錯(cuò)誤率高就有巨大利潤的可能
而以上這些,全都屬于大數(shù)據(jù)應(yīng)用。由此看來,大數(shù)據(jù)并不神秘,它遠(yuǎn)不像電視劇里講述的那樣讓人恐慌,它只不過是一種工具,就像我們會使用物理和化學(xué)知識一樣。雖然它必定會對這個(gè)世界產(chǎn)生深遠(yuǎn)的影響,但最終決定如何使用的依然是我們自己。*** 魏子昂
第三篇:讀書報(bào)告——《大數(shù)據(jù)時(shí)代》觀后感
讀書報(bào)告——《大數(shù)據(jù)時(shí)代》觀后感
大數(shù)據(jù)時(shí)代,一個(gè)被嚼爛的詞匯,不知從何時(shí)起,興起了數(shù)據(jù)科學(xué)的狂潮,本書核心論點(diǎn),第一,要全體不要抽樣,第二,要相關(guān)不要因果,第三,要效率不要精確。弊端:產(chǎn)業(yè)生態(tài)環(huán)境,數(shù)據(jù)安全隱私,信息公正公開。本書實(shí)例眾多,理論殘缺,可以說是舉了一系列的例子要論證觀點(diǎn)的,我們知道這種論證方式邏輯上存在謬誤。故而,本書可以說是一本數(shù)據(jù)科學(xué)的正面的背景教學(xué),供談資。數(shù)據(jù)科學(xué)基礎(chǔ):云計(jì)算,人工智能和機(jī)器學(xué)習(xí),大規(guī)模處理結(jié)構(gòu)數(shù)據(jù)算法,日漸增長的計(jì)算速度和數(shù)據(jù)規(guī)模的指數(shù)增加。
從硅谷到北京,大數(shù)據(jù)話題正在被傳播。隨著智能手機(jī)以及“可佩帶”計(jì)算設(shè)備的出現(xiàn),我們的行為,位置甚至身體生理數(shù)據(jù)等每一點(diǎn)變化都成了可以被記錄和分析的數(shù)據(jù)。以此為基礎(chǔ),反饋經(jīng)濟(jì)等新經(jīng)濟(jì),新商業(yè)模式也正在開始形成。
大數(shù)據(jù)時(shí)代,我們可以有更全面的數(shù)據(jù)來研究,如樓上所說,甚至可以認(rèn)為是樣本=總體,那么,就不用再做一些統(tǒng)計(jì)上隨機(jī)采樣的工作了,基于大數(shù)據(jù)的研究可以關(guān)注到統(tǒng)計(jì)研究上難以關(guān)注到的一些小的、個(gè)別的情況,這些情況往往會呈現(xiàn)出更大的價(jià)值。
在數(shù)據(jù)量很小的時(shí)候,研究往往會對精確度做很嚴(yán)格的要求,而大數(shù)據(jù)時(shí)代會把這些條件放的更加寬松,不然大數(shù)據(jù)很難應(yīng)用于研究,這種情況下,盡管數(shù)據(jù)的準(zhǔn)確度降低了,但大量的數(shù)據(jù)會給我們帶來額外的收益
基于前兩個(gè)轉(zhuǎn)變,我們不再尋找因果關(guān)系,而是去關(guān)注關(guān)聯(lián)關(guān)系,即傾向關(guān)注“是什么”,而不是“為什么”(翻譯此書的周濤不太認(rèn)同這個(gè)觀點(diǎn),他認(rèn)為是現(xiàn)在一些基于機(jī)器學(xué)習(xí)的算法得出的結(jié)果驅(qū)使我們?nèi)H僅關(guān)注關(guān)聯(lián)關(guān)系,因?yàn)槲覀儸F(xiàn)在很難把這些復(fù)雜算法轉(zhuǎn)換成因果關(guān)系了)
現(xiàn)在談?wù)摯髷?shù)據(jù)的人真的很多,但是能全面的講述大數(shù)據(jù)的人我個(gè)人的感覺是不多的。作者從非技術(shù)這個(gè)角度,從思維、價(jià)值、隱私、管理這些角度來細(xì)致的講述大數(shù)據(jù),這點(diǎn)我覺得是值得我們學(xué)習(xí)的,而且書中例子的結(jié)合,也很能看出作者的功力。
結(jié)合產(chǎn)品來談數(shù)據(jù)的話,我個(gè)人覺得產(chǎn)品的設(shè)計(jì)是可以融入數(shù)據(jù)元素的,從數(shù)據(jù)廢氣到數(shù)據(jù)的可擴(kuò)展性,到挖掘數(shù)據(jù)的價(jià)值完善自身的產(chǎn)品,這些都是可以思考的點(diǎn)。很自然的冒出來的一個(gè)想法,在我們的產(chǎn)品設(shè)計(jì)里面,可以突出用戶留言之類的功能,通過這些功能的設(shè)計(jì),收集對產(chǎn)品存在的問題、改進(jìn)建議等等,或者說,這些功能以前也是有的,但是真正利用這些數(shù)據(jù)完善產(chǎn)品的思維卻是丟失的。大數(shù)據(jù)的意義,也就是從這些已存在的數(shù)據(jù)中發(fā)覺價(jià)值,利用這些數(shù)據(jù)完善自身產(chǎn)品、業(yè)務(wù)是數(shù)據(jù)的基本功能,對數(shù)據(jù)的二次利用,也是我們可以考慮的。結(jié)合《大數(shù)據(jù)時(shí)代》這本書,我覺的書中提到的數(shù)據(jù)創(chuàng)新的思路是我們很值得學(xué)習(xí)的。
跟個(gè)人比較緊密相關(guān)的,我比較感興趣大數(shù)據(jù)時(shí)代的角色定位,既有個(gè)人的定位、也有公司的定位,這個(gè)或許也是需要我再好好領(lǐng)悟的點(diǎn)吧。
至于《大數(shù)據(jù)時(shí)代》中提及的風(fēng)險(xiǎn)和掌控,這兩張?zhí)貏e是掌控,我想是大多數(shù)談?wù)摯髷?shù)據(jù)人都很少去思考的,人人都想從大數(shù)據(jù)中分杯羹,但是大數(shù)據(jù)發(fā)展到一定階段,這些問題都會是比較突出的問題。
大數(shù)據(jù)時(shí)代的知識能輕松獲得,也并不意味著就能真正掌握知識。大數(shù)據(jù)時(shí)代的知識僅僅是一種資源,好比家中存放成百上千的書籍,如果不去研讀,知識和人依然無關(guān)。不管處于怎樣的一種時(shí)代,知識需要人們花苦功夫鉆研,否則再多的知識也無意義。另外,現(xiàn)在不少人,凡是有不懂的問題,習(xí)慣性地上網(wǎng)搜索,不做任何甄別地將網(wǎng)上的知識和答案奉為寶典。長此以往,久而久之會使大腦變得懶惰,思維變得遲鈍。大數(shù)據(jù)時(shí)代的知識,究竟是令人變得聰明還是愚笨?
《大數(shù)據(jù)時(shí)代》作者認(rèn)為:“由大數(shù)據(jù)帶來對人的重新認(rèn)識,不是在阿波羅神廟,而是在小世界網(wǎng)絡(luò)中,認(rèn)識你自己。”我們從昨天的數(shù)據(jù)作用中認(rèn)識自然、認(rèn)識宇宙到今天通過大數(shù)據(jù)更多地認(rèn)識網(wǎng)絡(luò)和社會,我們的認(rèn)識更加全面、更加深刻、也更加廣泛。但是成就大數(shù)據(jù)的是無數(shù)努力造就小數(shù)據(jù)的人,他們探索大數(shù)據(jù)技術(shù),認(rèn)知大數(shù)據(jù)文化,并懷揣著對數(shù)據(jù)的敬畏和對規(guī)律的尊重。
我們本學(xué)期正在學(xué)習(xí)概率論與數(shù)理統(tǒng)計(jì)這門課,有人總是把大數(shù)據(jù)和統(tǒng)計(jì)學(xué)擺在兩個(gè)對立面,認(rèn)為有了大數(shù)據(jù)之后統(tǒng)計(jì)學(xué)就會逐漸消亡,而我并不這么認(rèn)為。首先,數(shù)據(jù)量的增加,有助于減小數(shù)據(jù)的誤差,如抽樣誤差等,能夠極大地提高各類分析的精準(zhǔn)度,這是大數(shù)據(jù)對于統(tǒng)計(jì)學(xué)的直接影響之一。
盡管當(dāng)今的”大數(shù)據(jù)“潮流使得我們獲得了海量的數(shù)據(jù),但掌握這些海量的數(shù)據(jù)本身并無意義。真正的意義體現(xiàn)在對于含有信息的數(shù)據(jù)進(jìn)行專業(yè)化的處理。要對大數(shù)據(jù)進(jìn)行處理,即在樣本幾乎等于總體的情況下,以目前的分析方法以及分析設(shè)備成本較高,耗時(shí)較長。
相比之下,統(tǒng)計(jì)學(xué)的抽樣方法似乎顯得更加”經(jīng)濟(jì)實(shí)惠“。在實(shí)際的運(yùn)用中,統(tǒng)計(jì)學(xué)能夠以較低的成本,較少的數(shù)據(jù),對數(shù)據(jù)進(jìn)行精確度相對較高的的分析,這是大數(shù)據(jù)分析所無法替代的。
甚至有學(xué)者指出,很多情況下,只要有一定的數(shù)據(jù),無關(guān)數(shù)據(jù)數(shù)量,分析結(jié)果不會有太大差別,因此大數(shù)據(jù)也就顯得不重要了。不敢說這話完全正確,但很大程度上說明了統(tǒng)計(jì)學(xué)對于數(shù)據(jù)分析處理的意義。通過一定的數(shù)據(jù)即可滿足人們對于數(shù)據(jù)處理的需要,統(tǒng)計(jì)學(xué)極大地提高了人們對于數(shù)據(jù)處理的效率。
大數(shù)據(jù)的來臨會推動統(tǒng)計(jì)學(xué)的發(fā)展,衍生出更多的發(fā)展方向,但絕不會替代統(tǒng)計(jì)學(xué),也不會減弱統(tǒng)計(jì)學(xué)的效果與意義。
第四篇:大數(shù)據(jù)(推薦)
《新技術(shù)講座》論文2012-2013(1)
XXXX大學(xué)—
《微軟新技術(shù)系列講座》論文
大數(shù)據(jù)
一、背景及發(fā)展趨勢
1.1.背景
大數(shù)據(jù)(BigData),或稱巨量資料,指的是所涉及的資料規(guī)模巨大到無
/ 7
《新技術(shù)講座》論文2012-2013(1)
法透過目前主流軟件工具,在合理的時(shí)間內(nèi)擷取、管理、處理并整理成為幫助企業(yè)經(jīng)營決策更積極目的的資訊。大數(shù)據(jù)的4V特點(diǎn):Volume(海量)、Velocity(高速)、Variety(多樣)、Value(價(jià)值)。
大數(shù)據(jù)作為時(shí)下最火熱的IT行業(yè)的詞匯,隨之?dāng)?shù)據(jù)倉庫、數(shù)據(jù)安全、數(shù)據(jù)分析、數(shù)據(jù)挖掘等等圍繞大數(shù)量的商業(yè)價(jià)值的利用逐漸成為行業(yè)人士爭相追捧的利潤焦點(diǎn)。
早在1980年,著名未來學(xué)家阿爾文·托夫勒便在《第三次浪潮》一書中,將大數(shù)據(jù)熱情地贊頌為“第三次浪潮的華彩樂章”。不過,大約從2009年開始,“大數(shù)據(jù)”才成為互聯(lián)網(wǎng)信息技術(shù)行業(yè)的流行詞匯。美國互聯(lián)網(wǎng)數(shù)據(jù)中心指出,互聯(lián)網(wǎng)上的數(shù)據(jù)每年將增長50%,每兩年便將翻一番,而目前世界上90%以上的數(shù)據(jù)是最近幾年才產(chǎn)生的。此外,數(shù)據(jù)又并非單純指人們在互聯(lián)網(wǎng)上發(fā)布的信息,全世界的工業(yè)設(shè)備、汽車、電表上有著無數(shù)的數(shù)碼傳感器,隨時(shí)測量和傳遞著有關(guān)位置、運(yùn)動、震動、溫度、濕度乃至空氣中化學(xué)物質(zhì)的變化,也產(chǎn)生了海量的數(shù)據(jù)信息。
隨著云時(shí)代的來臨,大數(shù)據(jù)也吸引了越來越多的關(guān)注?!吨婆_》的分析師團(tuán)隊(duì)認(rèn)為,大數(shù)據(jù)通常用來形容一個(gè)公司創(chuàng)造的大量非結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù),這些數(shù)據(jù)在下載到關(guān)系型數(shù)據(jù)庫用于分析時(shí)會花費(fèi)過多時(shí)間和金錢。大數(shù)據(jù)分析常和云計(jì)算聯(lián)系到一起,因?yàn)閷?shí)時(shí)的大型數(shù)據(jù)集分析需要像MapReduce一樣的框架來向數(shù)
十、數(shù)百或甚至數(shù)千的電腦分配工作。
1.2.發(fā)展趨勢
斯隆數(shù)字巡天收集在其最初的幾個(gè)星期,比在天文學(xué)的歷史,早在2000年的整個(gè)數(shù)據(jù)收集更多的數(shù)據(jù)。自那時(shí)以來,它已經(jīng)積累了140兆兆 字節(jié)的信息。這個(gè)望遠(yuǎn)鏡的繼任者,大天氣巡天望遠(yuǎn)鏡,將于2016年在網(wǎng)上和將獲得的數(shù)據(jù),每5天沃爾瑪處理超過100萬客戶的交易每隔一小時(shí),反過來進(jìn)口量數(shù)據(jù)庫估計(jì)超過2.5 PB的是相當(dāng)于167次,在美國國會圖書館的書籍。FACEBOOK處理400億張照片,從它的用戶群。解碼最初的人類基因組花了10年來處理時(shí),現(xiàn)在可以在一個(gè)星期內(nèi)實(shí)現(xiàn)。
“大數(shù)據(jù)”的影響,增加了對信息管理專家的需求,甲骨文,IBM,微軟和SAP花了超過15億美元的在軟件智能數(shù)據(jù)管理和分析的專業(yè)公司。這個(gè)行業(yè)自
/ 7
《新技術(shù)講座》論文2012-2013(1)
身價(jià)值超過1000億美元,增長近10%,每年兩次,這大概是作為一個(gè)整體的軟件業(yè)務(wù)的快速。
大數(shù)據(jù)已經(jīng)出現(xiàn),因?yàn)槲覀兩钤谝粋€(gè)社會中有更多的東西。有46億全球移動電話用戶有1億美元和20億人訪問互聯(lián)網(wǎng)?;旧?,人們比以往任何時(shí)候都與數(shù)據(jù)或信息交互。1990年至2005年,全球超過1億人進(jìn)入中產(chǎn)階級,這意味著越來越多的人,誰收益的這筆錢將成為反過來導(dǎo)致更多的識字信息的增長。思科公司預(yù)計(jì),到2013年,在互聯(lián)網(wǎng)上流動的交通量將達(dá)到每年667艾字節(jié)。
大數(shù)據(jù),其影響除了經(jīng)濟(jì)方面的,它同時(shí)也能在政治、文化等方面產(chǎn)生深遠(yuǎn)的影響,大數(shù)據(jù)可以幫助人們開啟循“數(shù)”管理的模式,也是我們當(dāng)下“大社會”的集中體現(xiàn),三分技術(shù),七分?jǐn)?shù)據(jù),得數(shù)據(jù)者得天下。
谷歌搜索、Facebook的帖子和微博消息使得人們的行為和情緒的細(xì)節(jié)化測量成為可能。挖掘用戶的行為習(xí)慣和喜好,凌亂紛繁的數(shù)據(jù)背后找到更符合用戶興趣和習(xí)慣的產(chǎn)品和服務(wù),并對產(chǎn)品和服務(wù)進(jìn)行針對性地調(diào)整和優(yōu)化,這就是大數(shù)據(jù)的價(jià)值。大數(shù)據(jù)也日益顯現(xiàn)出對各個(gè)行業(yè)的推進(jìn)力。
大數(shù)據(jù)時(shí)代來臨首先由數(shù)據(jù)豐富度決定的。社交網(wǎng)絡(luò)興起,大量的UGC(互聯(lián)網(wǎng)術(shù)語,全稱為User Generated Content,即用戶生成內(nèi)容的意思)內(nèi)容、音頻、文本信息、視頻、圖片等非結(jié)構(gòu)化數(shù)據(jù)出現(xiàn)了。另外,物聯(lián)網(wǎng)的數(shù)據(jù)量更大,加上移動互聯(lián)網(wǎng)能更準(zhǔn)確、更快地收集用戶信息,比如位置、生活信息等數(shù)據(jù)。從數(shù)據(jù)量來說,目前已進(jìn)入大數(shù)據(jù)時(shí)代,但現(xiàn)在的硬件明顯已跟不上數(shù)據(jù)發(fā)展的腳步。
以往大數(shù)據(jù)通常用來形容一個(gè)公司創(chuàng)造的大量非結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù),而現(xiàn)在提及“大數(shù)據(jù)”,通常是指解決問題的一種方法,即通過收集、整理生活中方方面面的數(shù)據(jù),并對其進(jìn)行分析挖掘,進(jìn)而從中獲得有價(jià)值信息,最終衍化出一種新的商業(yè)模式。
雖然大數(shù)據(jù)目前在國內(nèi)還處于初級階段,但是商業(yè)價(jià)值已經(jīng)顯現(xiàn)出來。首先,手中握有數(shù)據(jù)的公司站在金礦上,基于數(shù)據(jù)交易即可產(chǎn)生很好的效益;其次,基于數(shù)據(jù)挖掘會有很多商業(yè)模式誕生,定位角度不同,或側(cè)重?cái)?shù)據(jù)分析。比如幫企業(yè)做內(nèi)部數(shù)據(jù)挖掘,或側(cè)重優(yōu)化,幫企業(yè)更精準(zhǔn)找到用戶,降低營銷成本,提高企業(yè)銷售率,增加利潤。
/ 7
《新技術(shù)講座》論文2012-2013(1)
未來,數(shù)據(jù)可能成為最大的交易商品。但數(shù)據(jù)量大并不能算是大數(shù)據(jù),大數(shù)據(jù)的特征是數(shù)據(jù)量大、數(shù)據(jù)種類多、非標(biāo)準(zhǔn)化數(shù)據(jù)的價(jià)值最大化。因此,大數(shù)據(jù)的價(jià)值是通過數(shù)據(jù)共享、交叉復(fù)用后獲取最大的數(shù)據(jù)價(jià)值。在他看來,未來大數(shù)據(jù)將會如基礎(chǔ)設(shè)施一樣,有數(shù)據(jù)提供方、管理者、監(jiān)管者,數(shù)據(jù)的交叉復(fù)用將大數(shù)據(jù)變成一大產(chǎn)業(yè)。據(jù)統(tǒng)計(jì),目前大數(shù)據(jù)所形成的市場規(guī)模在51億美元左右,而到2017年,此數(shù)據(jù)預(yù)計(jì)會上漲到530億美元。
二、實(shí)施應(yīng)用
大的數(shù)據(jù)需要特殊的技術(shù),以有效地處理大量的容忍經(jīng)過時(shí)間內(nèi)的數(shù)據(jù)。適用于大數(shù)據(jù)的技術(shù),包括大規(guī)模并行處理(MPP)數(shù)據(jù)庫,數(shù)據(jù)挖掘電網(wǎng),分布式文件系統(tǒng),分布式數(shù)據(jù)庫,云計(jì)算平臺,互聯(lián)網(wǎng),和可擴(kuò)展的存儲系統(tǒng)。
“這是一場革命,龐大的數(shù)據(jù)資源使得各個(gè)領(lǐng)域開始了量化進(jìn)程,無論學(xué)術(shù)界、商界還是政府,所有領(lǐng)域都將開始這種進(jìn)程?!薄鸫髮W(xué) 社會學(xué)教授加里·金
隨著大數(shù)據(jù)應(yīng)用的爆發(fā)性增長,它已經(jīng)衍生出了自己獨(dú)特的架構(gòu),而且也直接推動了存儲、網(wǎng)絡(luò)以及計(jì)算技術(shù)的發(fā)展。畢竟處理大數(shù)據(jù)這種特殊的需求是一個(gè)新的挑戰(zhàn)。硬件的發(fā)展最終還是由軟件需求推動的,我們很明顯的看到大數(shù)據(jù)分析應(yīng)用需求正在影響著數(shù)據(jù)存儲基礎(chǔ)設(shè)施的發(fā)展。從另一方面看,這一變化對存儲廠商和其他IT基礎(chǔ)設(shè)施廠商未嘗不是一個(gè)機(jī)會。隨著結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)量的持續(xù)增長,以及分析數(shù)據(jù)來源的多樣化,此前存儲系統(tǒng)的設(shè)計(jì)已經(jīng)無法滿足大數(shù)據(jù)應(yīng)用的需要。存儲廠商已經(jīng)意識到這一點(diǎn),他們開始修改基于塊和文件的存儲系統(tǒng)的架構(gòu)設(shè)計(jì)以適應(yīng)這些新的要求。
針對大數(shù)據(jù)的世界領(lǐng)先品牌存儲企業(yè)有:IBM、EMC、LSISandForce、INTEL、惠普、戴爾、甲骨文、日立、賽門鐵克等 對于大數(shù)據(jù)的存儲問題,以下問題不可忽視:
容量問題
/ 7
《新技術(shù)講座》論文2012-2013(1)
這里所說的“大容量”通常可達(dá)到PB級的數(shù)據(jù)規(guī)模,因此,海量數(shù)據(jù)存儲系統(tǒng)也一定要有相應(yīng)等級的擴(kuò)展能力。與此同時(shí),存儲系統(tǒng)的擴(kuò)展一定要簡便,可以通過增加模塊或磁盤柜來增加容量,甚至不需要停機(jī)。在解決容量問題上,不得不提LSI公司的全新Nytro?智能化閃存解決方案,采用Nytro產(chǎn)品,客戶可以將數(shù)據(jù)庫事務(wù)處理性能提高30倍,并且超過每秒4.0GB1的持續(xù)吞吐能力,非常適用于大數(shù)據(jù)分析。延遲問題
“大數(shù)據(jù)”應(yīng)用還存在實(shí)時(shí)性的問題。特別是涉及到與網(wǎng)上交易或者金融類相關(guān)的應(yīng)用。有很多“大數(shù)據(jù)”應(yīng)用環(huán)境需要較高的IOPS性能,比如HPC高性能計(jì)算。此外,服務(wù)器虛擬化的普及也導(dǎo)致了對高IOPS的需求,正如它改變了傳統(tǒng)IT環(huán)境一樣。為了迎接這些挑戰(zhàn),各種模式的固態(tài)存儲設(shè)備應(yīng)運(yùn)而生,小到簡單的在服務(wù)器內(nèi)部做高速緩存,大到全固態(tài)介質(zhì)可擴(kuò)展存儲系統(tǒng)通過高性能閃存存儲,自動、智能地對熱點(diǎn)數(shù)據(jù)進(jìn)行讀/寫高速緩存的LSI Nytro系列產(chǎn)品等等都在蓬勃發(fā)展。
安全問題
某些特殊行業(yè)的應(yīng)用,比如金融數(shù)據(jù)、醫(yī)療信息以及政府情報(bào)等都有自己的安全標(biāo)準(zhǔn)和保密性需求。雖然對于IT管理者來說這些并沒有什么不同,而且都是必須遵從的,但是,大數(shù)據(jù)分析往往需要多類數(shù)據(jù)相互參考,而在過去并不會有這種數(shù)據(jù)混合訪問的情況,大數(shù)據(jù)應(yīng)用催生出一些新的、需要考慮的安全性問題,這就充分體現(xiàn)出利用基于DuraClass? 技術(shù)的LSI SandForce?閃存處理器的優(yōu)勢了,實(shí)現(xiàn)了企業(yè)級閃存性能和可靠性,實(shí)現(xiàn)簡單、透明的應(yīng)用加速,既安全又方便。
成本問題
對于那些正在使用大數(shù)據(jù)環(huán)境的企業(yè)來說,成本控制是關(guān)鍵的問題。想控制成本,就意味著我們要讓每一臺設(shè)備都實(shí)現(xiàn)更高的“效率”,同時(shí)還要減少那些昂貴的部件。目前,像重復(fù)數(shù)據(jù)刪除等技術(shù)已經(jīng)進(jìn)入到主存儲市場,而且現(xiàn)在還可以處理更多的數(shù)據(jù)類型,這都可以為大數(shù)據(jù)存儲應(yīng)用帶來更多的價(jià)值,提升存儲效率。在數(shù)據(jù)量不斷增長的環(huán)境中,通過減少后端存儲的消耗,哪怕只是降低幾個(gè)百分點(diǎn),這種錙銖必較的服務(wù)器也只有LSI推出的Syncro? MX-B機(jī)架服務(wù)器啟動盤設(shè)備都能夠獲得明顯的投資回報(bào),當(dāng)今,5 / 7
《新技術(shù)講座》論文2012-2013(1)
數(shù)據(jù)中心使用的傳統(tǒng)引導(dǎo)驅(qū)動器不僅故障率高,而且具有較高的維修和更換成本。如果用它替換數(shù)據(jù)中心的獨(dú)立服務(wù)器引導(dǎo)驅(qū)動器,則能將可靠性提升多達(dá)100倍。并且對主機(jī)系統(tǒng)是透明的,能為每一個(gè)附加服務(wù)器提供唯一的引導(dǎo)鏡像,可簡化系統(tǒng)管理,提升可靠性,并且節(jié)電率高達(dá)60%,真正做到了節(jié)省成本的問題。
數(shù)據(jù)的積累
許多大數(shù)據(jù)應(yīng)用都會涉及到法規(guī)遵從問題,這些法規(guī)通常要求數(shù)據(jù)要保存幾年或者幾十年。比如醫(yī)療信息通常是為了保證患者的生命安全,而財(cái)務(wù)信息通常要保存7年。而有些使用大數(shù)據(jù)存儲的用戶卻希望數(shù)據(jù)能夠保存更長的時(shí)間,因?yàn)槿魏螖?shù)據(jù)都是歷史記錄的一部分,而且數(shù)據(jù)的分析大都是基于時(shí)間段進(jìn)行的。要實(shí)現(xiàn)長期的數(shù)據(jù)保存,就要求存儲廠商開發(fā)出能夠持續(xù)進(jìn)行數(shù)據(jù)一致性檢測的功能以及其他保證長期高可用的特性。同時(shí)還要實(shí)現(xiàn)數(shù)據(jù)直接在原位更新的功能需求。
靈活性
大數(shù)據(jù)存儲系統(tǒng)的基礎(chǔ)設(shè)施規(guī)模通常都很大,因此必須經(jīng)過仔細(xì)設(shè)計(jì),才能保證存儲系統(tǒng)的靈活性,使其能夠隨著應(yīng)用分析軟件一起擴(kuò)容及擴(kuò)展。在大數(shù)據(jù)存儲環(huán)境中,已經(jīng)沒有必要再做數(shù)據(jù)遷移了,因?yàn)閿?shù)據(jù)會同時(shí)保存在多個(gè)部署站點(diǎn)。一個(gè)大型的數(shù)據(jù)存儲基礎(chǔ)設(shè)施一旦開始投入使用,就很難再調(diào)整了,因此它必須能夠適應(yīng)各種不同的應(yīng)用類型和數(shù)據(jù)場景。
應(yīng)用感知
最早一批使用大數(shù)據(jù)的用戶已經(jīng)開發(fā)出了一些針對應(yīng)用的定制的基礎(chǔ)設(shè)施,比如針對政府項(xiàng)目開發(fā)的系統(tǒng),還有大型互聯(lián)網(wǎng)服務(wù)商創(chuàng)造的專用服務(wù)器等。在主流存儲系統(tǒng)領(lǐng)域,應(yīng)用感知技術(shù)的使用越來越普遍,它也是改善系統(tǒng)效率和性能的重要手段,所以,應(yīng)用感知技術(shù)也應(yīng)該用在大數(shù)據(jù)存儲環(huán)境里。
針對小用戶
依賴大數(shù)據(jù)的不僅僅是那些特殊的大型用戶群體,作為一種商業(yè)需求,小型企業(yè)未來也一定會應(yīng)用到大數(shù)據(jù)。我們看到,有些存儲廠商已經(jīng)在開發(fā)一些小型的“大數(shù)據(jù)”存儲系統(tǒng),主要吸引那些對成本比較敏感的用戶。
實(shí)際應(yīng)用
/ 7
《新技術(shù)講座》論文2012-2013(1)
包括網(wǎng)絡(luò)日志,RFID,傳感器網(wǎng)絡(luò),社會網(wǎng)絡(luò),社會數(shù)據(jù)(由于數(shù)據(jù)革命的社會),互聯(lián)網(wǎng)文本和文件;互聯(lián)網(wǎng)搜索索引;呼叫詳細(xì)記錄,天文學(xué),大氣科學(xué),基因組學(xué),生物地球化學(xué),生物,和其他復(fù)雜和/或跨學(xué)科的科研,軍事偵察,醫(yī)療記錄;攝影檔案館視頻檔案;和大規(guī)模的電子商務(wù)。
三、心得體會
聽完此次王老師的《大數(shù)據(jù)》講座,讓我受益匪淺。不僅充分了解了大數(shù)據(jù)的概念,大數(shù)據(jù)時(shí)代的起源、發(fā)展及實(shí)際應(yīng)用產(chǎn)品的問世,而且對大數(shù)據(jù)的神奇很是驚訝。的確,未來的世界需要科技創(chuàng)新,需要技術(shù)變革,而大數(shù)據(jù)就是改變世界的助推器之一,作為即將進(jìn)入IT行業(yè)的我們來說,這既是機(jī)遇,也是挑戰(zhàn)!
/ 7
第五篇:大數(shù)據(jù)讀后感
感于《大數(shù)據(jù)》
崮山裕祿學(xué)校 白海
我原以為《大數(shù)據(jù)》會是一本理論書籍。讀下去才發(fā)現(xiàn)該書很像西方的教科書,運(yùn)用案例和講故事的方式,把美國數(shù)據(jù)開放、收集、使用背后的立法故事,公民故事,技術(shù)故事,商業(yè)故事娓娓道來,引人入勝,令我大開眼界。而更讓我驚訝的是,《大數(shù)據(jù)》并不是技術(shù)類的書籍,它的著重點(diǎn)是公共管理,是在談數(shù)據(jù)信息的公開,如何公開,如何收集,如何使用。對我們現(xiàn)在如何推動政務(wù)信息公開,財(cái)政支出公開,如何更好地發(fā)揮政府部門的數(shù)據(jù)服務(wù)民生,如何更好地實(shí)現(xiàn)社會公益組織與政府的和諧互動具有很好的啟發(fā)作用。
我心目中的好書,應(yīng)該是能開闊視野,啟發(fā)思維,昭示未來的。我覺得《大數(shù)據(jù)》就是這樣的一本書。
首先說下這本書好的地方就是將大數(shù)據(jù)變化為一本科普讀物,不是講大數(shù)據(jù)的關(guān)鍵技術(shù)和具體實(shí)現(xiàn),而更多的是圍繞美國政府基于數(shù)據(jù)的管理歷史線條展開,讓大家更加容易理解大數(shù)據(jù)在政府執(zhí)政和公共事務(wù)管理中發(fā)揮的作用,所以我看完后最大的感覺就是關(guān)注智慧城市的相關(guān)人員完全有必要閱讀該書,會對以后在智慧城市的管理和建設(shè)中如何更好的理解大數(shù)據(jù),應(yīng)用大數(shù)據(jù),發(fā)揮大數(shù)據(jù)本身的業(yè)務(wù)價(jià)值有更好的理解。
為何近幾年出現(xiàn)大數(shù)據(jù),最重要的還是隨著信息技術(shù)和互聯(lián)網(wǎng),管理的精細(xì)化,全球化和社交圈擴(kuò)大,數(shù)據(jù)呈現(xiàn)了指數(shù)級的增長。2009年美國的數(shù)據(jù),離散制造業(yè)966PB,政府848PB,傳媒行業(yè)715PB,這是麥肯錫2011年出版的一份報(bào)告《大數(shù)據(jù):下一代創(chuàng)新,競爭和生產(chǎn)率的前沿》里面的一個(gè)估算。正是由于數(shù)據(jù)指數(shù)級的增長,對數(shù)據(jù)的開放,信息自由,數(shù)據(jù)的采集,數(shù)據(jù)的分析和處理,預(yù)測和決策提出了更高的要求。
信息自由,一為信息公開,二為信息發(fā)布。公開是政府和某一社會特定主體的關(guān)系,是點(diǎn)對點(diǎn)的;而信息發(fā)布是政府和社會的關(guān)系,是點(diǎn)對面的。信息自由法已經(jīng)成為美國不可缺少的一個(gè)基本法案,只有信息自由才談得上進(jìn)一步的數(shù)據(jù)開放和數(shù)據(jù)共享。我們信奉上帝,除了上帝任何人都要以數(shù)據(jù)說話。信息技術(shù)發(fā)展,數(shù)據(jù)指數(shù)級增長,已經(jīng)徹底改變了政府,社會,商業(yè)群體的決策方法。需要的是形成一種數(shù)據(jù)驅(qū)動的決策方法,數(shù)據(jù)治國,需要基于實(shí)證的事實(shí)而非簡單的意識形態(tài)。而真正要讓數(shù)據(jù)能夠上升到?jīng)Q策層面,首先需要的就是數(shù)據(jù)大范圍采集,數(shù)據(jù)抽樣,數(shù)據(jù)測量和數(shù)據(jù)質(zhì)量管理。另外數(shù)據(jù)驅(qū)動和事件驅(qū)動是兩種模式,數(shù)據(jù)驅(qū)動強(qiáng)調(diào)的是歷史和預(yù)測,而事件驅(qū)動強(qiáng)調(diào)的是實(shí)時(shí)和響應(yīng)。大數(shù)據(jù)有一個(gè)維度專門是指速度和快速響應(yīng),更需要考慮事件驅(qū)動和數(shù)據(jù)驅(qū)動融合。
帝國法則,詳細(xì)講述了數(shù)據(jù)的收集法則,使用法則,發(fā)布法則和管理法則。數(shù)據(jù)能夠滿足既定的用途,它才有質(zhì)量。如果不能滿足既定的目標(biāo)和用途,就談不上質(zhì)量。換句話說,數(shù)據(jù)的質(zhì)量不僅取決于它本身,還取決于它的用途。數(shù)據(jù)質(zhì)量的問題涉及到數(shù)據(jù)收集,使用,發(fā)布等所有過程的問題。數(shù)據(jù)質(zhì)量管理要有標(biāo)準(zhǔn),有流程,有救助機(jī)制。
從軟件的開源到數(shù)據(jù)的開放,我們過渡到一個(gè)新的世界,可以講數(shù)據(jù)開放式本身的另外一個(gè)重點(diǎn)。在這個(gè)新的世界里面,數(shù)據(jù)遠(yuǎn)遠(yuǎn)比軟件更加重要。從2004年以來,美國一直在進(jìn)行數(shù)據(jù)開放運(yùn)動,聯(lián)邦政府也專門家里了數(shù)據(jù)開放門戶網(wǎng)站DataGov,其主要目標(biāo)就是通過數(shù)據(jù)開放,通過鼓勵(lì)新的創(chuàng)意,讓數(shù)據(jù)走出政府,得到更多的創(chuàng)新型應(yīng)用。從而進(jìn)一步鞏固政府透明化,民主化和政府效能。
數(shù)據(jù)之爭涉及到原始數(shù)據(jù)采集,數(shù)據(jù)質(zhì)量,數(shù)據(jù)安全,數(shù)據(jù)粒度,數(shù)據(jù)價(jià)值,數(shù)據(jù)虛實(shí)多個(gè)維度。而DataGov不僅僅開放了原始數(shù)據(jù),地理數(shù)據(jù),還包含了數(shù)據(jù)分析工具的開放。數(shù)據(jù)開放為創(chuàng)新提供了無窮的燃料,因?yàn)閯?chuàng)新型應(yīng)用,數(shù)據(jù)的能量將逐層放大。
預(yù)測未來最好的方法,就是創(chuàng)造未來。而數(shù)據(jù)最大的價(jià)值仍然在預(yù)測上面,在解決了數(shù)據(jù)開放,數(shù)據(jù)采集,數(shù)據(jù)質(zhì)量管理,數(shù)據(jù)處理后,最重要的作用就是基于數(shù)據(jù)進(jìn)行科學(xué)的預(yù)測和決策。數(shù)據(jù)競爭將是企業(yè)贏之道,一些企業(yè)已經(jīng)將他們商業(yè)活動的每個(gè)環(huán)節(jié)放在了數(shù)據(jù)收集,分析和行動的能力上。摘錄大數(shù)據(jù)中令人難忘的語句:
一個(gè)真正的信息社會,首先是一個(gè)公民社會。
永遠(yuǎn)不要懷疑,那一小部分有思想并且執(zhí)著努力的公民能夠改變這個(gè)世界。事實(shí)上,人類的歷史從來都是這樣最高深的技術(shù)是那些令人無法察覺的技術(shù),這些技術(shù)不停的把它們自己編織進(jìn)日常生活,直到你無從發(fā)現(xiàn)為止。