欧美色欧美亚洲高清在线观看,国产特黄特色a级在线视频,国产一区视频一区欧美,亚洲成a 人在线观看中文

  1. <ul id="fwlom"></ul>

    <object id="fwlom"></object>

    <span id="fwlom"></span><dfn id="fwlom"></dfn>

      <object id="fwlom"></object>

      大數(shù)據(jù)調(diào)查論文翻譯[五篇范例]

      時(shí)間:2019-05-15 08:14:48下載本文作者:會(huì)員上傳
      簡介:寫寫幫文庫小編為你整理了多篇相關(guān)的《大數(shù)據(jù)調(diào)查論文翻譯》,但愿對你工作學(xué)習(xí)有幫助,當(dāng)然你在寫寫幫文庫還可以找到更多《大數(shù)據(jù)調(diào)查論文翻譯》。

      第一篇:大數(shù)據(jù)調(diào)查論文翻譯

      一個(gè)大數(shù)據(jù)的調(diào)查

      陳敏、毛詩文、劉云浩

      摘要:在這篇論文中,我們將回顧大數(shù)據(jù)的背景以及當(dāng)前發(fā)展?fàn)顩r。我們首先介紹大數(shù)據(jù)的一般應(yīng)用背景以及回顧涉及到的技術(shù),例如:云計(jì)算、物聯(lián)網(wǎng)、數(shù)據(jù)中心,以及Hadoop。接下來我們著重大數(shù)據(jù)價(jià)值鏈的四個(gè)階段,也就是:數(shù)據(jù)生成,數(shù)據(jù)采集,數(shù)據(jù)存儲(chǔ)和數(shù)據(jù)分析。對于每個(gè)階段,我們介紹應(yīng)用背景,討論技術(shù)難題以及回顧最新技術(shù)。最后,我們介紹幾個(gè)大數(shù)據(jù)的代表性應(yīng)用,包括企業(yè)管理,物聯(lián)網(wǎng),在線社交網(wǎng)絡(luò),媒體應(yīng)用,集成智慧,以及智能電網(wǎng)。這些討論旨在提供一個(gè)全面的概述以及對讀者感興趣的領(lǐng)域的藍(lán)圖。這個(gè)調(diào)查包括了對開放問題和未來方向的討論。

      關(guān)鍵字 大數(shù)據(jù) 云計(jì)算 物聯(lián)網(wǎng) 數(shù)據(jù)中心 Hadoop 智能電網(wǎng) 大數(shù)據(jù)分析

      1、背景

      1.1大數(shù)據(jù)時(shí)代的曙光

      在過去的二十年,數(shù)據(jù)在各種各樣的領(lǐng)域內(nèi)爆炸式增長。按照2011年來自國際數(shù)據(jù)公司(IDC)的報(bào)告,世界上總共的創(chuàng)建及復(fù)制的數(shù)據(jù)量達(dá)到1.8zb,在五年內(nèi)增長了大約九倍[1]。在未來這個(gè)數(shù)字至少每兩年增加一倍。在全球數(shù)據(jù)的爆炸增長下,大數(shù)據(jù)這個(gè)詞主要來描述巨大的數(shù)據(jù)集。與傳統(tǒng)的數(shù)據(jù)集相比,大數(shù)據(jù)通常包括非結(jié)構(gòu)化數(shù)據(jù),這需要更實(shí)時(shí)的分析。另外,大數(shù)據(jù)也能在發(fā)現(xiàn)新價(jià)值上帶來新優(yōu)勢,幫助我們幫助我們獲得一個(gè)深入隱藏價(jià)值的認(rèn)識(shí),也導(dǎo)致新挑戰(zhàn),例如,如何有效地組織和管理這樣的數(shù)據(jù)集。近日,行業(yè)產(chǎn)生興趣的大數(shù)據(jù)的高潛力,許多政府機(jī)構(gòu)公布主要計(jì)劃加快大數(shù)據(jù)的研究和應(yīng)用[2]。此外,大數(shù)據(jù)問題往往覆蓋在公共媒體,如經(jīng)濟(jì)學(xué)[3,4],紐約時(shí)報(bào)[5],和全國公共廣播電臺(tái)[6,7]。這兩個(gè)主要的科學(xué)期刊,Nature和Science,還開通了專欄討論大數(shù)據(jù)的挑戰(zhàn)和影響[8,9]。大數(shù)據(jù)的時(shí)代已經(jīng)到來超越一切質(zhì)疑[10]。

      目前,與互聯(lián)網(wǎng)公司的業(yè)務(wù)相關(guān)聯(lián)的大數(shù)據(jù)快速增長。例如,谷歌處理的數(shù)據(jù) 達(dá)數(shù)百拍字節(jié)(PB),F(xiàn)acebook的生成日志數(shù)據(jù)每月有超過10 PB,百度一家中國公司百度,業(yè)務(wù)流程有數(shù)十PB的數(shù)據(jù),而阿里巴巴的子公司淘寶每天的網(wǎng)上交易產(chǎn)生幾十太字節(jié)(TB)的數(shù)據(jù)。圖1示出的全球數(shù)據(jù)量的熱潮。當(dāng)大型數(shù)據(jù)集的數(shù)量急劇上升,它也帶來了許多具有挑戰(zhàn)性的問題,解決方案如下:

      一、持續(xù)增長的數(shù)據(jù)

      信息技術(shù)的最新發(fā)展(IT)使其更容易以產(chǎn)生數(shù)據(jù)。例如,每分鐘有平均72個(gè)小時(shí)的視頻上傳到Y(jié)ouTube[11]。因此,我們面臨的主要挑戰(zhàn)是從廣泛分布的數(shù)據(jù)源中收集和整合大量的數(shù)據(jù)。

      云計(jì)算和物聯(lián)網(wǎng)(IOT)的快速發(fā)展進(jìn)一步促進(jìn)數(shù)據(jù)的大幅增長。云計(jì)算提供了安全措施,訪問網(wǎng)站以及數(shù)據(jù)資產(chǎn)的渠道。在物聯(lián)網(wǎng)的典范,遍布世界各地的傳感器正在收集和傳送數(shù)據(jù)到云端進(jìn)行存儲(chǔ)和處理。這樣的數(shù)據(jù)在數(shù)量和相互關(guān)系將遠(yuǎn)遠(yuǎn)超過對IT架構(gòu)和現(xiàn)有企業(yè)的基礎(chǔ)設(shè)施的能力,以及它的實(shí)時(shí)要求也將極大地強(qiáng)調(diào)可用的計(jì)算能力。日益增長的數(shù)據(jù)造成怎樣在當(dāng)前硬件和軟件的基礎(chǔ)上 存儲(chǔ)和管理如此龐大的異構(gòu)數(shù)據(jù)集的問題。

      考慮到大數(shù)據(jù)的異質(zhì)性,可擴(kuò)展性,實(shí)時(shí)性,復(fù)雜性和保密性,我們將有效地通過在不同層面分析,建模,可視化和預(yù)測,進(jìn)而“開采”數(shù)據(jù)集,從而揭示其內(nèi)在的性能以及完善決策。

      1.2、大數(shù)據(jù)的定義和特點(diǎn)

      大數(shù)據(jù)是一個(gè)抽象的概念。除了大量的數(shù)據(jù),它也有一些其他的功能,這決定本身和“海量數(shù)據(jù)”或之間的差異“很大的數(shù)據(jù)?!蹦壳?,雖然大的數(shù)據(jù)的重要性已經(jīng)成為共識(shí),人們?nèi)匀粚λ亩x有不同意見。一般情況下,大數(shù)據(jù)是指不能由傳統(tǒng)IT和軟件/硬件工具在允許的時(shí)間內(nèi)處理察覺,獲取,管理的數(shù)據(jù)集。因?yàn)椴煌年P(guān)注點(diǎn),科技企業(yè),研究學(xué)者,數(shù)據(jù)分析,技術(shù)從業(yè)人員對大數(shù)據(jù)有不同的定義。以下定義可以幫助我們有一個(gè)在更好地理解大數(shù)據(jù)在社會(huì),經(jīng)濟(jì)里的技術(shù)內(nèi)涵。

      2010年,Apache Hadoop將大數(shù)據(jù)定義為“大數(shù)據(jù)是指不能由傳統(tǒng)IT和軟件/硬件工具在允許的時(shí)間內(nèi)處理察覺,獲取,管理的數(shù)據(jù)集。”在這一定義的基礎(chǔ)上,在2011年5月,麥肯錫公司,一個(gè)全球咨詢機(jī)構(gòu)宣布大數(shù)據(jù)作為下一個(gè)前沿創(chuàng)新,競爭和生產(chǎn)力。大數(shù)據(jù)系也可指可能用經(jīng)典數(shù)據(jù)庫軟件無法獲得、存儲(chǔ)、管理的數(shù)據(jù)集,這個(gè)定義包括兩個(gè)含義:一是數(shù)據(jù)集“卷符合大數(shù)據(jù)的標(biāo)準(zhǔn)正在發(fā)生變化,可隨著時(shí)間的推移或技術(shù)的進(jìn)步;其次,數(shù)據(jù)集“卷順應(yīng)大標(biāo)準(zhǔn) 在不同的應(yīng)用數(shù)據(jù)彼此不同。在目前,大數(shù)據(jù)一般為幾個(gè)TB到幾PB [10]。從麥肯錫公司的定義,可以看出,一個(gè)數(shù)據(jù)集的體積不是唯一標(biāo)準(zhǔn)大數(shù)據(jù)。日益增長的數(shù)據(jù)規(guī)模不能由傳統(tǒng)的處理,并對其管理數(shù)據(jù)庫技術(shù)是接下來的兩個(gè)關(guān)鍵特性。

      事實(shí)上,早在2001年,META的分析師(現(xiàn)Gartner公司)道格·萊尼通過3VS模型將大數(shù)據(jù)定義為挑戰(zhàn)和機(jī)遇。即,增加的數(shù)據(jù)數(shù)量,速度和品種,在研究報(bào)告中[12],盡管這種最初不是用模型來定義大數(shù)據(jù),未來十年里,Gartner等多家企業(yè),其中包括IBM [13]和微軟的[14]研究部門仍然采用的是“3VS”模型來描述大數(shù)據(jù)。在“3VS”的模式中,數(shù)據(jù)卷是指,與人民群眾的產(chǎn)生和收集數(shù)據(jù),數(shù)據(jù)規(guī)模越來越大;速度意味著大數(shù)據(jù)的時(shí)效性,具體而言,數(shù)據(jù)采集和分析等必須迅速和及時(shí)進(jìn)行的從而為最大限度地利用大數(shù)據(jù)的商業(yè)價(jià)值;各種指示各種類型的數(shù)據(jù),其中包括半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù),例如音頻,視頻,網(wǎng)頁,和文字,以及傳統(tǒng)的結(jié)構(gòu)化數(shù)據(jù)。

      然而,其他人有不同的意見,包括IDC,一個(gè)在大數(shù)據(jù)和研究領(lǐng)域最有影響力的領(lǐng)導(dǎo)人之一。2011年,IDC的報(bào)告定義大數(shù)據(jù)為“大數(shù)據(jù)技術(shù)描述了新一代的技術(shù)和架構(gòu),旨在在經(jīng)濟(jì)上提取捕捉,發(fā)現(xiàn),和/或分析非常大量的各種數(shù)據(jù)的“[1]根據(jù)這個(gè)定義,大數(shù)據(jù)的特點(diǎn)可以概括為4 Vs時(shí),即體積(大體積),品種(各種形式),速度(快速生成),和價(jià)值(巨大的價(jià)值,但很低密度)。如圖2,這類4Vs定義被廣泛認(rèn)可它強(qiáng)調(diào)大數(shù)據(jù),即意義和必要性,探索隱藏的巨大價(jià)值。這個(gè)定義說明在大數(shù)據(jù)中最關(guān)鍵的問題,是如何在一個(gè)巨大的規(guī)模,各類型和快速生成的數(shù)據(jù)集中發(fā)現(xiàn)價(jià)值。至于周帕瑞克,F(xiàn)acebook的副總監(jiān)工程師說,“如果你不利用所收集的數(shù)據(jù),你只能擁有的數(shù)據(jù)不是大數(shù)據(jù),“。[11] 此外,NIST的定義大數(shù)據(jù)“大數(shù)據(jù)應(yīng) 其中,平均數(shù)據(jù)的數(shù)據(jù)量,采集速度,或數(shù)據(jù)表示限制使用傳統(tǒng)的能力關(guān)系的方法來進(jìn)行有效的分析或數(shù)據(jù)這可能有重要的水平縮放技術(shù)“,其重點(diǎn)是技術(shù)得到有效處理大數(shù)據(jù)方面。它表明,有效的方法或技術(shù)需要開發(fā)并用于分析和處理大數(shù)據(jù),已經(jīng)有來自大量討論。工業(yè)界和學(xué)術(shù)界對大數(shù)據(jù)[16,17]的定義。除了制定一個(gè)適當(dāng)?shù)亩x,大數(shù)據(jù)如何研究還應(yīng)該著眼于如何提取它的價(jià)值,使用數(shù)據(jù),以及如何將“一堆數(shù)據(jù)”變成“大 數(shù)據(jù)。”

      2、大數(shù)據(jù)的4Vs模型

      1.3大數(shù)據(jù)的價(jià)值

      麥肯錫公司觀察到大數(shù)據(jù)創(chuàng)造價(jià)值觀對美國醫(yī)療保健的深入研究后,歐盟公共部門管理,美國零售業(yè)、全球制造,和全球個(gè)人位置數(shù)據(jù)。通過對代表全球經(jīng)濟(jì)的五大核心產(chǎn)業(yè)的研究,麥肯錫的報(bào)告指出,大數(shù)據(jù)可以充分發(fā)揮經(jīng)濟(jì)職能,我證明了企業(yè)和公共部門的生產(chǎn)力和競爭力,為消費(fèi)者創(chuàng)造了巨大的利益。在[ 10 ],麥肯錫總結(jié)大數(shù)據(jù)可以創(chuàng)造的價(jià)值:如果大數(shù)據(jù)C將創(chuàng)造性和有效利用來提高效率和質(zhì)量,美國的醫(yī)療行業(yè)通過獲得的數(shù)據(jù)可能會(huì)超過300美元億美元的潛在價(jià)值,從而減少花費(fèi)引言美國醫(yī)療8%以上;零售商充分利用大數(shù)據(jù)可以提高超過60%的利潤;也可以利用大數(shù)據(jù)來提高政府的效率,歌劇在歐洲,這樣的發(fā)達(dá)經(jīng)濟(jì)體可以節(jié)省超過100歐元億美元(不包括減少欺詐、錯(cuò)誤和稅收差異影響)。

      麥肯錫的報(bào)告被視為前瞻性和預(yù)測性,而下面的事實(shí)可以驗(yàn)證大數(shù)據(jù)值。2009流感大流行期間,谷歌獲得及時(shí)的信息,通過分析化大數(shù)據(jù),甚至提供比由疾病預(yù)防中心提供更多有價(jià)值的信息。幾乎所有國家所需的醫(yī)院通知機(jī)構(gòu),如疾病預(yù)防中心流感病例的新類型。然而,患者通常沒有立即看醫(yī)生的時(shí)候,感染。同時(shí)也花了一些時(shí)間從醫(yī)院到疾病預(yù)防的信息中心和疾病預(yù)防中心分析總結(jié)等信息。因此,當(dāng)公眾意識(shí)到新流感的大流行,這種疾病可能已經(jīng)一到兩周的時(shí)間,一個(gè)滯后的性質(zhì)。谷歌發(fā)現(xiàn),在流感的傳播,作品經(jīng)常尋求在其搜索引擎將不同于那些普通的鈦MES和參賽作品的使用頻率相關(guān)的流感傳播的時(shí)間和地點(diǎn)。谷歌發(fā)現(xiàn)45的搜索條目組密切相關(guān)的疫情流感和將它們在具體的數(shù)學(xué)模型來預(yù)測流感的傳播,甚至預(yù)測流感傳播的地方。相關(guān)研究成果已發(fā)表的他在自然[ 18 ]。2008,微軟收購了Farecast,美國科技公司Farecast的機(jī)票預(yù)測系統(tǒng),預(yù)測趨勢和上升/下降的機(jī)票價(jià)格范圍。該系統(tǒng)已被納入微軟的必應(yīng)搜索引擎。到2012時(shí),該系統(tǒng)已節(jié)省近50美元每名乘客的門票,與預(yù)測精度高達(dá)75%。

      目前,數(shù)據(jù)已成為重要的生產(chǎn)因素,可能是與物質(zhì)資產(chǎn)和人力資本。多媒體、社交媒體、物聯(lián)網(wǎng)是發(fā)展,企業(yè)將收集沒有更多的信息,領(lǐng)先

      指數(shù)增長的數(shù)據(jù)量。大數(shù)據(jù)將有一個(gè)巨大的和不斷增加的潛力,為企業(yè)和消費(fèi)者創(chuàng)造價(jià)值。

      1.4大數(shù)據(jù)的發(fā)展

      在上世紀(jì)70年代末,出現(xiàn)“數(shù)據(jù)庫機(jī)器”的概念,是一種專門用于存儲(chǔ)和分析數(shù)據(jù)的技術(shù)。隨著數(shù)據(jù)量的增加,存儲(chǔ)和處理能力單一主機(jī)系統(tǒng)的一個(gè)不充分。在上世紀(jì)80年代,人們提出了“無共享,“并行數(shù)據(jù)庫系統(tǒng),以滿足日益增長的數(shù)據(jù)量需求[ 19 ]。分享沒有系統(tǒng)的架構(gòu)是基于集群的使用,每個(gè)機(jī)器都有自己的處理器,存儲(chǔ)和磁盤。Teradata系統(tǒng)是第一個(gè)成功的商業(yè)并行數(shù)據(jù)庫系統(tǒng)。蘇最近的數(shù)據(jù)庫變得非常流行。1986年6月2日,一個(gè)具有里程碑意義的事件發(fā)生時(shí),Teradata交付第一并行數(shù)據(jù)庫系統(tǒng)的存儲(chǔ)容量1TB凱馬特幫助大通用電氣規(guī)模在北美國的零售公司,以擴(kuò)大其數(shù)據(jù)倉庫[ 20 ]。在20世紀(jì)90年代末,并行數(shù)據(jù)庫的優(yōu)勢在數(shù)據(jù)庫領(lǐng)域得到了廣泛的認(rèn)可。

      然而,許多大數(shù)據(jù)的挑戰(zhàn)出現(xiàn)了。隨著互聯(lián)網(wǎng)服務(wù)的發(fā)展,索引和查詢內(nèi)容的迅速增長。因此,搜索引擎公司不得不面對的挑戰(zhàn)處理這些大數(shù)據(jù)。谷歌創(chuàng)造了GFS [ 21 ]和[ 22 ]編程模型MapReduce處理所帶來的數(shù)據(jù)管理和分析在互聯(lián)網(wǎng)規(guī)模的挑戰(zhàn)。此外,內(nèi)容由用戶生成,傳感器,和其他無處不在的數(shù)據(jù)源也要壓倒性的數(shù)據(jù)流,這需要一個(gè)根本性的變化,在計(jì)算架構(gòu)和大型數(shù)據(jù)庫加工機(jī)理。在一月2007,吉姆灰色,數(shù)據(jù)庫軟件的先驅(qū),這種轉(zhuǎn)變稱為“第四范式”[ 23 ]。他還認(rèn)為,應(yīng)對這種范式的唯一途徑是開發(fā)新一代的計(jì)算工具來管理,可視化和分析質(zhì)量我的數(shù)據(jù)。2011年六月,另一個(gè)具有里程碑意義的事件發(fā)生;EMC / IDC發(fā)表題為從混沌[ 1 ]提取價(jià)值的研究報(bào)告,其中介紹的概念和對F大數(shù)據(jù)潛力第一次。本研究報(bào)告引發(fā)了業(yè)界和學(xué)術(shù)界對大數(shù)據(jù)的極大興趣。

      在過去的幾年中,幾乎所有的大公司,包括EMC、Oracle、IBM、微軟、谷歌、AMA ZON,和Facebook等已經(jīng)開始了他們的大數(shù)據(jù)項(xiàng)目。以IBM為例,自2005,IBM已經(jīng)投資16美元億30收購大數(shù)據(jù)相關(guān)。在學(xué)術(shù)界,大數(shù)據(jù)也在聚光燈下。在2008,自然發(fā)表了一個(gè)大數(shù)據(jù)的特殊問題。2011、科學(xué)性在大數(shù)據(jù)的“數(shù)據(jù)處理”的關(guān)鍵技術(shù),推出了一個(gè)特殊的問題。2012、歐洲信息學(xué)與數(shù)學(xué)研究協(xié)會(huì)(會(huì))新聞出版大型特刊數(shù)據(jù)。在2012年初,一份題為“大數(shù)據(jù)”的大沖擊在瑞士達(dá)沃斯論壇上發(fā)表,宣布大數(shù)據(jù)已經(jīng)成為一種新的經(jīng)濟(jì)資產(chǎn),就像貨幣一樣或黃金。一個(gè)國際研究機(jī)構(gòu)Gartner,發(fā)出炒作周期從2012到2013,其中大數(shù)據(jù)計(jì)算、社會(huì)分析、存儲(chǔ)數(shù)據(jù)分析等48個(gè)新興技術(shù)值得最關(guān)注。

      許多國家的政府,如美國也非常重視大數(shù)據(jù)。月2012日,奧巴馬政府宣布了2億美元的投資,推出“大數(shù)據(jù)研究和去發(fā)展計(jì)劃,“這是一次重大科技發(fā)展計(jì)劃1993“信息高速公路”的倡議后。七月2012,“轟轟烈烈的日本通信技術(shù)”項(xiàng)目發(fā)出由日本內(nèi)政部和交通部表示,大數(shù)據(jù)的發(fā)展應(yīng)該是一個(gè)國家戰(zhàn)略和應(yīng)用技術(shù)應(yīng)該是重點(diǎn)。在七月2012,聯(lián)合國有限的國家發(fā)行的大數(shù)據(jù)的發(fā)展報(bào)告,總結(jié)了各國政府如何利用大數(shù)據(jù)更好地服務(wù)和保護(hù)他們的人。1.5大數(shù)據(jù)的挑戰(zhàn)

      急劇增長的海量數(shù)據(jù)在大數(shù)據(jù)時(shí)代,對數(shù)據(jù)的采集、存儲(chǔ)的巨大挑戰(zhàn),管理和分析。傳統(tǒng)的數(shù)據(jù)管理和分析系統(tǒng)的基礎(chǔ)上關(guān)系數(shù)據(jù)庫管理系統(tǒng)(RDBMS)。然而,這樣的關(guān)系數(shù)據(jù)庫管理系統(tǒng)只適用于結(jié)構(gòu)化數(shù)據(jù),半結(jié)構(gòu)化或非結(jié)構(gòu)化的數(shù)據(jù)比其他。此外,越來越多地利用關(guān)系數(shù)據(jù)庫管理系統(tǒng)越來越貴的硬件。這是明顯地,傳統(tǒng)的關(guān)系數(shù)據(jù)庫管理系統(tǒng)無法處理大數(shù)據(jù)量大、異質(zhì)性大。研究界提出了一些解決方案,從不同的視角。例如,云計(jì)算是用來滿足對胸骨的要求對于大數(shù)據(jù),例如,成本效率,彈性結(jié)構(gòu),平滑升級(jí)/降級(jí)。對于大規(guī)模無序數(shù)據(jù)集、分布式文件系統(tǒng)的永久存儲(chǔ)和管理解決方案的[ 24 ] [ 25 ]和NoSQL數(shù)據(jù)庫都是不錯(cuò)的選擇。這樣的程序明框架,在處理集群的任務(wù),特別是對網(wǎng)頁排名取得了很大的成功。各種大數(shù)據(jù)應(yīng)用可以基于這些創(chuàng)新技術(shù)或平臺(tái)開發(fā)。此外,它是不平凡的部署大數(shù)據(jù)分析系統(tǒng)。

      一些文獻(xiàn)[ 26,28 ]討論大數(shù)據(jù)應(yīng)用程序開發(fā)中的障礙。面臨的主要挑戰(zhàn)如下: –數(shù)據(jù)表示:許多數(shù)據(jù)集具有異質(zhì)性的類型、結(jié)構(gòu)、語義、組織、粒度一定的水平,和可訪問性。數(shù)據(jù)表示的目的是使數(shù)據(jù)更有意義計(jì)算機(jī)分析與用戶解釋。然而,不適當(dāng)?shù)臄?shù)據(jù)表示將減少原始數(shù)據(jù)的價(jià)值甚至可能阻礙有效的數(shù)據(jù)分析。高效數(shù)據(jù)表示應(yīng)反映數(shù)據(jù)結(jié)構(gòu)、類和類型,以及集成技術(shù),以便在不同的數(shù)據(jù)集上進(jìn)行高效的操作。

      –冗余以及數(shù)據(jù)壓縮:總的來說,有一個(gè)高水平的冗余數(shù)據(jù)。減少冗余和數(shù)據(jù)壓縮是有效的降低企業(yè)的間接成本對這些數(shù)據(jù)的潛在價(jià)值不受影響的前提下IRE系統(tǒng)。例如,大多數(shù)數(shù)據(jù)所產(chǎn)生的傳感器網(wǎng)絡(luò)是高度冗余的,可過濾和壓縮在奧德震級(jí)的。

      –數(shù)據(jù)生命周期管理:與相對緩慢的進(jìn)步存儲(chǔ)系統(tǒng)相比,無處不在的傳感和計(jì)算在數(shù)據(jù)速率和規(guī)模產(chǎn)生了前所未有的。我們面臨有很多緊迫的挑戰(zhàn),其中之一是目前的存儲(chǔ)系統(tǒng)不能支持這樣的海量數(shù)據(jù)。一般而言,隱藏在大數(shù)據(jù)的值依賴于數(shù)據(jù)的新鮮度。因此,E、數(shù)據(jù)重要性原理來分析價(jià)值相關(guān)應(yīng)決定哪些數(shù)據(jù)將存儲(chǔ)的數(shù)據(jù)將被丟棄。

      ——分析機(jī)理:大數(shù)據(jù)分析系統(tǒng)在有限時(shí)間內(nèi)處理大量的數(shù)據(jù)。然而,傳統(tǒng)的關(guān)系數(shù)據(jù)庫管理系統(tǒng),嚴(yán)格的設(shè)計(jì)與缺乏可擴(kuò)展性和可擴(kuò)展性,不能滿足性能要求。非關(guān)系數(shù)據(jù)庫在非結(jié)構(gòu)化數(shù)據(jù)處理中顯示出其獨(dú)特的優(yōu)勢。開始成為主流的大數(shù)據(jù)分析。即便如此,仍有非關(guān)系型數(shù)據(jù)庫的性能問題和一些特定的應(yīng)用。我們會(huì)找到一個(gè)妥協(xié)的關(guān)系型數(shù)據(jù)庫和非關(guān)系型數(shù)據(jù)庫之間的解。例如,一些企業(yè)利用混合數(shù)據(jù)庫體系結(jié)構(gòu),集成了數(shù)據(jù)庫類型(例如,F(xiàn)acebook的優(yōu)勢和淘寶。在內(nèi)存數(shù)據(jù)庫和基于近似分析的樣本數(shù)據(jù)的基礎(chǔ)上,需要進(jìn)行更多的研究。數(shù)據(jù)機(jī)密性:目前大多數(shù)大數(shù)據(jù)服務(wù)供應(yīng)商或業(yè)主不能有效地維護(hù)和分析這些龐大的數(shù)據(jù)集,因?yàn)樗麄兊哪芰τ邢?。他們必須依靠專業(yè)onals或工具來分析這些數(shù)據(jù),從而增加了潛在的安全風(fēng)險(xiǎn)。例如,事務(wù)性數(shù)據(jù)集一般包括一組完整的操作數(shù)據(jù)來驅(qū)動(dòng)關(guān)鍵業(yè)務(wù)流程專家。這些數(shù)據(jù)包含了最低的粒度和一些敏感信息,如信用卡號(hào)碼。因此,大數(shù)據(jù)的分析,可以提供給三分之一方處理采取適當(dāng)?shù)念A(yù)防措施來保護(hù)這些敏感數(shù)據(jù),以確保其安全。能源管理:主要框架計(jì)算系統(tǒng)的能源消耗,從經(jīng)濟(jì)和環(huán)境角度都受到了很大的關(guān)注。隨著數(shù)據(jù)量和分析需求的增長而且,處理,存儲(chǔ),和大數(shù)據(jù)的傳輸會(huì)消耗更多的電能。因此,系統(tǒng)級(jí)的功耗控制和管理機(jī)制應(yīng)該是電子建立大數(shù)據(jù)的可擴(kuò)展性和可訪問性,保證了。–的可擴(kuò)充性和可擴(kuò)展性:大數(shù)據(jù)分析系統(tǒng)必須支持當(dāng)前和未來的數(shù)據(jù)集。解析算法必須能夠處理日益擴(kuò)大和更為復(fù)雜的Datasets。

      –合作:大數(shù)據(jù)分析是一個(gè)跨學(xué)科的研究,這需要不同領(lǐng)域的專家合作,收獲大數(shù)據(jù)的潛力。一個(gè)全面的大數(shù)據(jù)網(wǎng)絡(luò)結(jié)構(gòu)結(jié)構(gòu)必須建立有助于各種領(lǐng)域的科學(xué)家和工程師訪問不同類型的數(shù)據(jù),充分利用他們的專業(yè)知識(shí),以配合完成分析的目的專家。

      2、相關(guān)技術(shù)

      為了深入理解大數(shù)據(jù),這一秒,將介紹一些基本的技術(shù),是密切相關(guān)的大數(shù)據(jù),包括云計(jì)算,物聯(lián)網(wǎng),數(shù)據(jù)中心,和Hadoop。

      2.1、云計(jì)算與大數(shù)據(jù)的關(guān)系

      云計(jì)算與大數(shù)據(jù)有著密切的關(guān)系。云計(jì)算的關(guān)鍵組成部分如圖3所示。大數(shù)據(jù)是計(jì)算密集型操作的對象和應(yīng)力的存儲(chǔ)電容“云系統(tǒng)。云計(jì)算的主要目的是在集中管理利用巨大的計(jì)算和存儲(chǔ)資源,從而提供大數(shù)據(jù)應(yīng)用的細(xì)粒度的計(jì)算t-ing能力。云計(jì)算的發(fā)展為大數(shù)據(jù)的存儲(chǔ)和處理提供了解決方案。另一方面,大數(shù)據(jù)的出現(xiàn)也加速了云的發(fā)展計(jì)算。基于云計(jì)算的分布式存儲(chǔ)技術(shù)能夠有效的人年齡大的數(shù)據(jù);通過云計(jì)算的并行計(jì)算能力的美德可以提高ACQ效率大數(shù)據(jù)的采集和分析。

      盡管有很多重疊的技術(shù)在云計(jì)算和大數(shù)據(jù),他們在如下兩方面的不同。首先,概念在一定程度上是不同的。云計(jì)算入門ansforms IT體系結(jié)構(gòu)而影響商業(yè)決策的大數(shù)據(jù)。然而,大數(shù)據(jù)依賴于云計(jì)算作為基礎(chǔ)設(shè)施的順利運(yùn)作。其次,大數(shù)據(jù)和云計(jì)算有不同的目標(biāo)客戶。云計(jì)算是一種技術(shù)和產(chǎn)品向首席信息官(CIO)作為一種先進(jìn)的IT解決方案。大數(shù)據(jù)是一個(gè)產(chǎn)品針對首席執(zhí)行官(CEO)重點(diǎn)業(yè)務(wù)。由于決策者可以直接感受到來自市場競爭的壓力,他們必須打敗商的反對在競爭更加激烈的方式。隨著大數(shù)據(jù)和云計(jì)算的發(fā)展,這兩種技術(shù)都是肯定和越來越糾纏對方。云計(jì)算,其職能類似于為t計(jì)算機(jī)和操作系統(tǒng)的軟管,提供系統(tǒng)級(jí)資源;大數(shù)據(jù)在云計(jì)算支持的上層提供的功能類似于數(shù)據(jù)庫和高效的數(shù)據(jù)處理能力。電磁兼容的總裁基辛格表示,美聯(lián)社大數(shù)據(jù)的應(yīng)用必須基于云計(jì)算。大數(shù)據(jù)的演變是由快速增長的應(yīng)用需求和云計(jì)算從虛擬化技術(shù)發(fā)展。因此,云計(jì)算不僅提供了計(jì)算對大數(shù)據(jù)的處理,也是一種服務(wù)模式。在一定程度上,云計(jì)算的進(jìn)步也促進(jìn)了大數(shù)據(jù)的發(fā)展,兩者相輔相成。

      圖3 云計(jì)算的關(guān)鍵組成部分

      2.2物聯(lián)網(wǎng)與大數(shù)據(jù)的關(guān)系

      在物聯(lián)網(wǎng)的范例中,大量的網(wǎng)絡(luò)傳感器被嵌入到不同的設(shè)備和機(jī)器中,在現(xiàn)實(shí)世界中。這樣的傳感器部署在不同的領(lǐng)域可能會(huì)收集各種類型的ATA,如環(huán)境數(shù)據(jù)、地理數(shù)據(jù)、天文數(shù)據(jù)、物流數(shù)據(jù)。移動(dòng)設(shè)備、交通設(shè)施、公用設(shè)施、家用電器都是數(shù)據(jù)采集在物聯(lián)網(wǎng)方面的設(shè)備,如圖4所示。

      通過物聯(lián)網(wǎng)大數(shù)據(jù)具有不同的特點(diǎn),與一般的大數(shù)據(jù)相比,由于數(shù)據(jù)收集的不同類型,其中最典型的特征包括他均質(zhì)、品種、非結(jié)構(gòu)化特征,噪聲和冗余度高。雖然目前物聯(lián)網(wǎng)數(shù)據(jù)不占主導(dǎo)地位的大數(shù)據(jù),由2030,數(shù)量傳感器將達(dá)到一兆,然后物聯(lián)網(wǎng)數(shù)據(jù)將是大數(shù)據(jù)的最重要的一部分,根據(jù)前投。來自英特爾的一份報(bào)告指出,大數(shù)據(jù)在物聯(lián)網(wǎng)有三大壯舉符合大數(shù)據(jù)模式的特性:

      (一)豐富的終端產(chǎn)生大量的數(shù)據(jù);

      (二)物聯(lián)網(wǎng)所產(chǎn)生的數(shù)據(jù)通常是半結(jié)構(gòu)化或非結(jié)構(gòu)化的;

      (三)物聯(lián)網(wǎng)的數(shù)據(jù)是有用的,只有當(dāng)它被分析。目前,物聯(lián)網(wǎng)的數(shù)據(jù)處理能力已經(jīng)收集到的數(shù)據(jù)背后,是加速大數(shù)據(jù)技術(shù)的發(fā)展推動(dòng)了我介紹迫在眉睫加班。物聯(lián)網(wǎng)的許多運(yùn)營商實(shí)現(xiàn)大數(shù)據(jù)由于物聯(lián)網(wǎng)的成功是依賴于大數(shù)據(jù)和云計(jì)算的有效整合的重要性。物聯(lián)網(wǎng)的廣泛部署將也帶來許多城市進(jìn)入大數(shù)據(jù)時(shí)代。

      有一個(gè)令人信服的需要采取大數(shù)據(jù)的物聯(lián)網(wǎng)應(yīng)用,而大數(shù)據(jù)的發(fā)展已經(jīng)落后于。它已被廣泛認(rèn)可,這兩種技術(shù)是相互依賴的凹痕應(yīng)共同開發(fā):一方面,物聯(lián)網(wǎng)的廣泛部署驅(qū)動(dòng)在數(shù)量和范疇數(shù)據(jù)的高增長,從而提供了機(jī)會(huì),為應(yīng)用大數(shù)據(jù)的發(fā)展;另一方面,大數(shù)據(jù)技術(shù)在物聯(lián)網(wǎng)中的應(yīng)用也加快了物聯(lián)網(wǎng)的研究進(jìn)展和業(yè)務(wù)模式。

      圖4物聯(lián)網(wǎng)數(shù)據(jù)采集設(shè)備的說明

      2.3數(shù)據(jù)中心

      在大數(shù)據(jù)模式,數(shù)據(jù)中心不僅是一個(gè)數(shù)據(jù)集中存儲(chǔ)平臺(tái),同時(shí)也承擔(dān)更多的責(zé)任,如獲取數(shù)據(jù)、管理數(shù)據(jù)、組織數(shù)據(jù),一利用數(shù)據(jù)值和函數(shù)。數(shù)據(jù)中心主要關(guān)注“數(shù)據(jù)”而非“中心”。它有大量數(shù)據(jù)、組織和人的年齡數(shù)據(jù)根據(jù)其核心目的和發(fā)展新臺(tái)幣的路徑,這比擁有一個(gè)好的網(wǎng)站和資源更有價(jià)值。大數(shù)據(jù)的出現(xiàn)帶來了良好的發(fā)展機(jī)遇和巨大挑戰(zhàn)的數(shù)據(jù)中心。大數(shù)據(jù)是一個(gè)新興數(shù)據(jù)中心的爆炸式增長,促進(jìn)了基礎(chǔ)設(shè)施和相關(guān)軟件的爆炸性增長。物理數(shù)據(jù)中心網(wǎng)絡(luò)是支持大數(shù)據(jù)的核心,但目前,是最迫切需要的關(guān)鍵基礎(chǔ)設(shè)施[ 29 ]。大數(shù)據(jù)需要數(shù)據(jù)中心提供強(qiáng)大的后臺(tái)支持。大數(shù)據(jù)技術(shù)具有非紳士的要求對存儲(chǔ)容量和處理能力,以及網(wǎng)絡(luò)傳輸容量。企業(yè)必須把數(shù)據(jù)中心的發(fā)展納入考慮,以提高在有限的價(jià)格/性能比下快速、有效地處理大數(shù)據(jù)的能力。這個(gè)數(shù)據(jù)中心應(yīng)為基礎(chǔ)設(shè)施提供大量的節(jié)點(diǎn),建立一個(gè)高速的內(nèi)部網(wǎng)絡(luò),有效的散熱,有效的備份數(shù)據(jù)。只有當(dāng)一個(gè)高能源效率耳鼻喉、穩(wěn)定、安全、可擴(kuò)展,和冗余的數(shù)據(jù)中心建設(shè),大數(shù)據(jù)應(yīng)用的正常運(yùn)行,可以保證。大數(shù)據(jù)應(yīng)用的增長加速了數(shù)據(jù)中心的革命和創(chuàng)新。許多大數(shù)據(jù)應(yīng)用具有獨(dú)特的體系結(jié)構(gòu)和直接促進(jìn)發(fā)展數(shù)據(jù)中心的存儲(chǔ)、網(wǎng)絡(luò)和計(jì)算技術(shù)的應(yīng)用。隨著結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)量的持續(xù)增長,以及各種來源的分析數(shù)據(jù),數(shù)據(jù)處理和計(jì)算能力的數(shù)據(jù)中心,將大大提高。此外,隨著數(shù)據(jù)中心規(guī)模的不斷擴(kuò)大,如何對數(shù)據(jù)中心進(jìn)行研究也成為一個(gè)重要的課題降低數(shù)據(jù)中心發(fā)展的運(yùn)營成本。–大數(shù)據(jù)賦予更多的功能到數(shù)據(jù)中心。在大數(shù)據(jù)模式,數(shù)據(jù)中心不僅要關(guān)注硬件設(shè)施也加強(qiáng)軟能力,即能力大數(shù)據(jù)的獲取、處理、組織、分析和應(yīng)用。數(shù)據(jù)中心可以幫助業(yè)務(wù)人員分析現(xiàn)有的數(shù)據(jù),發(fā)現(xiàn)企業(yè)經(jīng)營的問題,和發(fā)展從大數(shù)據(jù)的運(yùn)算解決方案。

      2.4 Hadoop和大數(shù)據(jù)之間的關(guān)系

      目前,Hadoop是廣泛應(yīng)用于大數(shù)據(jù)應(yīng)用的行業(yè),例如,垃圾郵件過濾、網(wǎng)絡(luò)搜索、點(diǎn)擊流分析、社會(huì)推薦。此外,相當(dāng)學(xué)術(shù)研究了基于Hadoop的。一些代表性的病例是在下面。在2012六月宣布,雅虎運(yùn)行Hadoop 42000服務(wù)器在四個(gè)數(shù)據(jù)中心,以支持其產(chǎn)品和服務(wù),如例如,搜索和垃圾郵件過濾,等。目前,最大的Hadoop集群有4000個(gè)節(jié)點(diǎn),而節(jié)點(diǎn)的數(shù)量將增加至10000與Hadoop 2版本。在同一個(gè)月,英足總cebook宣布他們的Hadoop集群可以處理100 PB的數(shù)據(jù),增長了0.5,鉛每天2012十一月。一些知名的機(jī)構(gòu)使用Hadoop進(jìn)行分布式計(jì)算的李以[ 30 ]。此外,許多公司提供的Hadoop商業(yè)執(zhí)行和/或支持,包括Cloudera,IBM,MAPR,EMC,Oracle。

      現(xiàn)代工業(yè)機(jī)械系統(tǒng)中,傳感器被廣泛應(yīng)用于環(huán)境監(jiān)測、故障預(yù)測等收集信息,bahga和別人在[ 31 ]提出了一個(gè)框架網(wǎng)絡(luò)的數(shù)據(jù)組織和云計(jì)算基礎(chǔ)設(shè)施,稱為云景。云觀采用混合結(jié)構(gòu),局部節(jié)點(diǎn),基于Hadoop的遠(yuǎn)程集群分析機(jī)器生成的數(shù)據(jù)。本地節(jié)點(diǎn)用于實(shí)時(shí)失敗的預(yù)測;基于Hadoop集群用于復(fù)雜的離線分析,例如,案例驅(qū)動(dòng)的數(shù)據(jù)分析。

      基因組數(shù)據(jù)的指數(shù)增長和測序成本的急劇下降,將生物科學(xué)和生物醫(yī)藥的數(shù)據(jù)轉(zhuǎn)換為數(shù)據(jù)驅(qū)動(dòng)的科學(xué)。gunarathne等人。在[ 32 ]利用云計(jì)算基礎(chǔ)設(shè)施

      三、亞馬遜AWS、微軟azune,和數(shù)據(jù)處理框架基于MapReduce,Hadoop和微軟的DryadLINQ跑兩平行生物醫(yī)藥應(yīng)用:(我)基因組片段組裝;(ii)在化學(xué)結(jié)構(gòu)分析的降維。在隨后的應(yīng)用中,使用166-d數(shù)據(jù)包括26000000個(gè)數(shù)據(jù)點(diǎn)。作者比較了所有的性能效率,成本和可用性方面的框架。根據(jù)這項(xiàng)研究,作者得出結(jié)論,松散耦合將越來越多地應(yīng)用于電子云的研究,和磷并行編程技術(shù)(MapReduce)的框架,可以為用戶提供更方便的服務(wù)界面和減少不必要的成本。

      3大數(shù)據(jù)的生成與獲取

      我們已經(jīng)介紹了幾種關(guān)鍵技術(shù)與大數(shù)據(jù)、云計(jì)算、物聯(lián)網(wǎng),即數(shù)據(jù)中心,和Hadoop。下一步,我們將重點(diǎn)放在價(jià)值鏈的大數(shù)據(jù),這一般可以分為四個(gè)階段:數(shù)據(jù)生成、數(shù)據(jù)采集、數(shù)據(jù)存儲(chǔ)和數(shù)據(jù)分析。如果我們把數(shù)據(jù)作為原材料,數(shù)據(jù)生成和數(shù)據(jù)采集是一個(gè)開發(fā)在處理過程中,數(shù)據(jù)存儲(chǔ)是一個(gè)存儲(chǔ)過程,數(shù)據(jù)分析是利用原材料來創(chuàng)造新的價(jià)值的生產(chǎn)過程。

      3.1數(shù)據(jù)生成

      數(shù)據(jù)生成是大數(shù)據(jù)的第一步。以互聯(lián)網(wǎng)數(shù)據(jù)為例,在搜索條目、互聯(lián)網(wǎng)論壇帖子、聊天記錄、微博留言等方面的數(shù)據(jù)量巨大產(chǎn)生。這些數(shù)據(jù)與人們的日常生活密切相關(guān),具有高價(jià)值、低密度的特征。這樣的數(shù)據(jù)可能是毫無價(jià)值的個(gè)人,但通過開發(fā)并積累了大量數(shù)據(jù),有用的信息,如習(xí)慣和愛好的用戶可以被識(shí)別,它甚至可以預(yù)測用戶的行為和情緒。

      此外,通過縱向和/或分布式數(shù)據(jù)源產(chǎn)生的數(shù)據(jù)集更大規(guī)模、高度多樣化的,復(fù)雜的。這些數(shù)據(jù)源包括傳感器、視頻、點(diǎn)擊流,和/或?qū)⑵渌捎玫臄?shù)據(jù)源。目前,大數(shù)據(jù)的主要來源是經(jīng)營和交易信息在企業(yè)、物流和傳感器在物聯(lián)網(wǎng)信息,人機(jī)交互信息在互聯(lián)網(wǎng)世界中離子和位置信息,并在科學(xué)研究中產(chǎn)生的數(shù)據(jù),遠(yuǎn)超等通過它的架構(gòu)和基礎(chǔ)設(shè)施現(xiàn)有EN容量信息企業(yè),而實(shí)時(shí)的要求也大大強(qiáng)調(diào)了現(xiàn)有的計(jì)算能力。3.1.1企業(yè)數(shù)據(jù)

      2013,IBM發(fā)布分析:大數(shù)據(jù)在現(xiàn)實(shí)世界的應(yīng)用程序,這表明企業(yè)內(nèi)部數(shù)據(jù)是大數(shù)據(jù)的主要來源。企業(yè)內(nèi)部數(shù)據(jù)主要包括網(wǎng)上交易數(shù)據(jù)和在線數(shù)據(jù)分析,其中大部分是歷史上的靜態(tài)數(shù)據(jù),通過結(jié)構(gòu)化的方式關(guān)系型數(shù)據(jù)庫管理。此外,生產(chǎn)數(shù)據(jù),庫存達(dá)Ta、銷售數(shù)據(jù)、財(cái)務(wù)數(shù)據(jù),等等,也構(gòu)成了企業(yè)內(nèi)部的數(shù)據(jù),其目的是獲取企業(yè)信息化和數(shù)據(jù)驅(qū)動(dòng)的活動(dòng),以記錄所有活動(dòng)在企業(yè)內(nèi)部數(shù)據(jù)的形式。

      在過去的幾十年里,它和數(shù)字?jǐn)?shù)據(jù)做出貢獻(xiàn)的很多改善的盈利業(yè)務(wù)部門。據(jù)估計(jì),世界上所有公司的業(yè)務(wù)數(shù)據(jù)量Y每1.2年翻一番[ 10 ],其中,營業(yè)額通過互聯(lián)網(wǎng),企業(yè)對企業(yè),企業(yè)對消費(fèi)者每天將達(dá)到450美元億[ 33 ]。連續(xù)提高業(yè)務(wù)數(shù)據(jù)量要求更有效的實(shí)時(shí)分析,以便充分收獲它的潛力。例如,亞馬遜處理數(shù)以百萬計(jì)的終端操作和超過500000查詢從第三方賣家每天[ 12 ]。沃爾瑪過程之一萬客戶交易每小時(shí)交易數(shù)據(jù)導(dǎo)入到一個(gè)容量超過2.5PB數(shù)據(jù)庫[ 3 ]。Akamai分析75元每天的事件,其目標(biāo)廣告[ 13 ]。3.1.2物聯(lián)網(wǎng)數(shù)據(jù)

      作為討論,物聯(lián)網(wǎng)是大數(shù)據(jù)的重要來源。在智能城市構(gòu)建了基于物聯(lián)網(wǎng)、大數(shù)據(jù)可能來自工業(yè)、農(nóng)業(yè)、交通、運(yùn)輸、醫(yī)療、公共部門和家庭等根據(jù)物聯(lián)網(wǎng)的數(shù)據(jù)采集和傳輸過程,將其網(wǎng)絡(luò)結(jié)構(gòu)分為傳感層、網(wǎng)絡(luò)層和應(yīng)用層三層。這個(gè)傳感層負(fù)責(zé)數(shù)據(jù)采集,主要由傳感器網(wǎng)絡(luò)。網(wǎng)絡(luò)層負(fù)責(zé)信息的傳輸和處理,在近距離傳輸可能R伊利在傳感器網(wǎng)絡(luò)和遠(yuǎn)程傳輸必須依賴網(wǎng)絡(luò)。最后,應(yīng)用層支持物聯(lián)網(wǎng)的具體應(yīng)用。

      根據(jù)物聯(lián)網(wǎng)的特點(diǎn),物聯(lián)網(wǎng)產(chǎn)生的數(shù)據(jù)有以下幾個(gè)特點(diǎn):

      –大規(guī)模數(shù)據(jù):在物聯(lián)網(wǎng)、數(shù)據(jù)采集設(shè)備的群眾是分布式部署的,可獲得簡單的數(shù)值數(shù)據(jù),如位置;或復(fù)雜的多媒體數(shù)據(jù),如監(jiān)控視頻EO。為了滿足分析和處理的需求,不僅是目前所獲得的數(shù)據(jù),而且在一定時(shí)間內(nèi)的歷史數(shù)據(jù)存儲(chǔ)。因此,產(chǎn)生的數(shù)據(jù)通過物聯(lián)網(wǎng)的特點(diǎn)是大尺度。

      -異質(zhì)性:由于各種數(shù)據(jù)采集裝置,所獲得的數(shù)據(jù)也不同,這樣的數(shù)據(jù)特征的異質(zhì)性。在物聯(lián)網(wǎng)中,每一個(gè)數(shù)據(jù)采集設(shè)備都放置在一個(gè)特定的地理位置,每一塊數(shù)據(jù)都有時(shí)間戳。時(shí)間和空間相關(guān)性是一個(gè)即時(shí)通訊數(shù)據(jù)來自物聯(lián)網(wǎng)的重要性質(zhì)。在數(shù)據(jù)分析和處理過程中,時(shí)間和空間也是統(tǒng)計(jì)分析的重要維度。

      –有效數(shù)據(jù)只占一小部分的大數(shù)據(jù):發(fā)生在數(shù)據(jù)的采集和物聯(lián)網(wǎng)傳輸大量的噪音。通過收購獲得的數(shù)據(jù)集設(shè)備,只有少量的異常數(shù)據(jù)是有價(jià)值的。例如,交通視頻的采集過程中,一些視頻幀捕獲違反交通運(yùn)輸管理法規(guī)和交通事故的價(jià)值比那些只捕捉到正常的流量。3.1.3生物醫(yī)療數(shù)據(jù)

      作為一系列高通量生物測量技術(shù)在開始的第二十一個(gè)世紀(jì)的創(chuàng)新發(fā)展,在生物醫(yī)藥領(lǐng)域的前沿研究也進(jìn)入大時(shí)代數(shù)據(jù)。通過構(gòu)建智能、高效、和生物醫(yī)藥應(yīng)用準(zhǔn)確的分析模型和理論體系,基本治理機(jī)制復(fù)雜的生物學(xué)現(xiàn)象背后的馬被揭露。不僅生物醫(yī)藥未來的發(fā)展是可以確定的,也是主要的角色可以在一系列重要的戰(zhàn)略產(chǎn)業(yè)發(fā)展方面相關(guān)的假設(shè)國民經(jīng)濟(jì),人民生活,國家安全,具有重要的應(yīng)用,如醫(yī)療保健,新藥研發(fā),糧食生產(chǎn)(例如,轉(zhuǎn)基因作物)。人類基因組計(jì)劃的完成(人類基因組計(jì)劃)和測序技術(shù)的不斷發(fā)展也導(dǎo)致在大數(shù)據(jù)領(lǐng)域的廣泛應(yīng)用。由基因產(chǎn)生的數(shù)據(jù)的質(zhì)量測序經(jīng)過專門分析根據(jù)不同的應(yīng)用需求,結(jié)合臨床基因診斷和早期診斷提供有價(jià)值的信息和形象化治療疾病。一個(gè)測序人類基因可能產(chǎn)生100個(gè)600GB數(shù)據(jù)。在深圳的中國國家種質(zhì)庫,有1.3百萬人樣本樣本包括115萬獅子150000種動(dòng)物,植物和微生物樣本。到2013年底,1000萬個(gè)可追溯的生物樣品將被存儲(chǔ),并由2015年底,這一數(shù)字將達(dá)到3000萬。它是預(yù)先確定性,隨著生物醫(yī)藥技術(shù)的發(fā)展,基因測序?qū)⒆兊酶涌旖莺头奖?,從而使生物醫(yī)藥大數(shù)據(jù)不斷增長毫無疑問。

      此外,臨床醫(yī)療保健和醫(yī)療研發(fā)所產(chǎn)生的數(shù)據(jù)也迅速上升。例如,匹茲堡醫(yī)學(xué)中心大學(xué)(UPMC)存儲(chǔ)2TB的數(shù)據(jù)。Explorys,美國人我公司提供的平臺(tái)配置的臨床數(shù)據(jù),操作和維護(hù)數(shù)據(jù)和財(cái)務(wù)數(shù)據(jù)。目前,大約有13百萬人的信息已經(jīng)被配置,44 arti-cLES數(shù)據(jù)在約60TB規(guī)模,這將在2013達(dá)到70TB。實(shí)踐融合,另一個(gè)美國的公司,管理約200000名患者的電子病歷。

      除了這些中小企業(yè),其他知名IT公司,如谷歌,微軟,IBM已經(jīng)投入廣泛的方法和計(jì)算分析研究興高采烈的高通量生物大數(shù)據(jù),對股票市場的巨大而

      作為“新一代互聯(lián)網(wǎng)?!盜BM預(yù)測,在2013戰(zhàn)略發(fā)布會(huì)上,以醫(yī)學(xué)影像和電子病歷的急劇增加,醫(yī)療專業(yè)人員可以利用大數(shù)據(jù)提取合同有用的臨床信息從大量的數(shù)據(jù)中獲取病史和預(yù)測治療效果,從而改善病人護(hù)理,降低成本。預(yù)計(jì),2015,平均每一個(gè)醫(yī)院的年齡數(shù)據(jù)量將增加到665tb 167tb。3.1.4數(shù)據(jù)生成其他領(lǐng)域

      隨著科學(xué)應(yīng)用的不斷增加,數(shù)據(jù)集的規(guī)模也逐漸擴(kuò)大,一些學(xué)科的發(fā)展,很大程度上依賴于對數(shù)據(jù)的分析。在這里,我們研究分析在這樣的應(yīng)用。雖然在不同的科學(xué)領(lǐng)域,應(yīng)用程序有類似的和不斷增加的數(shù)據(jù)分析的需求。第一個(gè)例子涉及到計(jì)算生物學(xué)。玄葉NK細(xì)胞是一種核苷酸序列數(shù)據(jù)庫由美國國家生物技術(shù)創(chuàng)新中心保持。數(shù)據(jù)庫中的數(shù)據(jù)可能每10個(gè)月翻一番。2009八月,GenBank已超過250千兆從150000個(gè)不同的生物[ 34 ]的基礎(chǔ)上。二個(gè)例子與天文學(xué)有關(guān)。Sloan數(shù)字巡天(SDSS),最大的天文巡天項(xiàng)目,已經(jīng)從1 25tb數(shù)據(jù)記錄998至2008。作為望遠(yuǎn)鏡的分辨率大大提高,2004,數(shù)據(jù)批量生成每晚將超過19。最后一個(gè)應(yīng)用程序涉及到高能量物理。在開始2008、大型強(qiáng)子對撞機(jī)(LHC)的ATLAS實(shí)驗(yàn)的歐洲核子研究組織產(chǎn)生的原始數(shù)據(jù)在2/s和10TB數(shù)據(jù)處理每年商店。

      此外,無處不在的傳感和計(jì)算之間的自然、商業(yè)、互聯(lián)網(wǎng)、政府、社會(huì)環(huán)境都產(chǎn)生了前所未有的異構(gòu)數(shù)據(jù)的復(fù)雜性。這些數(shù)據(jù)集有自己獨(dú)特的數(shù)據(jù)特點(diǎn),在規(guī)模、時(shí)間維度和數(shù)據(jù)類。例如,移動(dòng)數(shù)據(jù)的位置,記錄運(yùn)動(dòng),近似度,通信、M多媒體、應(yīng)用程序的使用,和音頻環(huán)境[ 108 ]。根據(jù)應(yīng)用環(huán)境和要求,這樣的數(shù)據(jù)集分成不同的類別,從而選擇合適的和可行的大數(shù)據(jù)的電子解決方案。

      3.2大數(shù)據(jù)采集

      作為大數(shù)據(jù)系統(tǒng)的第二階段,大數(shù)據(jù)采集包括數(shù)據(jù)采集、數(shù)據(jù)傳輸和數(shù)據(jù)預(yù)處理。大數(shù)據(jù)的采集過程中,一旦我們收集的原始數(shù)據(jù),我們的廳利用一種高效的傳輸機(jī)制,將其發(fā)送到一個(gè)適當(dāng)?shù)拇鎯?chǔ)管理系統(tǒng),以支持不同的分析應(yīng)用程序。將收集到的數(shù)據(jù)可能包含很多冗余劑或無用的數(shù)據(jù),不必要地增加存儲(chǔ)空間,并影響后續(xù)的數(shù)據(jù)分析。例如,高度冗余的環(huán)境監(jiān)測傳感器收集的數(shù)據(jù)集是很常見的監(jiān)測。數(shù)據(jù)壓縮技術(shù)可以應(yīng)用于減少冗余度。因此,數(shù)據(jù)預(yù)處理操作是必不可少的,以確保有效的數(shù)據(jù)存儲(chǔ)和開發(fā)。

      3.2.1數(shù)據(jù)采集

      數(shù)據(jù)采集是利用特殊的數(shù)據(jù)采集技術(shù)來從一個(gè)特定的數(shù)據(jù)生成的環(huán)境中獲取原始數(shù)據(jù)。四種常用的數(shù)據(jù)采集方法如下。–日志文件:作為一種廣泛使用的數(shù)據(jù)收集方法,日志文件是由數(shù)據(jù)源系統(tǒng)自動(dòng)生成記錄文件,以便記錄活動(dòng),隨后交付文件格式耳鼻喉分析。日志文件通常用于幾乎所有的數(shù)字設(shè)備。例如,Web服務(wù)器的日志文件記錄的點(diǎn)擊數(shù)、點(diǎn)擊率,網(wǎng)站用戶的訪問,和[其它財(cái)產(chǎn)記錄35 ]。在網(wǎng)站采集活動(dòng)的用戶,Web服務(wù)器主要包括以下三個(gè)日志文件格式:公用日志文件格式(NCSA),擴(kuò)展日志格式(W3C),和IIS日志格式(MIC工作)。在ASCII文本格式的所有三種類型的日志文件。除了文本文件以外,其他的數(shù)據(jù)庫有時(shí)也可用于存儲(chǔ)日志信息以提高大規(guī)模的查詢效率商店[ 36,37 ]。也有基于數(shù)據(jù)收集的一些其他日志文件,包括在網(wǎng)絡(luò)監(jiān)控和交通運(yùn)行狀態(tài)的金融應(yīng)用和測定指標(biāo)股Ffic管理。

      感測:傳感器在日常生活中是很常見的,用于測量物理量,將物理量轉(zhuǎn)換為可讀的數(shù)字信號(hào),以供后續(xù)處理(和存儲(chǔ))。感覺數(shù)據(jù)可能被分類為聲波,聲音,振動(dòng),汽車,化學(xué),電流,天氣,壓力,溫度等信息被傳送到一個(gè)數(shù)據(jù)采集點(diǎn)通過有線或無線網(wǎng)絡(luò)。對于應(yīng)用程序,可以很容易地部署和管理,例如,視頻監(jiān)控系統(tǒng)[ 38 ],有線傳感器網(wǎng)絡(luò)是一個(gè)方便的解決方案,以獲取相關(guān)信息。有時(shí)一個(gè)特定的現(xiàn)象的精確位置是未知的,有時(shí)監(jiān)測環(huán)境沒有精力或通信基礎(chǔ)設(shè)施。然后無線通信必須使用在有限的能量和通信能力的情況下,使傳感器節(jié)點(diǎn)之間的數(shù)據(jù)傳輸。近年來,無線傳感器網(wǎng)絡(luò)已收到相當(dāng)大的國際間,并已應(yīng)用于許多應(yīng)用,這樣的;如此的;這么大的;非常的;這樣的事物[人];

      作為環(huán)境研究[ 39,40 ],水質(zhì)監(jiān)測[ 41 ],土木工程[ 42,43 ],[ 44 ]習(xí)慣和野生動(dòng)物監(jiān)測。無線傳感器網(wǎng)絡(luò)通常由大量的地理分布分布式傳感器節(jié)點(diǎn),每一個(gè)都是一個(gè)由電池供電的微型裝置。這種傳感器被部署在指定的位置所需的應(yīng)用程序收集遙感數(shù)據(jù)。一旦傳感器被eployed,基站會(huì)對網(wǎng)絡(luò)配置/管理或數(shù)據(jù)采集傳感器節(jié)點(diǎn)發(fā)送控制信息?;谶@樣的控制信息,感官數(shù)據(jù)被組裝在地不同的傳感器節(jié)點(diǎn)和送回基站進(jìn)行進(jìn)一步的處理。有興趣的讀者參考[ 45 ]更詳細(xì)的討論。獲取網(wǎng)絡(luò)數(shù)據(jù)–方法:目前,網(wǎng)絡(luò)數(shù)據(jù)采集是使用web爬蟲組合完成,分詞系統(tǒng),任務(wù)系統(tǒng),和指標(biāo)體系等Web爬行是一個(gè)用于搜索引擎下載和存儲(chǔ)網(wǎng)頁的程序[ 46 ]。一般而言,網(wǎng)絡(luò)爬蟲從初始網(wǎng)頁的統(tǒng)一資源定位器(網(wǎng)址)開始訪問其他鏈接的網(wǎng)頁,在它的存儲(chǔ)和序列的所有檢索的網(wǎng)址。網(wǎng)絡(luò)爬蟲通過一個(gè)網(wǎng)址隊(duì)列獲取一個(gè)網(wǎng)址,然后通過一個(gè)網(wǎng)址下載網(wǎng)頁,并確定一個(gè)網(wǎng)址我將在已下載的網(wǎng)頁上的網(wǎng)址,并提取新的網(wǎng)址被放在隊(duì)列中。這個(gè)過程是重復(fù)的,直到網(wǎng)絡(luò)爬蟲被停止。通過網(wǎng)絡(luò)爬蟲獲取數(shù)據(jù)的廣泛應(yīng)用基于網(wǎng)頁的應(yīng)用,如搜索引擎或網(wǎng)頁緩存。傳統(tǒng)的網(wǎng)頁提取技術(shù)具有多個(gè)有效的解決方案,并已完成了大量的研究,在他的田地。隨著越來越多的先進(jìn)的網(wǎng)頁應(yīng)用程序正在出現(xiàn),一些提取策略,提出了在[ 47 ],以應(yīng)付豐富的互聯(lián)網(wǎng)應(yīng)用。

      當(dāng)前的網(wǎng)絡(luò)數(shù)據(jù)采集技術(shù)主要包括傳統(tǒng)的基于Libpcap捕包技術(shù),零拷貝數(shù)據(jù)包捕獲技術(shù),以及一些專門的網(wǎng)絡(luò)監(jiān)控G軟件如wireshark SmartSniff,和winnetcap。–Libpcap捕包技術(shù):基于Libpcap(數(shù)據(jù)包捕獲庫)是一種廣泛使用的網(wǎng)絡(luò)數(shù)據(jù)包捕獲函數(shù)庫。這是一個(gè)一般的工具,不依賴于任何特定的系統(tǒng)透射電子顯微鏡主要用于數(shù)據(jù)鏈路層中的數(shù)據(jù)捕獲。它具有簡單、易用、攜帶方便,但有一個(gè)相對低效率。因此,高速網(wǎng)絡(luò)環(huán)境下彪,大量丟包時(shí)可能出現(xiàn)的libpcap的使用。

      –零拷貝數(shù)據(jù)包捕獲技術(shù):所謂的零拷貝(ZC)意味著沒有副本之間的任何內(nèi)部的記憶發(fā)生在數(shù)據(jù)包接收和發(fā)送在一個(gè)節(jié)點(diǎn)。在發(fā)送數(shù)據(jù)包直接從用戶緩沖區(qū)開始,通過網(wǎng)絡(luò)接口,到達(dá)一個(gè)外部網(wǎng)絡(luò)。在接收時(shí),網(wǎng)絡(luò)接口直接向美國發(fā)送數(shù)據(jù)包SER緩沖。零拷貝的基本思想是減少數(shù)據(jù)拷貝次數(shù),減少系統(tǒng)調(diào)用,并減少CPU的負(fù)載,而ddatagrams從網(wǎng)絡(luò)設(shè)備傳遞到用戶程序空間。零拷貝技術(shù)首先利用直接存儲(chǔ)器存?。―MA)技術(shù)的網(wǎng)絡(luò)數(shù)據(jù)包直接發(fā)送到一個(gè)地址空間預(yù)分配的系統(tǒng)內(nèi)核,以避免CPU的參與。同時(shí),它映射的數(shù)據(jù)報(bào)內(nèi)部存儲(chǔ)器在系統(tǒng)內(nèi)核的檢測程序,或建立一個(gè)緩沖區(qū)在用戶空間和內(nèi)核空間映射到。然后檢測程序直接訪問內(nèi)部存儲(chǔ)器,從而減少系統(tǒng)內(nèi)核對用戶空間的內(nèi)存拷貝,減少系統(tǒng)調(diào)用的數(shù)量?!苿?dòng)設(shè)備:目前,移動(dòng)設(shè)備的使用越來越廣泛。由于移動(dòng)設(shè)備的功能日益強(qiáng)大,他們的功能更復(fù)雜,多手段的數(shù)據(jù)采集,以及由于數(shù)據(jù)種類多。移動(dòng)設(shè)備可以通過定位系統(tǒng)獲取地理位置信息;通過麥克風(fēng)采集音頻信息;獲取圖片、視頻、streetscap是的,二維條形碼,和其他多媒體信息通過攝像頭;獲取用戶手勢和其他肢體語言信息通過觸摸屏和重力傳感器。多年來,我們無線運(yùn)營商通過獲取和分析這些信息提高了移動(dòng)網(wǎng)絡(luò)的服務(wù)水平。例如,iPhone本身就是一個(gè)“手機(jī)間諜”。它可能會(huì)收集無線數(shù)據(jù)和地理地形位置信息,然后把這些信息帶回蘋果加工,其中用戶是不知道。除了蘋果,智能手機(jī)操作系統(tǒng)如Android GOOGLE和Windows手機(jī)的微軟也以類似的方式,信息的收集。除了上述三種數(shù)據(jù)采集方法的主要數(shù)據(jù)來源外,還有許多其他的數(shù)據(jù)采集方法或系統(tǒng)。例如,在科學(xué)實(shí)驗(yàn)中,許多特殊的工具可用于收集實(shí)驗(yàn)數(shù)據(jù),如磁儀和射電望遠(yuǎn)鏡。我們可以從不同的角度對數(shù)據(jù)采集方法進(jìn)行分類。從數(shù)據(jù)源的角度是的,收集數(shù)據(jù)的方法可以分為兩類:收集方法記錄通過數(shù)據(jù)源收集方法記錄通過其他輔助工具。3.2.2數(shù)據(jù)傳輸

      原始數(shù)據(jù)收集完成后,將數(shù)據(jù)傳送到一個(gè)數(shù)據(jù)存儲(chǔ)基礎(chǔ)設(shè)施進(jìn)行處理和分析。正如2.3節(jié)所討論的,大數(shù)據(jù)主要存儲(chǔ)在一個(gè)數(shù)據(jù)的分中急診室數(shù)據(jù)布局應(yīng)進(jìn)行調(diào)整,提高了計(jì)算效率和便于硬件維護(hù)。也就是說,內(nèi)部數(shù)據(jù)傳輸可能發(fā)生在數(shù)據(jù)中心。因此,數(shù)據(jù)傳輸傳輸分為兩個(gè)階段:DCN DCN傳輸傳輸間內(nèi)。–DCN DCN間傳輸:間傳輸是從數(shù)據(jù)源到數(shù)據(jù)中心,它一般是與現(xiàn)有的物理網(wǎng)絡(luò)基礎(chǔ)設(shè)施實(shí)現(xiàn)。由于快速增長的交通需求,在世界上大多數(shù)地區(qū)的物理網(wǎng)絡(luò)基礎(chǔ)設(shè)施的高容量、高速率和低成本的構(gòu)成,光纖傳輸系統(tǒng)。過去20爺ARS,先進(jìn)的管理設(shè)備和技術(shù),如基于IP的波分復(fù)用(WDM)網(wǎng)絡(luò)架構(gòu),進(jìn)行智能控制與管理的選擇化學(xué)纖維網(wǎng)絡(luò)[ 48,49 ]。WDM技術(shù)是將多個(gè)光載波信號(hào)耦合到不同的波長和光鏈路的光纖。在這樣的技術(shù),不同波長的激光進(jìn)行不同的信號(hào)。目前,骨干網(wǎng)已經(jīng)部署的WDM光傳輸系統(tǒng)單信道速率40Gb/s的公關(guān)目前,100Gb/s商業(yè)接口可與100Gb/s系統(tǒng)(或TB/S系統(tǒng))將在不久的將來,[ 50 ]可。然而,傳統(tǒng)的光傳輸技術(shù)是有限的Y的電子瓶頸[ 51 ]帶寬。最近,正交頻分復(fù)用(OFDM),最初設(shè)計(jì)的無線系統(tǒng),被視為一個(gè)主要候選技術(shù)未來的高速光傳輸技術(shù)。OFDM是一種多載波并行傳輸技術(shù)。它將一個(gè)高速數(shù)據(jù)流分割成一個(gè)高速數(shù)據(jù)流,將其轉(zhuǎn)化為低速子數(shù)據(jù)流,以不被傳播到多個(gè)正交的子載波[ 52 ]。隨著WDM固定信道間隔相比,OFDM允許子信道的頻譜互相重疊,[ 53 ]。因此,它是一個(gè)靈活的穩(wěn)定高效的光網(wǎng)絡(luò)技術(shù)。

      –內(nèi)DCN傳輸:傳輸幀內(nèi)DCN在數(shù)據(jù)中心的數(shù)據(jù)通信流量。內(nèi)DCN傳輸取決于溝通在數(shù)據(jù)中心機(jī)構(gòu)(即物理上的連接板、芯片、數(shù)據(jù)服務(wù)器、數(shù)據(jù)中心、網(wǎng)絡(luò)體系結(jié)構(gòu)和通信協(xié)議的內(nèi)部記憶)。數(shù)據(jù)中心多接口包括磨碎的服務(wù)器機(jī)柜內(nèi)部連接網(wǎng)絡(luò)的互連。目前,大多數(shù)數(shù)據(jù)中心的內(nèi)部連接網(wǎng)絡(luò)的胖樹,雙層或三層基于多商品網(wǎng)絡(luò)流的結(jié)構(gòu)研究[ 51,54 ]。在兩層拓?fù)浣Y(jié)構(gòu),可由1Gbps的頂級(jí)機(jī)架交換機(jī)連接(TOR),那么這樣的頂級(jí)機(jī)架交換機(jī)連接從10Gbps匯聚交換機(jī)的拓?fù)浣Y(jié)構(gòu)。三層拓?fù)浣Y(jié)構(gòu)是一種結(jié)構(gòu)增加一層對兩層拓?fù)浣Y(jié)構(gòu)上這些層通過10Gbps或100Gbps的核心交換機(jī)構(gòu)成的連接拓?fù)浣Y(jié)構(gòu)匯聚交換機(jī)。還有其他拓?fù)浣Y(jié)構(gòu),其目的是提高數(shù)據(jù)的并行[ 58 ] 55–中心網(wǎng)絡(luò)。由于電子數(shù)據(jù)包交換的不足,很難提高通信帶寬,同時(shí)保持能耗低。多年來,由于巨大的成功,通過光學(xué)技術(shù)實(shí)現(xiàn),在數(shù)據(jù)中心之間的網(wǎng)絡(luò)互連引起了很大的關(guān)注。光學(xué)互連是一種高通量、低延時(shí),和低能耗解決方案。目前,光學(xué)技術(shù)僅用于數(shù)據(jù)中心的點(diǎn)對點(diǎn)連接。這樣的光鏈路提供使用低成本的多開關(guān)連接TI的單模光纖(MMF)10Gbps的數(shù)據(jù)速率。光互連(在光域內(nèi)切換)在數(shù)據(jù)中心網(wǎng)絡(luò)是一個(gè)可行的解決方案,它可以提供Tbps級(jí)別的傳輸帶能耗低的寬度。最近,許多光互連計(jì)劃提出的數(shù)據(jù)中心網(wǎng)絡(luò)[ 59 ]。有的計(jì)劃增加光路,以提升現(xiàn)有的凈工作,和其他的和完全取代目前的開關(guān)59–[ 64 ]。作為一種強(qiáng)化技術(shù),周等。在[ 65 ]采用60GHz頻率頻段的無線鏈路增強(qiáng)有線鏈路。網(wǎng)絡(luò)虛擬tualiza還應(yīng)考慮提高數(shù)據(jù)中心網(wǎng)絡(luò)的效率和利用率。3.2.3數(shù)據(jù)預(yù)處理

      由于數(shù)據(jù)來源廣泛,收集到的數(shù)據(jù)對于噪音、冗余不同,和一致性,等等,這無疑是商店的平均ingless數(shù)據(jù)浪費(fèi)。另外一些分析方法對數(shù)據(jù)質(zhì)量有嚴(yán)重的要求。因此,為了使有效的數(shù)據(jù)分析,我們將預(yù)處理數(shù)據(jù)在許多情況下,將數(shù)據(jù)從不同的源數(shù)據(jù)中整合,不僅可以降低存儲(chǔ)費(fèi)用,而且可以提高分析精度。一些關(guān)系數(shù)據(jù)預(yù)處理技術(shù)討論如下。

      –集成:數(shù)據(jù)集成是現(xiàn)代商業(yè)信息學(xué)的基石,涉及來自不同來源的數(shù)據(jù)相結(jié)合,為用戶提供了數(shù)據(jù)的統(tǒng)一視圖,[ 66 ]。這是傳統(tǒng)數(shù)據(jù)庫的一個(gè)成熟的研究領(lǐng)域。在歷史上,2種方法得到了廣泛的認(rèn)可:數(shù)據(jù)倉庫和數(shù)據(jù)聯(lián)合會(huì)。數(shù)據(jù)倉庫包含一個(gè)過程稱為ETL(E提取、轉(zhuǎn)換和加載)。提取涉及的源系統(tǒng),選擇,收集,分析和處理所需的數(shù)據(jù)。轉(zhuǎn)型是一系列規(guī)則,TR的執(zhí)行換成標(biāo)準(zhǔn)格式數(shù)據(jù)的提取。加載裝置將提取和轉(zhuǎn)換的數(shù)據(jù)導(dǎo)入到目標(biāo)存儲(chǔ)結(jié)構(gòu)中。加載是三個(gè)最復(fù)雜的過程,其中包括轉(zhuǎn)換、復(fù)制、清除、標(biāo)準(zhǔn)化、篩選、數(shù)據(jù)組織等操作。可以構(gòu)建一個(gè)虛擬的數(shù)據(jù)庫,以查詢和聚合來自不同數(shù)據(jù)的數(shù)據(jù)資源,但這樣的數(shù)據(jù)庫不包含數(shù)據(jù)。相反,它包括信息或?qū)嶋H的數(shù)據(jù)和相關(guān)的元數(shù)據(jù)的位置。這兩“存儲(chǔ)閱讀”方法不滿足日數(shù)據(jù)流或搜索程序和應(yīng)用程序的高性能要求。與查詢相比,在這類方法中的數(shù)據(jù)更具動(dòng)態(tài)性,在數(shù)據(jù)傳輸過程中必須處理。GEn-erally,數(shù)據(jù)集成方法都伴隨著流處理引擎和搜索引擎[ 30,67 ]。

      –清洗:數(shù)據(jù)清洗是一個(gè)過程,以確定文協(xié)副牧師,不完整,或不合理的數(shù)據(jù),然后修改或刪除這些數(shù)據(jù)來提高數(shù)據(jù)質(zhì)量。一般情況下,數(shù)據(jù)清洗包括五個(gè)共同mplementary程序[ 68 ]:定義和確定錯(cuò)誤類型,搜索和識(shí)別錯(cuò)誤,修正錯(cuò)誤,醫(yī)生umenting錯(cuò)誤實(shí)例和錯(cuò)誤類型和模式、數(shù)據(jù)錄入程序減少未來的錯(cuò)誤。在清洗過程中,數(shù)據(jù)的格式、完整性、合理性和限制,應(yīng)檢查。數(shù)據(jù)清洗是保持?jǐn)?shù)據(jù)一致性的關(guān)鍵,這是一廣泛應(yīng)用于許多領(lǐng)域,如銀行、保險(xiǎn)、零售業(yè)、電信和交通控制。

      在電子商務(wù)中,大多數(shù)數(shù)據(jù)是電子收集,這可能會(huì)造成嚴(yán)重的數(shù)據(jù)質(zhì)量問題。經(jīng)典的數(shù)據(jù)質(zhì)量問題主要來自軟件缺陷、定制錯(cuò)誤或系統(tǒng)錯(cuò)誤—配置。作者在[ 69 ]討論了數(shù)據(jù)清理在電子商務(wù)中的爬蟲和定期重新復(fù)制客戶和帳戶信息在[ 70 ],對射頻識(shí)別數(shù)據(jù)的問題進(jìn)行了檢查。RFID技術(shù)被廣泛用于許多應(yīng)用,例如,庫存管理和目標(biāo)跟蹤。然而,原有的RFID功能的低質(zhì)量,WH我的資料包括了許多不正常的數(shù)據(jù),受環(huán)境噪聲影響的物理設(shè)計(jì)和環(huán)境噪聲的影響。在[ 71 ],概率模型,以應(yīng)付在移動(dòng)環(huán)境中的數(shù)據(jù)丟失。khoussainova等人。在[ 72 ]提出了一個(gè)系統(tǒng)來自動(dòng)糾正錯(cuò)誤的輸入數(shù)據(jù),通過定義全局完整性約束。

      赫伯特[ 73 ]提出了一個(gè)框架,稱為bio-ajax規(guī)范生物數(shù)據(jù),以便進(jìn)行進(jìn)一步的計(jì)算和提高搜索質(zhì)量。與bio-ajax,一些錯(cuò)誤和重復(fù)可以ELIM-inated,和常見的數(shù)據(jù)挖掘技術(shù)可以更有效地執(zhí)行。-冗余消除:數(shù)據(jù)冗余是指數(shù)據(jù)重復(fù)或盈余,這通常發(fā)生在許多數(shù)據(jù)集。數(shù)據(jù)冗余可以增加不必要的數(shù)據(jù)傳輸費(fèi)用和原因E缺陷的存儲(chǔ)系統(tǒng),例如,存儲(chǔ)空間的浪費(fèi),導(dǎo)致數(shù)據(jù)不一致、數(shù)據(jù)可靠性降低,數(shù)據(jù)損壞。因此,各種冗余的還原方法已被磷提出,如冗余檢測,數(shù)據(jù)過濾,數(shù)據(jù)壓縮。這樣的方法可以適用于不同的數(shù)據(jù)集或應(yīng)用環(huán)境。然而,冗余減少也可能帶來抗體出了一定的負(fù)面影響。例如,數(shù)據(jù)壓縮和解壓縮造成額外的計(jì)算負(fù)擔(dān)。因此,減少冗余的和成本效益應(yīng)仔細(xì)B均衡。來自不同領(lǐng)域的數(shù)據(jù)將越來越多地出現(xiàn)在圖像或視頻格式。眾所周知,圖像和視頻中含有一定的冗余,包括時(shí)間冗余Y,空間冗余、統(tǒng)計(jì)冗余,冗余和感知。視頻壓縮是廣泛用于降低視頻數(shù)據(jù)中的冗余,在許多視頻編碼標(biāo)準(zhǔn)的規(guī)定(MPEG-2 MPeg-4,H.263,H.264/AVC)。在[ 74 ],作者考察了與視頻傳感器網(wǎng)絡(luò)的視頻監(jiān)控系統(tǒng)中視頻壓縮問題。作者提出了一種新的基于MPEG-4的方法通過調(diào)查背景和前景在一個(gè)場景中的背景冗余。被伊娃證明的低復(fù)雜度和該方法的低壓縮比評(píng)價(jià)結(jié)果。廣義數(shù)據(jù)傳輸或存儲(chǔ),重復(fù)數(shù)據(jù)刪除是一種特殊的數(shù)據(jù)壓縮技術(shù),其目的是消除重復(fù)數(shù)據(jù)拷貝[ 75 ]。重復(fù)數(shù)據(jù)刪除,個(gè)人數(shù)據(jù)塊或數(shù)據(jù)段會(huì)被分配相同標(biāo)識(shí)符(例如,使用一個(gè)哈希算法)將標(biāo)識(shí)符添加到標(biāo)識(shí)列表中。如重復(fù)數(shù)據(jù)刪除繼續(xù)分析,如果一個(gè)新的數(shù)據(jù)塊的標(biāo)識(shí)符是在IDE上市相同識(shí)別表,新的數(shù)據(jù)塊將被視為多余的,將由相應(yīng)的存儲(chǔ)數(shù)據(jù)塊替換。重復(fù)的數(shù)據(jù)刪除可以大大降低存儲(chǔ)要求,這是一個(gè)AR的重要的一個(gè)大的數(shù)據(jù)存儲(chǔ)系統(tǒng)。除了上述的數(shù)據(jù)預(yù)處理方法,具體的數(shù)據(jù)對象必須經(jīng)過一些其他手術(shù)如特征提取。這樣的操作中起著重要的作用,多媒體搜索和DNA分析[ 76,78 ]–。通常的高維特征向量(或高維特征點(diǎn))是用來描述數(shù)據(jù)對象和系統(tǒng)存儲(chǔ)未來檢索維特征向量。數(shù)據(jù)傳輸通常用于處理分布式的異構(gòu)數(shù)據(jù)源,特別是業(yè)務(wù)數(shù)據(jù)[ 79 ]。作為事實(shí)上,在考慮各種數(shù)據(jù)集,這是不平凡的,或者是不可能的,建立一個(gè)統(tǒng)一的數(shù)據(jù)前處理步驟和技術(shù),是酌收所有類型的數(shù)據(jù)集的在具體的特征、問題、性能要求等方面對數(shù)據(jù)集進(jìn)行分析,從而選擇一個(gè)合適的數(shù)據(jù)預(yù)處理策略。

      4大數(shù)據(jù)存儲(chǔ)

      數(shù)據(jù)的爆炸性增長對存儲(chǔ)和管理有更嚴(yán)格的要求。在這一節(jié)中,我們把重點(diǎn)放在存儲(chǔ)大數(shù)據(jù)。大數(shù)據(jù)存儲(chǔ)是指大的存儲(chǔ)與管理GE規(guī)模數(shù)據(jù)而實(shí)現(xiàn)的可靠性和數(shù)據(jù)可用性。我們將回顧重要的問題,包括大規(guī)模的存儲(chǔ)系統(tǒng),分布式存儲(chǔ)系統(tǒng),和大數(shù)據(jù)存儲(chǔ)機(jī)制。一方面,存儲(chǔ)基礎(chǔ)設(shè)施需要提供可靠的存儲(chǔ)空間的信息存儲(chǔ)服務(wù);另一方面,它必須提供一個(gè)強(qiáng)大的訪問接口進(jìn)行查詢并分析了大量的數(shù)據(jù)。傳統(tǒng)上,作為服務(wù)器的輔助設(shè)備,數(shù)據(jù)存儲(chǔ)設(shè)備是用來存儲(chǔ)、管理、查找、分析數(shù)據(jù)和結(jié)構(gòu)化的關(guān)系數(shù)據(jù)庫管理系統(tǒng)。隨著數(shù)據(jù)的急劇增長,數(shù)據(jù)存儲(chǔ)設(shè)備是變得越來越重要,許多互聯(lián)網(wǎng)公司追求的存儲(chǔ)容量大是有競爭力的。因此,對數(shù)據(jù)存儲(chǔ)的研究有著迫切的需要。

      4.1海量數(shù)據(jù)存儲(chǔ)系統(tǒng)

      各種存儲(chǔ)系統(tǒng)的出現(xiàn),以滿足海量數(shù)據(jù)的需求?,F(xiàn)有的海量存儲(chǔ)技術(shù)可分為直接連接存儲(chǔ)(DAS)、網(wǎng)絡(luò)存儲(chǔ),網(wǎng)絡(luò)存儲(chǔ)可以進(jìn)一步分為網(wǎng)絡(luò)附加存儲(chǔ)(NAS)和存儲(chǔ)區(qū)域網(wǎng)絡(luò)(SAN)。在DAS、各種硬盤直接連接服務(wù)器和數(shù)據(jù)管理是以服務(wù)器為中心的,如存儲(chǔ)設(shè)備的外圍設(shè)備,都需要一定的I / O R資源,是由一個(gè)單獨(dú)的應(yīng)用軟件管理。因?yàn)檫@個(gè)原因,這只適用于小規(guī)模的互連服務(wù)器。然而,由于其較低的可擴(kuò)展性,這將顯示出你ndesirable效率時(shí),存儲(chǔ)容量的增加,即,升級(jí)和擴(kuò)展性受到很大限制。因此,這主要是用于個(gè)人電腦和小型服務(wù)器。網(wǎng)絡(luò)存儲(chǔ)是利用網(wǎng)絡(luò)為用戶提供數(shù)據(jù)訪問和共享的聯(lián)合接口。網(wǎng)絡(luò)存儲(chǔ)設(shè)備包括專用數(shù)據(jù)交換設(shè)備、磁盤陣列、帶庫、和其他存儲(chǔ)介質(zhì),以及特殊的存儲(chǔ)軟件。它的特點(diǎn)是具有很強(qiáng)的可擴(kuò)展性。NAS實(shí)際上是一個(gè)網(wǎng)絡(luò)輔助存儲(chǔ)設(shè)備。它是直接連接到網(wǎng)絡(luò)通過集線器或交換機(jī)通過TCP / IP協(xié)議。在NAS,數(shù)據(jù)傳送文件的形式。與DAS、I/O負(fù)擔(dān)在NAS服務(wù)器從服務(wù)器訪問存儲(chǔ)設(shè)備,通過網(wǎng)絡(luò)廣泛的減少。

      而NAS是面向網(wǎng)絡(luò)的,三是專為數(shù)據(jù)存儲(chǔ)具有可擴(kuò)展性和帶寬密集型網(wǎng)絡(luò),例如,一個(gè)與光纖連接的高速網(wǎng)絡(luò)。在美國,數(shù)據(jù)存儲(chǔ)年齡管理是相對獨(dú)立的存儲(chǔ)區(qū)域網(wǎng)內(nèi),在基于多路徑的任何內(nèi)部節(jié)點(diǎn)間數(shù)據(jù)交換來實(shí)現(xiàn)數(shù)據(jù)共享,最大程度數(shù)據(jù)管理。

      從一個(gè)數(shù)據(jù)存儲(chǔ)系統(tǒng),組織DAS,NAS和SAN,都可以分為三個(gè)部分:

      (一)磁盤陣列:它是一個(gè)存儲(chǔ)系統(tǒng)的基礎(chǔ)和數(shù)據(jù)的基本保證存儲(chǔ);

      (二)連接和網(wǎng)絡(luò)子系統(tǒng),它提供一個(gè)或多個(gè)磁盤陣列和服務(wù)器之間的連接;

      (三)存儲(chǔ)管理軟件,它處理數(shù)據(jù)共享,災(zāi)難恢復(fù),多服務(wù)器的其他存儲(chǔ)管理任務(wù)。

      4.2分布式存儲(chǔ)系統(tǒng)

      第一個(gè)挑戰(zhàn)所帶來的大數(shù)據(jù)是如何開發(fā)一個(gè)大型的分布式存儲(chǔ)系統(tǒng)的高效數(shù)據(jù)處理與分析。使用分布式系統(tǒng)存儲(chǔ)海量數(shù)據(jù)時(shí),應(yīng)考慮以下因素: –一致性:分布式存儲(chǔ)系統(tǒng)需要多臺(tái)服務(wù)器協(xié)同存儲(chǔ)數(shù)據(jù)。由于有更多的服務(wù)器,服務(wù)器故障的概率將更大。通常數(shù)據(jù)是分在服務(wù)器故障的情況下,將存儲(chǔ)在不同的服務(wù)器上的多個(gè)片段以確??捎眯?。然而,服務(wù)器故障和并行存儲(chǔ)可能會(huì)導(dǎo)致不同的副本不一致相同數(shù)據(jù)。一致性是指保證相同數(shù)據(jù)的多個(gè)副本相同。

      ——可用性:在多套服務(wù)器上運(yùn)行的分布式存儲(chǔ)系統(tǒng)。隨著服務(wù)器的使用,服務(wù)器故障是不可避免的。如果整個(gè)系統(tǒng)都不認(rèn)真,那將是可取的影響在閱讀和寫作方面滿足客戶的要求。此屬性稱為可用性。

      分區(qū)容忍:分布式存儲(chǔ)系統(tǒng)中的多個(gè)服務(wù)器通過網(wǎng)絡(luò)連接。網(wǎng)絡(luò)可能鏈路/節(jié)點(diǎn)故障或臨時(shí)擁堵。分布式系統(tǒng)應(yīng)該有有一定的耐受水平通過網(wǎng)絡(luò)失敗造成的問題。這將是可取的,分布式存儲(chǔ)仍然工作時(shí),網(wǎng)絡(luò)被劃分。

      Eric Brewer提出第[ 80,81 ]理論在2000,這表明一個(gè)分布式系統(tǒng)不能同時(shí)示滿足一致性,可用性和分區(qū)的要求,在寬容;大多數(shù)的三個(gè)要求可以同時(shí)滿足。塞思Gilbert和南希林奇來自麻省理工學(xué)院的證明理論的正確性2002帽。由于一致性,可用性和分區(qū)寬容是不可能實(shí)現(xiàn)的同時(shí),我們可以通過忽略分區(qū)耐受性有一個(gè)CA系統(tǒng),忽視可用性CP系統(tǒng),和AP系統(tǒng),忽略了一致性,根據(jù)不同的設(shè)計(jì)目標(biāo)。在以下三個(gè)系統(tǒng)中進(jìn)行了討論。

      沒有分區(qū)的公差,即,他們不能處理網(wǎng)絡(luò)故障。因此,CA系統(tǒng)一般被認(rèn)為是一個(gè)單一的服務(wù)器存儲(chǔ)系統(tǒng),如傳統(tǒng)的商城規(guī)模關(guān)系數(shù)據(jù)庫。這樣的系統(tǒng)功能單一的數(shù)據(jù)副本,這樣的一致性是很容易保證??捎眯允潜WC關(guān)系數(shù)據(jù)庫的優(yōu)秀設(shè)計(jì)。不過由于不能處理網(wǎng)絡(luò)故障,不能擴(kuò)展到多個(gè)服務(wù)器。因此,大多數(shù)大型存儲(chǔ)系統(tǒng)都是系統(tǒng)和應(yīng)用系統(tǒng)。

      與CA系統(tǒng)相比,CP系統(tǒng)確保部分公差。因此,可以擴(kuò)展到分布式系統(tǒng)的系統(tǒng)。CP系統(tǒng)一般維持相同的數(shù)據(jù)的多個(gè)副本為了保證容錯(cuò)水平。CP系統(tǒng)也保證了數(shù)據(jù)的一致性,即同一數(shù)據(jù)的多個(gè)副本的保證是完全相同的。然而,不能保證聲音的可用性高成本的原因,一致性保證。因此,CP系統(tǒng)的場景,但在中度負(fù)荷數(shù)據(jù)精度的嚴(yán)格要求是有用的(例如,交易數(shù)據(jù))。Bigtable和HBase是兩種流行的CP系統(tǒng)。

      美聯(lián)社系統(tǒng)也確保分區(qū)容忍。然而,美聯(lián)社系統(tǒng)不同于在美聯(lián)社系統(tǒng)中的系統(tǒng),也保證了可用性。然而,美聯(lián)社系統(tǒng)只確保最終的一致性,而不是漢強(qiáng)一致性前2個(gè)系統(tǒng)。因此,美聯(lián)社系統(tǒng)只適用于頻繁請求的情況下,但不是非常高的要求的準(zhǔn)確性。例如,在網(wǎng)上的社會(huì)互聯(lián)網(wǎng)絡(luò)的組網(wǎng)服務(wù)(SNS)的系統(tǒng)中,有許多并行訪問的數(shù)據(jù),但一定量的數(shù)據(jù)的誤差是可以接受的。此外,因?yàn)槊缆?lián)社系統(tǒng)確保最終的一致性,準(zhǔn)確數(shù)據(jù)可以在一定量的延遲后得到。因此,不嚴(yán)格的實(shí)時(shí)要求的情況下,美聯(lián)社系統(tǒng)也可以使用。發(fā)電機(jī)和卡桑德拉的兩種群美聯(lián)社系統(tǒng)。

      4.3大數(shù)據(jù)存儲(chǔ)機(jī)制

      大數(shù)據(jù)的大量研究促進(jìn)了大數(shù)據(jù)存儲(chǔ)機(jī)制的發(fā)展。現(xiàn)有的大數(shù)據(jù)存儲(chǔ)機(jī)制可以分為三個(gè)層次:(我)上的文件系統(tǒng),(二)數(shù)據(jù)庫,和

      (三)編程模型。文件系統(tǒng)是上層應(yīng)用程序的基礎(chǔ)。谷歌的GFS是一個(gè)可擴(kuò)展的分布式文件系統(tǒng)支持大規(guī)模、分布式的數(shù)據(jù)密集型應(yīng)用程序[ 25 ]。GFS我們廉價(jià)的商品服務(wù)器,以實(shí)現(xiàn)容錯(cuò)能力,并為客戶提供高性能服務(wù)。GFS支持大型文件應(yīng)用比讀寫更頻繁。然而R,GFS也有一定的局限性,如單點(diǎn)失效和小文件性能差。這樣的局限性已經(jīng)被巨人[ 82 ]克服,GFS的繼任者。

      此外,其他公司和研究人員也有他們的解決方案,以滿足不同的需求,對存儲(chǔ)的大數(shù)據(jù)。例如,HDFS和kosmosfs是衍生物對GF的開放源代碼美國微軟開發(fā)的宇宙[ 83 ]來支持它的搜索和廣告業(yè)務(wù)。Facebook利用草堆[ 84 ]存儲(chǔ)大量小型照片。淘寶還開發(fā)了TFS和Fas個(gè)TDFs??傊植际轿募到y(tǒng)已經(jīng)相對成熟后,業(yè)務(wù)經(jīng)營發(fā)展年。因此,我們將集中在這段休息的其他兩個(gè)層次古斯堪的那維亞語(OldNorse); 4.3.1數(shù)據(jù)庫技術(shù)

      數(shù)據(jù)庫技術(shù)已經(jīng)發(fā)展了30多年了。開發(fā)用于處理數(shù)據(jù)在不同尺度和支持各種應(yīng)用各種數(shù)據(jù)庫系統(tǒng)。傳統(tǒng)的關(guān)系l數(shù)據(jù)庫不能滿足大數(shù)據(jù)帶來的類別和尺度的挑戰(zhàn)。NoSQL數(shù)據(jù)庫(即,非傳統(tǒng)的關(guān)系型數(shù)據(jù)庫)是大數(shù)據(jù)存儲(chǔ)變得越來越受歡迎。NoSQL數(shù)據(jù)庫特征方式靈活,簡單和容易復(fù)制、簡單的API,最終一致性的支持,并支持大數(shù)據(jù)量。NoSQL數(shù)據(jù)庫成為B的核心技術(shù)免疫球蛋白。我們將探討以下這段三個(gè)主要NoSQL數(shù)據(jù)庫:鍵值數(shù)據(jù)庫,面向列的數(shù)據(jù)庫和面向文檔的數(shù)據(jù)庫,每個(gè)基于一定的數(shù)據(jù)模型。–鍵值數(shù)據(jù)庫:鍵值數(shù)據(jù)庫控制措施的一個(gè)簡單的數(shù)據(jù)模型和數(shù)據(jù)存儲(chǔ)對應(yīng)的鍵值。每一個(gè)關(guān)鍵是獨(dú)特的,客戶可以輸入查詢的值到鑰匙。這樣的數(shù)據(jù)庫功能的簡單結(jié)構(gòu)和現(xiàn)代核心價(jià)值的數(shù)據(jù)庫具有高擴(kuò)展性和查詢響應(yīng)時(shí)間小于關(guān)系數(shù)據(jù)庫。在過去的幾年中,許多關(guān)鍵的價(jià)值數(shù)據(jù)庫已經(jīng)出現(xiàn)的動(dòng)機(jī)由亞馬遜的發(fā)電機(jī)系統(tǒng)[ 85 ]。我們將介紹發(fā)電機(jī)和其他幾個(gè)有代表性的主要價(jià)值數(shù)據(jù)庫。

      –發(fā)電機(jī):發(fā)電機(jī)是一個(gè)高度可用和可擴(kuò)展的分布式key-value數(shù)據(jù)存儲(chǔ)系統(tǒng)。它是用來存儲(chǔ)和管理的一些核心服務(wù)的狀態(tài),可與所實(shí)現(xiàn)的關(guān)鍵年代,在亞馬遜電子商務(wù)平臺(tái)。關(guān)系型數(shù)據(jù)庫的公共模式可能會(huì)產(chǎn)生無效的數(shù)據(jù)和限制數(shù)據(jù)的規(guī)模和可用性,而發(fā)電機(jī)可以用一個(gè)簡單的密鑰來解決這些問題對象的接口,這是通過簡單的構(gòu)成按讀寫操作。通過數(shù)據(jù)分區(qū)、數(shù)據(jù)復(fù)制、對象編輯機(jī)制,實(shí)現(xiàn)彈性和效用。Dy納摩比肩天信計(jì)劃依賴于一致性哈希[86],其中有一個(gè)節(jié)點(diǎn)傳遞荷蘭國際集團(tuán)不僅直接影響到相鄰的節(jié)點(diǎn),不影響其他節(jié)點(diǎn),劃分負(fù)載含多處主要優(yōu)勢電子主要存儲(chǔ)設(shè)備。將數(shù)據(jù)復(fù)制到服務(wù)器的一組數(shù)據(jù)中,在該服務(wù)器中,該數(shù)據(jù)是一個(gè)可配置的參數(shù)以實(shí)現(xiàn)高可用性和耐久性。發(fā)電機(jī)系統(tǒng)還提供了最終的一致性,以便在所有副本上進(jìn)行異步更新。

      –伏地魔,伏地魔也是一個(gè)關(guān)鍵值存儲(chǔ)系統(tǒng),這是最初開發(fā)的,仍用LinkedIn。在伏地魔的關(guān)鍵字和值復(fù)合對象由表胚胎和影像。伏地魔的接口包括三個(gè)簡單的操作:閱讀,寫作,和刪除,所有這一切都是由關(guān)鍵詞確認(rèn)。伏地魔提供異步更新并行有限控制多個(gè)版本,但不保證數(shù)據(jù)的一致性。然而,伏地魔支持樂觀鎖一致多記錄更新。當(dāng)更新和一個(gè)其他歌劇全文,更新操作將退出。對伏地魔的數(shù)據(jù)復(fù)制機(jī)制,發(fā)電機(jī)相同。伏地魔不僅存儲(chǔ)在RAM中的數(shù)據(jù),允許數(shù)據(jù)被插入一個(gè)存儲(chǔ)通用電氣發(fā)動(dòng)機(jī)。特別是,伏地魔支持兩個(gè)存儲(chǔ)引擎包括伯克利DB和隨機(jī)存取文件。

      關(guān)鍵價(jià)值數(shù)據(jù)庫出現(xiàn)了幾年前。亞馬遜Dynamo DB的深刻影響,其他關(guān)鍵值存儲(chǔ)系統(tǒng)包括Redis,東京canbinet和東京的暴君,Memcached和Memcache DB,Riak的一二大蚊,所有這些都提供擴(kuò)展的關(guān)鍵詞為節(jié)點(diǎn)分配。伏地魔,Riak,東京柜,和memecached可以利用附加存儲(chǔ)設(shè)備在內(nèi)存或磁盤存儲(chǔ)數(shù)據(jù)。其他存儲(chǔ)系統(tǒng)存儲(chǔ)在內(nèi)存中的數(shù)據(jù),并提供磁盤備份,或依靠復(fù)制和恢復(fù),以避免備份?!嫦蛄械臄?shù)據(jù)庫:面向列的數(shù)據(jù)庫存儲(chǔ)和處理數(shù)據(jù),根據(jù)行。兩列和行分割在多個(gè)節(jié)點(diǎn)實(shí)現(xiàn)可擴(kuò)展性。T他面向列的數(shù)據(jù)庫主要是由谷歌的BigTable。在這一部分中,我們首先討論了Bigtable然后介紹幾種衍生工具。

      –Bigtable:Bigtable是一個(gè)分布式的、結(jié)構(gòu)化的數(shù)據(jù)存儲(chǔ)系統(tǒng),它的設(shè)計(jì)過程的大型(PB級(jí))成千上萬的商業(yè)服務(wù)器[ 87 ]中的數(shù)據(jù)?;緮?shù)據(jù)結(jié)構(gòu)F Bigtable是一個(gè)多維度的排序映射稀疏,分布,和持久性存儲(chǔ)。指數(shù)映射行鍵,列鍵,時(shí)間戳,和映射的每個(gè)值是一個(gè)unana-l分析的字節(jié)數(shù)組。在Bigtable中每一行的關(guān)鍵是一個(gè)64KB的字符串。通過lexicograph政治秩序,行存儲(chǔ)不斷分割成片(即單位分布)負(fù)載平衡。因此,讀取短行的數(shù)據(jù)可以非常有效,因?yàn)樗粌H涉及通信與機(jī)器的一小部分。列是根據(jù)鍵前綴分組,從而形成列族。這些列的家庭?謊言是訪問控制的基本單位。時(shí)間戳是64位的整數(shù)來區(qū)分不同版本的單元格的值。客戶可以靈活地確定存儲(chǔ)的單元格版本的數(shù)量。THESE版本在時(shí)間戳降序排序,所以最新的版本都會(huì)讀。

      Bigtable API的創(chuàng)作特征和片劑和列族的缺失以及集群中,表的元數(shù)據(jù)的修改,和列族??蛻舳藨?yīng)用程序可以插入或刪除Bigtable的E值,從列的查詢值,或?yàn)g覽子數(shù)據(jù)表中。Bigtable還支持一些其他的特點(diǎn),如在一行中的事務(wù)處理。用戶可以利用澤這樣的特性來進(jìn)行更復(fù)雜的數(shù)據(jù)處理。

      每一個(gè)程序執(zhí)行的Bigtable包括三個(gè)主要組成部分:主服務(wù)器,平板電腦,服務(wù)器,客戶端庫。就只允許一組主服務(wù)器被分配負(fù)責(zé)佛R不同片片檢測服務(wù)器,添加或刪除服務(wù)器進(jìn)行負(fù)載均衡的平板電腦。此外,它還可以MOD IFY Bigtable架構(gòu),例如,創(chuàng)建表和列的發(fā)科、垃圾收集以及刪除或禁用文件保存在GFS和Bigtable使用它們的具體實(shí)例。每一片一片設(shè)置服務(wù)器管理和負(fù)責(zé)的原因一個(gè)裝著的平板電腦。當(dāng)平板電腦太大,他們將被分割的服務(wù)器。應(yīng)用客戶端庫是用來溝通Bigtable的實(shí)例。

      Bigtable是基于谷歌的許多基本組件,包括GFS [ 25 ],集群管理系統(tǒng),用于墊SSTable文件,和胖乎乎的[ 88 ]。GFS是用來存儲(chǔ)數(shù)據(jù)和日志文件。群馬管理系統(tǒng)負(fù)責(zé)任務(wù)調(diào)度、資源共享、機(jī)器故障處理,和機(jī)器狀態(tài)監(jiān)測。SSTable文件格式用于內(nèi)部存儲(chǔ)Bigtable數(shù)據(jù),它提供了映射之間的持久性,測序,和不變的鍵和值的任何字節(jié)字符串。Bigtable利用小胖在服務(wù)器以下任務(wù):1)確保至多有一個(gè)活躍的主副本在任何時(shí)間;2)存儲(chǔ)Bigtable數(shù)據(jù)引導(dǎo)位置;3)查片服務(wù)器;4)在臺(tái)服務(wù)器的情況下進(jìn)行錯(cuò)誤恢復(fù)失敗的原因;5)存儲(chǔ)Bigtable架構(gòu)信息信息;6)存儲(chǔ)訪問控制表。

      –卡桑德拉:Cassandra是一個(gè)分布式的存儲(chǔ)系統(tǒng)來管理構(gòu)造了數(shù)據(jù)分布的多個(gè)商業(yè)服務(wù)器[ 89 ]之間的巨大。該系統(tǒng)是由Facebook成為發(fā)達(dá)一個(gè)開源工具,在2008。它所采用的思路和亞馬遜Dynamo和谷歌的BigTable的概念,發(fā)電機(jī)分布式系統(tǒng)技術(shù)與數(shù)據(jù)集成模型Bigtable特別厄爾尼諾。表在Cassandra是在分布式四維結(jié)構(gòu)圖的形式,其中的四個(gè)維度包括行、列、列族,和超柱。一排被區(qū)分一個(gè)任意長度的字符串鍵。無論是讀寫的列的量,行的操作是自動(dòng)的。列可能構(gòu)成一個(gè)簇,這是所謂的列家庭,和類似于Bigtable的數(shù)據(jù)模型。Cassandra提供兩種列家庭:家庭和超柱柱。超級(jí)欄包括與相同名稱相關(guān)的任意數(shù)量的列。一列家族包括列和超級(jí)欄,可在運(yùn)行時(shí)連續(xù)地插入到列族中。分區(qū)和復(fù)制機(jī)制卡桑德拉非常相似,對發(fā)電機(jī),以實(shí)現(xiàn)一致性。

      –衍生工具就從Bigtable代碼不能通過開放源碼許可證獲得的,一些開源項(xiàng)目競爭實(shí)現(xiàn)Bigtable概念開發(fā)類似的系統(tǒng)女士,如HBase和Hypertable。HBase是BigTable的克隆版的程序,用java是Apache的Hadoop MapReduce框架[ 90 ]的一部分。HBase GFS和HDFS替換。它將最新的內(nèi)容寫入內(nèi)存,并定期更新在磁盤上的文件。行操作是原子操作,配有行級(jí)鎖和事務(wù)處理,這是大尺度的可選擇。分區(qū)和分布的透明操作,有客戶端散列或固定密鑰空間。

      Hypertable是開發(fā)類似于Bigtable獲得一套高性能、可擴(kuò)展性、分布式存儲(chǔ)和處理結(jié)構(gòu)化和非結(jié)構(gòu)化的數(shù)據(jù)[ 91 ]系統(tǒng)。Hypertable是On分布式文件系統(tǒng)HDFS和分布式鎖管理器,例如。數(shù)據(jù)表示、處理、分配機(jī)制類似于Bigtable。Hypertable有自己的查詢語言,CAlled Hypertable的查詢語言(HQL),并允許用戶創(chuàng)建、修改和查詢基礎(chǔ)表。

      由于列存儲(chǔ)數(shù)據(jù)庫主要模仿BigTable,他們的設(shè)計(jì)都是相似的,除了并發(fā)機(jī)制等幾個(gè)特點(diǎn)。例如,卡桑德拉強(qiáng)調(diào)弱一致性的多版本并發(fā)控制而HBase和Hypertable重點(diǎn)強(qiáng)一致性通過鎖和日志記錄。

      –文檔數(shù)據(jù)庫:關(guān)鍵值存儲(chǔ)相比,文件存儲(chǔ)可以支持更復(fù)雜的數(shù)據(jù)形式。由于文件不遵循嚴(yán)格的模式,沒有必要進(jìn)行模式遷移。在此外,鍵-值對仍然可以保存。我們將檢查文件儲(chǔ)存系統(tǒng),即,MongoDB,SimpleDB的三重要的代表,與CouchDB。–MongoDB:MongoDB是開源的、面向文檔的數(shù)據(jù)庫[ 92 ]。MongoDB文檔存儲(chǔ)為二進(jìn)制JSON對象(BSON)[ 93 ],這是類似的對象。每個(gè)文件都有一個(gè)標(biāo)識(shí)字段作為公共關(guān)系關(guān)鍵的關(guān)鍵。在MongoDB查詢與綜合稅類似于JSON表示。一個(gè)數(shù)據(jù)庫驅(qū)動(dòng)程序發(fā)送查詢?yōu)锽SON對象MongoDB。該系統(tǒng)可以查詢所有文件,包括嵌入式對象陣列和陣列。為了使快速查詢,索引可以在查詢字段創(chuàng)建文件。在MongoDB的復(fù)制操作可以執(zhí)行,支持所有H的主要節(jié)點(diǎn)的日志文件高水平的數(shù)據(jù)庫進(jìn)行操作。在復(fù)制過程中,奴隸販子查詢所有寫操作自上次同步的掌握和執(zhí)行操作日志文件的地方數(shù)據(jù)庫。MongoDB支持橫向擴(kuò)展自動(dòng)共享分發(fā)了數(shù)千個(gè)節(jié)點(diǎn)之間數(shù)據(jù)的自動(dòng)負(fù)載平衡和故障轉(zhuǎn)移。

      –SimpleDB:SimpleDB是一個(gè)分布式數(shù)據(jù)庫和亞馬遜Web服務(wù)[ 94 ]。數(shù)據(jù)被組織成各種SimpleDB的領(lǐng)域中,數(shù)據(jù)可以存儲(chǔ)、獲取和查詢。域包括不同的正確聯(lián)系和名稱/值對套的項(xiàng)目。數(shù)據(jù)復(fù)制到不同的機(jī)器上以不同的數(shù)據(jù)中心,保證數(shù)據(jù)的安全性和提高性能。這個(gè)系統(tǒng)不支持自動(dòng)分區(qū),因此不能擴(kuò)展數(shù)據(jù)量的變化。SimpleDB允許用戶查詢與SQL。值得注意的是,云計(jì)算可以保證最終一致性但不支持穆蒂版本的并發(fā)控制(MVCC)。因此,無法從客戶端檢測到?jīng)_突。功能,即地圖和減少,這兩者都是由用戶編程。圖函數(shù)處理輸入鍵-值對,并生成中間鍵-值對。然后,MapReduce將結(jié)合所有的T他中間值相同的密鑰相關(guān)的傳輸給reduce函數(shù),從而進(jìn)一步壓縮到一個(gè)較小的值設(shè)置。MapReduce的優(yōu)點(diǎn)是,它避免了并發(fā)癥復(fù)雜的開發(fā)過程的并行應(yīng)用程序,例如,數(shù)據(jù)調(diào)度、容錯(cuò)性和節(jié)點(diǎn)間通信。用戶只需要程序的兩個(gè)功能開發(fā)并行應(yīng)用-和灰。最初的MapReduce框架不支持多個(gè)數(shù)據(jù)集的一個(gè)任務(wù),這已經(jīng)被最近的一些增強(qiáng)功能[ 96 ]減輕,97。在過去的幾十年中,程序員都熟悉SQL的高級(jí)陳述性語言,通常用在關(guān)系數(shù)據(jù)庫中,對任務(wù)的描述和 –CouchDB:Apache CouchDB是一個(gè)文件的數(shù)據(jù)集分析。然而,簡潔的MapReduce 面向?qū)ο髷?shù)據(jù)庫在Erlang編寫的[ 95 ]。數(shù)據(jù)在CouchDB組織成文件即場的鑰匙/名稱和值命名,這為JSON對象的存儲(chǔ)和訪問。每一個(gè)文件沒有提供一個(gè)唯一的標(biāo)識(shí)符。CouchDB允許訪問數(shù)據(jù)庫文件通過RESTful HTTP API。如果一個(gè)文件需要修改,客戶端必須下載整個(gè)文件里去修改它,然后將它發(fā)送回?cái)?shù)據(jù)庫。在一個(gè)文檔重寫一次之后,該標(biāo)識(shí)符將被更新。CouchDB采用最優(yōu)復(fù)制獲得scalabil性沒有共享機(jī)制機(jī)制。由于各種couchdbs會(huì)隨著其他交易同時(shí)執(zhí)行,任何一種復(fù)制拓?fù)淇山?。對CouchDB的一致性依賴于復(fù)制機(jī)制。CouchDB支持MVCC散列記錄歷史。

      大數(shù)據(jù)通常存儲(chǔ)在數(shù)百甚至你的商業(yè)服務(wù)器的沙子。因此,傳統(tǒng)的并行模型,如消息傳遞接口(MPI)和開放式多處理(OpenMP),可能不足以支持大規(guī)模并行程序。最近,一些提出的并行編程模型有效提高NoSQL性能、降低績效差距R關(guān)系數(shù)據(jù)庫。因此,這些模型已成為分析海量數(shù)據(jù)的基石。

      –MapReduce:MapReduce [ 22 ]是一個(gè)簡單但功能強(qiáng)大的編程模型,用于大規(guī)模計(jì)算中使用了大量的商業(yè)PC集群實(shí)現(xiàn)自動(dòng)并行處理和分布不。MapReduce計(jì)算模型中,只有兩個(gè)框架只提供了兩個(gè)不透明的功能,并不能涵蓋所有的常用操作。因此,程序員必須花時(shí)間在編程的基本功能,這是典型的一是保持和重復(fù)使用。為了提高編程效率,一些高級(jí)語言系統(tǒng)被提出,例如,Sawzall [ 98 ]谷歌,豬拉丁語[ 99 ] [ 100 ]雅虎,蜂巢O臉譜,和范圍[ 87 ]微軟。

      –樹精:樹精[ 101 ]是一個(gè)通用的粗粒度數(shù)據(jù)處理的并行應(yīng)用程序的分布式執(zhí)行引擎。森林經(jīng)營結(jié)構(gòu)是一個(gè)有向無環(huán)圖,W它的頂點(diǎn)表示程序邊表示數(shù)據(jù)通道。樹妖執(zhí)行作業(yè)對集群的頂點(diǎn)和發(fā)送數(shù)據(jù)通過數(shù)據(jù)通道,包括文件、TCP連接,一個(gè)FIFO和共享內(nèi)存。在操作過程中,邏輯操作圖中的資源自動(dòng)映射到物理資源。森林經(jīng)營結(jié)構(gòu)是由一個(gè)中央項(xiàng)目經(jīng)理協(xié)調(diào)工作,可執(zhí)行順序在集群或工作站通過網(wǎng)絡(luò)。一個(gè)職位經(jīng)理由兩個(gè)部分組成:1)應(yīng)用程序程序代碼,用于建立一個(gè)工作的通信圖,和2)程序庫代碼被用來安排可用資源。各種數(shù)據(jù)直接傳輸之間的vertexe因此,工作經(jīng)理只負(fù)責(zé)決策,不妨礙任何數(shù)據(jù)傳輸。在樹妖,應(yīng)用程序開發(fā)人員可以靈活地選擇任何的有向無環(huán)圖來描述應(yīng)用程序的通信方式和表達(dá)數(shù)據(jù)傳輸機(jī)制。此外,樹妖鋁低點(diǎn)頂點(diǎn)使用任意數(shù)量的輸入和輸出數(shù)據(jù),而MapReduce僅支持一個(gè)輸入和輸出設(shè)置。

      DryadLINQ [ 102 ]是樹妖的高級(jí)語言,是用來整合上述類似SQL的語言執(zhí)行環(huán)境。–所有對:所有對[ 103 ]是一個(gè)專門設(shè)計(jì)的生物識(shí)別技術(shù),系統(tǒng)的生物信息學(xué),以及數(shù)據(jù)挖掘的應(yīng)用。它側(cè)重于通過一個(gè)給定的函數(shù)在2個(gè)數(shù)據(jù)集的元素對比較。一我對可以表示為三元組(A組,B組,和f),其中f是用來比較的所有元素集合A和B組比較結(jié)果輸出矩陣M,這也被稱為笛卡爾積或交叉連接設(shè)置和設(shè)置B。所有對正在實(shí)施的四個(gè)階段:系統(tǒng)建模、輸入數(shù)據(jù)的分布、批作業(yè)管理,和結(jié)果收集。在第一階段,系統(tǒng)性能的近似模型將不ILT的評(píng)估多少CPU資源是必要的,如何進(jìn)行工作分配。在第二階段,生成樹進(jìn)行數(shù)據(jù)傳輸,這使得每一個(gè)分區(qū)的工作量檢索InP但數(shù)據(jù)有效。在III期后的數(shù)據(jù)流傳送到適當(dāng)?shù)墓?jié)點(diǎn),對所有引擎會(huì)建立一個(gè)批處理承認(rèn)錫安工作分區(qū),而排序在批處理系統(tǒng),并制定一個(gè)節(jié)點(diǎn)運(yùn)行寧命令獲取數(shù)據(jù)。在最后一個(gè)階段,在完成批量處理系統(tǒng)后,提取引擎將收集結(jié)果在一個(gè)適當(dāng)?shù)慕Y(jié)構(gòu)中,它通常是一個(gè)單一的文件列表,其中所有的結(jié)果都是為了。

      –Pregel:預(yù)凝膠[ 104 ]的谷歌系統(tǒng)有利于大型圖的處理,例如,網(wǎng)絡(luò)圖和社會(huì)網(wǎng)絡(luò)服務(wù)分析。一個(gè)計(jì)算任務(wù)由D表示有向圖的頂點(diǎn)和邊控制措施。每個(gè)頂點(diǎn)是一個(gè)可變的和用戶定義的值有關(guān),與每一個(gè)有向邊一個(gè)源點(diǎn)相關(guān)的欺詐的措施的使用r-defined價(jià)值和目標(biāo)節(jié)點(diǎn)的標(biāo)識(shí)符。當(dāng)圖是建立的,程序進(jìn)行迭代計(jì)算,這是所謂的超級(jí)步驟之間的全球同步點(diǎn)等算法完成和輸出完成。在每一個(gè)超級(jí)步,頂點(diǎn)計(jì)算是平行的,每個(gè)頂點(diǎn)執(zhí)行相同的用戶自定義函數(shù)來表達(dá)一個(gè)給定的算法邏輯。每個(gè)頂點(diǎn)可能對其輸出的邊緣地位,收到消息,從以前的superstep發(fā)送,發(fā)送消息到其他頂點(diǎn),甚至修改過程的拓?fù)浣Y(jié)構(gòu)再圖。邊緣沒有提供相應(yīng)的計(jì)算。每一個(gè)頂點(diǎn)的函數(shù)可以被暫停。當(dāng)所有的城市都在非活動(dòng)狀態(tài)的版本沒有任何消息傳遞,完成整個(gè)程序的執(zhí)行。

      Pregel程序的輸出是一套包含所有頂點(diǎn)的值輸出。一般來說,輸入和輸出的Pregel程序是同構(gòu)的有向圖。受此啟發(fā)的編程模型,其他的研究也主要集中在更為復(fù)雜的計(jì)算任務(wù),如編程模式,迭代計(jì)算[ 105,106 ],容錯(cuò)存儲(chǔ)器計(jì)算[ 107 ],增量計(jì)算[ 108 ],和流量控制決策與數(shù)據(jù)[ 109] 5大數(shù)據(jù)分析

      大數(shù)據(jù)分析的主要分析方法包括傳統(tǒng)數(shù)據(jù)和大數(shù)據(jù),大數(shù)據(jù)分析的架構(gòu),和軟件用于大數(shù)據(jù)挖掘與分析。數(shù)據(jù)分析在大數(shù)據(jù)的價(jià)值鏈中,是最后的和最重要的階段,目的是提取有用的價(jià)值,提供建議或決定。不同層次的潛在價(jià)值可以通過在不同領(lǐng)域的數(shù)據(jù)集的分析產(chǎn)生[ 10 ]。然而,數(shù)據(jù)分析是一個(gè)廣泛的領(lǐng)域,它經(jīng)常變化,是非常復(fù)雜的。在這一節(jié)中,我們介紹了相遇的方法,為大數(shù)據(jù)分析的架構(gòu)和工具。

      5.1傳統(tǒng)數(shù)據(jù)分析

      傳統(tǒng)的數(shù)據(jù)分析方法是使用適當(dāng)?shù)慕y(tǒng)計(jì)方法來分析大量的數(shù)據(jù),集中,提取,并細(xì)化有用的數(shù)據(jù)隱藏在一批混亂的數(shù)據(jù)集,并確定在標(biāo)的物的內(nèi)在規(guī)律,從而為數(shù)據(jù)價(jià)值的最大化。數(shù)據(jù)分析對一個(gè)國家制定發(fā)展規(guī)劃,了解客戶對商業(yè)的需求具有巨大的指導(dǎo)作用,和預(yù)測市場趨勢的企業(yè)。大數(shù)據(jù)分析可以被認(rèn)為是一種特殊的數(shù)據(jù)分析技術(shù)。因此,許多傳統(tǒng)的數(shù)據(jù)分析方法仍然可以利用化大數(shù)據(jù)分析。幾種有代表性的傳統(tǒng)數(shù)據(jù)分析方法進(jìn)行以下檢查,其中有許多是從統(tǒng)計(jì)學(xué)和計(jì)算機(jī)科學(xué)。

      ——聚類分析:是一種分組對象的統(tǒng)計(jì)方法,具體而言,是根據(jù)某些特征對對象進(jìn)行分類。聚類分析是用來區(qū)分對象與特定的F吃特征分為幾類(簇)根據(jù)這些特點(diǎn),這樣的對象在同一類別將有同質(zhì)性高而不同類別將有高的eneity。聚類分析是一種無監(jiān)督學(xué)習(xí)方法,無需訓(xùn)練數(shù)據(jù)。

      –因素分析:基本上是針對只有幾個(gè)因素,即許多元素之間的關(guān)系描述,分組密切相關(guān)的幾個(gè)變量為因子,和幾個(gè)因素AR然后過去——相關(guān)分析:是一種分析方法,以阻止采礦法的關(guān)系,如相關(guān)性,相對依賴性,和相互制約,觀察到的現(xiàn)象,并相應(yīng)地nducting預(yù)測與控制。這樣的關(guān)系可以分為兩類:(i)功能,反映現(xiàn)象之間嚴(yán)格的依存關(guān)系,即一個(gè)明確的關(guān)聯(lián)CE的關(guān)系;(ii)相關(guān),存在不確定的或不精確的依賴關(guān)系,和一個(gè)變量的值可能對應(yīng)其他幾個(gè)變量的數(shù)值,如N數(shù)值價(jià)值呈規(guī)律性波動(dòng)圍繞其平均值。

      -回歸分析:是一個(gè)數(shù)學(xué)工具,揭示了一個(gè)變量和幾個(gè)其他變量之間的相關(guān)性。基于一組實(shí)驗(yàn)或觀測數(shù)據(jù),回歸模型分析外商投資企業(yè)的依賴關(guān)系被隨機(jī)變量之間?;貧w分析可以使復(fù)雜的變量之間的相關(guān)性是簡單規(guī)則待定?!环N測試:也稱為桶測試。這是一個(gè)技術(shù)用于確定如何通過比較試驗(yàn)組提高目標(biāo)變量。大數(shù)據(jù)將需要大量的測試被執(zhí)行教育和分析。

      –統(tǒng)計(jì)分析:統(tǒng)計(jì)分析是統(tǒng)計(jì)理論的基礎(chǔ)上,應(yīng)用數(shù)學(xué)的一個(gè)分支。在統(tǒng)計(jì)理論中,隨機(jī)性和不確定性是以概率論為基礎(chǔ)的。統(tǒng)計(jì)分析可以提供一個(gè)描述和大數(shù)據(jù)的推理。描述性統(tǒng)計(jì)分析可以總結(jié)和描述數(shù)據(jù)集,而推斷性統(tǒng)計(jì)分析可以得出從數(shù)據(jù)的隨機(jī)變化的結(jié)論。統(tǒng)計(jì)分析在經(jīng)濟(jì)和醫(yī)療保健領(lǐng)域中有廣泛的應(yīng)用[ 110 ]。

      ——數(shù)據(jù)挖掘算法:數(shù)據(jù)挖掘是一種提取隱藏的、未知的、但具有潛在有用信息和知識(shí)的過程,是從海量、不完整、有噪聲、模糊、隨機(jī)的數(shù)據(jù)中提取的。2006、日E IEEE國際數(shù)據(jù)挖掘系列會(huì)議(ICDM)確定了十個(gè)最有影響力的數(shù)據(jù)挖掘算法,通過嚴(yán)格的選拔程序[ 111 ],包括C4.5,K-means聚類算法,SVM,Apriori算法,他們,樸素貝葉斯,和購物車等。這十種算法包括分類、聚類、回歸、統(tǒng)計(jì)學(xué)習(xí)、關(guān)聯(lián)分析和關(guān)聯(lián)挖掘,所有這些都是最重要的。數(shù)據(jù)挖掘研究中的問題。

      5.2大數(shù)據(jù)分析方法

      在大數(shù)據(jù)時(shí)代的曙光中,人們對如何快速從海量數(shù)據(jù)中提取關(guān)鍵信息,為企業(yè)和個(gè)人帶來價(jià)值。目前,主要處理我大數(shù)據(jù)的方法如下?;ㄟ^濾器:盛開過濾器由一系列的散列函數(shù)。開濾波器的原理是利用位數(shù)組來存儲(chǔ)數(shù)據(jù)本身的哈希值,這在本質(zhì)上是使用哈希函數(shù)來進(jìn)行有損壓縮存儲(chǔ)的位圖索引。它具有空間效率高,查詢速度快等優(yōu)點(diǎn),但也有一些缺點(diǎn)misrecognItion和刪除。

      –散列:它是一種方法,是把數(shù)據(jù)轉(zhuǎn)換成較短的固定長度的數(shù)值或指標(biāo)值。散列法具有快速閱讀、書寫和查詢速度快等優(yōu)點(diǎn),但也有很難找到一個(gè)聲音哈希函數(shù)?!饕核饕冀K是一種有效的方法,以減少磁盤讀寫的費(fèi)用,提高插入、刪除、修改和查詢速度,在傳統(tǒng)的關(guān)系數(shù)據(jù)庫中它的數(shù)據(jù)結(jié)構(gòu),管理,和其他技術(shù)處理半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)。然而,指數(shù)有一個(gè)缺點(diǎn),它具有存儲(chǔ)索引文件,這額外的成本當(dāng)數(shù)據(jù)更新時(shí),應(yīng)保持動(dòng)態(tài)維護(hù)。

      –專用:也叫Trie樹,哈希樹的一個(gè)變種。它主要應(yīng)用于快速檢索和詞頻統(tǒng)計(jì)。該研究的主要思想是利用字符串的公共前綴在最大程度上減少字符串的比較,提高查詢效率。–并行計(jì)算:相比傳統(tǒng)的串行計(jì)算,并行計(jì)算是指同時(shí)使用多個(gè)計(jì)算資源完成計(jì)算任務(wù)。它的基本思想是分解一個(gè)問題并將它們分配給獨(dú)立完成的幾個(gè)單獨(dú)的進(jìn)程,從而實(shí)現(xiàn)協(xié)同處理。目前,一些經(jīng)典的并行計(jì)算模型,包括MPI(消息傳遞接口)、MapReduce和樹妖(見表1的比較)。

      雖然并行計(jì)算系統(tǒng)或工具,如MapReduce或樹精,用于大數(shù)據(jù)分析,它們是低水平的工具,是很難學(xué)習(xí)和使用。因此,一些高層次的標(biāo)準(zhǔn)并行編程工具或語言是基于這些系統(tǒng)的開發(fā)。這樣的高級(jí)語言包括Sawzall,豬,和蜂巢用于MapReduce,以及使用范圍和DryadLINQ博士YAD。

      5.3大數(shù)據(jù)分析架構(gòu)

      由于大數(shù)據(jù)的不同分析架構(gòu)4Vs,應(yīng)視不同的應(yīng)用要求。

      Table 1 Comparison of MPI, MapReduce and Dryad

      MPI

      MapReduce

      Dryad

      Computing and data storage arranged at the same node(Computing should be close to data)Not clear Deployment

      Resource management/ scheduling Low level programming High level programming Data storage

      Computing node and data storage arranged separately(Data should be moved computing node)–

      Computing and data storage arranged at the same node(Computing should be close to data)Workqueue(google)HOD(Yahoo)MapReduce API Pig, Hive, Jaql, · · · GFS(google)HDFS(Hadoop), KFS Amazon S3, · · · Automation

      MPI API

      The local file system, NFS, · · ·

      Dryad API Scope, DryadLINQ

      NTFS, Cosmos DFS

      Task partitioning

      User manually partition the tasks

      Messaging, Remote memory access Checkpoint

      Automation

      Communication

      Files(Local FS, DFS)

      Files, TCP Pipes, Shared-memory FIFOs Task re-execute

      Fault-tolerant

      Task re-execute

      5.3.1實(shí)時(shí)與離線分析

      根據(jù)實(shí)時(shí)性要求,大數(shù)據(jù)分析可分為實(shí)時(shí)分析和離線分析。

      ——實(shí)時(shí)分析:主要用于電子商務(wù)和金融。由于數(shù)據(jù)的不斷變化,快速的數(shù)據(jù)分析是必要的,分析的結(jié)果將返回在很短的延遲。主要實(shí)時(shí)分析現(xiàn)有的體系結(jié)構(gòu)包括(i)并行處理集群使用傳統(tǒng)的關(guān)系型數(shù)據(jù)庫,及(ii)基于內(nèi)存的計(jì)算平臺(tái)。例如,Greenplum從EMC和SAP HANA的都是實(shí)時(shí)分析架構(gòu)。

      –離線分析:通常用于應(yīng)用程序在響應(yīng)時(shí)間,要求高,如機(jī)器學(xué)習(xí)、統(tǒng)計(jì)分析和推薦算法。離線分析通過數(shù)據(jù)采集工具,將日志導(dǎo)入到一個(gè)特殊的平臺(tái)中進(jìn)行分析。大數(shù)據(jù)背景下,很多互聯(lián)網(wǎng)企業(yè)利用離線分析體系結(jié)構(gòu)的基礎(chǔ)上Hadoop為了減少數(shù)據(jù)格式轉(zhuǎn)換成本,提高數(shù)據(jù)采集的效率。例子包括Facebook的開源工具,劃線,LinkedIn的開源工具,卡夫卡,TA歐寶的開源工具timetunnel,和Chukwa Hadoop,這些工具可以滿足數(shù)據(jù)采集和每秒數(shù)百兆位傳輸?shù)囊蟆?.3.2分析不同層次

      大數(shù)據(jù)分析還可以分為記憶水平分析,商業(yè)智能(BI)水平分析,和大規(guī)模的水平分析,這是在下面的檢查。

      -內(nèi)存層次分析:對于總數(shù)據(jù)量小于集群的最大內(nèi)存量的情況。如今,服務(wù)器集群蘇爾存儲(chǔ)器通過數(shù)百GB甚至TB水平是普遍的。因此,一個(gè)內(nèi)部數(shù)據(jù)庫技術(shù)可以使用,熱數(shù)據(jù)應(yīng)駐留在內(nèi)存中,以提高分析效率。記憶水平分析是非常合適的用于實(shí)時(shí)分析。MongoDB是一個(gè)具有代表性的內(nèi)存層次分析結(jié)構(gòu)。隨著SSD(固態(tài)硬盤),發(fā)展能力和記憶水平的數(shù)據(jù)分析性能得到了進(jìn)一步的改進(jìn)和廣泛應(yīng)用。

      –BI分析:是當(dāng)數(shù)據(jù)規(guī)模蘇爾通過記憶水平但可以導(dǎo)入BI分析環(huán)境。目前,主流的BI產(chǎn)品提供數(shù)據(jù)分析計(jì)劃支持結(jié)核病的水平。

      -大規(guī)模分析:數(shù)據(jù)規(guī)模已完全超過了雙產(chǎn)品和傳統(tǒng)關(guān)系數(shù)據(jù)庫的能力。目前,最大量的分析利用HDFS的Hadoop存儲(chǔ)數(shù)據(jù),使用MapReduce的數(shù)據(jù)分析。最龐大的分析屬于離線分析范疇。5.3.3不同復(fù)雜度分析

      數(shù)據(jù)分析算法的時(shí)間和空間復(fù)雜度,根據(jù)不同的數(shù)據(jù)和應(yīng)用需求的不同而不同。例如,對于應(yīng)用是適合的為了并行處理,可以設(shè)計(jì)一個(gè)分布式算法和一個(gè)并行處理模型,可用于數(shù)據(jù)分析。大數(shù)據(jù)挖掘與分析的5.4大工具

      大數(shù)據(jù)的挖掘和分析許多工具可用,包括專業(yè)和業(yè)余軟件,昂貴的商業(yè)軟件和開源軟件。在這一節(jié)中,我們簡要回顧一下最廣泛使用的五個(gè)軟件,根據(jù)一項(xiàng)調(diào)查,“什么分析,數(shù)據(jù)挖掘,大數(shù)據(jù)軟件,你用在過去12個(gè)月為一個(gè)真正的項(xiàng)目?“798個(gè)專業(yè)的基2012 uggets [ 112 ]。

      (30.7%):一個(gè)開源的編程語言和軟件環(huán)境,是專為數(shù)據(jù)挖掘/分析和可視化設(shè)計(jì)的。雖然計(jì)算密集型任務(wù)執(zhí)行,代碼編程的智慧H C、C++和Fortran可以在R環(huán)境稱為。此外,熟練的用戶可以直接調(diào)用C語言中的對象,其實(shí),是一種語言的實(shí)現(xiàn),這是一種解釋語言種由AT&T貝爾實(shí)驗(yàn)室和用于數(shù)據(jù)挖掘,統(tǒng)計(jì)分析,并繪制曲線。與之相比,更為流行,因?yàn)樗情_源的。R在kdnuggets 2012調(diào)查排名前1。此外,在“設(shè)計(jì)語言,你在過去的一年中“2012數(shù)據(jù)挖掘/分析調(diào)查,R也被放在首位,擊敗SQL和Java。由于研究的普及,數(shù)據(jù)基地的生產(chǎn)廠家,如Teradata和Oracle,已經(jīng)發(fā)布的產(chǎn)品配套R(shí).–Excel(29.8%):Excel,一個(gè)微軟Office的核心組件,提供了強(qiáng)大的數(shù)據(jù)處理和統(tǒng)計(jì)分析能力。當(dāng)Excel安裝,一些先進(jìn)的插件,如分析是工具庫和求解器的加入,為數(shù)據(jù)分析的強(qiáng)大功能集成開始,但這樣的插件可以使他們使用只有用戶。最擅長的也是唯一的商業(yè)軟件王前五。

      –rapid-i RapidMiner(26.7%):RapidMiner是一個(gè)用于數(shù)據(jù)挖掘開源軟件,機(jī)器學(xué)習(xí),和預(yù)測分析。在kdnuggets 2011調(diào)查,這是更頻繁用比(排名前1)。數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)程序提供RapidMiner包括提取,轉(zhuǎn)換和加載(ETL),數(shù)據(jù)預(yù)處理和可視化,建模,評(píng)估,一三維部署。通過圖形用戶界面(圖形用戶界面)對數(shù)據(jù)挖掘流程進(jìn)行描述。快速礦工被寫在爪哇。它把學(xué)習(xí)者和weka的評(píng)價(jià)方法,并與R函數(shù)RapidMiner與過程包括各種運(yùn)營商實(shí)現(xiàn)連接。整個(gè)流程可以被視為一個(gè)工廠的生產(chǎn)線,與原始數(shù)據(jù)的輸入和模式結(jié)果輸出。運(yùn)營商可以被認(rèn)為是一些特定的功能,具有不同的輸入和輸出特性。

      (21.8%):–knmine KNIME(康斯坦茨信息挖掘)是一個(gè)用戶友好的、智能的、開放源碼的豐富的數(shù)據(jù)集成、數(shù)據(jù)處理、數(shù)據(jù)分析和數(shù)據(jù)挖掘平臺(tái)[ 113 ]。它允許用戶在可視化的方式創(chuàng)建數(shù)據(jù)流或數(shù)據(jù)通道,選擇性地執(zhí)行部分或全部分析程序,并提供分析結(jié)果,模型,和互動(dòng)的觀點(diǎn)。KNIME是世界資源研究所記在Java和基于Eclipse的插件,提供了更多的功能。通過插件的文件,用戶可以插入圖片文件處理模塊,和時(shí)間序列,并將它們集成到各種的開源項(xiàng)目,例如,R和Weka。KNIME控件數(shù)據(jù)集成、清洗、轉(zhuǎn)換、濾波、統(tǒng)計(jì)、挖掘,最后數(shù)據(jù)可視化。整個(gè)開發(fā)過程是條件指示一個(gè)可視化的環(huán)境下。KNIME設(shè)計(jì)為模塊化和可擴(kuò)展的框架。有它的處理單元和數(shù)據(jù)容器之間沒有依賴性,使其適應(yīng)分布式環(huán)境下的自主發(fā)展。此外,它很容易擴(kuò)展KNIME。開發(fā)人員可以輕松地?cái)U(kuò)展各種節(jié)點(diǎn)和看法KNIME。

      –WEKA / Pentaho(14.8%):WEKA,從懷卡托環(huán)境知識(shí)分析的簡稱,是一個(gè)免費(fèi)開源的機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘軟件用Java寫的。Weka提供這樣的樂趣具有數(shù)據(jù)處理、特征選擇、分類、回歸、聚類、關(guān)聯(lián)規(guī)則等,和可視化,Pentaho是一個(gè)最流行的開源BI軟件。它包括一個(gè)網(wǎng)絡(luò)服務(wù)器平臺(tái)和幾個(gè)工具,以支持報(bào)告,分析,圖表,數(shù)據(jù)集成,數(shù)據(jù)挖掘等,所有方面的雙向。Weka的數(shù)據(jù)處理算法進(jìn)行集成的我n Pentaho可直接調(diào)用。

      6大數(shù)據(jù)應(yīng)用

      在前一節(jié)中,我們研究了大數(shù)據(jù)分析,這是大數(shù)據(jù)價(jià)值鏈的最后和最重要的階段。大數(shù)據(jù)分析可以通過判斷提供有用的價(jià)值,建議納秒,支持或決定。然而,數(shù)據(jù)分析涉及范圍廣泛的應(yīng)用,它經(jīng)常改變,是非常復(fù)雜的。在這一節(jié)中,我們首先回顧了數(shù)據(jù)來源的演變。然后,我們研究六最重要的數(shù)據(jù)分析領(lǐng)域,包括結(jié)構(gòu)化數(shù)據(jù)分析,文本分析,網(wǎng)站分析,多媒體分析,網(wǎng)絡(luò)分析,和移動(dòng)分析。最后,我們介紹幾種l關(guān)鍵應(yīng)用領(lǐng)域的大數(shù)據(jù)。

      6.1應(yīng)用程序演化

      最近,大數(shù)據(jù)分析已經(jīng)被提出作為一種先進(jìn)的分析技術(shù),通常包括在特定的分析方法下的大型和復(fù)雜的程序。事實(shí)上,大在過去的幾十年中,鉭驅(qū)動(dòng)的應(yīng)用已經(jīng)出現(xiàn)了。例如,早在20世紀(jì)90年代,BI已成為一個(gè)普遍的技術(shù)為企業(yè)應(yīng)用,基于大規(guī)模網(wǎng)絡(luò)搜索引擎數(shù)據(jù)挖掘處理出現(xiàn)在第二十一世紀(jì)初。一些潛在的和有影響力的應(yīng)用程序從不同的領(lǐng)域,其數(shù)據(jù)和分析的特點(diǎn)進(jìn)行了討論如下。

      商業(yè)應(yīng)用–演變:最早的業(yè)務(wù)數(shù)據(jù)是結(jié)構(gòu)化的數(shù)據(jù),這是由公司從傳統(tǒng)的系統(tǒng),然后存儲(chǔ)在RDBMS收集。分析技術(shù)在這樣的系統(tǒng)中使用的是在上世紀(jì)90年代盛行,是直觀和簡單的,例如,在報(bào)告的形式,儀表板,查詢條件,基于商業(yè)智能搜索、在線交易處理,交互式可視化,得分卡,預(yù)測模型,數(shù)據(jù)挖掘[ 114 ]。自第二十一世紀(jì)開始,網(wǎng)絡(luò)和萬維網(wǎng)((兒子厄里斯IM:5May?s2013)

      152.李承晚Y,李J(下2009年)在模擬移動(dòng)社區(qū)的典范:設(shè)計(jì)用戶界面,支持小組互動(dòng)。

      相互作用16(6):46-51 153.漢?,李JG,岡薩雷斯H,李X(2008)挖掘海量RFID,軌跡,和交通數(shù)據(jù)集。在:第14屆ACM論文集

      第二篇:論文翻譯

      譽(yù)文英語母語編輯團(tuán)隊(duì)專業(yè)提供學(xué)術(shù)論文的英文修改、校對及專業(yè)級(jí)別翻譯論文服務(wù)。論文潤色服務(wù)涵蓋工程,環(huán)境,計(jì)算機(jī),經(jīng)濟(jì),機(jī)械,材料,生物,化學(xué),化工,地質(zhì),土壤,物理等領(lǐng)域及人文社科類文章.我們每年都有數(shù)萬篇SCI翻譯與潤色經(jīng)驗(yàn)的英文語言服務(wù)公司,資深外籍母語期刊副編輯進(jìn)行語言把關(guān),保證英文語言質(zhì)量。除此,譽(yù)文母語團(tuán)隊(duì)還提供專業(yè)的出國留學(xué)文書修改服務(wù)。

      時(shí)間上,我們致力于為您提供最及時(shí)及快捷的、全年不間斷的翻譯服務(wù),Kyuwen可以提供24-72小時(shí)的快速支援服務(wù),您的文章將被3位獨(dú)立的資深編輯審核校對。專業(yè)英文編輯團(tuán)隊(duì)均曾翻譯多個(gè)重要項(xiàng)目。

      譽(yù)文學(xué)術(shù)專享區(qū),將與您分享最前沿的學(xué)術(shù)資訊及免費(fèi)科研資料下載!同時(shí)SCI SSCI 期刊論文潤色、專業(yè)論文翻譯、英文論文評(píng)估等項(xiàng)目,高校老客戶、研究所、合作研究團(tuán)隊(duì),可享受先修改后付款的優(yōu)惠!

      一篇好的文章加上專業(yè)而地道的語言表達(dá),將有助于您的文章被國際有影響力期刊接收。

      KWN EDITING 將充分傳達(dá)您的學(xué)術(shù)研究水平,無論您是發(fā)表科技論文,或是正在準(zhǔn)備具有競爭力的留學(xué)文書、或是投遞英文簡歷,及工程項(xiàng)目翻譯。我們的優(yōu)秀編譯專家團(tuán)隊(duì),為您提供不間斷服務(wù)

      第三篇:翻譯論文

      本人英語專業(yè)畢業(yè),通過專業(yè)八級(jí)考試,至今有5年專職翻譯工作經(jīng)驗(yàn)。

      本工作室--思馬德工作室獨(dú)立于本人所兼職的翻譯公司,既客戶與譯者本人直接1對1聯(lián)系,因此剔除了翻譯公司的利潤附加值。

      至于實(shí)力與水平,不需贅述許多,節(jié)省大家時(shí)間;翻譯的質(zhì)量,您發(fā)來資料試譯便知。聲明:

      由于最近工作原因,閑暇時(shí)間很少,所以無法抽出時(shí)間幫大家做長篇翻譯免費(fèi)義工了。請各位見諒!

      現(xiàn)調(diào)整為:

      50字以內(nèi),享受免費(fèi)手工/人工翻譯。

      小篇幅翻譯(小于1000字的),我將游走于商業(yè)翻譯與義工翻譯之間,英譯中每100字6元,中譯英每100字7元。

      大于1000字的,每100字英譯中7-12元,中譯英每1000字8-14元(價(jià)格浮動(dòng)視難度、翻譯量及新老客戶而調(diào)整)。

      如需免費(fèi)幫助,請把需要翻譯的內(nèi)容發(fā)到我的QQ郵箱里:1140456300@qq.com ;

      如需有償翻譯幫助,請加我的QQ洽談:1140456300。

      注:

      1.正規(guī)市場/翻譯公司價(jià)格參考:每1000字英譯中140-180元,中譯英每1000字180-240元(價(jià)格視難度而調(diào)整)

      2.支付方式:支付寶

      3.翻譯范圍:各行業(yè)、各類文章皆可。校園文章翻譯及寫作、畢業(yè)論文翻譯及校對修改,政府公文翻譯,商務(wù)翻譯等業(yè)務(wù)可以享受優(yōu)惠。

      翻譯行規(guī)

      費(fèi)用說明

      1.不是所有的材料都能做到最低價(jià)收費(fèi),具體價(jià)格根據(jù)翻譯材料的難易度,協(xié)商調(diào)整。

      2.加急件價(jià)格要比正常件稍微要高。具體收費(fèi)和情況我方協(xié)商。

      3.字?jǐn)?shù)以word的字?jǐn)?shù)統(tǒng)計(jì)為準(zhǔn),字?jǐn)?shù)統(tǒng)計(jì)方法:使用Word/工具/字?jǐn)?shù)統(tǒng)計(jì)/字?jǐn)?shù).(小提示:一些譯者以“字符數(shù)”作為計(jì)算依據(jù),“字符數(shù)”遠(yuǎn)比字?jǐn)?shù)要多,雖然他們的單位字?jǐn)?shù)報(bào)價(jià)低,但按“字符數(shù)”來計(jì)算的話,總價(jià)格往往要比我方要高.)

      4.我方英譯中收費(fèi)按照英文單詞數(shù)量計(jì)算,打破按譯后中文字?jǐn)?shù)計(jì)算的貓膩和不確定性。

      說明事項(xiàng)

      1.對所有翻譯稿件絕對保密,在買家確認(rèn)驗(yàn)收之后,我們會(huì)刪除備份文件,請買家妥善保管譯稿。

      2.收到稿件后三天內(nèi),如對本工作室的翻譯有異議,我們將按照您的要求作免費(fèi)的修改,直到您滿意為止。如果是原稿內(nèi)容的變動(dòng)而要求我們進(jìn)行的修改,我們將按單價(jià)另算改動(dòng)部分的價(jià)錢。

      3.對于專業(yè)性強(qiáng)的稿件,如果方便的話,最好提供相應(yīng)的輔助材料,如詞匯表等,以確保翻譯內(nèi)容的準(zhǔn)確性和一致性。

      另外,由于我現(xiàn)在在一家翻譯公司做兼職,同時(shí)也為一些其他公司提供翻譯服務(wù),有時(shí)業(yè)務(wù)較多,所以,希望能將部分的業(yè)務(wù)轉(zhuǎn)包給時(shí)間充裕且翻譯水平過硬的朋友。

      本人真誠希望能結(jié)識(shí)一些英語水平較好的朋友,尤其是擅長專業(yè)性較強(qiáng)的行業(yè)的朋友,如:

      1.商務(wù)文件:進(jìn)出口貿(mào)易、金融、保險(xiǎn)、人事、財(cái)務(wù)、銷售、市場、公函等。

      2.個(gè)人資料:求職簡歷、求職信、演講稿、入學(xué)申請、PS、推薦信、學(xué)歷證書、成績單等。

      3.公司文件:產(chǎn)品介紹、公司簡介、說明書、商務(wù)信函、合同、協(xié)議等。

      4.通用文件:信函、企劃、邀請函、營銷、培訓(xùn)資料等。

      5.文學(xué)文件:散文、詩歌、廣告等。

      6.技術(shù)文件:技術(shù)規(guī)范、信息技術(shù)、操作說明、游戲及軟件漢化等。

      以上類別都有可能需要人手,歡迎有志于做兼職翻譯的朋友和我聯(lián)系!

      我的QQ:1140456300

      第四篇:翻譯論文

      關(guān)于中西文化對翻譯的影響

      摘要: 翻譯所追求的是正確的理解和恰當(dāng)?shù)谋磉_(dá)。正確的理解是恰當(dāng)?shù)谋磉_(dá)的前提,沒有正確的理解,任何形式的表達(dá)都無從談起;恰當(dāng)?shù)谋磉_(dá)則是翻譯的最終目的。但這些都需要在了解兩個(gè)民族文化背景的基礎(chǔ)上才能實(shí)現(xiàn)的。東西方文化之間存在著一定的差異,這種差異總是與一個(gè)國家民族悠久的文化背景、風(fēng)俗民情、社會(huì)關(guān)系、社會(huì)生活及個(gè)人思維的變化有著極其密切的聯(lián)系。只有將翻譯與文化自然融合,才能達(dá)到民族間的真正交流。我們將從文化內(nèi)涵、生活方式、認(rèn)知思維方式以及價(jià)值觀等角度入手了解翻譯過程中要注意的問題。

      關(guān)鍵詞:文化的差異,翻譯,方式

      Abstract: Translation aimed at the correct understanding and proper expression.The correct understanding of the expression is appropriate, without the correct understanding of the situation, any form of expression is impossible.Proper expression is the ultimate goal of translation.But these are needed in the understanding of the two nations on the basis of the cultural background.Between eastern and western cultures exist certain difference, the difference is always with a state, national cultural background, social relations, and the customs, the social life and the changes of individual thinking is very closely linked.Only by combined the translation with the culture can it reach real communication between national.We should pay attention to the problem about the progress of translation by cultural connotation, lifestyle, cognitive thinking mode and values.Keywords: cultural difference, translation, manner

      引言

      語言是人類文化交流的中心樞紐,是人類長期發(fā)展和進(jìn)步的標(biāo)志,而各民族

      文化的交流需要通過翻譯來實(shí)現(xiàn)。近幾十年,隨著社會(huì)不斷發(fā)展,翻譯也成了一種主流趨勢,但怎樣翻得好,翻得準(zhǔn),也是翻譯者的一大難題。現(xiàn)今翻譯理解不僅限于對字面意義的傳譯,它還應(yīng)該包括對文化內(nèi)涵的傳譯,翻譯離不開文化差異對其產(chǎn)生的影響。所以許多語言學(xué)家,學(xué)者對其進(jìn)行了大量的研究,要與現(xiàn)實(shí)文化相結(jié)合,才能更好的表現(xiàn)出人類的語言特色。本文主要通過中西文化差異對翻譯影響進(jìn)行探討和分析。

      一、文化的差異對翻譯的影響

      語言翻譯之所以困難,是因?yàn)檎Z言能夠反映一種文化。中西文化都承載著濃

      厚文化底蘊(yùn)的語言,只有將語言和文化相結(jié)合才能真正促進(jìn)語言社會(huì)的政治、經(jīng)濟(jì)和文化進(jìn)步。當(dāng)雙方一旦進(jìn)入交際,便存在對文化內(nèi)涵的理解和表達(dá)問題。這就要求雙方不但要有好的雙語能力,而且還要有雙文化乃至多文化的知識(shí)。文化

      是一個(gè)民族的知識(shí)、經(jīng)驗(yàn)、信仰、價(jià)值、態(tài)度、等級(jí)、宗教以及時(shí)空觀念的總和。一個(gè)民族既有自己的語言,又有自己的文化。語言是文化的一部分,文化也

      是語言賴以生存的基礎(chǔ)。只有對兩種語言的民族心理意識(shí)、文化形成過程、歷史習(xí)俗傳統(tǒng)等一系列互變因素均有一定的了解, 英漢民族的語言文化才能體現(xiàn)出各自特有的民族色彩。

      (一)生態(tài)文化差異對翻譯的影響

      生態(tài)文化是在特定的生態(tài)環(huán)境下形成和發(fā)展的,不同的地域擁有不同的文化。生態(tài)而文化包括一個(gè)民族所在地域、自然條件和地理環(huán)境所形成的文化,表現(xiàn)在不同民族對同一種現(xiàn)象或事物采用不同的語言形式來表達(dá)。

      比如象英國的地理位置特征無論是歷史傳統(tǒng)還是現(xiàn)實(shí)生活中,英語民族的生活多和海洋打交道,因而英語中有大量有關(guān)水的詞語;而在以大陸為主的漢語中很難找到相對應(yīng)的形式,因而對中國人來講,理解這些表達(dá)方式就較為困難。比如:able seaman 一級(jí)水平,seaman 直譯為海員,在西方國家 “ seaman ” 又指代有能力、有水平的海員,因此 “ able seaman ” 可意譯為 “ 一級(jí)水平”。be left high and dry陷入困境,be left high and dry 直譯為被留在水流不到達(dá)的地方。在西方國家水給人以安全祥和的感覺因此“ be left high and dry ”可意譯為陷入困境。在中國,自古以來還有“南面為王,北面為朝”,南為尊北為卑的傳統(tǒng),人們常說“從南到北,南來北往”,“南”字的方位在說法上常常在前面。而英語恰恰相反,英國人則將漢語中的“從南到北”,譯成“from north to south”,還有諸如“northwest”, “southwest”,“northeast”,“southeast”。再看看中英相互的意譯。例如:“山重水復(fù)疑無路,柳暗花明又一村”的譯法是“ One has a sudden glimpse of hope in the midst of despair.(在絕望中突然看見一絲希望)”,在此種譯法里根本找不到山、水、路、柳樹、花、村等詞的對應(yīng)形式。

      中國父母“望子成龍”是絕對不能譯成“to expect one’s child to be a dragon,而應(yīng)該譯成 to expect one’s child to become an outstanding personage ,這樣才不會(huì)讓西方人莫名其妙。

      (二)宗教文化的差異對翻譯的影響

      宗教文化是人類文化的一個(gè)重要組成部分,它是由民族的宗教信仰、意識(shí)等形成的文化,表現(xiàn)在不同民族在崇尚、禁忌等方面的文化差異。中西文化中由于長期不同的宗教信仰,決定了兩種語言中許多表達(dá)方式的差異。英美人有著根深蒂固的基督傳統(tǒng),而中國人長期信仰佛教、儒家學(xué)說。因而在翻譯時(shí)要顧及各自不同的宗教信仰,特別是有關(guān)宗教意義的詞語。

      在我國傳統(tǒng)文化中,我們有道教的“玉帝”,佛教的“閻王”,還有神話的“龍王”,漢語中有不少習(xí)語和佛教有關(guān),如“五體投地”,“借花獻(xiàn)佛”、“臨時(shí)抱佛腳”等等,而在英美文學(xué)中,這些并不存在。英美人多信仰基督教,認(rèn)為世界是上帝創(chuàng)造的,所以英語中有不少習(xí)語和基督教有關(guān),如:go to church(去教堂,做禮拜,結(jié)婚)、lead to the alter(對圣像起誓)等。

      談到宗教文化對翻譯的影響,最典型的例子莫過于《紅樓夢》中的 “ 阿彌陀佛 ”,Hawkes(王鴿平,2001)把它譯成了“God bless my soul”,把上帝拿來替代佛教的“佛”,這可能讓西方人認(rèn)為中國人也信奉上帝,這就大大的削減了中國文化的內(nèi)涵。把“ 天誅地滅 ” 譯成了 “ stand condemned by God ” 這一成語運(yùn)用 “ 天 ”、“ 地 ” 作為最高權(quán)力的象征,但它只能適用于深受天道觀影響的中國,故不能用反映基督教信仰的 “ God ” 取代。所以關(guān)于宗教的譯法,雙方要考慮的不同的宗教背景采用不同的翻譯方法,便于讀者的理解。

      (三)社會(huì)文化的差異對翻譯的影響

      社會(huì)文化最為廣泛,一個(gè)國家的社會(huì)政治、歷史、風(fēng)俗民情、價(jià)值觀念、思維方式以及社會(huì)活動(dòng)的特點(diǎn)等都是社會(huì)的表現(xiàn)。在大千世界里,中西方在社會(huì)文化上存在許多差異,這在雙方語言上尤為體現(xiàn),例如,中國人遇到熟悉的外國人都會(huì)習(xí)慣的用的客套話 “Have you had the meal?’or “where are you going ?”這在中國文化了就只是簡單的招呼而已,但在英語中就完全不一樣了,“Have

      you had the meal?” 在英國人的角度看,則認(rèn)為有“你要請他吃飯”這種含義。這也許這會(huì)導(dǎo)致雙方的尷尬甚至不必要的沖突。所以根據(jù)各民族的歷史發(fā)展不同,各自對事物和事件的認(rèn)識(shí)也不同。各民族的發(fā)展史不同,各自都含有特定的人物和事件的語言來體現(xiàn)本民族的鮮明的歷史文化色彩。

      例如“龍”的例子,dragon 一詞,在中國人看來,它是中華民族的象征,并對其情有獨(dú)鐘。對龍的偏愛是中國人共同的心里特征。我們稱中華民族是龍的傳人,稱皇帝是“真龍?zhí)熳印薄W鳛楦改付枷M约旱淖优巴映升垺?,望女成鳳“,由此可見中國人對于龍是愛不釋手的。但在西方國家中dragon是邪惡的象征。西方人任務(wù)龍是兇殘的,暴力的怪獸,所以在西方民族文化中一般都是用于貶義 來用的,所以我們也經(jīng)常會(huì)看到一些英語短語如“the old dragon” 按中國英語式翻譯就是“年老的龍”,但實(shí)際上的含義是“魔鬼”,“萬惡之源”。所以對于不同文化的民族接觸到同種語言,都需建立在各自文化底蘊(yùn)上,來考慮各自的真實(shí)含義。

      以上的例子都說明,我們在翻譯的時(shí)候一定要注意東西不同民族在社會(huì)文化方面的眾多差異而采用適當(dāng)?shù)姆椒ǎ拍苷嬲龠M(jìn)不同民族之間的文化交流。

      二.思維方式的差異對翻譯的影響

      思維:指理性認(rèn)識(shí),即思想;或指理性思考的過程,即思考。是人腦對客觀事物間接和概括的反應(yīng)。包括邏輯思維和形象思維,通常指邏輯思維。它是在社會(huì)實(shí)踐的基礎(chǔ)上進(jìn)行的。思維的工具是語言。人借助于語言把豐富的感性材料加以分析和綜合,由此及彼,由表及里,去粗取精,去偽存真,從而揭露不能直接感知到的事物的本質(zhì)和規(guī)律。思維是反應(yīng)客觀現(xiàn)實(shí)的能動(dòng)過程。它能動(dòng)地反映客觀世界,又能動(dòng)地反作用于客觀世界。語言和思維密切相關(guān),相互作用。

      在一種語言向另一種語言的轉(zhuǎn)換的翻譯過程中,原作與譯者的溝通依靠共同的思維規(guī)律。思維活動(dòng)的規(guī)律及內(nèi)容制約著翻譯活動(dòng)的全過程。董史良(張培基,1991)則認(rèn)為:“翻譯的內(nèi)在規(guī)律在于人腦的思維,深入研究翻譯中的思維活動(dòng)將是譯學(xué)研究的突破口。一次對翻譯的研究離不開對人腦思維的研究”。

      (一)英漢思維差異在句子翻譯中的體現(xiàn)

      中西方民族不僅在文化上存在著差異,對事物的認(rèn)知思維也有所不同,中國文化習(xí)慣從整體上、直觀上看問題,強(qiáng)調(diào)社團(tuán)和集體的價(jià)值;英美文化習(xí)慣于邏輯分析,強(qiáng)調(diào)個(gè)人為中心,因而導(dǎo)致語言表達(dá)上的種種差異。例如,在姓名、時(shí)間、地址的表達(dá)方式上,中英兩種語言的行文方式明顯地體現(xiàn)了這種思維方式的差異,中國文化從大到小,從整體到局部;而西方文化則正好相反。而翻譯不僅僅是語言間的轉(zhuǎn)換,更是思維的轉(zhuǎn)換。因此,思維的差異會(huì)對學(xué)生的翻譯實(shí)踐造成一定的障礙。我們將從以下幾個(gè)方面進(jìn)行分析:

      1、思維語言表達(dá)各異——抽象與具體

      西方人較注重抽象思維,從古希臘亞里士多德(賈玉新,2000)開始,一直注重哲學(xué)思辨。而漢民族卻偏向形象思維,運(yùn)用形象的表達(dá)手法描繪抽象的概念。體現(xiàn)在語言層面,英語多用抽象表達(dá)法,漢語多用形象表達(dá)法,同時(shí),英語是構(gòu)形語言,有豐富的詞義虛化手段,如詞綴;英語中介詞的使用頻率遠(yuǎn)遠(yuǎn)超過漢語。而在漢語中,常用具體表抽象。“如果說中國有抽象名詞的話,就只有這極少數(shù)的幾個(gè)了”。

      如:“I hope my presence here tonight is further proof of the importance we in Britain attach to relations with your great country.”

      漢語譯文:“我希望,今晚我到這里來可以進(jìn)一步證明,我們英國人非常重視和你們偉大國家的關(guān)系。”

      2、思維側(cè)重不同——形合與意合英民族注重形式邏輯,而漢民族重辯證思維。表現(xiàn)在語言上,英語用各種形式連接手段,而中國文化歷來注重意合,漢語很少或幾乎不用形式連接手段,漢語中少用虛詞,只是將句與句排列起來,讓讀者去了解其內(nèi)在關(guān)系。在翻譯實(shí)踐中,有些學(xué)者往往受到語言形式的影響。在英譯漢時(shí),譯句常常冗長呆板;而漢譯英時(shí),結(jié)構(gòu)混亂,組句沒有條理,譯文支離破碎。如以下例句

      (1)It had been a fine, golden autumn, a lovely farewell to those who would lose their youth, and some of them their lives, before the leaves turned again in a peace time fall。

      譯文(1):這個(gè)秋天葉子還未完全凋零。秀麗、平和的金秋,是對那些可能耗去青春,甚至獻(xiàn)出生命的人們的美好祝福。

      譯文(2):那是一個(gè)美好的金秋,在告別了那些可能丟失他們的青春甚至生命的人之后,樹葉才慢慢地落下。

      相比較(1)和(2)實(shí)際都沒有完全傳達(dá)出原文的含義,內(nèi)部結(jié)構(gòu)混亂,翻譯者并沒能夠掌握之間的關(guān)系

      參考譯文:那是個(gè)天氣晴朗,金黃可愛的秋天,美好的秋色為那些青年們送別。待到戰(zhàn)后和平時(shí)期,黃葉紛飛的秋天再度來臨時(shí),當(dāng)日的青年已經(jīng)失去了青春,有的喪失了生命。

      三,價(jià)值觀的差異對翻譯的影響

      一定的價(jià)值觀念孕育于一定的歷史土壤,也是民族文化的折射。中西價(jià)值觀念因其歷史背景的不同,形成了不同的傳統(tǒng)文化和文化精神,這些一般表現(xiàn)在兩種語言中,會(huì)對語言理解和翻譯造成很多障礙,足以引起翻譯工作者的重視。

      在眾多的文化因素中,價(jià)值觀是核心內(nèi)容之一,價(jià)值觀表現(xiàn)為某些符合社會(huì)文化,具有持久性、穩(wěn)定性,為社會(huì)成員所普遍接受的信念。中西方價(jià)值觀的差異:無私奉獻(xiàn)與自我為中心,謙虛謹(jǐn)慎與個(gè)人奮斗,安于現(xiàn)狀與冒險(xiǎn)精神。

      英文中的“individualism”和privacy”在英語文化中受到高度的尊重,漢語中很難找到相應(yīng)的詞,盡管這兩個(gè)詞常常被翻譯成“個(gè)人主義”和“隱私”,但在漢語中“個(gè)人主義”是個(gè)貶義詞,常常與“自私”、“自利”聯(lián)系在一起,而“隱私”常常給人以不好的聯(lián)想。

      中國文化以儒家文化為中心,以謙虛為美德,所以對別人的贊揚(yáng)、夸獎(jiǎng)常禮儀性地予以否認(rèn)。如“ You speak excellent English,中國人常說“ no, no ”; 而西方人崇尚自我奮斗,常會(huì)對別人的贊揚(yáng)樂于接受并表示感謝,積極地回答“Thank you!”。

      英語民族崇尚個(gè)人主義,個(gè)人至上主義價(jià)值觀是西方文化的特點(diǎn)”。例如: An Englishman’s house is his castle.(英國人的家是他們的城堡),意味著沒有理由不可以去無故打擾別人或沒有預(yù)約不可以貿(mào)然拜訪某人;Tell money after your own father(親父子明算賬)等,這些都表明西方人的個(gè)人主義價(jià)值觀。所以,了解中西文化的價(jià)值觀的差異也是對翻譯者一門必不可少的課程。

      結(jié)論

      翻譯作為文化交流的工具, 加快了國際間的交流,使很多的科學(xué)技術(shù)與科研成果能得到大家的認(rèn)同,并得到發(fā)展.使資源得到充分的利用.由于根源于不同的文化背景,英漢語使用者生活的自然、地理環(huán)境和客觀因素存在著許多不同的地方,他們的思維方式自然也存在著一些差異。這種思維方式的差異深深地影響了他們的各種生活方式, 尤其體現(xiàn)在語言上。翻譯不僅是兩種語言的轉(zhuǎn)化,同時(shí)也兩種文化的轉(zhuǎn)化,尤 金?奈達(dá)(吳麗,2007)說過: “ 就真正成功的翻譯而言, 譯者的雙文化功底甚至比雙語言功底更重要, 因?yàn)樵~語只有在其起作用的文化語境中才富有意義.”可見文化差異對翻譯的影響不可低估, 隨著東西方文化交流的不斷發(fā)展, 加強(qiáng)對語言文化差異的敏感度, 是做好翻譯工作必須認(rèn)真研究和探討的課題。

      第五篇:論文翻譯

      摘要

      過去大多數(shù)擁擠定價(jià)理論是基于基本的邊際成本定價(jià)這一基本的經(jīng)濟(jì)學(xué)原理,是完全關(guān)于出行需求供給模型。存在相當(dāng)大的擁擠混亂分析需要被澄清。也有許多有趣的,最重要的問題是研究詳細(xì)的網(wǎng)絡(luò)建模是一個(gè)困難的問題。本文對該理論研究古典經(jīng)濟(jì)學(xué)原理怎樣在一個(gè)一般的擁擠的道路網(wǎng)絡(luò)中應(yīng)用進(jìn)行了調(diào)查。對在不同的平衡條件下關(guān)于邊際成本定價(jià)的一些新的詮釋進(jìn)行了介紹。

      一.說明

      擁擠定價(jià)長期以來被公認(rèn)作為一門重要的學(xué)科來自于一個(gè)理論和實(shí)踐的觀點(diǎn)。近年來經(jīng)濟(jì)學(xué)家和運(yùn)輸調(diào)查學(xué)家對這門學(xué)科的興趣已經(jīng)非常廣泛并且日益突出,因?yàn)楦淖兂鞘薪煌▎栴}面臨著一個(gè)現(xiàn)代都市的困難。理論依賴于擁擠收費(fèi)邊際成本定價(jià)的基本經(jīng)濟(jì)學(xué)原理,它表明道路使用者使用擁塞的道路應(yīng)該付通行費(fèi)等于邊際社會(huì)成本和邊際私人成本之差這樣利于實(shí)現(xiàn)最大化的社會(huì)網(wǎng)絡(luò)效益。

      擁擠收費(fèi)的基本理論可以圖形化的最好說明如下??紤]一個(gè)簡化,但在文獻(xiàn)中,標(biāo)準(zhǔn)下的交通流均勻前進(jìn)給出統(tǒng)一的伸展的道路,擁有固定出入境分還沒有障礙的運(yùn)動(dòng)交通,除了那個(gè)從有限的能力產(chǎn)生的道路。如圖

      1、平均成本曲線(私人)代表平均成本在每一級(jí)的擁擠的需求(數(shù)量的出行完成),邊際成本曲線代表額外費(fèi)用增加一個(gè)額外的車輛或出行的交通流,MC可以看作代表社會(huì)成本的一些問題也就是道路使用者的花費(fèi)。但是,任何一種單一的用戶進(jìn)入道路才會(huì)考慮他的個(gè)人成本。一個(gè)司機(jī)將要么被忽視或不愿意考慮外部擁堵費(fèi)用,他或她強(qiáng)加影響其他道路使用者。因此,MC曲線與邊際社會(huì)成本為新出行者和道路使用者的存在增加了交通流,而AC曲線邊際私人成本相當(dāng)于或額外費(fèi)用承擔(dān)并且只能被新的出行者察覺到。AC和MC曲線的區(qū)別在任意水平的出行需求反映了經(jīng)濟(jì)成本上的擁擠收費(fèi)這一要求。

      最優(yōu)流量,正如我們所看到的DG處邊際成本和需求是相等的同時(shí)實(shí)際需求沒有收費(fèi)傾向于DA,因?yàn)榈缆肥褂谜吆雎远氯麄儚?qiáng)加給別人。從社會(huì)的角度來看,實(shí)際需求是過多的,就因?yàn)镈A-th用戶僅僅享受利益DA,但花費(fèi)了成本DM。這附加流量超越最優(yōu)水平DG可以被看作是等于發(fā)生成本區(qū)域DAMGDG,但只有享受效益等于區(qū)域DAAGDG,凈福利損失區(qū)域AMG是明顯的。一個(gè)低于DG的需求水平也是子優(yōu)化因?yàn)闈摿Τ鲂惺瓜M(fèi)者剩余得到?jīng)]有得到充分開發(fā)。因此,最優(yōu)收費(fèi)等于BG。在這個(gè)通行收費(fèi)下,區(qū)域BGETB的經(jīng)濟(jì)效益(總用戶利益減去社會(huì)總成本),將是最大的。

      注意多數(shù)先前關(guān)于擁擠收費(fèi)的理論完全關(guān)心出行需求與供給模型簡化的假設(shè)。存在于文獻(xiàn),然而,相當(dāng)混亂的交通堵塞和適當(dāng)?shù)姆治鲈瓌t的應(yīng)用邊際成本定價(jià)模式,同時(shí)還需要澄清。當(dāng)涉及到詳細(xì)的網(wǎng)絡(luò)建模問題的時(shí)候還有很多有趣的重要的問題需要去探尋。在本文中,我們研究,從理論上來講,如何將經(jīng)典理論邊際成本定價(jià)模式應(yīng)用在一個(gè)一般的擁擠的網(wǎng)絡(luò)。我們的分析只關(guān)心道路網(wǎng)絡(luò)的使用,并且假設(shè)交通流模式在靜止?fàn)顟B(tài)(嚴(yán)格的交通需求和流型不隨時(shí)間改變的,但做了改變與網(wǎng)絡(luò)的服務(wù)水平)。在文獻(xiàn)中通過核對均衡建模方法和交通流理論提出了一些新的基于邊際成本定價(jià)的解釋。

      在下一節(jié)里,我們說明邊際成本定價(jià)模式的原則將用于一條具有彈性需求的道路網(wǎng)絡(luò)。在第三節(jié),我們進(jìn)一步探討在邊際成本定價(jià)模式網(wǎng)絡(luò)與排隊(duì)。第四節(jié),我們充分發(fā)掘的速度與流量關(guān)系的基本理解交通擁擠和確定最佳收費(fèi),并且證明了速度分布的雙峰點(diǎn)與出行時(shí)間流量曲線單調(diào)鏈接。綜述結(jié)論在第五部分。

      二.道路擁擠收費(fèi)在一個(gè)普通具有彈性要求網(wǎng)絡(luò)中的應(yīng)用

      在交通分配文獻(xiàn),大家都知道提出了邊際成本人數(shù)駕駛用戶均衡流型在一次具有固定需求的交通網(wǎng)絡(luò)優(yōu)化系統(tǒng)中。即在網(wǎng)絡(luò)中通過對每一個(gè)用戶選擇使用一個(gè)特定的連接征收一個(gè)合適的流量依賴擁擠費(fèi)用,交通流模式結(jié)果選擇成本最小化之間的任何OD對路線將會(huì)是一個(gè)優(yōu)化系統(tǒng)的全部網(wǎng)絡(luò)對應(yīng)的出行成本。特定的費(fèi)用水平這是將完成額外附加出行費(fèi)用使用的連結(jié)會(huì)加在一切用戶已利用這一環(huán)節(jié)。在一個(gè)具有彈性需求的網(wǎng)絡(luò), 當(dāng)需求富有彈性時(shí)我們不能找一個(gè)簡單的最小化出行費(fèi)用總網(wǎng)絡(luò)收費(fèi)模式。原因很簡單:出行費(fèi)用可以最小化只需設(shè)置收費(fèi)如此之高,以至于沒有出行發(fā)生的地方。在這種情況下,系統(tǒng)優(yōu)化目標(biāo)函數(shù),可以用來獲得最優(yōu)的道路通行費(fèi),必須定義經(jīng)濟(jì)凈效益的最大化。

      最有網(wǎng)絡(luò)容量的使用要求經(jīng)濟(jì)效益的最大化,或者一個(gè)最有系統(tǒng)的完成要服從OD的需求約束和流量的積極約束。

      注意雖然邊際成本收費(fèi)方程(7)是在一個(gè)封閉的表達(dá)形式,并與當(dāng)?shù)氐牡缆妨髁亢蛡€(gè)人擁擠函數(shù)有關(guān),它也反映出隱含的全球邊際效應(yīng)。即當(dāng)一個(gè)新的用戶添加到網(wǎng)絡(luò),他的全球邊際效應(yīng)將包括由于網(wǎng)路流量重新分配而產(chǎn)生的總出行費(fèi)用的變化,用戶效益的轉(zhuǎn)變以及由于需求變化的需求是富有彈性的。這些全球性影響體現(xiàn)在通過計(jì)算模型(4)所有環(huán)節(jié)收費(fèi)(7)在網(wǎng)絡(luò)平衡的角度,已包含收費(fèi)隱含的人數(shù)。換句話說,道路收費(fèi)已經(jīng)在網(wǎng)絡(luò)均衡模型內(nèi)定了。這些效應(yīng)不能充分挖掘如果一個(gè)均衡模型的需求提供一個(gè)環(huán)節(jié)(標(biāo)準(zhǔn)的經(jīng)濟(jì)模型的擁擠定價(jià),見埃文斯,1992)采用詳細(xì)的網(wǎng)絡(luò)結(jié)構(gòu),沒有考慮到。最后,該系統(tǒng)優(yōu)化模型(4)可以使用任何算法解決具有彈性需求的網(wǎng)絡(luò)平衡問題。唯一的修改是用的道路邊際成本函數(shù)而不是道路平均成本函數(shù)。

      三.道路擁擠收費(fèi)在排隊(duì)出現(xiàn)時(shí)的應(yīng)用 3.1一個(gè)基本概念框架 標(biāo)準(zhǔn)經(jīng)濟(jì)學(xué)模型的道路擁擠定價(jià)依賴單調(diào)的假定擁擠的成本和需求函數(shù)。然而,大多數(shù)的擁擠收費(fèi)計(jì)劃是為了把車輛排隊(duì)構(gòu)成的相當(dāng)一部分的出行延誤在擁堵的城市地區(qū)。因此需要在擁擠定價(jià)模型中明確處理排隊(duì)問題。在這里,我們首先提出一個(gè)概念框架的存在排隊(duì)問題的邊際成本定價(jià)模式,然后開發(fā)一個(gè)優(yōu)化模型確定最優(yōu)鏈路車輛通行費(fèi)。

      再次,考慮單個(gè)道路連接用給定的入口和出口點(diǎn)。圖2繪制了需求和平均成本曲線。在缺乏容量約束、路橋收費(fèi),平衡點(diǎn)將是具有交通流量d的點(diǎn)A?,F(xiàn)在假設(shè)道路的通行力(以下簡稱道路、生產(chǎn)能力是指其出口能力)是C…。因?yàn)樾枨蟠笥谕ㄐ辛?,車輛排隊(duì)就會(huì)出現(xiàn)了。排隊(duì)延遲將是增長的,其平衡需求和能力之間達(dá)到一個(gè)穩(wěn)定的排隊(duì)狀態(tài)。如圖2沒有收費(fèi)的平衡點(diǎn)B,此處現(xiàn)實(shí)需求等于通行能力C,相應(yīng)平衡排隊(duì)延遲等于T2T4。

      現(xiàn)在我們考慮在排隊(duì)情況下邊際成本的定價(jià)。如果邊際成本曲線MC2,那么最優(yōu)擁擠收費(fèi)將是T1T5,相應(yīng)的平衡點(diǎn)是E。邊際成本收費(fèi)高的足以保證需求在通行能力以下,從而防止排隊(duì)的發(fā)生。然而,如果MC1是邊際成本曲線,在邊際成本下的需求將遠(yuǎn)遠(yuǎn)大于通行能力,因此車輛排隊(duì)還是會(huì)發(fā)生。延遲的數(shù)量是需要阻止足夠的潛在需求去匹配現(xiàn)實(shí)能力需求,因此同樣的平衡點(diǎn)B就沒有收費(fèi)情況了。從圖2上可以看到,收費(fèi)計(jì)算邊際成本等于能力的需求T2T3,平衡排隊(duì)延遲是T3T4。在這個(gè)案例中,該理論的邊際成本的人數(shù)為了防止不足隊(duì)列的發(fā)生。因?yàn)榕抨?duì)延遲是一個(gè)純粹的浪費(fèi)時(shí)間需要通過收費(fèi)來除掉排隊(duì)。這意味著最優(yōu)收費(fèi)費(fèi)用都應(yīng)在T2T4排隊(duì)是完全消除。如果它假定所有用戶一個(gè)相同的價(jià)值的時(shí)候,額外費(fèi)用T3T4對道路使用者沒有產(chǎn)生任何損失,無論何時(shí)收費(fèi)不超過排隊(duì)延遲,因?yàn)樗唵问召M(fèi)代替浪費(fèi)時(shí)間,對道路使用者來說是無關(guān)緊要的。3.2優(yōu)化規(guī)劃

      我們注意到排隊(duì)并堵塞是一個(gè)典型的暫時(shí)動(dòng)態(tài)現(xiàn)象,現(xiàn)實(shí)交通阻塞的治療需要采用動(dòng)態(tài)建模的方法。然而,一個(gè)靜態(tài)的排隊(duì)系統(tǒng),要么由于隨機(jī)變化發(fā)展或飽和而前排隊(duì)的靜力平衡時(shí)期。在后者中,可以設(shè)想一個(gè)情景,在這個(gè)情景的能力要求超過自己可以接受的排隊(duì)程度??陀^的靜態(tài)的排隊(duì)模型,提出了確定平衡狀態(tài),而不是描述排隊(duì)將如何發(fā)展(包括動(dòng)態(tài))。

      楊和貝爾(1997)提出的具有容量約束的需求彈性平衡網(wǎng)絡(luò)的問題。在這里,我們觀察該模型,并討論其邊際成本定價(jià)模式。這優(yōu)化模型在上述的隊(duì)列擁擠條件下確定最佳收費(fèi),擁擠情況只需為問題(4)增加下面的路段通行力約束條件來規(guī)劃。

      因此,如果路段成本函數(shù)是ta,或附加的費(fèi)用對每個(gè)路段,然后等待需求的性能平衡能力約束網(wǎng)絡(luò)模型。從方程(9 c),隊(duì)列只當(dāng)能力達(dá)到時(shí)形成;低于能力時(shí)路段花費(fèi)單獨(dú)定義為ta。

      在方程(10 b)中,第二組中邊際成本收費(fèi)評(píng)估的交通流v的排隊(duì)延遲,在方程(10 b)中是一個(gè)純粹的浪費(fèi)時(shí)間和應(yīng)建構(gòu)一個(gè)額外的收費(fèi)。注意在這個(gè)最優(yōu)收費(fèi)下,經(jīng)濟(jì)效益將等于最優(yōu)目標(biāo)價(jià)值之和EB(d *,v *)的方程(4)下的能力約束加上額外的收入從額外的排隊(duì)的費(fèi)用。

      順便提一句,系統(tǒng)的優(yōu)化模型(4)和容量約束(8)可以被轉(zhuǎn)化成一個(gè)具有網(wǎng)絡(luò)容量約束的需求平衡問題,從而能夠解決內(nèi)罰函數(shù)法的使用。

      4.速度,流量的關(guān)系

      速度(或出行時(shí)間)和流量之間的關(guān)系對于理解交通擁擠和在標(biāo)準(zhǔn)的道路擁擠定價(jià)經(jīng)濟(jì)模型中都起著至關(guān)重要的作用。錯(cuò)誤的認(rèn)識(shí)這種關(guān)系可能會(huì)導(dǎo)致錯(cuò)誤的結(jié)論。有相當(dāng)大的混亂和爭議針對合理使用速度流量關(guān)系評(píng)價(jià)道路計(jì)費(fèi)。爭議中最好的代表是埃爾斯和納什之間的辯論,以及最近的埃文斯和希爾之間的。4.1兩者在 一般路段中的關(guān)系

      再次,考慮一個(gè)標(biāo)準(zhǔn)下的交通流運(yùn)動(dòng)均勻一致路段,只有一個(gè)入口,一個(gè)出口點(diǎn)。傳統(tǒng)的分析是基于擁擠定價(jià)圖中顯示的速度流量關(guān)系圖3,它有一個(gè)反向彎曲分公司去來源。多數(shù)的分析,在道路定價(jià)和交通分配文獻(xiàn)中都基于正常速度流量狀態(tài)。因此邊際社會(huì)成本曲線可能被顯示MSC1在相應(yīng)的出行時(shí)間流量圖(見圖4)。MSC1高于平均水平成本曲線,但是總是漸近一直到流量達(dá)到通行能力Cmax。3

      然而長久以來一直爭論是否有必要考慮較低的分支速度流量圖或是上面向后彎曲的介紹了交通流條件下的強(qiáng)制情況的時(shí)間流量關(guān)系。沃爾特斯(1961),埃爾斯(1981),孝(1992年)和別人指出可能發(fā)生在平衡位置的強(qiáng)制流量狀態(tài)在高需求曲線(D2)向后的彎曲段削減成本曲線點(diǎn)E2。在這后面彎曲段,是一個(gè)向下傾斜的邊際成本曲線(MSC2),其通行能力是消極的無限的。這爭論的是這個(gè)邊際社會(huì)成本曲線在分析社會(huì)最優(yōu)流量時(shí)是否有意義或是否在流量中消極的改變是意味著補(bǔ)貼,而不是花費(fèi)(注意一個(gè)單調(diào)的,向下的傾斜邊際成本曲線類似MSC2當(dāng)然存在而且是有意義的,例如,單位生產(chǎn)成本下降就是規(guī)模經(jīng)濟(jì)的反應(yīng))。

      雖然可能有證據(jù),可見在忙的高速公路路段,有時(shí)排隊(duì)的形式,因?yàn)榱髁?暫時(shí)的)已經(jīng)超過了通行能力的支持,進(jìn)而形成流量壓迫的情況,它在現(xiàn)實(shí)生活中堅(jiān)持反向彎曲狀態(tài)的速度曲線達(dá)到一個(gè)統(tǒng)一的道路。紐尼爾(1988)分析是不可能的從沖擊波理論發(fā)生的強(qiáng)制速度流量狀態(tài)。整個(gè)曲線,包括向后彎曲部分,之間的關(guān)系只是描述了當(dāng)?shù)氐乃俣群途植苛鲃?dòng),雖然這種關(guān)系應(yīng)該在每一個(gè)點(diǎn)或滿足一個(gè)很短的分段的道路。

      值得注意的是,成本曲線應(yīng)用于道路定價(jià)應(yīng)定義為出行于兩個(gè)遙遠(yuǎn)的地點(diǎn)(一個(gè)鏈接有一定長度)。反向彎曲部分都是不一樣的不適用于成本曲線為旅行通過整個(gè)環(huán)節(jié),即使?fàn)顩r果醬或隊(duì)列現(xiàn)在。壓倒性的情況是,交通堵塞發(fā)生在不間斷的交通流量當(dāng)車輛比從下游端口更多的進(jìn)入上游端口的一段的路。因此,道路行駛速度實(shí)際上是兩個(gè)有關(guān)截然不同的體制為代表的兩個(gè)分支如拋物線圖3。這一比例鏈接經(jīng)歷了低的平均速度特性的阻塞,其余流量自由。雙峰分布的路段上速度的費(fèi)用結(jié)果,將在下一個(gè)部分詳細(xì)介紹。

      5.總結(jié)

      我們已經(jīng)調(diào)查了邊際成本定價(jià)模式與之有關(guān)的一般確定性網(wǎng)絡(luò)均衡問題。文獻(xiàn)中的許多誤解和錯(cuò)誤都已指出,并且通過交通流理論進(jìn)行了新的解釋。這最佳過橋費(fèi)各種需求的網(wǎng)絡(luò)平衡問題采取同一形式的傳統(tǒng)的邊際成本收費(fèi),并可從中系統(tǒng)優(yōu)化方面的經(jīng)濟(jì)凈效益最大化。在一個(gè)由于有限的容量而存在的排隊(duì)中,優(yōu)化收費(fèi)由兩個(gè)組成部分:傳統(tǒng)的邊際成本項(xiàng)和排隊(duì)延遲。這位前解析公式預(yù)測從當(dāng)前路段流量條件下,但后者是確定的從網(wǎng)絡(luò)雙峰性平衡條件。在一個(gè)為了測定道路擁塞車輛通行費(fèi)的擁擠收費(fèi)函數(shù)里沒有合理的需求去包含整個(gè)向后彎速度流量關(guān)系。

      下載大數(shù)據(jù)調(diào)查論文翻譯[五篇范例]word格式文檔
      下載大數(shù)據(jù)調(diào)查論文翻譯[五篇范例].doc
      將本文檔下載到自己電腦,方便修改和收藏,請勿使用迅雷等下載。
      點(diǎn)此處下載文檔

      文檔為doc格式


      聲明:本文內(nèi)容由互聯(lián)網(wǎng)用戶自發(fā)貢獻(xiàn)自行上傳,本網(wǎng)站不擁有所有權(quán),未作人工編輯處理,也不承擔(dān)相關(guān)法律責(zé)任。如果您發(fā)現(xiàn)有涉嫌版權(quán)的內(nèi)容,歡迎發(fā)送郵件至:645879355@qq.com 進(jìn)行舉報(bào),并提供相關(guān)證據(jù),工作人員會(huì)在5個(gè)工作日內(nèi)聯(lián)系你,一經(jīng)查實(shí),本站將立刻刪除涉嫌侵權(quán)內(nèi)容。

      相關(guān)范文推薦

        論文翻譯

        澳大利亞公司碳排放披露分析 Bo Bae Choi, Doowon Lee and Jim Psaros Newcastle Business School, University of Newcastle, Newcastle, Australia 摘要 目的——本研究旨......

        論文翻譯

        數(shù)學(xué)金融。我卷,第3號(hào)(1991年7月),我1 -29平衡模型與奇異 資產(chǎn)價(jià)格 IOANNISKARATZASI 部門統(tǒng)計(jì) 和經(jīng)濟(jì)學(xué) 哥倫比亞大學(xué) 紐約,紐約10027 約翰·p·LEHOCZKY 部門統(tǒng)計(jì) 卡內(nèi)基......

        關(guān)于對證據(jù)調(diào)查的申請

        關(guān)于對證據(jù)調(diào)查的申請利辛縣人民法院民三庭: 2014年5月20日貴庭依法審理了陸振訴我本人及利辛縣智誠置業(yè)有限公司一案。在庭審過程中,陸振本人沒有到庭,其代理律師向法庭舉證了......

        題三據(jù)調(diào)查(精選5篇)

        收銀員理論試題三 一、單項(xiàng)選擇題 1.據(jù)調(diào)查,顧客對零售企業(yè)有關(guān)項(xiàng)目的最關(guān)心為:商品容易拿到占15%;占25%;商品豐富占15%;占14%;占13%;占8%;商品價(jià)格便宜占5%。(A)。 A. 開放式容易進(jìn)入B. 購物......

        大數(shù)據(jù)分析

        1什么是大數(shù)據(jù)? 云中大數(shù)據(jù):融合技術(shù) 如今,大數(shù)據(jù)分析和云計(jì)算是全球企業(yè)最為關(guān)注的兩大 IT 話題,大數(shù)據(jù)分析提供獨(dú)具價(jià)值的洞察,幫助企業(yè)打造競爭優(yōu)勢,啟迪創(chuàng)新,推動(dòng)收益增長。作......

        英文論文翻譯

        數(shù)控技術(shù) 摘要 數(shù)控技術(shù)是機(jī)械運(yùn)動(dòng)和控制技術(shù)的工作與數(shù)字信息處理技術(shù)。這是一個(gè)非常迅速發(fā)展的現(xiàn)代工業(yè)生產(chǎn)技術(shù)。數(shù)控設(shè)備是新技術(shù)的數(shù)控技術(shù)的形式向制造業(yè)的傳統(tǒng)和新興......

        研究生論文翻譯

        200127--34(翻譯) 諾克(1990年)指出,影響聲譽(yù),是一個(gè)更復(fù)雜的結(jié)構(gòu)關(guān)系,在社會(huì)網(wǎng)絡(luò)的研究,不研究的方便代理。雖然我們還發(fā)現(xiàn),影響網(wǎng)絡(luò)中的位置相關(guān),我們提出采訪的演員,收集檔案資料,......

        濕地論文翻譯

        濕地是地球上三類最重要的生態(tài)系統(tǒng)(森林、海洋和濕地)之一。濕地具有許多重要的生態(tài)功能,不僅具有涵養(yǎng)水源、凈化水質(zhì)、蓄洪防旱、調(diào)節(jié)氣候的功能,還具有維護(hù)生物多樣性等重要的......