欧美色欧美亚洲高清在线观看,国产特黄特色a级在线视频,国产一区视频一区欧美,亚洲成a 人在线观看中文

  1. <ul id="fwlom"></ul>

    <object id="fwlom"></object>

    <span id="fwlom"></span><dfn id="fwlom"></dfn>

      <object id="fwlom"></object>

      調(diào)研數(shù)據(jù)處理方法:

      時(shí)間:2019-05-12 21:14:39下載本文作者:會(huì)員上傳
      簡(jiǎn)介:寫(xiě)寫(xiě)幫文庫(kù)小編為你整理了多篇相關(guān)的《調(diào)研數(shù)據(jù)處理方法:》,但愿對(duì)你工作學(xué)習(xí)有幫助,當(dāng)然你在寫(xiě)寫(xiě)幫文庫(kù)還可以找到更多《調(diào)研數(shù)據(jù)處理方法:》。

      第一篇:調(diào)研數(shù)據(jù)處理方法:

      調(diào)研數(shù)據(jù)處理辦法:調(diào)研數(shù)據(jù)顯示新一季MINISO名創(chuàng)優(yōu)品在華知名度高達(dá)63%

      當(dāng)前國(guó)內(nèi)實(shí)體零售業(yè)市場(chǎng)普遍收縮的大環(huán)境下,MINISO名創(chuàng)優(yōu)品的異軍突起,為廣大零售業(yè)界同行所震撼。為剖析MINISO名創(chuàng)優(yōu)品品牌逆勢(shì)而上的品牌戰(zhàn)略,探究其贏取市場(chǎng)青睞的原因,本所組織成立研究生項(xiàng)目調(diào)研小組開(kāi)展了獨(dú)立的針對(duì)MINISO名創(chuàng)優(yōu)品品牌現(xiàn)狀調(diào)研項(xiàng)目,現(xiàn)撰寫(xiě)形成《MINISO名創(chuàng)優(yōu)品品牌現(xiàn)狀調(diào)研報(bào)告2.0》。

      半年來(lái),國(guó)內(nèi)零售業(yè)市場(chǎng)驚現(xiàn)了休閑時(shí)尚百貨品牌MINISO名創(chuàng)優(yōu)品強(qiáng)勢(shì)來(lái)襲的景象,其以驚人的開(kāi)業(yè)速度進(jìn)軍全國(guó)各大重要商圈,特別是改革開(kāi)放前沿陣地的廣東,僅上下九商圈就開(kāi)設(shè)了5家MINISO名創(chuàng)優(yōu)品店鋪,深受廣大消費(fèi)者熱捧,成績(jī)斐然。在當(dāng)前國(guó)內(nèi)實(shí)體零售業(yè)市場(chǎng)普遍收縮的大環(huán)境下,MINISO名創(chuàng)優(yōu)品的異軍突起,為廣大零售業(yè)界同行所震撼。為剖析MINISO名創(chuàng)優(yōu)品品牌逆勢(shì)而上的品牌戰(zhàn)略,本所組織成立研究生項(xiàng)目調(diào)研小組開(kāi)展了獨(dú)立的針對(duì)MINISO名創(chuàng)優(yōu)品品牌現(xiàn)狀調(diào)研項(xiàng)目。本項(xiàng)目獲得了名創(chuàng)優(yōu)品(中國(guó))有限公司的支持,向項(xiàng)目組提供了很多有關(guān)其品牌、新媒體渠道、深度訪問(wèn)協(xié)助等間接資料和幫助。

      第一季度調(diào)研時(shí)間:2014年3月1日10時(shí)始至31日16時(shí)止;調(diào)研對(duì)象:部分城市消費(fèi)者;調(diào)研主要方式:網(wǎng)絡(luò)問(wèn)卷自填定量調(diào)研;調(diào)研輔助方式:購(gòu)物現(xiàn)場(chǎng)消費(fèi)者深度訪問(wèn)的定性調(diào)研;調(diào)研問(wèn)卷設(shè)計(jì)維度:從消費(fèi)者對(duì)品牌的知曉度、首次進(jìn)店行為興奮點(diǎn)、首次賣(mài)場(chǎng)感知、品牌接受狀況、購(gòu)買(mǎi)心動(dòng)理由、品牌分享意愿等6個(gè)維度設(shè)計(jì)問(wèn)卷。據(jù)統(tǒng)計(jì),第一季度品牌調(diào)研活動(dòng)共吸引了44247人查收電子調(diào)研問(wèn)卷,回收問(wèn)卷15034份,有效問(wèn)卷14712份,最終形成《MINISO名創(chuàng)優(yōu)品品牌現(xiàn)狀調(diào)研報(bào)告1.0》。

      《MINISO名創(chuàng)優(yōu)品品牌現(xiàn)狀調(diào)研報(bào)告1.0》主要內(nèi)容回顧如下:

      1)62%的消費(fèi)者表示沒(méi)聽(tīng)說(shuō)過(guò)MINISO名創(chuàng)優(yōu)品,僅38%的消費(fèi)者表示聽(tīng)說(shuō)過(guò)MINISO名

      創(chuàng)優(yōu)品,可見(jiàn)當(dāng)前的MINISO名創(chuàng)優(yōu)品品牌知曉度不高,需加快全國(guó)重要商圈布局開(kāi)店步伐,同時(shí)需配合高密度的廣告策略。

      2)51%的消費(fèi)者醉心于MINISO名創(chuàng)優(yōu)品高端大氣的店鋪形象,MINISO名創(chuàng)優(yōu)品高端大

      氣的SI是針對(duì)商圈經(jīng)過(guò)人群的高效殺傷性武器。

      3)50%的消費(fèi)者認(rèn)同MINISO名創(chuàng)優(yōu)品品牌理念,認(rèn)同MINISO名創(chuàng)優(yōu)品“真正物美價(jià)廉”的品牌主張,消費(fèi)者品牌體驗(yàn)良好。

      4)72%的消費(fèi)者明確表示會(huì)再度光臨消費(fèi),且會(huì)因價(jià)格吸引愿意購(gòu)買(mǎi)計(jì)劃外商品。

      5)60%的消費(fèi)者認(rèn)為使其做出購(gòu)買(mǎi)決定的最心動(dòng)理由是其商品超高的性價(jià)比。

      6)82%的消費(fèi)者愿意將MINISO名創(chuàng)優(yōu)品品牌動(dòng)態(tài)信息分享給身邊好友。

      第二季度調(diào)研時(shí)間:2014年5月21日12時(shí)始至6月20日12時(shí)止;調(diào)研對(duì)象:部分城市消費(fèi)者;調(diào)研主要方式:網(wǎng)絡(luò)問(wèn)卷自填定量調(diào)研;調(diào)研輔助方式:購(gòu)物現(xiàn)場(chǎng)消費(fèi)者深度訪問(wèn)的定性調(diào)研;調(diào)研問(wèn)卷設(shè)計(jì)維度:從品牌知曉度、品牌令你最心動(dòng)的原因、購(gòu)買(mǎi)的首要考慮因素、偏向購(gòu)買(mǎi)的品類(lèi)、關(guān)注的媒介渠道、品牌分享意愿等6個(gè)維度設(shè)計(jì)問(wèn)卷。據(jù)統(tǒng)計(jì),該調(diào)研活動(dòng)共吸引了88250人查收電子調(diào)研問(wèn)卷,回收問(wèn)卷56139份,有效問(wèn)卷55578份,最終形成《MINISO名創(chuàng)優(yōu)品品牌現(xiàn)狀調(diào)研報(bào)告2.0》。

      《MINISO名創(chuàng)優(yōu)品品牌現(xiàn)狀調(diào)研報(bào)告2.0》調(diào)研基本結(jié)果簡(jiǎn)述:

      1)MINISO名創(chuàng)優(yōu)品品牌知名度同比第一季度調(diào)研結(jié)果提升25%,高達(dá)63%。

      2)MINISO名創(chuàng)優(yōu)品主張的“真正物美價(jià)廉”品牌理念的認(rèn)同度同比第一季度調(diào)研結(jié)果提

      升了14%,高達(dá)64%。

      3)MINISO名創(chuàng)優(yōu)品消費(fèi)者購(gòu)買(mǎi)的首要考慮因素有51%集中在品牌主張的“真正物美價(jià)廉”的先發(fā)優(yōu)勢(shì)區(qū)間,即超高性價(jià)比,同時(shí)25%消費(fèi)者折服在國(guó)際著名休閑時(shí)尚百貨品牌的影響力下。

      4)MINISO名創(chuàng)優(yōu)品品牌代表的區(qū)隔品類(lèi)是“休閑時(shí)尚百貨”,62%的消費(fèi)者用購(gòu)買(mǎi)行動(dòng)

      認(rèn)同和支持著品牌引入初期的品類(lèi)區(qū)隔,有利于品牌差異化識(shí)別,其中37%的消費(fèi)者會(huì)首選生活百貨,25%的消費(fèi)者會(huì)首選創(chuàng)意家居。

      5)92%的消費(fèi)者明確表示會(huì)選擇通過(guò)MINISO名創(chuàng)優(yōu)品微信、微博等自媒體平臺(tái)收聽(tīng)其品

      牌動(dòng)態(tài)和商品信息,夯實(shí)了MINISO名創(chuàng)優(yōu)品自媒體低成本傳播的基礎(chǔ),確保其可持續(xù)提供“真正物美價(jià)廉”的商品。

      6)97%的消費(fèi)者會(huì)支持MINISO名創(chuàng)優(yōu)品媒介策略,并愿意將其良好的消費(fèi)體驗(yàn)和海量物

      美價(jià)廉信息分享推廣,支持MINISO名創(chuàng)優(yōu)品低成本品牌推廣策略。

      第二篇:北京地鐵沉降監(jiān)測(cè)方法及數(shù)據(jù)處理

      北京地鐵沉降監(jiān)測(cè)方法及數(shù)據(jù)處理

      摘要:北京是軌道交通工程在建項(xiàng)目最多的城市,沉降監(jiān)測(cè)對(duì)地鐵工程的安全施工有著重要意義,同時(shí)監(jiān)測(cè)數(shù)據(jù)能夠直接用來(lái)評(píng)價(jià)地鐵施工對(duì)地表環(huán)境的影響。本文重點(diǎn)論述了北京地鐵沉降監(jiān)測(cè)的方法與技術(shù)要求,介紹了所用儀器數(shù)據(jù)文件的格式,詳述了數(shù)據(jù)處理和統(tǒng)計(jì)分析。最后,文章給出了變形預(yù)報(bào)分析的數(shù)學(xué)方法,并說(shuō)明了其現(xiàn)實(shí)意義。

      關(guān)鍵詞:沉降監(jiān)測(cè);數(shù)字水準(zhǔn)儀;數(shù)據(jù)處理引言

      北京是一個(gè)國(guó)際化的大都市,人口與車(chē)輛的增多給北京城帶來(lái)了很?chē)?yán)重的交通問(wèn)題。隨著2008年奧運(yùn)會(huì)的日趨臨近,解決這個(gè)問(wèn)題就顯得越來(lái)越緊迫。軌道交通是解決日益惡化的城市交通問(wèn)題的一個(gè)主要手段。然而,在人口密集、建筑設(shè)施密布的城市中進(jìn)行軌道工程施工,由于巖土開(kāi)挖不可避免地產(chǎn)生對(duì)巖土體的擾動(dòng)并引起洞室周?chē)乇戆l(fā)生位移和變形,當(dāng)位移和變形超過(guò)一定的限度時(shí),勢(shì)必危及周?chē)孛娼ㄖO(shè)施、道路葙地下管線的安全。因此,研究城市軌道工程開(kāi)挖過(guò)程中地表沉降的有效控制問(wèn)題,對(duì)于地表環(huán)境保護(hù)及軌道工程的安全施工都具有十分重要的意義。2 沉降基準(zhǔn)點(diǎn)和沉降監(jiān)測(cè)點(diǎn)的布設(shè)與觀測(cè)

      從2005年3月開(kāi)始,我們開(kāi)始對(duì)北京地鐵四號(hào)線某標(biāo)段(車(chē)站)的沉降監(jiān)測(cè)工作,預(yù)計(jì)該標(biāo)段的土建施工工作和監(jiān)測(cè)工作將于2006年底結(jié)束。監(jiān)測(cè)儀器使用TrimbleDiNi12數(shù)字水準(zhǔn)儀,監(jiān)測(cè)內(nèi)容包括建筑物沉降監(jiān)測(cè)和地表沉降監(jiān)測(cè)。沉降監(jiān)測(cè)控制網(wǎng)采用地鐵四號(hào)線的高程控制網(wǎng)。水準(zhǔn)基點(diǎn)與工作基點(diǎn)的聯(lián)測(cè)采用一等水準(zhǔn)觀測(cè),起初開(kāi)始觀測(cè)時(shí),一個(gè)月復(fù)測(cè)一次,三個(gè)月以后每三月觀測(cè)一次。遇跨雨季等特殊情況增加觀測(cè)次數(shù),以判定工作基點(diǎn)的穩(wěn)定性。工作基點(diǎn)均位于沉降影響范圍外的已穩(wěn)定的永久性建筑物上。2·1 監(jiān)測(cè)點(diǎn)布設(shè)主要要點(diǎn)

      1)監(jiān)測(cè)點(diǎn)布設(shè)的范圍為地鐵結(jié)構(gòu)外沿30m內(nèi),但在車(chē)站主體結(jié)構(gòu)施工地段,地鐵結(jié)構(gòu)外沿50m范圍內(nèi)的重點(diǎn)建(構(gòu))筑物也應(yīng)監(jiān)測(cè)。

      2)地表沉降監(jiān)測(cè)應(yīng)盡量和施工單位監(jiān)測(cè)同點(diǎn)量測(cè),同時(shí)要注意和施工單位量測(cè)的時(shí)間也應(yīng)一致(同天量測(cè)),以進(jìn)行監(jiān)測(cè)數(shù)據(jù)的比對(duì)和校核。

      3)由于此地鐵屬于蓋挖車(chē)站,原則上沿線路走向上每40m布設(shè)一個(gè)地表沉降測(cè)點(diǎn),布設(shè)3排;車(chē)站中線一排,區(qū)間線路延長(zhǎng)線各一排。

      4)建筑物沉降監(jiān)測(cè)點(diǎn)一般布設(shè)在3層以上(含3層)的永久建筑物上,但對(duì)于3層以下的重要建筑物(如具文物性質(zhì)的建筑物)也應(yīng)布設(shè)沉降監(jiān)測(cè)點(diǎn)。沉降測(cè)點(diǎn)要布設(shè)在建(構(gòu))筑物主體結(jié)構(gòu)的角點(diǎn)、中點(diǎn)和承重墻上,(如圖1,2所示)。2·2 監(jiān)測(cè)技術(shù)要求及觀測(cè)方法

      沉降觀測(cè)精度等級(jí)的確定,根據(jù)各監(jiān)測(cè)內(nèi)容的

      定精度(式中ms———沉降量S的觀測(cè)中誤差;mΔs———沉降差Δs的觀測(cè)中誤差;QH———網(wǎng)中最弱觀測(cè)點(diǎn)高程H的權(quán)倒數(shù);Qh———網(wǎng)中待求觀測(cè)點(diǎn)間高差h的權(quán)倒數(shù)),參考國(guó)際測(cè)量工作者協(xié)會(huì)(FIG)于1981年第16屆大會(huì)提出的常用取值方法,即:為實(shí)用目的,觀測(cè)值中誤差不應(yīng)超過(guò)變形允許值的1/26~1/10。結(jié)合《地下鐵道、輕軌交通工程測(cè)量規(guī)范》,本次沉降監(jiān)測(cè)網(wǎng)采用國(guó)家二等水準(zhǔn)測(cè)量方法,即: 相鄰基準(zhǔn)點(diǎn)的高程中誤差≤0.5mm,觀側(cè)點(diǎn)的高程中誤差≤1.0mm。

      各項(xiàng)觀測(cè)限差為:

      1)附合或環(huán)線閉合差≤0.5(mm)(n為測(cè)站數(shù))

      2)視線長(zhǎng)度≤5m、前后視距差≤1.0m、前后視距累積差≤3.0m。

      觀測(cè)順序和方法如下:

      1)往測(cè)時(shí),奇數(shù)站照準(zhǔn)標(biāo)尺為后前前后(BFFB),偶數(shù)站照準(zhǔn)標(biāo)尺為前后后前(FBBF)。

      2)返測(cè)時(shí),奇、偶數(shù)站照準(zhǔn)標(biāo)尺的順序分別與往測(cè)偶、奇數(shù)站相同。

      3)分別利用兩工作基點(diǎn)起算,采用閉合水準(zhǔn)路線觀測(cè)監(jiān)測(cè)點(diǎn)。

      蓋挖法施工車(chē)站監(jiān)測(cè)頻率表:(×標(biāo)段×站)沉降觀測(cè)的數(shù)據(jù)處理

      3·1 TrimbleDiNi12的數(shù)據(jù)格式

      TrimbleDiNi12使用兩種記錄數(shù)據(jù)模式,一種模式記錄測(cè)量原始數(shù)據(jù)(RM),另一種模式記錄計(jì)算數(shù)據(jù)(RMc)。同時(shí),DiNi12有兩種數(shù)據(jù)格式(與記錄模式不是同一個(gè)概念),一種是RECE(M5),另一種是REC500,RECE(M5)和REC500格式都可用于記錄和傳輸數(shù)據(jù),但RECS00記錄的信息量少。RM模式下的數(shù)據(jù)僅記錄了測(cè)量讀數(shù)的標(biāo)準(zhǔn)差,這樣情況下不可以進(jìn)行線路平差,作業(yè)時(shí)應(yīng)避免這種情況,表1為M5格式說(shuō)明表。

      RECE(M5)數(shù)據(jù)格式:

      RECE(M5)格式的數(shù)據(jù)行包含121個(gè)字符,總的數(shù)據(jù)以這個(gè)數(shù)據(jù)乘以地址行數(shù)而存在項(xiàng)目文件中。字符119為空格,接下來(lái)的字符120、121為回車(chē)符(CR)、換行符(LF)。空格字符在RECE(M5)格式中是重要的,不能被刪除。3·2 監(jiān)測(cè)成果與變化分析

      可以統(tǒng)計(jì)出每次監(jiān)測(cè)點(diǎn)的沉隆量,MicrosoftExcel提供了豐富的統(tǒng)計(jì)函數(shù)功能,再結(jié)合自編的程序,可以輕松制作出沉降量周報(bào)報(bào)表(見(jiàn)表2)。

      2)沉隆量曲線圖

      圖表具有較好的視覺(jué)效果,可方便用戶查看數(shù)據(jù)的差異、圖案和預(yù)測(cè)趨勢(shì)。在沉降量曲線圖中,可以直接查看到最小沉降點(diǎn)和最大沉降點(diǎn),當(dāng)沉降趨勢(shì)較明顯時(shí),可引起用戶的注意。我們利用MicrosoftExcel的圖表功能自動(dòng)生成沉降量曲線圖,在Excel中,圖表是和數(shù)據(jù)表相鏈接的。橫坐標(biāo)以觀測(cè)時(shí)間為單位,縱坐標(biāo)以沉降量為單位,坐標(biāo)刻度以2mm為主要刻度,這樣足以反映出大于2mm的沉降量(見(jiàn)圖3)。

      3)變形預(yù)報(bào)和安全判斷

      1)沉降量報(bào)表

      北京地鐵四號(hào)線第三方監(jiān)測(cè)在主體結(jié)構(gòu)施工階段是一周一次,根據(jù)各次變形監(jiān)測(cè)點(diǎn)的高程數(shù)據(jù), 可以統(tǒng)計(jì)出每次監(jiān)測(cè)點(diǎn)的沉隆量,MicrosoftExcel提供了豐富的統(tǒng)計(jì)函數(shù)功能,再結(jié)合自編的程序,可以輕松制作出沉降量周報(bào)報(bào)表(見(jiàn)表2)。

      在考慮施工進(jìn)度(主要是隧道開(kāi)挖進(jìn)度)和監(jiān)測(cè)點(diǎn)沉降量統(tǒng)計(jì)分析的基礎(chǔ)上,采用數(shù)值分析中的線性內(nèi)插法來(lái)推算時(shí)域外的變形值。因?yàn)橥馔祁A(yù)報(bào)值時(shí)使用最近的兩次監(jiān)測(cè)值,對(duì)于連續(xù)下沉的監(jiān)測(cè)點(diǎn)有簡(jiǎn)單實(shí)用的優(yōu)點(diǎn)。

      yi+1=yi-1+(yi-yi-1)·(ti+1-ti-1)/(ti-ti-1)

      式中:y—沉降量;t—時(shí)間。

      沉降觀測(cè)數(shù)據(jù)為地鐵安全施工提供一個(gè)重要依據(jù),因而具有十分重要意義。監(jiān)測(cè)項(xiàng)目中建(構(gòu))筑物沉降、裂縫,地表沉降,直接用來(lái)評(píng)價(jià)地鐵施工對(duì)周邊環(huán)境的影響程度。從我們前期的監(jiān)測(cè)數(shù)據(jù)顯示來(lái)看,車(chē)站1#風(fēng)道采用暗挖法,設(shè)置在地鐵車(chē)站1#風(fēng)道附近的監(jiān)測(cè)點(diǎn)和地面上的監(jiān)測(cè)點(diǎn)整體沉降量較大,這與施工進(jìn)度相關(guān),同時(shí)也說(shuō)明了我們的作業(yè)方法良好。根據(jù)設(shè)計(jì)單位要求,建筑物點(diǎn)的累積沉降限值為±20mm,地面點(diǎn)的累積沉降限值為±25mm,當(dāng)沉降量接近限值時(shí),則及時(shí)向業(yè)主及相關(guān)部門(mén)匯報(bào)情況,并同施工單位共同分析原因,以便采取處理措施。每次監(jiān)測(cè)點(diǎn)沉降量大于2mm的,要在報(bào)告中加以說(shuō)明并進(jìn)行回歸分析,對(duì)變形趨勢(shì)進(jìn)行預(yù)測(cè)預(yù)報(bào)。結(jié)束語(yǔ)

      1)監(jiān)測(cè)儀器操作簡(jiǎn)單,精度高,讀數(shù)客觀,能對(duì)同一測(cè)站兩次高差之差超限發(fā)出警告,測(cè)量數(shù)據(jù)全部存儲(chǔ)在PCMCIA卡,便于計(jì)算機(jī)處理。

      2)變形預(yù)報(bào)采用線性內(nèi)插法的變換形式來(lái)外推預(yù)報(bào)值,在短期內(nèi)較回歸分析更具現(xiàn)實(shí)意義,從數(shù)學(xué)方法上來(lái)說(shuō),短期內(nèi)的一元線性回歸方程與線性內(nèi)插公式的變換形式基本等效。

      3)沉降量曲線圖能較沉降量報(bào)表直觀地反映監(jiān)測(cè)點(diǎn)的變化情況,可以預(yù)測(cè)監(jiān)測(cè)點(diǎn)變化趨勢(shì),以便及時(shí)將信息反饋至監(jiān)測(cè)管理單位。此外,每月要對(duì)施工地段巡察至少一次,確保沉降影響范圍內(nèi)的建筑物及地面沒(méi)有異常情況,沒(méi)有出現(xiàn)裂縫、裂紋。

      參考文獻(xiàn)

      [1]北京勘察技術(shù)公司.北京地鐵四號(hào)線第三方監(jiān)測(cè)實(shí)施大綱.2005.[2]地下鐵道、輕軌交通工程測(cè)量規(guī)范(GB50308-1999).中國(guó)計(jì)劃出版社.2000.[3]胡伍生,潘慶林,黃騰.土木工程測(cè)量手冊(cè).人發(fā)交通出版社.2004,10.[4]天寶.DiNi12說(shuō)明書(shū).[5]周祖淵.電子數(shù)字式水準(zhǔn)儀的性能及測(cè)量原理.重慶交通學(xué)院學(xué)報(bào).2005,2.[6]李剛,徐鵬,張偉娜.高精度電子水準(zhǔn)儀在煤倉(cāng)沉降觀測(cè)中的應(yīng)用.工程地球物理學(xué)報(bào).2004,12.

      第三篇:隨機(jī)數(shù)據(jù)處理方法 答案 第四章

      第四章大數(shù)定律與中心極限定理習(xí)題參考答案與提示

      1.試?yán)们斜妊┓虿坏仁阶C明:能以0.97的概率斷言,將一枚均勻硬幣連續(xù)拋1000次,其出現(xiàn)正面H的次數(shù)在400至600次之間。

      分析:將一枚均勻硬幣連續(xù)拋1000次可看成是1000重貝努利試驗(yàn),因此1000次試驗(yàn)中出現(xiàn)正面H的次數(shù)服從二項(xiàng)分布。

      解:設(shè)X表示1000次試驗(yàn)中出現(xiàn)正面H的次數(shù),則X是一個(gè)隨機(jī)變量,且X~B(1000,1/2)。因此

      EX?np?1000?1?500 2

      11DX?np(1?p)?1000??(1?)?250 22

      而所求的概率為

      P{400?X?600}?P{400?500?X?600?500}

      ?P{?100?X?EX?100}

      ?P{X?EX?100}

      ?1?DX?0.975 2100

      2.已知隨機(jī)變量X的概率分布為

      X13

      P0.20.30.5

      試?yán)们斜妊┓虿坏仁焦烙?jì)事件的概率。X?E(?1.}5

      分析:要利用切比雪夫不等式,需先根據(jù)給出的隨機(jī)變量分布列求得相應(yīng)的期望和方差。

      解:由題設(shè)知,EX?1?0.2?2?0.3?3?0.5?2.3,EX2?12?0.2?22?0.3?32?0.5?5.9。

      從而DX?EX2?(EX)2?5.9?2.32?0.61。

      由切比雪夫不等式得

      P{X?EX?1.5}?1?DX?0.729。21.5

      3.設(shè)X為非負(fù)隨機(jī)變量,試證;當(dāng)t?0時(shí),P(X?t)?1?EX。t

      t

      ??分析:P{X?t}?F(t)??f(x)dx,而EX??xf(x)dx,代入要證的不等????

      式的兩側(cè)比較,會(huì)發(fā)現(xiàn)證明實(shí)質(zhì)上是對(duì)積分限的放大或縮小,以及變量間暗含的大小關(guān)系,很容易就聯(lián)系到對(duì)切比雪夫不等式的證明技巧。

      證明:設(shè)隨機(jī)變量X的分布密度函數(shù)為f(x),則當(dāng)t?0時(shí),P{X?t}??f(x)dx?1????t??tf(x)dx

      ?1????

      tx1??f(x)dx?1??xf(x)dx ttt

      1??1?1??xf(x)dx?1?EX。t??t

      4.設(shè)X為一列獨(dú)立同分布的隨機(jī)變量,且k階原點(diǎn)矩存在,,X,?,X,?12n

      1nkp記作EX??k。試證明:?Xi????k。ni?1k

      分析:由題設(shè)條件X為一列獨(dú)立同分布的隨機(jī)變量,以及,X,?,X,?12n

      1nk1n1E(?Xi)??EXik??n?k??k,可見(jiàn)所證結(jié)論與辛欽大數(shù)定律的結(jié)論非常ni?1ni?1n

      類(lèi)似,即知證明應(yīng)用獨(dú)立同分布的辛欽大數(shù)定律。

      證明:由X1,X2,?,Xn為一列獨(dú)立同分布的隨機(jī)變量,以及y?xk是連續(xù)函數(shù)知,X1k,X2k,?,Xnk相互獨(dú)立。再由EXk??k,得

      1nk1n1E(?Xi)??EXik??n?k??k,ni?1ni?1n

      1nkp則由辛欽大數(shù)定律知:?Xi????k ni?1

      5.在一家保險(xiǎn)公司里10000個(gè)人參加保險(xiǎn),每人每年付12元保險(xiǎn)費(fèi),在一年內(nèi)一個(gè)人死亡的概率為0.006,死亡者家屬可向保險(xiǎn)公司領(lǐng)得1000元。問(wèn):

      (1)保險(xiǎn)公司虧本的概率多大?

      (2)保險(xiǎn)公司一年的利潤(rùn)不少于40000元的概率多大?

      分析:對(duì)于每個(gè)人,在一年內(nèi)要么死亡,要么不死亡,只有這兩種可能性,因此考慮10000個(gè)人在一年中是否死亡可看成10000重貝努利試驗(yàn),故死亡人數(shù)服從二項(xiàng)分布。因此應(yīng)用棣莫弗-拉普拉斯極限定理解決該問(wèn)題。

      解:設(shè)一年中死亡的人數(shù)為X,每人的死亡概率就為p?0.006,從而

      X~B(10000,0.006),保險(xiǎn)公司每年收入10000?12?120000元,需支付1000X元。

      (1)設(shè)A:“保險(xiǎn)公司虧本”,則有

      P(A)?P{1000X?120000}?P{X?120}

      ????? =1?P{0?X?120}?1???????

      ???1??????????

      ?1???(7.7693)??(?7.7693)??2?2?(7.7693)

      ?2-2=0

      可見(jiàn)保險(xiǎn)公司虧本的概率近似為零。

      (2)設(shè)B:“保險(xiǎn)公司一年中獲利不少于40000元”,則

      P(B)?P{120000?1000X?40000}?P{0?X?

      80}

      ??????

      ????(2.59)??(?7.7693)??(2.59)?(1??(7.7693))

      ?0.9952

      即一年中保險(xiǎn)公司以近99.52%的概率獲利40000元以上。

      6.100道單項(xiàng)選擇題,每題1分,考生每次從四個(gè)答案中選一個(gè)正確答案。若一考生全為亂猜,試用切比雪夫不等式和正態(tài)逼近兩種方法計(jì)算其成績(jī)15分至35分之間的概率約為多少?

      解:設(shè)X表示考生成績(jī)(選對(duì)個(gè)數(shù)),則X服從二項(xiàng)分布B(100,1/4),由切比雪夫不等式

      P{15?X?35}?P{X?25?10}?1?DX 100

      由于 EX?25,DX?75/4,所以

      P{15?X?35}?1?DX75/4?1??0.8125 100100

      35?2515?25)??()4754正態(tài)逼近法 P{15?X?35}??(??(2.31)??(?2.31)

      ?2?(2.31)?1?0.9792

      7.某廠有400臺(tái)同類(lèi)機(jī)器,各臺(tái)機(jī)器發(fā)生故障的概率均為0.02,假設(shè)各臺(tái)機(jī)器工作是相互獨(dú)立的,試求機(jī)器發(fā)生故障的臺(tái)數(shù)不小于2的概率。解:設(shè)X為機(jī)器發(fā)生故障的臺(tái)數(shù),則由題意知X~B(400,0.02),問(wèn)題化為求

      。以下用三種方法來(lái)求解: PX{?2}

      (1)利用二項(xiàng)分布

      4001399 P{XP?2}?1?{X?2}?1?0.98?C?0.02?0.98?0.9972400

      (2)用泊松分布作近似計(jì)算(此時(shí)?)?np?400?0.02?8

      ?8?8 P{X?2}?1?P{X?2}?1?e()1?8?1?9e?0.9970

      (3)用正態(tài)分布作近似計(jì)算(利用定理4-5及4-4的推論1)由于X~B(400,0.02),則由定理4-4的推論1知X~N(n,n)?N(8,400?0.98?0.)02?N(8,2.8)近似??

      于是

      0?8X?82?8 P{X?2}?10?P{?X?2}?2.82.82.8?6?8。?1?[)?)]?0.98592.82.8

      8.假設(shè)X是來(lái)自總體X的簡(jiǎn)單隨機(jī)抽樣,已知EXk??k,X,?,X12n

      1n2(k?1,2,3,4),證明當(dāng)n充分大時(shí),隨機(jī)變量Zn??Xi近似服從正態(tài)分ni?1

      布,并指出其分布參數(shù)。

      2222證明:由假設(shè)條件可知,X,X,?,X12n為來(lái)自總體X的簡(jiǎn)單隨機(jī)抽樣,22222則X同分布,即E,X(i?1,2,?,)n,X,?,Xi?212n相互獨(dú)立且與X

      222222,則由獨(dú)立同分布的中心極限定理?有 DXE(X)?(EX)??x?Ri?ii42

      2Xn??i?2

      n??n??x?lini?14?22?x}????12edt 1t221n2?2近X??X?n?i?2近似似ni?1i?1即,所以當(dāng)n充分大(,)01,(,01)~N~N224??2(??4?2)/n2i

      ?4??21n22時(shí),Zn??Xi近似服從參數(shù)為(?2)的正態(tài)分布。ni?1n

      第四篇:大學(xué)物理實(shí)驗(yàn)數(shù)據(jù)處理方法總結(jié)

      有效數(shù)字

      1、有效數(shù)字不同的數(shù)相加減時(shí),以參加運(yùn)算各量中有效數(shù)字最末一位位數(shù)最高的為準(zhǔn),最后結(jié)果與它對(duì)其,余下的尾數(shù)按舍入規(guī)則處理。

      2、乘除法以參與運(yùn)算的數(shù)值中有效位數(shù)最少的那個(gè)數(shù)為準(zhǔn),但當(dāng)結(jié)果的第1位數(shù)較小,比如1、2、3時(shí)可以多保留一位(較?。航Y(jié)果的第一位數(shù)小于 有效數(shù)字最少的結(jié)果第一位數(shù))!例如:n=tg56° θ=56° dθ=1°

      dn?dtg?d?d??d?cos2???1???0.05cos2?cos256?180

      帶入??56?,???1?

      ?n??n?tg56??1.48(8為保留)

      3、可以數(shù)字只出現(xiàn)在最末一位:對(duì)函數(shù)運(yùn)算以不損失有效數(shù)字為準(zhǔn)。例如:20*lg63.4 可疑最小位變化0.1 Y=20lgx dy?20dlnx20dx200.1dx???0.01

      ln10dxln10xln1063.?20lg63.4?36.04

      4、原始數(shù)據(jù)記錄、測(cè)量結(jié)果最后表示,嚴(yán)格按有效數(shù)字規(guī)定處理。(中間過(guò)程、結(jié)果多算幾次)5、4舍5入6湊偶

      6、不估計(jì)不確定度時(shí),有效數(shù)字按相應(yīng)運(yùn)算法則取位;計(jì)算不確定度時(shí)以不確定度的處理結(jié)果為準(zhǔn)。

      真值和誤差

      1、誤差=測(cè)量值-真值

      ΔN=N-A

      2、誤差既有大小、方向與政府。

      3、通常真值和誤差都是未知的。

      4、相對(duì)約定真值,誤差可以求出。

      5、用相對(duì)誤差比較測(cè)量結(jié)果的準(zhǔn)確度。

      6、ΔN/A≈ΔN/N

      7、系統(tǒng)誤差、隨機(jī)誤差、粗大誤差

      8、隨機(jī)誤差:統(tǒng)計(jì)意義下的分布規(guī)律。粗大誤差:測(cè)量錯(cuò)誤

      9、系統(tǒng)誤差和隨機(jī)誤差在一定條件下相互轉(zhuǎn)化。

      不確定度

      1、P(x)是概率密度函數(shù)

      x測(cè)量結(jié)果落在xp?dx之間的概率是P(xP)dx當(dāng)x取遍所有可能的概率值為1.2、正態(tài)分布且消除了系統(tǒng)誤差,概率最大的位置是真值A(chǔ)

      3、曲線“胖”精密度低“瘦”精密度高。

      4、標(biāo)準(zhǔn)誤差:無(wú)限次測(cè)量?(x)??(X?A)P(X)dx 有限次測(cè)量且真值不知道標(biāo)準(zhǔn)偏

      -??2差近似給出S(X)??(Xi?X)2K?1

      5、正態(tài)分布的測(cè)量結(jié)果落入X左右?范圍內(nèi)的概率是0.683

      6、真值落入測(cè)定值Xi左右?區(qū)間內(nèi)的概率為0.683

      7、不確定度是測(cè)量結(jié)果帶有的一個(gè)參數(shù),用以表征合理賦予被測(cè)量值的分散性。

      8、A類(lèi):用統(tǒng)計(jì)方法獲得不確定度 B類(lèi):非統(tǒng)計(jì)方法。

      例如:?jiǎn)螖[測(cè)量為A類(lèi)

      B類(lèi):準(zhǔn)確度級(jí)別 1.0級(jí)電流報(bào)表 ΔI=1.0%X15mA=0.15mA為不確定度極限

      9、不確定度分量的合成1、重復(fù)性誤差S1由平均值的標(biāo)準(zhǔn)差算出

      2、儀器誤差由儀器誤差線除以根號(hào)3算出

      3、方法誤差由實(shí)際公式通過(guò)理論導(dǎo)出。

      不確定度的方差合成

      1、方差u?u?????u?????不確定度(標(biāo)準(zhǔn)差形式)

      2、uj-標(biāo)準(zhǔn)不確定度分量 標(biāo)準(zhǔn)差?或s。由儀器最大誤差限給出的誤差稱(chēng)為展伸不確定度。Uj=kuj.uj為標(biāo)準(zhǔn)不確定度,K稱(chēng)謂包含因子或置信印子。正太分布K=

      3、均勻分布K=根號(hào)3.3、(樣本)標(biāo)準(zhǔn)偏差2212j?ujn2j uj是參與第j個(gè)不確定度的分量開(kāi)根號(hào)后即為合成S(X)??(Xi?X)2n?1(單次測(cè)量的標(biāo)準(zhǔn)偏差)。平均值的標(biāo)準(zhǔn)偏差S(X)?S(X)。n4、多次測(cè)量的算術(shù)平均值X?

      5、間接測(cè)量不確定度的傳播

      ?Xiin平均值X的標(biāo)準(zhǔn)偏差S(X)??(Xii?X)2。

      n(n?1)例如:伏安法測(cè)電阻Rx。Rx?V?Rg IV~V?u(V)??I~I?u(I)?u(Rx)Rg~Rg?u(Rg)?? 由于u(I)u(V)u(Rg),??1 ,把由此造成的不確定度看成微分看成IVRgV1?RX?R?RdI?XdV?XdRg dRX??2dI?dV?dRg

      II?I?V?RgdRX?22222 u(RX)?u1?u2?u3 u2(RX)?u12?u2?u3u1??RX?RXV?RX1u(Rg)?u(Rg)u(I)?2u(I)u2?u(v)?u(v)u3??Rg?II?vI222推廣到多個(gè)分量u(Y)?uX1?uX2????uXn

      ux1(Y)??Y?Yu(X1)??uxn(Y)?u(Xn)?X1?Xn6、乘除或冪指數(shù)形式采用相對(duì)不確定度往往要簡(jiǎn)單

      乘除 左右同時(shí)取對(duì)數(shù)后再求微分 例如 ??bb' ln??11d?1db1db?lnb?lnb? 微分 ?? 22?2b2b?222?u(?)??1u(b)??1u(b?)?把微分符號(hào)改換成不確定度的合成法則????2b???2b?? ???????U(α)即可求出

      7、不確定度提供了在概率含義下的誤差可能取值范圍的一種估計(jì)

      8、不確定度原則上只保留一位非零數(shù)字,被測(cè)量的取位與不確定度對(duì)齊,例如u(L)=0.0851cm 第一位不為零的數(shù)為8 而51大于50 所以最后是0.09cm。對(duì)中間過(guò)程多保留幾位。9、10、方差合成的成立條件 :各分量是小量并且相互獨(dú)立。物理實(shí)驗(yàn)中的數(shù)據(jù)處理方法

      1、列表法 作圖法 線性回歸法 逐差法

      2、列表法:方法簡(jiǎn)便 對(duì)應(yīng)直觀 常用于原始數(shù)據(jù)的記錄 或其它數(shù)據(jù)處理的基礎(chǔ)

      ①表格的設(shè)計(jì)明確合理 ②數(shù)據(jù)記錄的規(guī)范和完整 ③注意環(huán)境參數(shù) 列出引用的東西 注意原始數(shù)據(jù)的記錄。

      3、作圖法:把實(shí)驗(yàn)數(shù)據(jù)依據(jù)自變量和因變量的關(guān)系做成曲線以便反映兩者的函數(shù)關(guān)系找出經(jīng)驗(yàn)

      ①列表法的基本要求給出原始的數(shù)據(jù)表格 ②坐標(biāo)的選取和分度 :最小分度與儀器的最小分度相對(duì)應(yīng)③實(shí)驗(yàn)點(diǎn)用便于識(shí)別位置的符號(hào)表示,曲線擬合要平滑。不適用于校準(zhǔn)曲線例如校準(zhǔn)電流表

      4、求公式: 直線處理 :經(jīng)驗(yàn)公式,直線兩頭的坐標(biāo) 求出斜率以及截距 b?y2?y1

      x2?x1??x2y1?x1y2 取點(diǎn)從擬合后的直線上進(jìn)行 不取原來(lái)的實(shí)驗(yàn)點(diǎn),應(yīng)在實(shí)驗(yàn)范圍內(nèi),盡量x2?x1遠(yuǎn)離。

      5、一元線性回歸方法(最小二乘法)

      y=a+bx 實(shí)驗(yàn)測(cè)得數(shù)據(jù)并不嚴(yán)格符合直線關(guān)系 選出一條直線使得實(shí)驗(yàn)數(shù)據(jù)到直線Δy的平方和最小

      ??yi?min

      i2b?xy?xyX?X22 ??y?bx

      ①變量關(guān)系的選擇 等精度測(cè)量u(yi)相等 X-無(wú)誤差 ②線性關(guān)系的檢驗(yàn): 線性模型的合理性 數(shù)據(jù)的相關(guān)性 檢驗(yàn)方法:(1)物理規(guī)律(2)計(jì)算相關(guān)系數(shù)r r?xy?xy(x?x)(y?y)2222 ?1?r??1 r接近于零 不相關(guān)

      ③曲線改直線

      6、逐差法

      第五篇:常用大數(shù)據(jù)量、海量數(shù)據(jù)處理方法 (算法)總結(jié)

      ? 大數(shù)據(jù)量的問(wèn)題是很多面試筆試中經(jīng)常出現(xiàn)的問(wèn)題,比如baidu google 騰訊 這樣的一些涉及到海量數(shù)據(jù)的公司經(jīng)常會(huì)問(wèn)到。

      下面的方法是我對(duì)海量數(shù)據(jù)的處理方法進(jìn)行了一個(gè)一般性的總結(jié),當(dāng)然這些方法可能并不能完全覆蓋所有的問(wèn)題,但是這樣的一些方法也基本可以處理絕大多數(shù)遇到的問(wèn)題。下面的一些問(wèn)題基本直接來(lái)源于公司的面試筆試題目,方法不一定最優(yōu),如果你有更好的處理方法,歡迎與我討論。

      1.Bloom filter

      適用范圍:可以用來(lái)實(shí)現(xiàn)數(shù)據(jù)字典,進(jìn)行數(shù)據(jù)的判重,或者集合求交集

      基本原理及要點(diǎn):

      對(duì)于原理來(lái)說(shuō)很簡(jiǎn)單,位數(shù)組+k個(gè)獨(dú)立hash函數(shù)。將hash函數(shù)對(duì)應(yīng)的值的位數(shù)組置1,查找時(shí)如果發(fā)現(xiàn)所有hash函數(shù)對(duì)應(yīng)位都是1說(shuō)明存在,很明顯這個(gè)過(guò)程并不保證查找的結(jié)果是100%正確的。同時(shí)也不支持刪除一個(gè)已經(jīng)插入的關(guān)鍵字,因?yàn)樵撽P(guān)鍵字對(duì)應(yīng)的位會(huì)牽動(dòng)到其他的關(guān)鍵字。所以一個(gè)簡(jiǎn)單的改進(jìn)就是 counting Bloom filter,用一個(gè)counter數(shù)組代替位數(shù)組,就可以支持刪除了。

      還有一個(gè)比較重要的問(wèn)題,如何根據(jù)輸入元素個(gè)數(shù)n,確定位數(shù)組m的大小及hash函數(shù)個(gè)數(shù)。當(dāng)hash函數(shù)個(gè)數(shù)k=(ln2)*(m/n)時(shí)錯(cuò)誤率最小。在錯(cuò)誤率不大于E的情況下,m至少要等于n*lg(1/E)才能表示任意n個(gè)元素的集合。但m還應(yīng)該更大些,因?yàn)檫€要保證bit數(shù)組里至少一半為0,則m應(yīng)該>=nlg(1/E)*lge 大概就是nlg(1/E)1.44倍(lg表示以2為底的對(duì)數(shù))。

      舉個(gè)例子我們假設(shè)錯(cuò)誤率為0.01,則此時(shí)m應(yīng)大概是n的13倍。這樣k大概是8個(gè)。

      注意這里m與n的單位不同,m是bit為單位,而n則是以元素個(gè)數(shù)為單位(準(zhǔn)確的說(shuō)是不同元素的個(gè)數(shù))。通常單個(gè)元素的長(zhǎng)度都是有很多bit的。所以使用bloom filter內(nèi)存上通常都是節(jié)省的。

      擴(kuò)展:

      Bloom filter將集合中的元素映射到位數(shù)組中,用k(k為哈希函數(shù)個(gè)數(shù))個(gè)映射位是否全1表示元素在不在這個(gè)集合中。Counting bloom filter(CBF)將位數(shù)組中的每一位擴(kuò)展為一個(gè)counter,從而支持了元素的刪除操作。Spectral Bloom Filter(SBF)將其與集合元素的出現(xiàn)次數(shù)關(guān)聯(lián)。SBF采用counter中的最小值來(lái)近似表示元素的出現(xiàn)頻率。

      問(wèn)題實(shí)例:給你A,B兩個(gè)文件,各存放50億條URL,每條URL占用64字節(jié),內(nèi)存限制是4G,讓你找出A,B文件共同的URL。如果是三個(gè)乃至n個(gè)文件呢?

      根據(jù)這個(gè)問(wèn)題我們來(lái)計(jì)算下內(nèi)存的占用,4G=2^32大概是40億*8大概是340億,n=50億,如果按出錯(cuò)率0.01算需要的大概是650億個(gè)bit。現(xiàn)在可用的是340億,相差并不多,這樣可能會(huì)使出錯(cuò)率上升些。另外如果這些urlip是一一對(duì)應(yīng)的,就可以轉(zhuǎn)換成ip,則大大簡(jiǎn)單了。

      2.Hashing

      適用范圍:快速查找,刪除的基本數(shù)據(jù)結(jié)構(gòu),通常需要總數(shù)據(jù)量可以放入內(nèi)存

      基本原理及要點(diǎn):

      hash函數(shù)選擇,針對(duì)字符串,整數(shù),排列,具體相應(yīng)的hash方法。

      碰撞處理,一種是open hashing,也稱(chēng)為拉鏈法;另一種就是closed hashing,也稱(chēng)開(kāi)地址法,opened addressing。

      擴(kuò)展:

      d-left hashing中的d是多個(gè)的意思,我們先簡(jiǎn)化這個(gè)問(wèn)題,看一看2-left hashing。2-left hashing指的是將一個(gè)哈希表分成長(zhǎng)度相等的兩半,分別叫做T1和T2,給T1和T2分別配備一個(gè)哈希函數(shù),h1和h2。在存儲(chǔ)一個(gè)新的key時(shí),同時(shí)用兩個(gè)哈希函數(shù)進(jìn)行計(jì)算,得出兩個(gè)地址h1[key]和h2[key]。這時(shí)需要檢查T(mén)1中的h1[key]位置和T2中的h2[key]位置,哪一個(gè)位置已經(jīng)存儲(chǔ)的(有碰撞的)key比較多,然后將新key存儲(chǔ)在負(fù)載少的位置。如果兩邊一樣多,比如兩個(gè)位置都為空或者都存儲(chǔ)了一個(gè)key,就把新key 存儲(chǔ)在左邊的T1子表中,2-left也由此而來(lái)。在查找一個(gè)key時(shí),必須進(jìn)行兩次hash,同時(shí)查找兩個(gè)位置。

      問(wèn)題實(shí)例:

      1).海量日志數(shù)據(jù),提取出某日訪問(wèn)百度次數(shù)最多的那個(gè)IP。

      IP的數(shù)目還是有限的,最多2^32個(gè),所以可以考慮使用hash將ip直接存入內(nèi)存,然后進(jìn)行統(tǒng)計(jì)。

      3.bit-map

      適用范圍:可進(jìn)行數(shù)據(jù)的快速查找,判重,刪除,一般來(lái)說(shuō)數(shù)據(jù)范圍是int的10倍以下

      基本原理及要點(diǎn):使用bit數(shù)組來(lái)表示某些元素是否存在,比如8位電話號(hào)碼

      擴(kuò)展:bloom filter可以看做是對(duì)bit-map的擴(kuò)展

      問(wèn)題實(shí)例:

      1)已知某個(gè)文件內(nèi)包含一些電話號(hào)碼,每個(gè)號(hào)碼為8位數(shù)字,統(tǒng)計(jì)不同號(hào)碼的個(gè)數(shù)。

      8位最多99 999 999,大概需要99m個(gè)bit,大概10幾m字節(jié)的內(nèi)存即可。

      2)2.5億個(gè)整數(shù)中找出不重復(fù)的整數(shù)的個(gè)數(shù),內(nèi)存空間不足以容納這2.5億個(gè)整數(shù)。

      將bit-map擴(kuò)展一下,用2bit表示一個(gè)數(shù)即可,0表示未出現(xiàn),1表示出現(xiàn)一次,2表示出現(xiàn)2次及以上?;蛘呶覀儾挥?bit來(lái)進(jìn)行表示,我們用兩個(gè)bit-map即可模擬實(shí)現(xiàn)這個(gè)2bit-map。

      4.堆

      適用范圍:海量數(shù)據(jù)前n大,并且n比較小,堆可以放入內(nèi)存

      基本原理及要點(diǎn):最大堆求前n小,最小堆求前n大。方法,比如求前n小,我們比較當(dāng)前元素與最大堆里的最大元素,如果它小于最大元素,則應(yīng)該替換那個(gè)最大元素。這樣最后得到的n個(gè)元素就是最小的n個(gè)。適合大數(shù)據(jù)量,求前n小,n的大小比較小的情況,這樣可以掃描一遍即可得到所有的前n元素,效率很高。

      擴(kuò)展:雙堆,一個(gè)最大堆與一個(gè)最小堆結(jié)合,可以用來(lái)維護(hù)中位數(shù)。

      問(wèn)題實(shí)例:

      1)100w個(gè)數(shù)中找最大的前100個(gè)數(shù)。

      用一個(gè)100個(gè)元素大小的最小堆即可。

      5.雙層桶劃分

      適用范圍:第k大,中位數(shù),不重復(fù)或重復(fù)的數(shù)字

      基本原理及要點(diǎn):因?yàn)樵胤秶艽?,不能利用直接尋址表,所以通過(guò)多次劃分,逐步確定范圍,然后最后在一個(gè)可以接受的范圍內(nèi)進(jìn)行??梢酝ㄟ^(guò)多次縮小,雙層只是一個(gè)例子。

      擴(kuò)展:

      問(wèn)題實(shí)例:

      1).2.5億個(gè)整數(shù)中找出不重復(fù)的整數(shù)的個(gè)數(shù),內(nèi)存空間不足以容納這2.5億個(gè)整數(shù)。

      有點(diǎn)像鴿巢原理,整數(shù)個(gè)數(shù)為2^32,也就是,我們可以將這2^32個(gè)數(shù),劃分為2^8個(gè)區(qū)域(比如用單個(gè)文件代表一個(gè)區(qū)域),然后將數(shù)據(jù)分離到不同的區(qū)域,然后不同的區(qū)域在利用bitmap就可以直接解決了。也就是說(shuō)只要有足夠的磁盤(pán)空間,就可以很方便的解決。

      2).5億個(gè)int找它們的中位數(shù)。

      這個(gè)例子比上面那個(gè)更明顯。首先我們將int劃分為2^16個(gè)區(qū)域,然后讀取數(shù)據(jù)統(tǒng)計(jì)落到各個(gè)區(qū)域里的數(shù)的個(gè)數(shù),之后我們根據(jù)統(tǒng)計(jì)結(jié)果就可以判斷中位數(shù)落到那個(gè)區(qū)域,同時(shí)知道這個(gè)區(qū)域中的第幾大數(shù)剛好是中位數(shù)。然后第二次掃描我們只統(tǒng)計(jì)落在這個(gè)區(qū)域中的那些數(shù)就可以了。

      實(shí)際上,如果不是int是int64,我們可以經(jīng)過(guò)3次這樣的劃分即可降低到可以接受的程度。即可以先將int64分成2^24個(gè)區(qū)域,然后確定區(qū)域的第幾大數(shù),在將該區(qū)域分成2^20個(gè)子區(qū)域,然后確定是子區(qū)域的第幾大數(shù),然后子區(qū)域里的數(shù)的個(gè)數(shù)只有2^20,就可以直接利用direct addr table進(jìn)行統(tǒng)計(jì)了。

      6.數(shù)據(jù)庫(kù)索引

      適用范圍:大數(shù)據(jù)量的增刪改查

      基本原理及要點(diǎn):利用數(shù)據(jù)的設(shè)計(jì)實(shí)現(xiàn)方法,對(duì)海量數(shù)據(jù)的增刪改查進(jìn)行處理。

      擴(kuò)展:

      問(wèn)題實(shí)例:

      7.倒排索引(Inverted index)

      適用范圍:搜索引擎,關(guān)鍵字查詢

      基本原理及要點(diǎn):為何叫倒排索引?一種索引方法,被用來(lái)存儲(chǔ)在全文搜索下某個(gè)單詞在一個(gè)文檔或者一組文檔中的存儲(chǔ)位置的映射。

      以英文為例,下面是要被索引的文本:

      T0 = “it is what it is” T1 = “what is it”

      T2 = “it is a banana”

      我們就能得到下面的反向文件索引:

      “a”: {2} “banana”: {2} “is”: {0, 1, 2} “it”: {0, 1, 2} “what”: {0, 1}

      檢索的條件“what”, “is” 和 “it” 將對(duì)應(yīng)集合的交集。

      正向索引開(kāi)發(fā)出來(lái)用來(lái)存儲(chǔ)每個(gè)文檔的單詞的列表。正向索引的查詢往往滿足每個(gè)文檔有序頻繁的全文查詢和每個(gè)單詞在校驗(yàn)文檔中的驗(yàn)證這樣的查詢。在正向索引中,文檔占據(jù)了中心的位置,每個(gè)文檔指向了一個(gè)它所包含的索引項(xiàng)的序列。也就是說(shuō)文檔指向了它包含的那些單詞,而反向索引則是單詞指向了包含它的文檔,很容易看到這個(gè)反向的關(guān)系。

      擴(kuò)展:

      問(wèn)題實(shí)例:文檔檢索系統(tǒng),查詢那些文件包含了某單詞,比如常見(jiàn)的學(xué)術(shù)論文的關(guān)鍵字搜索。

      8.外排序

      適用范圍:大數(shù)據(jù)的排序,去重

      基本原理及要點(diǎn):外排序的歸并方法,置換選擇 敗者樹(shù)原理,最優(yōu)歸并樹(shù)

      擴(kuò)展:

      問(wèn)題實(shí)例:

      1).有一個(gè)1G大小的一個(gè)文件,里面每一行是一個(gè)詞,詞的大小不超過(guò)16個(gè)字節(jié),內(nèi)存限制大小是1M。返回頻數(shù)最高的100個(gè)詞。

      這個(gè)數(shù)據(jù)具有很明顯的特點(diǎn),詞的大小為16個(gè)字節(jié),但是內(nèi)存只有1m做hash有些不夠,所以可以用來(lái)排序。內(nèi)存可以當(dāng)輸入緩沖區(qū)使用。

      9.trie樹(shù)

      適用范圍:數(shù)據(jù)量大,重復(fù)多,但是數(shù)據(jù)種類(lèi)小可以放入內(nèi)存

      基本原理及要點(diǎn):實(shí)現(xiàn)方式,節(jié)點(diǎn)孩子的表示方式

      擴(kuò)展:壓縮實(shí)現(xiàn)。

      問(wèn)題實(shí)例:

      1).有10個(gè)文件,每個(gè)文件1G,每個(gè)文件的每一行都存放的是用戶的query,每個(gè)文件的query都可能重復(fù)。要你按照query的頻度排序。

      2).1000萬(wàn)字符串,其中有些是相同的(重復(fù)),需要把重復(fù)的全部去掉,保留沒(méi)有重復(fù)的字符串。請(qǐng)問(wèn)怎么設(shè)計(jì)和實(shí)現(xiàn)?

      3).尋找熱門(mén)查詢:查詢串的重復(fù)度比較高,雖然總數(shù)是1千萬(wàn),但如果除去重復(fù)后,不超過(guò)3百萬(wàn)個(gè),每個(gè)不超過(guò)255字節(jié)。

      10.分布式處理 mapreduce

      適用范圍:數(shù)據(jù)量大,但是數(shù)據(jù)種類(lèi)小可以放入內(nèi)存

      基本原理及要點(diǎn):將數(shù)據(jù)交給不同的機(jī)器去處理,數(shù)據(jù)劃分,結(jié)果歸約。

      擴(kuò)展:

      問(wèn)題實(shí)例:

      1).The canonical example application of MapReduce is a process to count the appearances of

      each different word in a set of documents: void map(String name, String document):

      // name: document name

      // document: document contents

      for each word w in document:

      EmitIntermediate(w, 1);

      void reduce(String word, Iterator partialCounts):

      // key: a word

      // values: a list of aggregated partial counts

      int result = 0;

      for each v in partialCounts:

      result += ParseInt(v);

      Emit(result);

      Here, each document is split in words, and each word is counted initially with a “1” value by

      the Map function, using the word as the result key.The framework puts together all the pairs

      with the same key and feeds them to the same call to Reduce, thus this function just needs to

      sum all of its input values to find the total appearances of that word.2).海量數(shù)據(jù)分布在100臺(tái)電腦中,想個(gè)辦法高效統(tǒng)計(jì)出這批數(shù)據(jù)的TOP10。

      3).一共有N個(gè)機(jī)器,每個(gè)機(jī)器上有N個(gè)數(shù)。每個(gè)機(jī)器最多存O(N)個(gè)數(shù)并對(duì)它們操作。如何找到N^2個(gè)數(shù)的中數(shù)(median)?

      經(jīng)典問(wèn)題分析

      上千萬(wàn)or億數(shù)據(jù)(有重復(fù)),統(tǒng)計(jì)其中出現(xiàn)次數(shù)最多的前N個(gè)數(shù)據(jù),分兩種情況:可一次讀入內(nèi)存,不可一次讀入。

      可用思路:trie樹(shù)+堆,數(shù)據(jù)庫(kù)索引,劃分子集分別統(tǒng)計(jì),hash,分布式計(jì)算,近似統(tǒng)計(jì),外排序

      所謂的是否能一次讀入內(nèi)存,實(shí)際上應(yīng)該指去除重復(fù)后的數(shù)據(jù)量。如果去重后數(shù)據(jù)可以放入內(nèi)存,我們可以為數(shù)據(jù)建立字典,比如通過(guò) map,hashmap,trie,然后直接進(jìn)行統(tǒng)計(jì)即可。當(dāng)然在更新每條數(shù)據(jù)的出現(xiàn)次數(shù)的時(shí)候,我們可以利用一個(gè)堆來(lái)維護(hù)出現(xiàn)次數(shù)最多的前N個(gè)數(shù)據(jù),當(dāng)然這樣導(dǎo)致維護(hù)次數(shù)增加,不如完全統(tǒng)計(jì)后在求前N大效率高。

      如果數(shù)據(jù)無(wú)法放入內(nèi)存。一方面我們可以考慮上面的字典方法能否被改進(jìn)以適應(yīng)這種情形,可以做的改變就是將字典存放到硬盤(pán)上,而不是內(nèi)存,這可以參考數(shù)據(jù)庫(kù)的存儲(chǔ)方法。

      當(dāng)然還有更好的方法,就是可以采用分布式計(jì)算,基本上就是map-reduce過(guò)程,首先可以根據(jù)數(shù)據(jù)值或者把數(shù)據(jù)hash(md5)后的值,將數(shù)據(jù)按照范圍劃分到不同的機(jī)子,最好可以讓數(shù)據(jù)劃分后可以一次讀入內(nèi)存,這樣不同的機(jī)子負(fù)責(zé)處理各種的數(shù)值范圍,實(shí)際上就是map。得到結(jié)果后,各個(gè)機(jī)子只需拿出各自的出現(xiàn)次數(shù)最多的前N個(gè)數(shù)據(jù),然后匯總,選出所有的數(shù)據(jù)中出現(xiàn)次數(shù)最多的前N個(gè)數(shù)據(jù),這實(shí)際上就是reduce過(guò)程。

      實(shí)際上可能想直接將數(shù)據(jù)均分到不同的機(jī)子上進(jìn)行處理,這樣是無(wú)法得到正確的解的。因?yàn)橐粋€(gè)數(shù)據(jù)可能被均分到不同的機(jī)子上,而另一個(gè)則可能完全聚集到一個(gè)機(jī)子上,同時(shí)還可能存在具有相同數(shù)目的數(shù)據(jù)。比如我們要找出現(xiàn)次數(shù)最多的前100個(gè),我們將1000萬(wàn)的數(shù)據(jù)分布到10臺(tái)機(jī)器上,找到每臺(tái)出現(xiàn)次數(shù)最多的前 100個(gè),歸并之后這樣不能保證找到真正的第100個(gè),因?yàn)楸热绯霈F(xiàn)次數(shù)最多的第100個(gè)可能有1萬(wàn)個(gè),但是它被分到了10臺(tái)機(jī)子,這樣在每臺(tái)上只有1千個(gè),假設(shè)這些機(jī)子排名在1000個(gè)之前的那些都是單獨(dú)分布在一臺(tái)機(jī)子上的,比如有1001個(gè),這樣本來(lái)具有1萬(wàn)個(gè)的這個(gè)就會(huì)被淘汰,即使我們讓每臺(tái)機(jī)子選出出現(xiàn)次數(shù)最多的1000個(gè)再歸并,仍然會(huì)出錯(cuò),因?yàn)榭赡艽嬖诖罅總€(gè)數(shù)為1001個(gè)的發(fā)生聚集。因此不能將數(shù)據(jù)隨便均分到不同機(jī)子上,而是要根據(jù)hash 后的值將它們映射到不同的機(jī)子上處理,讓不同的機(jī)器處理一個(gè)數(shù)值范圍。

      而外排序的方法會(huì)消耗大量的IO,效率不會(huì)很高。而上面的分布式方法,也可以用于單機(jī)版本,也就是將總的數(shù)據(jù)根據(jù)值的范圍,劃分成多個(gè)不同的子文件,然后逐個(gè)處理。處理完畢之后再對(duì)這些單詞的及其出現(xiàn)頻率進(jìn)行一個(gè)歸并。實(shí)際上就可以利用一個(gè)外排序的歸并過(guò)程。

      另外還可以考慮近似計(jì)算,也就是我們可以通過(guò)結(jié)合自然語(yǔ)言屬性,只將那些真正實(shí)際中出現(xiàn)最多的那些詞作為一個(gè)字典,使得這個(gè)規(guī)??梢苑湃雰?nèi)存。

      下載調(diào)研數(shù)據(jù)處理方法:word格式文檔
      下載調(diào)研數(shù)據(jù)處理方法:.doc
      將本文檔下載到自己電腦,方便修改和收藏,請(qǐng)勿使用迅雷等下載。
      點(diǎn)此處下載文檔

      文檔為doc格式


      聲明:本文內(nèi)容由互聯(lián)網(wǎng)用戶自發(fā)貢獻(xiàn)自行上傳,本網(wǎng)站不擁有所有權(quán),未作人工編輯處理,也不承擔(dān)相關(guān)法律責(zé)任。如果您發(fā)現(xiàn)有涉嫌版權(quán)的內(nèi)容,歡迎發(fā)送郵件至:645879355@qq.com 進(jìn)行舉報(bào),并提供相關(guān)證據(jù),工作人員會(huì)在5個(gè)工作日內(nèi)聯(lián)系你,一經(jīng)查實(shí),本站將立刻刪除涉嫌侵權(quán)內(nèi)容。

      相關(guān)范文推薦

        數(shù)據(jù)處理考綱

        全國(guó)殘疾人崗位精英職業(yè)技能競(jìng)賽規(guī)則計(jì)算機(jī)操作員(數(shù)據(jù)處理)全國(guó)殘疾人崗位精英職業(yè)技能競(jìng)賽組委會(huì)2012年7月競(jìng) 賽 標(biāo) 準(zhǔn)一、競(jìng)賽目的考查參賽選手對(duì)于數(shù)據(jù)處理相關(guān)基礎(chǔ)知識(shí)的......

        數(shù)據(jù)處理教案

        數(shù)據(jù)處理教案 引言: 根據(jù)高專(zhuān)中專(zhuān)部安排,由我?guī)?0級(jí)綜合班的數(shù)據(jù)處理課和Office辦公自動(dòng)化課,根據(jù)教學(xué)的要求,特寫(xiě)此教案,該教案分為5部分,第一部分介紹數(shù)據(jù)處理定義,結(jié)構(gòu),常用軟件;......

        數(shù)據(jù)處理工作總結(jié)

        2011年XXX空間數(shù)據(jù)處理工作總結(jié) 2011年XXX水利普查空間數(shù)據(jù)工作,嚴(yán)格按照《第一次全國(guó)水利普查空間數(shù)據(jù)采集與處理實(shí)施方案》要求,以質(zhì)量為中心,精心組織、周密安排,經(jīng)過(guò)全區(qū)普......

        mtt數(shù)據(jù)處理

        實(shí)驗(yàn)一急性毒性試驗(yàn)(改進(jìn)寇氏法) 一、目的與要求 1、學(xué)習(xí)急性毒性試驗(yàn)的方法,掌握LD50的測(cè)定方法。 2、觀察馬錢(qián)子的毒性反應(yīng)。 二、實(shí)驗(yàn)原理 急性毒性試驗(yàn)是指受試動(dòng)物在一次......

        GPS數(shù)據(jù)處理

        《GPS數(shù)據(jù)處理》課程總結(jié)報(bào)告 班級(jí):地101 學(xué)號(hào):2103071011291 姓名:常悅成績(jī):北京建筑工程學(xué)院.測(cè)繪與城市空間信息學(xué)院 二零一三年. 五月 《GPS數(shù)據(jù)處理》課程總結(jié)報(bào)告 1. GP......

        調(diào)研方法

        1、會(huì)議調(diào)查法和實(shí)地觀察法 會(huì)議調(diào)查法。是調(diào)查研究工作中常用的方法。召集一些了解詳細(xì)情況的同志,用座談或討論的形式,請(qǐng)他們談?wù)勀承﹩?wèn)題的情況和他們對(duì)此問(wèn)題的認(rèn)識(shí),提出建......

        調(diào)研方法

        調(diào)研方法 1、 問(wèn)卷調(diào)查 a) 問(wèn)卷回收及審查 i. 完整、正確、一致、及時(shí)、清楚易懂 ii. 編輯檢查剔除無(wú)效問(wèn)卷 2、 抽樣調(diào)查 a) 抽樣方法 i. 概率抽樣 1. 隨機(jī)抽樣 a) 簡(jiǎn)單隨......

        壓力表檢定項(xiàng)目及數(shù)據(jù)處理和誤差修正方法研究

        壓力表檢定項(xiàng)目及數(shù)據(jù)處理和誤差修正方法研究 摘 要:壓力表檢定工作是否到位會(huì)在很大程度上影響企業(yè)的安全生產(chǎn)與日常經(jīng)營(yíng)。要科學(xué)選擇壓力表,并對(duì)外觀、零位和示值誤差進(jìn)行檢......