數(shù)據(jù)標(biāo)準(zhǔn)化處理方法

第一篇：數(shù)據(jù)標(biāo)準(zhǔn)化處理方法

2011-11-04 10:36:44 來源: 作者: 【大中小】瀏覽:2749次

統(tǒng)計(jì)上綜合經(jīng)濟(jì)實(shí)力測評(píng)經(jīng)常用到數(shù)據(jù)的標(biāo)準(zhǔn)化處理。那么什么是數(shù)據(jù)標(biāo)準(zhǔn)化處理？數(shù)據(jù)標(biāo)準(zhǔn)化也就是統(tǒng)計(jì)數(shù)據(jù)的指數(shù)化。數(shù)據(jù)標(biāo)準(zhǔn)化處理主要包括數(shù)據(jù)同趨化處理和無量綱化處理兩個(gè)方面。數(shù)據(jù)同趨化處理主要解決不同性質(zhì)數(shù)據(jù)問題，對(duì)不同性質(zhì)指標(biāo)直接加總不能正確反映不同作用力的綜合結(jié)果，須先考慮改變逆指標(biāo)數(shù)據(jù)性質(zhì)，使所有指標(biāo)對(duì)測評(píng)方案的作用力同趨化，再加總才能得出正確結(jié)果。數(shù)據(jù)無量綱化處理主要解決數(shù)據(jù)的可比性，在此我們采用指數(shù)化處理方法。指數(shù)化處理以指標(biāo)的最大值和最小值的差距進(jìn)行數(shù)學(xué)計(jì)算，其結(jié)果介于０－１之間。具體計(jì)算公式如下：zi=xi-xmin/xmax-xmin其中：zi為指標(biāo)的標(biāo)準(zhǔn)分?jǐn)?shù)xi為某鎮(zhèn)某指標(biāo)的指標(biāo)值xmax為全部鎮(zhèn)中某指標(biāo)的最大值xmin為全部鎮(zhèn)中某指標(biāo)的最小值經(jīng)過上述標(biāo)準(zhǔn)化處理，原始數(shù)據(jù)均轉(zhuǎn)換為無量綱化指標(biāo)測評(píng)值，即各指標(biāo)值都處于同一個(gè)數(shù)量級(jí)別上，可以進(jìn)行綜合測評(píng)分析。

第二篇：數(shù)據(jù)標(biāo)準(zhǔn)化處理方法

數(shù)據(jù)標(biāo)準(zhǔn)化處理方法

在數(shù)據(jù)分析之前，我們通常需要先將數(shù)據(jù)標(biāo)準(zhǔn)化（normalization），利用標(biāo)準(zhǔn)化后的數(shù)據(jù)進(jìn)行數(shù)據(jù)分析。數(shù)據(jù)標(biāo)準(zhǔn)化也就是統(tǒng)計(jì)數(shù)據(jù)的指數(shù)化。數(shù)據(jù)標(biāo)準(zhǔn)化處理主要包括數(shù)據(jù)同趨化處理和無量綱化處理兩個(gè)方面。數(shù)據(jù)同趨化處理主要解決不同性質(zhì)數(shù)據(jù)問題，對(duì)不同性質(zhì)指標(biāo)直接加總不能正確反映不同作用力的綜合結(jié)果，須先考慮改變逆指標(biāo)數(shù)據(jù)性質(zhì)，使所有指標(biāo)對(duì)測評(píng)方案的作用力同趨化，再加總才能得出正確結(jié)果。數(shù)據(jù)無量綱化處理主要解決數(shù)據(jù)的可比性。數(shù)據(jù)標(biāo)準(zhǔn)化的方法有很多種，常用的有“最小—最大標(biāo)準(zhǔn)化”、“Z-score標(biāo)準(zhǔn)化”和“按小數(shù)定標(biāo)標(biāo)準(zhǔn)化”等。經(jīng)過上述標(biāo)準(zhǔn)化處理，原始數(shù)據(jù)均轉(zhuǎn)換為無量綱化指標(biāo)測評(píng)值，即各指標(biāo)值都處于同一個(gè)數(shù)量級(jí)別上，可以進(jìn)行綜合測評(píng)分析。

一、Min-max 標(biāo)準(zhǔn)化

min-max標(biāo)準(zhǔn)化方法是對(duì)原始數(shù)據(jù)進(jìn)行線性變換。設(shè)minA和maxA分別為屬性A的最小值和最大值，將A的一個(gè)原始值x通過min-max標(biāo)準(zhǔn)化映射成在區(qū)間[0,1]中的值x'，其公式為：

新數(shù)據(jù)=（原數(shù)據(jù)-極小值）/（極大值-極小值）

二、z-score 標(biāo)準(zhǔn)化

這種方法基于原始數(shù)據(jù)的均值（mean）和標(biāo)準(zhǔn)差（standard deviation）進(jìn)行數(shù)據(jù)的標(biāo)準(zhǔn)化。將A的原始值x使用z-score標(biāo)準(zhǔn)化到x'。

z-score標(biāo)準(zhǔn)化方法適用于屬性A的最大值和最小值未知的情況，或有超出取值范圍的離群數(shù)據(jù)的情況。

新數(shù)據(jù)=（原數(shù)據(jù)-均值）/標(biāo)準(zhǔn)差

spss默認(rèn)的標(biāo)準(zhǔn)化方法就是z-score標(biāo)準(zhǔn)化。

用Excel進(jìn)行z-score標(biāo)準(zhǔn)化的方法：在Excel中沒有現(xiàn)成的函數(shù)，需要自己分步計(jì)算，其實(shí)標(biāo)準(zhǔn)化的公式很簡單。步驟如下：

1.求出各變量（指標(biāo)）的算術(shù)平均值（數(shù)學(xué)期望）xi和標(biāo)準(zhǔn)差si ；

2.進(jìn)行標(biāo)準(zhǔn)化處理：

zij＝（xij－xi）／si

其中：zij為標(biāo)準(zhǔn)化后的變量值；xij為實(shí)際變量值。

3.將逆指標(biāo)前的正負(fù)號(hào)對(duì)調(diào)。

標(biāo)準(zhǔn)化后的變量值圍繞0上下波動(dòng)，大于0說明高于平均水平，小于0說明低于平均水平。

三、Decimal scaling小數(shù)定標(biāo)標(biāo)準(zhǔn)化

這種方法通過移動(dòng)數(shù)據(jù)的小數(shù)點(diǎn)位置來進(jìn)行標(biāo)準(zhǔn)化。小數(shù)點(diǎn)移動(dòng)多少位取決于屬性A的取值中的最大絕對(duì)值。將屬性A的原始值x使用decimal scaling標(biāo)準(zhǔn)化到x'的計(jì)算方法是：

x'=x/(10*j)

其中，j是滿足條件的最小整數(shù)。

例如假定A的值由-986到917，A的最大絕對(duì)值為986，為使用小數(shù)定標(biāo)標(biāo)準(zhǔn)化，我們用1000（即，j=3）除以每個(gè)值，這樣，-986被規(guī)范化為-0.986。

注意，標(biāo)準(zhǔn)化會(huì)對(duì)原始數(shù)據(jù)做出改變，因此需要保存所使用的標(biāo)準(zhǔn)化方法的參數(shù)，以便對(duì)后續(xù)的數(shù)據(jù)進(jìn)行統(tǒng)一的標(biāo)準(zhǔn)化。

除了上面提到的數(shù)據(jù)標(biāo)準(zhǔn)化外還有對(duì)數(shù)Logistic模式、模糊量化模式等等：

對(duì)數(shù)Logistic模式：新數(shù)據(jù)=1/（1+e^(-原數(shù)據(jù))）

模糊量化模式：新數(shù)據(jù)=1/2+1/2sin[派3.1415/（極大值-極小值）*（X-（極大值-極小值）/2）] X為原數(shù)據(jù)

第三篇：大數(shù)據(jù)量,海量數(shù)據(jù) 處理方法總結(jié)

大數(shù)據(jù)量，海量數(shù)據(jù) 處理方法總結(jié) 大數(shù)據(jù)量的問題是很多面試筆試中經(jīng)常出現(xiàn)的問題，比如baidu google 騰訊這樣的一些涉及到海量數(shù)據(jù)的公司經(jīng)常會(huì)問到。

下面的方法是我對(duì)海量數(shù)據(jù)的處理方法進(jìn)行了一個(gè)一般性的總結(jié)，當(dāng)然這些方法可能并不能完全覆蓋所有的問題，但是這樣的一些方法也基本可以處理絕大多數(shù)遇到的問題。下面的一些問題基本直接來源于公司的面試筆試題目，方法不一定最優(yōu)，如果你有更好的處理方法，歡迎與我討論。1.Bloom filter 適用范圍：可以用來實(shí)現(xiàn)數(shù)據(jù)字典，進(jìn)行數(shù)據(jù)的判重，或者集合求交集

基本原理及要點(diǎn)：

對(duì) 于原理來說很簡單，位數(shù)組+k個(gè)獨(dú)立hash函數(shù)。將hash函數(shù)對(duì)應(yīng)的值的位數(shù)組置1，查找時(shí)如果發(fā)現(xiàn)所有hash函數(shù)對(duì)應(yīng)位都是1說明存在，很明顯這個(gè)過程并不保證查找的結(jié)果是100%正確的。同時(shí)也不支持刪除一個(gè)已經(jīng)插入的關(guān)鍵字，因?yàn)樵撽P(guān)鍵字對(duì)應(yīng)的位會(huì)牽動(dòng)到其他的關(guān)鍵字。所以一個(gè)簡單的改進(jìn)就是 counting Bloom filter，用一個(gè)counter數(shù)組代替位數(shù)組，就可以支持刪除了。還有一個(gè)比較重要的問題，如何根據(jù)輸入元素個(gè)數(shù)n，確定位數(shù)組m的大小及hash函數(shù)個(gè)數(shù)。當(dāng)hash函數(shù)個(gè)數(shù)k=(ln2)*(m/n)時(shí)錯(cuò)誤率最小。在錯(cuò)誤率不大于E的情況下，m至少要等于n*lg(1/E)才能表示任意n個(gè)元素的集合。但m還應(yīng)該更大些，因?yàn)檫€要保證bit數(shù)組里至少一半為0，則m應(yīng) 該>=nlg(1/E)*lge 大概就是nlg(1/E)1.44倍(lg表示以2為底的對(duì)數(shù))。舉個(gè)例子我們假設(shè)錯(cuò)誤率為0.01，則此時(shí)m應(yīng)大概是n的13倍。這樣k大概是8個(gè)。

注意這里m與n的單位不同，m是bit為單位，而n則是以元素個(gè)數(shù)為單位(準(zhǔn)確的說是不同元素的個(gè)數(shù))。通常單個(gè)元素的長度都是有很多bit的。所以使用bloom filter內(nèi)存上通常都是節(jié)省的。

擴(kuò)展：

Bloom filter將集合中的元素映射到位數(shù)組中，用k（k為哈希函數(shù)個(gè)數(shù)）個(gè)映射位是否全1表示元素在不在這個(gè)集合中。Counting bloom filter（CBF）將位數(shù)組中的每一位擴(kuò)展為一個(gè)counter，從而支持了元素的刪除操作。Spectral Bloom Filter（SBF）將其與集合元素的出現(xiàn)次數(shù)關(guān)聯(lián)。SBF采用counter中的最小值來近似表示元素的出現(xiàn)頻率。問題實(shí)例：給你A,B兩個(gè)文件，各存放50億條URL，每條URL占用64字節(jié)，內(nèi)存限制是4G，讓你找出A,B文件共同的URL。如果是三個(gè)乃至n個(gè)文件呢？根據(jù)這個(gè)問題我們來計(jì)算下內(nèi)存的占用，4G=2^32大概是40億*8大概是340億，n=50億，如果

按出錯(cuò)率0.01算需要的大概是650億個(gè)bit?，F(xiàn)在可用的是340億，相差并不多，這樣可能會(huì)使出錯(cuò)率上升些。另外如果這些urlip是一一對(duì)應(yīng)的，就可以轉(zhuǎn)換成ip，則大大簡單了。2.Hashing 適用范圍：快速查找，刪除的基本數(shù)據(jù)結(jié)構(gòu)，通常需要總數(shù)據(jù)量可以放入內(nèi)存

基本原理及要點(diǎn)：

hash函數(shù)選擇，針對(duì)字符串，整數(shù)，排列，具體相應(yīng)的hash方法。

碰撞處理，一種是open hashing，也稱為拉鏈法；另一種就是closed hashing，也稱開地址法，opened addressing。

擴(kuò)展：

d-left hashing中的d是多個(gè)的意思，我們先簡化這個(gè)問題，看一看2-left hashing。2-left hashing指的是將一個(gè)哈希表分成長度相等的兩半，分別叫做T1和T2，給T1和T2分別配備一個(gè)哈希函數(shù)，h1和h2。在存儲(chǔ)一個(gè)新的key時(shí)，同時(shí)用兩個(gè)哈希函數(shù)進(jìn)行計(jì)算，得出兩個(gè)地址h1[key]和h2[key]。這時(shí)需要檢查T1中的h1[key]位置和T2中的h2[key]位置，哪一個(gè) 位置已經(jīng)存儲(chǔ)的（有碰撞的）key比較多，然后將新key存儲(chǔ)在負(fù)載少的位置。如果兩邊一樣多，比如兩個(gè)位置都為空或者都存儲(chǔ)了一個(gè)key，就把新key 存儲(chǔ)在左邊的T1子表中，2-left也由此而來。在查找一個(gè)key時(shí)，必須進(jìn)行兩次hash，同時(shí)查找兩個(gè)位置。問題實(shí)例： 1).海量日志數(shù)據(jù)，提取出某日訪問百度次數(shù)最多的那個(gè)IP。

IP的數(shù)目還是有限的，最多2^32個(gè)，所以可以考慮使用hash將ip直接存入內(nèi)存，然后進(jìn)行統(tǒng)計(jì)。3.bit-map 適用范圍：可進(jìn)行數(shù)據(jù)的快速查找，判重，刪除，一般來說數(shù)據(jù)范圍是int的10倍以下基本原理及要點(diǎn)：使用bit數(shù)組來表示某些元素是否存在，比如8位電話號(hào)碼

擴(kuò)展：bloom filter可以看做是對(duì)bit-map的擴(kuò)展問題實(shí)例： 1)已知某個(gè)文件內(nèi)包含一些電話號(hào)碼，每個(gè)號(hào)碼為8位數(shù)字，統(tǒng)計(jì)不同號(hào)碼的個(gè)數(shù)。

8位最多99 999 999，大概需要99m個(gè)bit，大概10幾m字節(jié)的內(nèi)存即可。

2)2.5億個(gè)整數(shù)中找出不重復(fù)的整數(shù)的個(gè)數(shù)，內(nèi)存空間不足以容納這2.5億個(gè)整數(shù)。將bit-map擴(kuò)展一下，用2bit表示一個(gè)數(shù)即可，0表示未出現(xiàn)，1表示出現(xiàn)一次，2表示出現(xiàn)2次及以上?；蛘呶覀儾挥?bit來進(jìn)行表示，我們用兩個(gè)bit-map即可模擬實(shí)現(xiàn)這個(gè)2bit-map。

4.堆適用范圍：海量數(shù)據(jù)前n大，并且n比較小，堆可以放入內(nèi)存基本原理及要點(diǎn)：最大堆求前n小，最小堆求前n大。方法，比如求前n小，我們比較當(dāng)前元素與最大堆里的最大元素，如果它小于最大元素，則應(yīng)該替換那個(gè)最大元素。這樣最后得到的n個(gè)元素就是最小的n個(gè)。適合大數(shù)據(jù)量，求前n小，n的大小比較小的情況，這樣可以掃描一遍即可得到所有的前n元素，效率很高。

擴(kuò)展：雙堆，一個(gè)最大堆與一個(gè)最小堆結(jié)合，可以用來維護(hù)中位數(shù)。問題實(shí)例： 1)100w個(gè)數(shù)中找最大的前100個(gè)數(shù)。

用一個(gè)100個(gè)元素大小的最小堆即可。

5.雙層桶劃分適用范圍：第k大，中位數(shù)，不重復(fù)或重復(fù)的數(shù)字

基本原理及要點(diǎn)：因?yàn)樵胤秶艽螅荒芾弥苯訉ぶ繁?，所以通過多次劃分，逐步確定范圍，然后最后在一個(gè)可以接受的范圍內(nèi)進(jìn)行?？梢酝ㄟ^多次縮小，雙層只是一個(gè)例子。擴(kuò)展：問題實(shí)例： 1).2.5億個(gè)整數(shù)中找出不重復(fù)的整數(shù)的個(gè)數(shù)，內(nèi)存空間不足以容納這2.5億個(gè)整數(shù)。有點(diǎn)像鴿巢原理，整數(shù)個(gè)數(shù)為2^32,也就是，我們可以將這2^32個(gè)數(shù)，劃分為2^8個(gè)區(qū)域(比如用單個(gè)文件代表一個(gè)區(qū)域)，然后將數(shù)據(jù)分離到不同的區(qū)域，然后不同的區(qū)域在利用bitmap就可以直接解決了。也就是說只要有足夠的磁盤空間，就可以很方便的解決。

2).5億個(gè)int找它們的中位數(shù)。這個(gè)例子比上面那個(gè)更明顯。首先我們將int劃分為2^16個(gè)區(qū)域，然后讀取數(shù)據(jù)統(tǒng)計(jì)落到各個(gè)區(qū)域里的數(shù)的個(gè)數(shù)，之后我們根據(jù)統(tǒng)計(jì)結(jié)果就可以判斷中位數(shù)落到那個(gè)區(qū)域，同時(shí)知道這個(gè)區(qū)域中的第幾大數(shù)剛好是中位數(shù)。然后第二次掃描我們只統(tǒng)計(jì)落在這個(gè)區(qū)域中的那些數(shù)就可以了。

實(shí) 際上，如果不是int是int64，我們可以經(jīng)過3次這樣的劃分即可降低到可以接受的程度。即可以先將int64分成2^24個(gè)區(qū)域，然后確定區(qū)域的第幾大數(shù)，在將該區(qū)域分成2^20個(gè)子區(qū)域，然后確定是子區(qū)域的第幾大數(shù)，然后子區(qū)域里的數(shù)的個(gè)數(shù)只有2^20，就可以直接利用direct addr table進(jìn)行統(tǒng)計(jì)了。6.數(shù)據(jù)庫索引適用范圍：大數(shù)據(jù)量的增刪改查基本原理及要點(diǎn)：利用數(shù)據(jù)的設(shè)計(jì)實(shí)現(xiàn)方法，對(duì)海量數(shù)據(jù)的增刪改查進(jìn)行處理。擴(kuò)展：問題實(shí)例： 7.倒排索引(Inverted index)適用范圍：搜索引擎，關(guān)鍵字查詢基本原理及要點(diǎn)：為何叫倒排索引？一種索引方法，被用來存儲(chǔ)在全文搜索下某個(gè)單詞在一個(gè)文檔或者一組文檔中的存儲(chǔ)位置的映射。

以英文為例，下面是要被索引的文本： T0 = “it is what it is” T1 = “what is it” T2 = “it is a banana” 我們就能得到下面的反向文件索引： “a”: {2} “banana”: {2} “is”: {0, 1, 2} “it”: {0, 1, 2} “what”: {0, 1}

檢索的條件“what”, “is” 和 “it” 將對(duì)應(yīng)集合的交集。正向索引開發(fā)出來用來存儲(chǔ)每個(gè)文檔的單詞的列表。正向索引的查詢往往滿足每個(gè)文檔有序頻繁的全文查詢和每個(gè)單詞在校驗(yàn)文檔中的驗(yàn)證這樣的查詢。在正向索引中，文檔占據(jù)了中心的位置，每個(gè)文檔指向了一個(gè)它所包含的索引項(xiàng)的序列。也就是說文檔指向了它包含的那些單詞，而反向索引則是單詞指向了包含它的文檔，很容易看到這個(gè)反向的關(guān)系。擴(kuò)展：問題實(shí)例：文檔檢索系統(tǒng)，查詢那些文件包含了某單詞，比如常見的學(xué)術(shù)論文的關(guān)鍵字搜索。8.外排序適用范圍：大數(shù)據(jù)的排序，去重基本原理及要點(diǎn)：外排序的歸并方法，置換選擇敗者樹原理，最優(yōu)歸并樹

擴(kuò)展：

問題實(shí)例： 1).有一個(gè)1G大小的一個(gè)文件，里面每一行是一個(gè)詞，詞的大小不超過16個(gè)字節(jié)，內(nèi)存限制大小是1M。返回頻數(shù)最高的100個(gè)詞。這個(gè)數(shù)據(jù)具有很明顯的特點(diǎn)，詞的大小為16個(gè)字節(jié)，但是內(nèi)存只有1m做hash有些不夠，所以可以用來排序。內(nèi)存可以當(dāng)輸入緩沖區(qū)使用。9.trie樹適用范圍：數(shù)據(jù)量大，重復(fù)多，但是數(shù)據(jù)種類小可以放入內(nèi)存基本原理及要點(diǎn)：實(shí)現(xiàn)方式，節(jié)點(diǎn)孩子的表示方式擴(kuò)展：壓縮實(shí)現(xiàn)。問題實(shí)例： 1).有10個(gè)文件，每個(gè)文件1G，每個(gè)文件的每一行都存放的是用戶的query，每個(gè)文件的query都可能重復(fù)。要你按照query的頻度排序。

2).1000萬字符串，其中有些是相同的(重復(fù)),需要把重復(fù)的全部去掉，保留沒有重復(fù)的字符串。請(qǐng)問怎么設(shè)計(jì)和實(shí)現(xiàn)？

3).尋找熱門查詢：查詢串的重復(fù)度比較高，雖然總數(shù)是1千萬，但如果除去重復(fù)后，不超過3百萬個(gè)，每個(gè)不超過255字節(jié)。10.分布式處理 mapreduce 適用范圍：數(shù)據(jù)量大，但是數(shù)據(jù)種類小可以放入內(nèi)存

基本原理及要點(diǎn)：將數(shù)據(jù)交給不同的機(jī)器去處理，數(shù)據(jù)劃分，結(jié)果歸約。

擴(kuò)展：

問題實(shí)例： 1).The canonical example application of MapReduce is a process to count the appearances of

each different word in a set of documents:

void map(String name, String document):

// name: document name

// document: document contents

for each word w in document: EmitIntermediate(w, 1);void reduce(String word, Iterator partialCounts): // key: a word // values: a list of aggregated partial counts int result = 0;for each v in partialCounts: result += ParseInt(v);Emit(result);Here, each document is split in words, and each word is counted initially with a “1” value by

the Map function, using the word as the result key.The framework puts together all the pairs

with the same key and feeds them to the same call to Reduce, thus this function just needs to

sum all of its input values to find the total appearances of that word.2).海量數(shù)據(jù)分布在100臺(tái)電腦中，想個(gè)辦法高效統(tǒng)計(jì)出這批數(shù)據(jù)的TOP10。

3).一共有N個(gè)機(jī)器，每個(gè)機(jī)器上有N個(gè)數(shù)。每個(gè)機(jī)器最多存O(N)個(gè)數(shù)并對(duì)它們操作。如何找到N^2個(gè)數(shù)的中數(shù)(median)？經(jīng)典問題分析上千萬or億數(shù)據(jù)（有重復(fù)），統(tǒng)計(jì)其中出現(xiàn)次數(shù)最多的前N個(gè)數(shù)據(jù),分兩種情況：可一次讀入內(nèi)存，不可一次讀入。

可用思路：trie樹+堆，數(shù)據(jù)庫索引，劃分子集分別統(tǒng)計(jì)，hash，分布式計(jì)算，近似統(tǒng)計(jì)，外排序

所謂的是否能一次讀入內(nèi)存，實(shí)際上應(yīng)該指去除重復(fù)后的數(shù)據(jù)量。如果去重后數(shù)據(jù)可以放入內(nèi)存，我們可以為數(shù)據(jù)建立字典，比如通過 map，hashmap，trie，然后直接進(jìn)行統(tǒng)計(jì)即可。當(dāng)然在更新每條數(shù)據(jù)的出現(xiàn)次數(shù)的時(shí)候，我們可以利用一個(gè)堆來維護(hù)出現(xiàn)次數(shù)最多的前N個(gè)數(shù)據(jù)，當(dāng) 然這樣導(dǎo)致維護(hù)次數(shù)增加，不如完全統(tǒng)計(jì)后在求前N大效率高。

如果數(shù)據(jù)無法放入內(nèi)存。一方面我們可以考慮上面的字典方法能否被改進(jìn)以適應(yīng)這種情形，可以做的改變就是將字典存放到硬盤上，而不是內(nèi)存，這可以參考數(shù)據(jù)庫的存儲(chǔ)方法。

當(dāng) 然還有更好的方法，就是可以采用分布式計(jì)算，基本上就是map-reduce過程，首先可以根據(jù)數(shù)據(jù)值或者把數(shù)據(jù)hash(md5)后的值，將數(shù)據(jù)按照范圍劃分到不同的機(jī)子，最好可以讓數(shù)據(jù)劃分后可以一次讀入內(nèi)存，這樣不同的機(jī)子負(fù)責(zé)處理各種的數(shù)值范圍，實(shí)際上就是map。得到結(jié)果后，各個(gè)機(jī)子只需拿出各自的出現(xiàn)次數(shù)最多的前N個(gè)數(shù)據(jù)，然后匯總，選出所有的數(shù)據(jù)中出現(xiàn)次數(shù)最多的前N個(gè)數(shù)據(jù)，這實(shí)際上就是reduce過程。實(shí)際上可能想直接將數(shù)據(jù)均分到不同的機(jī)子上進(jìn)行處理，這樣是無法得到正確的解的。因?yàn)橐粋€(gè)數(shù)據(jù)可能被均分到不同的機(jī)子上，而另一個(gè)則可能完全聚集到一個(gè)機(jī)子上，同時(shí)還可能存在具有相同數(shù)目的數(shù)據(jù)。比如我們要找出現(xiàn)次數(shù)最多的前100個(gè)，我們將1000萬的數(shù)據(jù)分布到10臺(tái)機(jī)器上，找到每臺(tái)出現(xiàn)次數(shù)最多的前 100個(gè)，歸并之后這樣不能保證找到真正的第100個(gè)，因?yàn)楸热绯霈F(xiàn)次數(shù)最多的第100個(gè)可能有1萬個(gè)，但是它被分到了10臺(tái)機(jī)子，這樣在每臺(tái)上只有1千個(gè)，假設(shè)這些機(jī)子排名在

1000個(gè)之前的那些都是單獨(dú)分布在一臺(tái)機(jī)子上的，比如有1001個(gè)，這樣本來具有1萬個(gè)的這個(gè)就會(huì)被淘汰，即使我們讓每臺(tái)機(jī)子選出出現(xiàn)次數(shù)最多的1000個(gè)再歸并，仍然會(huì)出錯(cuò)，因?yàn)榭赡艽嬖诖罅總€(gè)數(shù)為1001個(gè)的發(fā)生聚集。因此不能將數(shù)據(jù)隨便均分到不同機(jī)子上，而是要根據(jù)hash 后的值將它們映射到不同的機(jī)子上處理，讓不同的機(jī)器處理一個(gè)數(shù)值范圍。

而外排序的方法會(huì)消耗大量的IO，效率不會(huì)很高。而上面的分布式方法，也可以用于單機(jī)版本，也就是將總的數(shù)據(jù)根據(jù)值的范圍，劃分成多個(gè)不同的子文件，然后逐個(gè)處理。處理完畢之后再對(duì)這些單詞的及其出現(xiàn)頻率進(jìn)行一個(gè)歸并。實(shí)際上就可以利用一個(gè)外排序的歸并過程。

另外還可以考慮近似計(jì)算，也就是我們可以通過結(jié)合自然語言屬性，只將那些真正實(shí)際中出現(xiàn)最多的那些詞作為一個(gè)字典，使得這個(gè)規(guī)?？梢苑湃雰?nèi)存。

第四篇：處理公文標(biāo)準(zhǔn)化的方法

國家行政機(jī)關(guān)的公文，是行政機(jī)關(guān)在行政管理過程中所形成的具有法定約束力和規(guī)范體式的公務(wù)文書，是依法行政和進(jìn)行公務(wù)活動(dòng)的重要工具。公文辦理是辦公室的重要工作內(nèi)容，必須堅(jiān)持實(shí)事求是、精簡高效的原則，及時(shí)、準(zhǔn)確、安全地做好辦理、管理、整理、歸檔等一系列相互關(guān)聯(lián)、銜接有序的工作。

一、發(fā)文辦理的程序和要求發(fā)文辦理指以本機(jī)關(guān)名義制發(fā)公文的過程。

（1）草擬由文秘人員負(fù)責(zé)。草擬公文應(yīng)遵循六條基本原則：

一是符合國家的法律、法規(guī)及其它有關(guān)規(guī)定，如提出新的政策、規(guī)定等，要切實(shí)可行并加以說明；

二是情況確實(shí)，觀點(diǎn)明確，表達(dá)準(zhǔn)確，結(jié)構(gòu)嚴(yán)謹(jǐn)，條理清楚，直述不曲，字詞規(guī)范，標(biāo)點(diǎn)正確，篇幅力求簡短；

三是公文的文種應(yīng)當(dāng)根據(jù)行文目的、發(fā)文機(jī)關(guān)的職權(quán)與主送機(jī)關(guān)的行文關(guān)系確定；

四是擬制緊急公文，應(yīng)當(dāng)體現(xiàn)緊急的原因，并根據(jù)實(shí)際需要確定緊急程度；

五是人名、地名、數(shù)字、引文準(zhǔn)確；六是應(yīng)當(dāng)使用國家法定計(jì)量單位。

（2）簽發(fā)上行文，由主要負(fù)責(zé)人或者主持工作的負(fù)責(zé)人簽發(fā)；下行文或平行文，由主要負(fù)責(zé)人或者由主要負(fù)責(zé)人授權(quán)的其他負(fù)責(zé)人簽發(fā)。涉及需兩位以上領(lǐng)導(dǎo)簽發(fā)的，需要在會(huì)簽欄簽署意見。

（3）行文關(guān)系確定行文關(guān)系：各級(jí)各類行政機(jī)關(guān)應(yīng)根據(jù)各自的隸屬關(guān)系和職權(quán)范圍確定行文關(guān)系，除重大緊急情況外，一般不得越級(jí)請(qǐng)示和報(bào)告。

聯(lián)合行文：

一是同級(jí)政府、同級(jí)政府各部門可以聯(lián)合行文；

二是上級(jí)政府部門與下一級(jí)政府可以聯(lián)合行文；

三是政府與同級(jí)黨委和軍隊(duì)機(jī)關(guān)可以聯(lián)合行文；

四是政府部門與相應(yīng)的黨組織和軍隊(duì)機(jī)關(guān)可以聯(lián)合行文；

五是政府部門與同級(jí)人民團(tuán)體和具有行政職能的事業(yè)單位也可以聯(lián)合行文。

二、公文寫作要求。

國家行政機(jī)關(guān)公文的各要素分為眉首、主體、版記三個(gè)部分。置于公文首頁紅色反線以上的各要素統(tǒng)稱眉首；置于紅色反線（不含）以下至主題詞（不含）之間的各要素統(tǒng)稱主體；置于主題詞以下的各要素統(tǒng)稱版記?，F(xiàn)在我們按照順序從公文第一部分開始學(xué)習(xí)。

（1）眉首1．按照《國家行政機(jī)關(guān)公文處理辦法》規(guī)定，帶有密級(jí)的公文要編制份數(shù)序號(hào)。如考慮有的公文的特殊情況，不帶密級(jí)的公文也可編份數(shù)序號(hào)，以使準(zhǔn)確掌握公文的印制份數(shù)和分發(fā)范圍和對(duì)象。公文份數(shù)序號(hào)是將同一文稿印制若干份時(shí)每份公文的順序編號(hào)。如需標(biāo)識(shí)公文份數(shù)序號(hào)，用阿拉伯?dāng)?shù)碼頂格標(biāo)識(shí)在版心左上角第一行。序號(hào)編幾位，由發(fā)文機(jī)關(guān)根據(jù)公文的份數(shù)來決定，但至少不能少于兩位，即“1”編為“01”，不能只編1位。

2．秘級(jí)分為“絕密”、“機(jī)密”、“秘密”三種。需標(biāo)識(shí)秘密等級(jí)的公文，用3號(hào)黑體字，頂格標(biāo)識(shí)在版心右上角第1行，兩字之間空1字，如需同時(shí)標(biāo)識(shí)保密期限的，秘密等級(jí)和保密期限之間用“★”隔開，秘密等級(jí)的兩字間則不空1字距離，以使該字段不致過長。具體標(biāo)識(shí)方法是：“絕密★三個(gè)月”、“機(jī)密★一年”等。除特殊情況外，絕密級(jí)事項(xiàng)不超過30年，機(jī)密級(jí)事項(xiàng)不超過20年，秘密級(jí)事項(xiàng)不超過10年，保密期限在一年以上的以年計(jì)，在一年以內(nèi)的以月計(jì)，只有秘級(jí)而不標(biāo)期限的按保密30年看待。

3．緊急程度是對(duì)公文送達(dá)時(shí)限的要求，分為“特急”、“急件”兩種。需標(biāo)識(shí)緊急程度的公文，用3號(hào)黑體字，頂格標(biāo)識(shí)在版心右上角第1行，兩字之間空1字；如需同時(shí)標(biāo)識(shí)秘密等級(jí)與緊急程度，秘密等級(jí)頂格標(biāo)識(shí)在版心右上角第1行，緊急程度標(biāo)識(shí)在版心右上角第2行。也就是說，按照秘密等級(jí)在上、緊急程度在下的次序分兩行頂格標(biāo)注在版心右上角。凡電報(bào)都應(yīng)按規(guī)定在指定的位置，分別標(biāo)明“特提”、“特急”、“加急”、“平急”四種緊急程度。各種緊急程度的時(shí)間按以下原則把握：“特提”是要求一天之內(nèi)辦完的電報(bào)，“特急”是要求三天之內(nèi)辦完的電報(bào)，“加急”是要求五天之內(nèi)辦完的電報(bào)，“平急”是要求十天之內(nèi)辦完的電報(bào)；

4．文件標(biāo)識(shí)都應(yīng)加“文件”二字，用紅色標(biāo)識(shí)。平行文或下行文，發(fā)文機(jī)關(guān)標(biāo)識(shí)上邊緣至上頁邊為62mm；凡上報(bào)的公文，發(fā)文機(jī)關(guān)標(biāo)識(shí)上邊緣至版心上邊緣為80 mm，實(shí)際上就是發(fā)文機(jī)關(guān)標(biāo)識(shí)距上頁邊為天頭37 mm 80mm＝117 mm；由于發(fā)文機(jī)關(guān)的標(biāo)識(shí)是有執(zhí)法職能的國家行政機(jī)關(guān)的公文，為體現(xiàn)莊重，《國家行政機(jī)關(guān)公文格式》國家標(biāo)準(zhǔn)推薦使用小標(biāo)宋體字；按照《國家行政機(jī)關(guān)公文格式》國家標(biāo)準(zhǔn)的規(guī)定，發(fā)文機(jī)關(guān)標(biāo)識(shí)的字號(hào)以22 mm?5 mm為字限，現(xiàn)行“國務(wù)院文件”的字號(hào)即是22 mm?5 mm．以

此為高限，就是要求除“國務(wù)院文件”以外，其他各級(jí)行政機(jī)關(guān)的字號(hào)要小于“國務(wù)院文件”，以顯示國務(wù)院作為最高國家行政機(jī)關(guān)的地位，具體用多大字號(hào)，由行政機(jī)關(guān)根據(jù)機(jī)關(guān)名稱的字?jǐn)?shù)多少來定，一般要小于22 mm?5 mm以醒目美觀為原則；聯(lián)合行文時(shí)應(yīng)使主辦機(jī)關(guān)名稱排在前，其他機(jī)關(guān)自上至下排列，“文件”二字置于發(fā)文機(jī)關(guān)名稱右側(cè)，上下居中排布，如聯(lián)合行文機(jī)關(guān)過多，可能出現(xiàn)把正文擠出首頁的情況，如果首頁沒有正文，是極不嚴(yán)肅的。發(fā)文機(jī)關(guān)過多，只能擠發(fā)文機(jī)關(guān)，不能擠正文，擠的辦法是，可將發(fā)文機(jī)關(guān)標(biāo)識(shí)字號(hào)縮小，行距縮小，保證公文首頁留出發(fā)文字號(hào)、標(biāo)題、主送機(jī)關(guān)以及最少一行正文的位置。

5．各級(jí)行政機(jī)關(guān)的公文都要編發(fā)文字號(hào)。發(fā)文字號(hào)由發(fā)文機(jī)關(guān)代字、年份和發(fā)文序號(hào)組成。發(fā)文機(jī)關(guān)標(biāo)識(shí)下空2行，用3號(hào)仿宋體字，居中排布；年份、序號(hào)用阿拉伯?dāng)?shù)碼標(biāo)識(shí)，年份應(yīng)標(biāo)全稱，如“2000”，六角括號(hào)“〔〕”括入；序號(hào)不編虛位，即“1”不編為“001”，不加“第”字，如“金政發(fā)〔2006〕1號(hào)”。有的單位在發(fā)文機(jī)關(guān)代字后邊加“字”，如“請(qǐng)字〔鬃鬃〕號(hào)”“報(bào)字〔鬃鬃〕號(hào)”等虛字，從實(shí)用出發(fā)，也不加“字”字，盡量減少發(fā)文字號(hào)的字?jǐn)?shù)；發(fā)文字號(hào)之下1—4 mm處印一條與版心等寬的紅色反線；

6．簽發(fā)人標(biāo)識(shí)僅是在上報(bào)的公文中才出現(xiàn)。上報(bào)的公文需要標(biāo)識(shí)簽發(fā)人姓名，平行排列于發(fā)文字號(hào)右側(cè)。發(fā)文字號(hào)居左空1字（不頂格），簽發(fā)人姓名居右空1字，也就是和發(fā)文字號(hào)同處在一行，這樣排列對(duì)稱、美觀?！昂灠l(fā)人”用3號(hào)仿宋體字，簽發(fā)人后標(biāo)全角冒號(hào)，冒號(hào)后用3號(hào)楷體字標(biāo)識(shí)簽發(fā)人姓名；如有多個(gè)簽發(fā)人，主辦單位簽發(fā)人姓名置于第1行，其他簽發(fā)人姓名從第2行起在主辦單位簽發(fā)人姓名之下，按發(fā)文機(jī)關(guān)順序依次順排，下移紅色反線，應(yīng)使發(fā)文字號(hào)與最后一個(gè)簽發(fā)人姓名處在同一行并使紅色反線與之的距離為1—4mm．

1．公文標(biāo)題應(yīng)當(dāng)準(zhǔn)確簡要地概括公文的主要內(nèi)容并標(biāo)明公文種類，除上報(bào)公文外，一般應(yīng)當(dāng)標(biāo)明發(fā)文機(jī)關(guān)；公文標(biāo)題中除法規(guī)、規(guī)章或轉(zhuǎn)發(fā)的文件標(biāo)題名稱加書名號(hào)外，一般不用標(biāo)點(diǎn)符號(hào)，不能引用文件字號(hào)代替標(biāo)題內(nèi)容；公文標(biāo)題在紅色反線之下空2行標(biāo)識(shí)，用2號(hào)小標(biāo)宋體字，可分一行或多行居中排布；回行時(shí)要注意做到詞意完整，排列對(duì)稱，間距恰當(dāng)。

2．主送機(jī)關(guān)在標(biāo)題下空1行，用3號(hào)仿宋體字頂格標(biāo)識(shí)，回行時(shí)仍頂格；最后一個(gè)主送機(jī)關(guān)名稱后標(biāo)全角冒號(hào)。如主送機(jī)關(guān)過多使公文首頁不能顯示正文時(shí)，應(yīng)將主送機(jī)關(guān)移至版記中的主題詞之下、抄送之上，標(biāo)識(shí)方法同抄送。如果僅差一行就可以不擠出正文時(shí)，主送機(jī)關(guān)在標(biāo)題下也可以不空1行。標(biāo)識(shí)主送機(jī)關(guān)時(shí)應(yīng)標(biāo)明主送機(jī)關(guān)的全稱、規(guī)范化簡稱或同類型機(jī)關(guān)的統(tǒng)稱。

3．正文的標(biāo)識(shí)方法同寫信一樣，在主送機(jī)關(guān)名稱之下第1行開始標(biāo)注，每起一自然段均要左空2字，回行頂格。數(shù)字、年份用阿拉伯?dāng)?shù)碼標(biāo)識(shí)的不能回行；

4．正文用3號(hào)仿宋體字，文中如有小標(biāo)題可用3號(hào)小標(biāo)宋體或黑體字。

5．一般每頁排22行，每行排28個(gè)字；當(dāng)公文排版后所?？瞻滋幉荒苋菹掠≌挛恢脮r(shí)，應(yīng)采取調(diào)整行距、字距的辦法加以解決，務(wù)使印章與正文末尾同處在一頁上，不得采取標(biāo)識(shí)“（此頁無正文）”的方法解決。

6．附件。公文如有附件，在正文的最后一行下邊空1行左空2字，用3號(hào)仿宋體字標(biāo)識(shí)“附件”后標(biāo)全角冒號(hào)，冒號(hào)后邊標(biāo)附件名稱。附件如有2件以上的，要用阿拉伯?dāng)?shù)碼標(biāo)識(shí)序號(hào)，如“附件：1．××××”。附件名稱后邊不加標(biāo)點(diǎn)符號(hào)。附件要與公文正文一起裝訂，并在附件左上角第1行頂格標(biāo)識(shí)“附件”，有序號(hào)時(shí)標(biāo)識(shí)序號(hào)，附件的序號(hào)和名稱前后標(biāo)識(shí)應(yīng)一致。如附件與公文正文不能一起裝訂，應(yīng)在附件左上角第一行頂格標(biāo)識(shí)公文的發(fā)文字號(hào)，并在其后標(biāo)識(shí)附件（有序號(hào)的帶序號(hào)）。

7．成文日期是公文生效的時(shí)間，是公文的一項(xiàng)重要內(nèi)容。為了加強(qiáng)其準(zhǔn)確性，成文日期一律要用漢字書寫，不能用阿拉伯?dāng)?shù)碼字與漢字混用，年、月、日要齊全。“零”要寫成“○”，“壹”要寫成“一”。單一機(jī)關(guān)制發(fā)的公文，成文日期右空4字；兩個(gè)機(jī)關(guān)聯(lián)合制發(fā)的公文，應(yīng)將成文日期拉開，左右各空7字；三個(gè)機(jī)關(guān)聯(lián)合發(fā)的公文，在最后一排印章之下右空2字標(biāo)識(shí)；公文的成文日期以負(fù)責(zé)人簽發(fā)的日期為準(zhǔn)，聯(lián)合行文以最后簽發(fā)機(jī)關(guān)負(fù)責(zé)人的簽發(fā)日期為準(zhǔn)。經(jīng)會(huì)議批準(zhǔn)的文件，以會(huì)議通過的日期為準(zhǔn)。電報(bào)以發(fā)出日期為準(zhǔn)。

8．公文如有附注，用3號(hào)仿宋體字，在成文日期下1行居左空2字加圓括號(hào)標(biāo)識(shí)。附注一般是對(duì)公文的發(fā)放范圍，使用時(shí)需注意的事項(xiàng)加以說明，如“（此件發(fā)至縣團(tuán)級(jí)）”、“（此件可登報(bào)）”等，不是對(duì)公文內(nèi)容作出解釋或注釋。

9．用印。單一機(jī)關(guān)行文：單一機(jī)關(guān)制發(fā)的公文在落款處不署發(fā)文機(jī)關(guān)名稱，只標(biāo)識(shí)成文日期，加蓋印章應(yīng)上距正文1行字之內(nèi)，端正、居右下壓成文時(shí)間，做到上不壓正文，下要騎年蓋月。當(dāng)印章下弧無文字時(shí)，采用下套方式，即僅以下弧壓在成文日期上；當(dāng)印章下弧有文字時(shí)，采用中套方式，即印章中心線壓在成文日期上，印章用紅色。兩個(gè)單位聯(lián)合行文：當(dāng)聯(lián)合行文需蓋兩個(gè)印章時(shí)，落款處不署發(fā)文機(jī)關(guān)名稱，主辦機(jī)關(guān)印章在前，兩個(gè)印章橫排均壓成文日期，兩印章間互不相交或相切，相距不超3 mm．三個(gè)或三個(gè)以上單位聯(lián)合行文：落款處應(yīng)將各發(fā)文機(jī)關(guān)名稱（可用簡稱）按加蓋印章順序排列署在相應(yīng)位置，再把印章套印在其上。主辦機(jī)關(guān)印章在前，每排最多排3個(gè)印章，兩端不能超出版心；最后一排如余一個(gè)或兩個(gè)印章，均居中排布；印章上下、左右之間不能相交或相切。

版記

1．“主題詞”用3號(hào)黑體字，居左頂格標(biāo)識(shí)，后標(biāo)全角冒號(hào)：詞目用3號(hào)小標(biāo)宋體字，詞目之間空1字，不能用標(biāo)點(diǎn)符號(hào)號(hào)。主題詞按照《國務(wù)院公文主題詞表》規(guī)定，依次以類別詞、類屬詞和文種三部分標(biāo)注，一般不超過5個(gè)，不少于3個(gè)。一些特殊內(nèi)容的公文沒有類屬詞，需要辦文的部門自己編寫。凡是自己編寫的類屬詞，必須在詞的后邊加一個(gè)三角符號(hào)，以說明這是自己編寫的類屬詞；主題詞下邊印一條黑色反線與抄送機(jī)關(guān)隔開。

2．公文如有抄送機(jī)關(guān)，在主題詞下居左空1字，用3號(hào)仿宋體字標(biāo)識(shí)“抄送”，后標(biāo)全角冒號(hào)；抄送機(jī)關(guān)回行時(shí)與上一行的抄送機(jī)關(guān)對(duì)齊；抄送機(jī)關(guān)間用逗號(hào)隔開，在最后一個(gè)抄送機(jī)關(guān)后標(biāo)句號(hào)；按照實(shí)際情況，有的公文還有抄報(bào)機(jī)關(guān)或領(lǐng)導(dǎo)，出現(xiàn)這種情況，可按“抄報(bào)”、“抄送”的順序自上而下標(biāo)識(shí)。在抄送機(jī)關(guān)下一行右空一字標(biāo)識(shí)“（共印××份）”，不排虛位數(shù)。

3．印發(fā)機(jī)關(guān)的標(biāo)識(shí)位于抄送機(jī)關(guān)之下左空1字，用3號(hào)仿宋體字。印發(fā)日期以公文繕印日期為準(zhǔn)，右空1字，用阿拉伯?dāng)?shù)碼標(biāo)識(shí)，和印發(fā)機(jī)關(guān)同處一行。

4．為了對(duì)公文質(zhì)量負(fù)責(zé)，也便于存檔查閱，公文必須標(biāo)識(shí)打字人和校對(duì)人。標(biāo)識(shí)的位置：“打字”用3號(hào)仿宋體字左空1字，標(biāo)識(shí)在印發(fā)機(jī)關(guān)下1行，“打字”后邊加全角冒號(hào)，全角冒號(hào)后邊署錄入人姓名：“校對(duì)”右空一字標(biāo)識(shí)在印發(fā)日期下與打字人處于一行上。“校對(duì)”后邊加全角冒號(hào)，全角冒號(hào)后邊署校對(duì)人姓名。版記中各要素之下（除“校對(duì)”外）均加一條反線，寬度同版心。這樣做，一是顯示各要素之間的區(qū)別，二是顯得美觀；版記應(yīng)置于公文最后一面（封四），版記的最后一個(gè)要素置于最后一行。也就是說版記一定要放在公文的最后一面的最下面位置。如果公文主體之后的空白容不下版記的位置，可以另加一頁在最下面標(biāo)識(shí)版記，前面完全空白也沒有關(guān)系。

三、公文裝訂。

版面1．公文用紙。公文用紙采用GB/T148中規(guī)定的A4型紙，其成品幅面尺寸為：210mm×297 mm，尺寸的允許偏差為±3 mm；一般使用紙張定量為60g/M2—80 g/M2的膠版印刷紙或復(fù)印紙。紙張白度為85%—90%，橫向耐折度≥15次，不透明度≥85%，PH值為7．5—9．5．

2．公文頁邊與版心尺寸：天頭（上白邊）為37mm±1mm；訂口（左白邊）為28 mm±1mm；版心尺寸為156 mm×225 mm（不含頁碼）。

3．公文的頁碼用4號(hào)半角宋體阿拉伯?dāng)?shù)碼標(biāo)識(shí)，置于版心下邊緣之下一行，數(shù)碼左右各致一條4號(hào)一字線，一字線距版心下邊緣7mm．單頁碼右空一字，雙頁碼左空一字。空白頁和空白頁以后的頁不標(biāo)識(shí)頁碼。公文如需附表，對(duì)橫排A4紙型表格，應(yīng)將頁碼放在橫表的左側(cè)，單頁碼置于表的左下角，雙頁碼置于表的左上角，單頁碼表頭在訂口一邊，雙頁碼表頭在切口一邊。公文如需附A3紙型表格，且當(dāng)最后一頁為A3紙型表格時(shí)，封

三、封四應(yīng)為空白，將A3紙型表格貼在封三前，不應(yīng)貼在文件最后一頁（封四）上。

4．公文制版：版面干凈無底灰，字跡清楚無斷劃，尺寸標(biāo)準(zhǔn)、版心不斜，誤差不超過1 mm．

5．公文印刷：雙面印刷。頁碼套正，兩面誤差不得超2 mm．黑色油墨應(yīng)達(dá)到色譜所標(biāo)BL100%，紅色油墨應(yīng)達(dá)到色譜所標(biāo)Y80%、M80%．印品著墨實(shí)、均勻，字面不花、不白、不斷劃。

裝訂公文應(yīng)左側(cè)裝訂，不掉頁；包括公文的封面與書芯不脫落，后背平整、不空。兩頁頁碼之間誤差不超過4 mm．騎馬訂或平訂的訂位為兩釘釘鋸?fù)庥喲劬鄷旧舷赂?/4處，允許誤差±4 mm．平訂釘鋸與書脊間的距離為3 mm—5 mm；無壞釘、漏釘、重釘，釘腳平伏牢固；后背不可散頁明訂。裁切成品尺寸誤差±1mm，四角成90度，無毛茬或缺損。

四、公文種類。

主要有13種：命令、決定、公告、通告、通知、通報(bào)、議案、報(bào)告、請(qǐng)示、批復(fù)、意見、函、會(huì)議紀(jì)要。

第五篇：數(shù)據(jù)統(tǒng)計(jì)分析方法

數(shù)據(jù)統(tǒng)計(jì)分析方法

排列圖：

排列圖是由兩個(gè)縱坐標(biāo)，一個(gè)橫坐標(biāo)，若干個(gè)按高低順序依次排列的長方形和一條累計(jì)百分比折線所組的，為尋找主要問題或主要原因所使用的圖。

排列圖有以下優(yōu)點(diǎn)：直觀，明了－－全世界品質(zhì)管理界通用用數(shù)據(jù)說明問題－－說服力強(qiáng)用途廣泛：品質(zhì)管理 / 人員管理 / 治安管理排列圖的作圖步驟收集數(shù)據(jù)(某時(shí)間)作缺陷項(xiàng)目統(tǒng)計(jì)表繪制排列圖畫橫坐標(biāo)(標(biāo)出項(xiàng)目的等分刻度)畫左縱坐標(biāo)(表示頻數(shù))畫直方圖形(按每項(xiàng)的頻數(shù)畫)畫右縱坐標(biāo)(表示累計(jì)百分比)定點(diǎn)表數(shù)。

因果圖何謂因果圖：

對(duì)于結(jié)果（特性）與原因（要因）間或所期望之效果（特性）與對(duì)策的關(guān)系，以箭頭連接，詳細(xì)分析原因或?qū)Σ叩囊环N圖形稱為因果圖。因果圖為日本品管權(quán)威學(xué)者石川馨博士于1952年所發(fā)明，故又稱為石川圖，又因其形狀似魚骨，故也可稱其為魚骨圖，或特性要因圖作因果圖的原則采取由原因到結(jié)果的格式通常從‘人，機(jī)，料，法，環(huán)’這五方面找原因‘4M1E’, Man, Machine, Material, Method, Environment通常分三個(gè)層次：主干線、支干線、分支線盡可能把所有的原因全部找出來列上對(duì)少數(shù)的主要原因標(biāo)上特殊的標(biāo)志寫上繪制的日期、作者、有關(guān)說明等作因果圖應(yīng)注意的事項(xiàng)問題(結(jié)果)應(yīng)單

一、具體，表述規(guī)范最后細(xì)分出來的因應(yīng)是具體的，以便采取措施；在尋找和分析原因時(shí)，要集思廣益，力求準(zhǔn)確和無遺漏可召開諸葛亮?xí)捎妙^腦風(fēng)暴法層次要清，因果關(guān)系不可顛倒原因歸類正確作因果圖應(yīng)注意的事項(xiàng)畫法按從左至右的貫例執(zhí)行－－規(guī)范化在作因果圖前，可先從排列圖中找出主要問題，然后針對(duì)主要問題，召集相關(guān)人員進(jìn)行討論，力求盡可能找出產(chǎn)生問題的原因，通過分析，確立主要原因。因果圖在今后可不斷進(jìn)行修改，逐漸完善，反復(fù)使用。

直方圖：

是通過對(duì)數(shù)據(jù)的加工整理，從而分析和掌握品質(zhì)數(shù)據(jù)的分布狀況和估算工序不合格率的一種方法。直方圖的作法作直方圖的三大步驟作頻數(shù)表畫直方圖進(jìn)行有關(guān)計(jì)算作直方圖的步驟(例3)1.搜集數(shù)據(jù)作直方圖的步驟計(jì)算極差(Range),上表中最大值Xmax=48;最小值Xmin=1;R＝Xmax-Xmin=48-1=47適當(dāng)分組(k)在本例中，取k=10確定組距(h)組距用字母 h 表示：h=R/k=47/10=4.7, Y約等于5。確定各組界限－－組的邊界值單位取最小測量單位的一半。作直方圖的步驟本例第一組的下限為：第一組的上限值為下界限值加上組距第二組的下界值為上界限值，第一組的上界值加上組距就是第二組上界限值，照此類推，定出各組的邊界。編制頻數(shù)分布表

分層法

分層的目的是把雜亂無章和錯(cuò)綜復(fù)雜的數(shù)據(jù)，按照不同的目的、性質(zhì)、來源等加以分類整理，使之系統(tǒng)化、條理化，能更確切地反映數(shù)據(jù)所代表的客觀事實(shí)，便于查明產(chǎn)品質(zhì)量波動(dòng)的實(shí)質(zhì)性原因和變化規(guī)律，以便抓住主要矛盾，找到主要影響因素，從而對(duì)癥下藥，采取相應(yīng)的措施。

分層的原則是使同一層內(nèi)的數(shù)據(jù)波動(dòng)盡可能小、而層與層之間的差別盡可能大。

為了達(dá)到目的，通常按操作者、機(jī)器設(shè)備、材料、工藝方法、測量手段、環(huán)境條件和時(shí)間等標(biāo)志對(duì)數(shù)據(jù)進(jìn)行分層。

調(diào)查表

調(diào)查表也叫檢查表或核對(duì)表，它是一種為了便于搜集數(shù)據(jù)而使用簡單記號(hào)并予統(tǒng)計(jì)整理，并作進(jìn)一步分析或作為核對(duì)、檢查之用而事先設(shè)計(jì)的一種表格或圖表

控制圖

控制圖是一種帶有控制界限的反映過程質(zhì)量的記錄圖形，圖的縱軸代表産品質(zhì)量特性值(或由質(zhì)量特性值獲得的某種統(tǒng)計(jì)量)；橫軸代表按時(shí)間順序(自左至右)抽取的各個(gè)樣本號(hào)；圖內(nèi)有中心線(記爲(wèi)CL)、上控制界限(記爲(wèi)UCL)和下控制界限(記爲(wèi)LCL)三條線(見下圖)

欧美色欧美亚洲高清在线观看,国产特黄特色a级在线视频,国产一区视频一区欧美,亚洲成a 人在线观看中文

數(shù)據(jù)標(biāo)準(zhǔn)化處理方法

第一篇：數(shù)據(jù)標(biāo)準(zhǔn)化處理方法

第二篇：數(shù)據(jù)標(biāo)準(zhǔn)化處理方法

第三篇：大數(shù)據(jù)量,海量數(shù)據(jù) 處理方法總結(jié)

第四篇：處理公文標(biāo)準(zhǔn)化的方法

第五篇：數(shù)據(jù)統(tǒng)計(jì)分析方法

相關(guān)范文推薦

數(shù)據(jù)分析基礎(chǔ)方法

大數(shù)據(jù)的統(tǒng)計(jì)分析方法

地基處理方法匯總

溶洞處理方法（★）

常用地基處理方法

盤點(diǎn)處理方法

溶洞處理方法

地基處理方法（精選合集）