第一篇:數(shù)據(jù)標(biāo)準(zhǔn)化處理方法
數(shù)據(jù)標(biāo)準(zhǔn)化處理方法
在數(shù)據(jù)分析之前,我們通常需要先將數(shù)據(jù)標(biāo)準(zhǔn)化(normalization),利用標(biāo)準(zhǔn)化后的數(shù)據(jù)進行數(shù)據(jù)分析。數(shù)據(jù)標(biāo)準(zhǔn)化也就是統(tǒng)計數(shù)據(jù)的指數(shù)化。數(shù)據(jù)標(biāo)準(zhǔn)化處理主要包括數(shù)據(jù)同趨化處理和無量綱化處理兩個方面。數(shù)據(jù)同趨化處理主要解決不同性質(zhì)數(shù)據(jù)問題,對不同性質(zhì)指標(biāo)直接加總不能正確反映不同作用力的綜合結(jié)果,須先考慮改變逆指標(biāo)數(shù)據(jù)性質(zhì),使所有指標(biāo)對測評方案的作用力同趨化,再加總才能得出正確結(jié)果。數(shù)據(jù)無量綱化處理主要解決數(shù)據(jù)的可比性。數(shù)據(jù)標(biāo)準(zhǔn)化的方法有很多種,常用的有“最小—最大標(biāo)準(zhǔn)化”、“Z-score標(biāo)準(zhǔn)化”和“按小數(shù)定標(biāo)標(biāo)準(zhǔn)化”等。經(jīng)過上述標(biāo)準(zhǔn)化處理,原始數(shù)據(jù)均轉(zhuǎn)換為無量綱化指標(biāo)測評值,即各指標(biāo)值都處于同一個數(shù)量級別上,可以進行綜合測評分析。
一、Min-max 標(biāo)準(zhǔn)化
min-max標(biāo)準(zhǔn)化方法是對原始數(shù)據(jù)進行線性變換。設(shè)minA和maxA分別為屬性A的最小值和最大值,將A的一個原始值x通過min-max標(biāo)準(zhǔn)化映射成在區(qū)間[0,1]中的值x',其公式為:
新數(shù)據(jù)=(原數(shù)據(jù)-極小值)/(極大值-極小值)
二、z-score 標(biāo)準(zhǔn)化
這種方法基于原始數(shù)據(jù)的均值(mean)和標(biāo)準(zhǔn)差(standard deviation)進行數(shù)據(jù)的標(biāo)準(zhǔn)化。將A的原始值x使用z-score標(biāo)準(zhǔn)化到x'。
z-score標(biāo)準(zhǔn)化方法適用于屬性A的最大值和最小值未知的情況,或有超出取值范圍的離群數(shù)據(jù)的情況。
新數(shù)據(jù)=(原數(shù)據(jù)-均值)/標(biāo)準(zhǔn)差
spss默認的標(biāo)準(zhǔn)化方法就是z-score標(biāo)準(zhǔn)化。
用Excel進行z-score標(biāo)準(zhǔn)化的方法:在Excel中沒有現(xiàn)成的函數(shù),需要自己分步計算,其實標(biāo)準(zhǔn)化的公式很簡單。步驟如下:
1.求出各變量(指標(biāo))的算術(shù)平均值(數(shù)學(xué)期望)xi和標(biāo)準(zhǔn)差si ;
2.進行標(biāo)準(zhǔn)化處理:
zij=(xij-xi)/si
其中:zij為標(biāo)準(zhǔn)化后的變量值;xij為實際變量值。
3.將逆指標(biāo)前的正負號對調(diào)。
標(biāo)準(zhǔn)化后的變量值圍繞0上下波動,大于0說明高于平均水平,小于0說明低于平均水平。
三、Decimal scaling小數(shù)定標(biāo)標(biāo)準(zhǔn)化
這種方法通過移動數(shù)據(jù)的小數(shù)點位置來進行標(biāo)準(zhǔn)化。小數(shù)點移動多少位取決于屬性A的取值中的最大絕對值。將屬性A的原始值x使用decimal scaling標(biāo)準(zhǔn)化到x'的計算方法是:
x'=x/(10*j)
其中,j是滿足條件的最小整數(shù)。
例如 假定A的值由-986到917,A的最大絕對值為986,為使用小數(shù)定標(biāo)標(biāo)準(zhǔn)化,我們用1000(即,j=3)除以每個值,這樣,-986被規(guī)范化為-0.986。
注意,標(biāo)準(zhǔn)化會對原始數(shù)據(jù)做出改變,因此需要保存所使用的標(biāo)準(zhǔn)化方法的參數(shù),以便對后續(xù)的數(shù)據(jù)進行統(tǒng)一的標(biāo)準(zhǔn)化。
除了上面提到的數(shù)據(jù)標(biāo)準(zhǔn)化外還有對數(shù)Logistic模式、模糊量化模式等等:
對數(shù)Logistic模式:新數(shù)據(jù)=1/(1+e^(-原數(shù)據(jù)))
模糊量化模式:新數(shù)據(jù)=1/2+1/2sin[派3.1415/(極大值-極小值)*(X-(極大值-極小值)/2)] X為原數(shù)據(jù)
第二篇:數(shù)據(jù)標(biāo)準(zhǔn)化處理方法
數(shù)據(jù)標(biāo)準(zhǔn)化處理方法
2011-11-04 10:36:44 來源: 作者: 【大中小】 瀏覽:2749次
統(tǒng)計上綜合經(jīng)濟實力測評經(jīng)常用到數(shù)據(jù)的標(biāo)準(zhǔn)化處理。那么什么是數(shù)據(jù)標(biāo)準(zhǔn)化處理? 數(shù)據(jù)標(biāo)準(zhǔn)化也就是統(tǒng)計數(shù)據(jù)的指數(shù)化。數(shù)據(jù)標(biāo)準(zhǔn)化處理主要包括數(shù)據(jù)同趨化處理和無量綱化處理兩個方面。數(shù)據(jù)同趨化處理主要解決不同性質(zhì)數(shù)據(jù)問題,對不同性質(zhì)指標(biāo)直接加總不能正確反映不同作用力的綜合結(jié)果,須先考慮改變逆指標(biāo)數(shù)據(jù)性質(zhì),使所有指標(biāo)對測評方案的作用力同趨化,再加總才能得出正確結(jié)果。數(shù)據(jù)無量綱化處理主要解決數(shù)據(jù)的可比性,在此我們采用指數(shù)化處理方法。指數(shù)化處理以指標(biāo)的最大值和最小值的差距進行數(shù)學(xué)計算,其結(jié)果介于0-1之間。具體計算公式如下:zi=xi-xmin/xmax-xmin其中:zi為指標(biāo)的標(biāo)準(zhǔn)分數(shù)xi為某鎮(zhèn)某指標(biāo)的指標(biāo)值xmax為全部鎮(zhèn)中某指標(biāo)的最大值xmin為全部鎮(zhèn)中某指標(biāo)的最小值經(jīng)過上述標(biāo)準(zhǔn)化處理,原始數(shù)據(jù)均轉(zhuǎn)換為無量綱化指標(biāo)測評值,即各指標(biāo)值都處于同一個數(shù)量級別上,可以進行綜合測評分析。
第三篇:大數(shù)據(jù)量,海量數(shù)據(jù) 處理方法總結(jié)
大數(shù)據(jù)量,海量數(shù)據(jù) 處理方法總結(jié) 大數(shù)據(jù)量的問題是很多面試筆試中經(jīng)常出現(xiàn)的問題,比如baidu google 騰訊 這樣的一些涉及到海量數(shù)據(jù)的公司經(jīng)常會問到。
下面的方法是我對海量數(shù)據(jù)的處理方法進行了一個一般性的總結(jié),當(dāng)然這些方法可能并不能完全覆蓋所有的問題,但是這樣的一些方法也基本可以處理絕大多數(shù)遇到的問題。下面的一些問題基本直接來源于公司的面試筆試題目,方法不一定最優(yōu),如果你有更好的處理方法,歡迎與我討論。1.Bloom filter 適用范圍:可以用來實現(xiàn)數(shù)據(jù)字典,進行數(shù)據(jù)的判重,或者集合求交集
基本原理及要點:
對 于原理來說很簡單,位數(shù)組+k個獨立hash函數(shù)。將hash函數(shù)對應(yīng)的值的位數(shù)組置1,查找時如果發(fā)現(xiàn)所有hash函數(shù)對應(yīng)位都是1說明存在,很明顯這 個過程并不保證查找的結(jié)果是100%正確的。同時也不支持刪除一個已經(jīng)插入的關(guān)鍵字,因為該關(guān)鍵字對應(yīng)的位會牽動到其他的關(guān)鍵字。所以一個簡單的改進就是 counting Bloom filter,用一個counter數(shù)組代替位數(shù)組,就可以支持刪除了。還有一個比較重要的問題,如 何根據(jù)輸入元素個數(shù)n,確定位數(shù)組m的大小及hash函數(shù)個數(shù)。當(dāng)hash函數(shù)個數(shù)k=(ln2)*(m/n)時錯誤率最小。在錯誤率不大于E的情況 下,m至少要等于n*lg(1/E)才能表示任意n個元素的集合。但m還應(yīng)該更大些,因為還要保證bit數(shù)組里至少一半為0,則m應(yīng) 該>=nlg(1/E)*lge 大概就是nlg(1/E)1.44倍(lg表示以2為底的對數(shù))。舉個例子我們假設(shè)錯誤率為0.01,則此時m應(yīng)大概是n的13倍。這樣k大概是8個。
注意這里m與n的單位不同,m是bit為單位,而n則是以元素個數(shù)為單位(準(zhǔn)確的說是不同元素的個數(shù))。通常單個元素的長度都是有很多bit的。所以使用bloom filter內(nèi)存上通常都是節(jié)省的。
擴展:
Bloom filter將集合中的元素映射到位數(shù)組中,用k(k為哈希函數(shù)個數(shù))個映射位是否全1表示元素在不在這個集合中。Counting bloom filter(CBF)將位數(shù)組中的每一位擴展為一個counter,從而支持了元素的刪除操作。Spectral Bloom Filter(SBF)將其與集合元素的出現(xiàn)次數(shù)關(guān)聯(lián)。SBF采用counter中的最小值來近似表示元素的出現(xiàn)頻率。問題實例:給你A,B兩個文件,各存放50億條URL,每條URL占用64字節(jié),內(nèi)存限制是4G,讓你找出A,B文件共同的URL。如果是三個乃至n個文件呢? 根 據(jù)這個問題我們來計算下內(nèi)存的占用,4G=2^32大概是40億*8大概是340億,n=50億,如果
按出錯率0.01算需要的大概是650億個bit?,F(xiàn)在可用的是340億,相差并不多,這樣可能會使出錯率上升些。另外如果這些urlip是一一對應(yīng)的,就可以轉(zhuǎn)換成ip,則大大簡單了。2.Hashing 適用范圍:快速查找,刪除的基本數(shù)據(jù)結(jié)構(gòu),通常需要總數(shù)據(jù)量可以放入內(nèi)存
基本原理及要點:
hash函數(shù)選擇,針對字符串,整數(shù),排列,具體相應(yīng)的hash方法。
碰撞處理,一種是open hashing,也稱為拉鏈法;另一種就是closed hashing,也稱開地址法,opened addressing。
擴展:
d-left hashing中的d是多個的意思,我們先簡化這個問題,看一看2-left hashing。2-left hashing指的是將一個哈希表分成長度相等的兩半,分別叫做T1和T2,給T1和T2分別配備一個哈希函數(shù),h1和h2。在存儲一個新的key時,同 時用兩個哈希函數(shù)進行計算,得出兩個地址h1[key]和h2[key]。這時需要檢查T1中的h1[key]位置和T2中的h2[key]位置,哪一個 位置已經(jīng)存儲的(有碰撞的)key比較多,然后將新key存儲在負載少的位置。如果兩邊一樣多,比如兩個位置都為空或者都存儲了一個key,就把新key 存儲在左邊的T1子表中,2-left也由此而來。在查找一個key時,必須進行兩次hash,同時查找兩個位置。問題實例: 1).海量日志數(shù)據(jù),提取出某日訪問百度次數(shù)最多的那個IP。
IP的數(shù)目還是有限的,最多2^32個,所以可以考慮使用hash將ip直接存入內(nèi)存,然后進行統(tǒng)計。3.bit-map 適用范圍:可進行數(shù)據(jù)的快速查找,判重,刪除,一般來說數(shù)據(jù)范圍是int的10倍以下 基本原理及要點:使用bit數(shù)組來表示某些元素是否存在,比如8位電話號碼
擴展:bloom filter可以看做是對bit-map的擴展 問題實例: 1)已知某個文件內(nèi)包含一些電話號碼,每個號碼為8位數(shù)字,統(tǒng)計不同號碼的個數(shù)。
8位最多99 999 999,大概需要99m個bit,大概10幾m字節(jié)的內(nèi)存即可。
2)2.5億個整數(shù)中找出不重復(fù)的整數(shù)的個數(shù),內(nèi)存空間不足以容納這2.5億個整數(shù)。將bit-map擴展一下,用2bit表示一個數(shù)即可,0表示未出現(xiàn),1表示出現(xiàn)一次,2表示出現(xiàn)2次及以上?;蛘呶覀儾挥?bit來進行表示,我們用兩個bit-map即可模擬實現(xiàn)這個2bit-map。
4.堆 適用范圍:海量數(shù)據(jù)前n大,并且n比較小,堆可以放入內(nèi)存 基 本原理及要點:最大堆求前n小,最小堆求前n大。方法,比如求前n小,我們比較當(dāng)前元素與最大堆里的最大元素,如果它小于最大元素,則應(yīng)該替換那個最大元 素。這樣最后得到的n個元素就是最小的n個。適合大數(shù)據(jù)量,求前n小,n的大小比較小的情況,這樣可以掃描一遍即可得到所有的前n元素,效率很高。
擴展:雙堆,一個最大堆與一個最小堆結(jié)合,可以用來維護中位數(shù)。問題實例: 1)100w個數(shù)中找最大的前100個數(shù)。
用一個100個元素大小的最小堆即可。
5.雙層桶劃分 適用范圍:第k大,中位數(shù),不重復(fù)或重復(fù)的數(shù)字
基本原理及要點:因為元素范圍很大,不能利用直接尋址表,所以通過多次劃分,逐步確定范圍,然后最后在一個可以接受的范圍內(nèi)進行??梢酝ㄟ^多次縮小,雙層只是一個例子。擴展: 問題實例: 1).2.5億個整數(shù)中找出不重復(fù)的整數(shù)的個數(shù),內(nèi)存空間不足以容納這2.5億個整數(shù)。有點像鴿巢原理,整數(shù)個數(shù)為2^32,也就是,我們可以將這2^32個數(shù),劃分為2^8個區(qū)域(比如用單個文件代表一個區(qū)域),然后將數(shù)據(jù)分離到不同的區(qū)域,然后不同的區(qū)域在利用bitmap就可以直接解決了。也就是說只要有足夠的磁盤空間,就可以很方便的解決。
2).5億個int找它們的中位數(shù)。這個例子比上面那個更明顯。首先我們將int劃分為2^16個區(qū)域,然后讀取數(shù)據(jù)統(tǒng)計落到各個區(qū)域里的數(shù)的個數(shù),之后我們根據(jù)統(tǒng)計結(jié)果就可以判斷中位數(shù)落到那個區(qū)域,同時知道這個區(qū)域中的第幾大數(shù)剛好是中位數(shù)。然后第二次掃描我們只統(tǒng)計落在這個區(qū)域中的那些數(shù)就可以了。
實 際上,如果不是int是int64,我們可以經(jīng)過3次這樣的劃分即可降低到可以接受的程度。即可以先將int64分成2^24個區(qū)域,然后確定區(qū)域的第幾 大數(shù),在將該區(qū)域分成2^20個子區(qū)域,然后確定是子區(qū)域的第幾大數(shù),然后子區(qū)域里的數(shù)的個數(shù)只有2^20,就可以直接利用direct addr table進行統(tǒng)計了。6.數(shù)據(jù)庫索引 適用范圍:大數(shù)據(jù)量的增刪改查 基本原理及要點:利用數(shù)據(jù)的設(shè)計實現(xiàn)方法,對海量數(shù)據(jù)的增刪改查進行處理。擴展: 問題實例: 7.倒排索引(Inverted index)適用范圍:搜索引擎,關(guān)鍵字查詢 基本原理及要點:為何叫倒排索引?一種索引方法,被用來存儲在全文搜索下某個單詞在一個文檔或者一組文檔中的存儲位置的映射。
以英文為例,下面是要被索引的文本: T0 = “it is what it is” T1 = “what is it” T2 = “it is a banana” 我們就能得到下面的反向文件索引: “a”: {2} “banana”: {2} “is”: {0, 1, 2} “it”: {0, 1, 2} “what”: {0, 1}
檢索的條件“what”, “is” 和 “it” 將對應(yīng)集合的交集。正 向索引開發(fā)出來用來存儲每個文檔的單詞的列表。正向索引的查詢往往滿足每個文檔有序頻繁的全文查詢和每個單詞在校驗文檔中的驗證這樣的查詢。在正向索引 中,文檔占據(jù)了中心的位置,每個文檔指向了一個它所包含的索引項的序列。也就是說文檔指向了它包含的那些單詞,而反向索引則是單詞指向了包含它的文檔,很 容易看到這個反向的關(guān)系。擴展: 問題實例:文檔檢索系統(tǒng),查詢那些文件包含了某單詞,比如常見的學(xué)術(shù)論文的關(guān)鍵字搜索。8.外排序 適用范圍:大數(shù)據(jù)的排序,去重 基本原理及要點:外排序的歸并方法,置換選擇 敗者樹原理,最優(yōu)歸并樹
擴展:
問題實例: 1).有一個1G大小的一個文件,里面每一行是一個詞,詞的大小不超過16個字節(jié),內(nèi)存限制大小是1M。返回頻數(shù)最高的100個詞。這個數(shù)據(jù)具有很明顯的特點,詞的大小為16個字節(jié),但是內(nèi)存只有1m做hash有些不夠,所以可以用來排序。內(nèi)存可以當(dāng)輸入緩沖區(qū)使用。9.trie樹 適用范圍:數(shù)據(jù)量大,重復(fù)多,但是數(shù)據(jù)種類小可以放入內(nèi)存 基本原理及要點:實現(xiàn)方式,節(jié)點孩子的表示方式 擴展:壓縮實現(xiàn)。問題實例: 1).有10個文件,每個文件1G,每個文件的每一行都存放的是用戶的query,每個文件的query都可能重復(fù)。要你按照query的頻度排序。
2).1000萬字符串,其中有些是相同的(重復(fù)),需要把重復(fù)的全部去掉,保留沒有重復(fù)的字符串。請問怎么設(shè)計和實現(xiàn)?
3).尋找熱門查詢:查詢串的重復(fù)度比較高,雖然總數(shù)是1千萬,但如果除去重復(fù)后,不超過3百萬個,每個不超過255字節(jié)。10.分布式處理 mapreduce 適用范圍:數(shù)據(jù)量大,但是數(shù)據(jù)種類小可以放入內(nèi)存
基本原理及要點:將數(shù)據(jù)交給不同的機器去處理,數(shù)據(jù)劃分,結(jié)果歸約。
擴展:
問題實例: 1).The canonical example application of MapReduce is a process to count the appearances of
each different word in a set of documents:
void map(String name, String document):
// name: document name
// document: document contents
for each word w in document: EmitIntermediate(w, 1);void reduce(String word, Iterator partialCounts): // key: a word // values: a list of aggregated partial counts int result = 0;for each v in partialCounts: result += ParseInt(v);Emit(result);Here, each document is split in words, and each word is counted initially with a “1” value by
the Map function, using the word as the result key.The framework puts together all the pairs
with the same key and feeds them to the same call to Reduce, thus this function just needs to
sum all of its input values to find the total appearances of that word.2).海量數(shù)據(jù)分布在100臺電腦中,想個辦法高效統(tǒng)計出這批數(shù)據(jù)的TOP10。
3).一共有N個機器,每個機器上有N個數(shù)。每個機器最多存O(N)個數(shù)并對它們操作。如何找到N^2個數(shù)的中數(shù)(median)? 經(jīng)典問題分析 上千萬or億數(shù)據(jù)(有重復(fù)),統(tǒng)計其中出現(xiàn)次數(shù)最多的前N個數(shù)據(jù),分兩種情況:可一次讀入內(nèi)存,不可一次讀入。
可用思路:trie樹+堆,數(shù)據(jù)庫索引,劃分子集分別統(tǒng)計,hash,分布式計算,近似統(tǒng)計,外排序
所 謂的是否能一次讀入內(nèi)存,實際上應(yīng)該指去除重復(fù)后的數(shù)據(jù)量。如果去重后數(shù)據(jù)可以放入內(nèi)存,我們可以為數(shù)據(jù)建立字典,比如通過 map,hashmap,trie,然后直接進行統(tǒng)計即可。當(dāng)然在更新每條數(shù)據(jù)的出現(xiàn)次數(shù)的時候,我們可以利用一個堆來維護出現(xiàn)次數(shù)最多的前N個數(shù)據(jù),當(dāng) 然這樣導(dǎo)致維護次數(shù)增加,不如完全統(tǒng)計后在求前N大效率高。
如果數(shù)據(jù)無法放入內(nèi)存。一方面我們可以考慮上面的字典方法能否被改進以適應(yīng)這種情形,可以做的改變就是將字典存放到硬盤上,而不是內(nèi)存,這可以參考數(shù)據(jù)庫的存儲方法。
當(dāng) 然還有更好的方法,就是可以采用分布式計算,基本上就是map-reduce過程,首先可以根據(jù)數(shù)據(jù)值或者把數(shù)據(jù)hash(md5)后的值,將數(shù)據(jù)按照范 圍劃分到不同的機子,最好可以讓數(shù)據(jù)劃分后可以一次讀入內(nèi)存,這樣不同的機子負責(zé)處理各種的數(shù)值范圍,實際上就是map。得到結(jié)果后,各個機子只需拿出各 自的出現(xiàn)次數(shù)最多的前N個數(shù)據(jù),然后匯總,選出所有的數(shù)據(jù)中出現(xiàn)次數(shù)最多的前N個數(shù)據(jù),這實際上就是reduce過程。實際上可能想直 接將數(shù)據(jù)均分到不同的機子上進行處理,這樣是無法得到正確的解的。因為一個數(shù)據(jù)可能被均分到不同的機子上,而另一個則可能完全聚集到一個機子上,同時還可 能存在具有相同數(shù)目的數(shù)據(jù)。比如我們要找出現(xiàn)次數(shù)最多的前100個,我們將1000萬的數(shù)據(jù)分布到10臺機器上,找到每臺出現(xiàn)次數(shù)最多的前 100個,歸并之后這樣不能保證找到真正的第100個,因為比如出現(xiàn)次數(shù)最多的第100個可能有1萬個,但是它被分到了10臺機子,這樣在每臺上只有1千 個,假設(shè)這些機子排名在
1000個之前的那些都是單獨分布在一臺機子上的,比如有1001個,這樣本來具有1萬個的這個就會被淘汰,即使我們讓每臺機子選 出出現(xiàn)次數(shù)最多的1000個再歸并,仍然會出錯,因為可能存在大量個數(shù)為1001個的發(fā)生聚集。因此不能將數(shù)據(jù)隨便均分到不同機子上,而是要根據(jù)hash 后的值將它們映射到不同的機子上處理,讓不同的機器處理一個數(shù)值范圍。
而外排序的方法會消耗大量的IO,效率不會很高。而上面的分布式方法,也可以用于單機版本,也就是將總的數(shù)據(jù)根據(jù)值的范圍,劃分成多個不同的子文件,然后逐個處理。處理完畢之后再對這些單詞的及其出現(xiàn)頻率進行一個歸并。實際上就可以利用一個外排序的歸并過程。
另外還可以考慮近似計算,也就是我們可以通過結(jié)合自然語言屬性,只將那些真正實際中出現(xiàn)最多的那些詞作為一個字典,使得這個規(guī)??梢苑湃雰?nèi)存。
第四篇:處理公文標(biāo)準(zhǔn)化的方法
國家行政機關(guān)的公文,是行政機關(guān)在行政管理過程中所形成的具有法定約束力和規(guī)范體式的公務(wù)文書,是依法行政和進行公務(wù)活動的重要工具。公文辦理是辦公室的重要工作內(nèi)容,必須堅持實事求是、精簡高效的原則,及時、準(zhǔn)確、安全地做好辦理、管理、整理、歸檔等一系列相互關(guān)聯(lián)、銜接有序的工作。
一、發(fā)文辦理的程序和要求發(fā)文辦理指以本機關(guān)名義制發(fā)公文的過程。
(1)草擬由文秘人員負責(zé)。草擬公文應(yīng)遵循六條基本原則:
一是符合國家的法律、法規(guī)及其它有關(guān)規(guī)定,如提出新的政策、規(guī)定等,要切實可行并加以說明;
二是情況確實,觀點明確,表達準(zhǔn)確,結(jié)構(gòu)嚴(yán)謹,條理清楚,直述不曲,字詞規(guī)范,標(biāo)點正確,篇幅力求簡短;
三是公文的文種應(yīng)當(dāng)根據(jù)行文目的、發(fā)文機關(guān)的職權(quán)與主送機關(guān)的行文關(guān)系確定;
四是擬制緊急公文,應(yīng)當(dāng)體現(xiàn)緊急的原因,并根據(jù)實際需要確定緊急程度;
五是人名、地名、數(shù)字、引文準(zhǔn)確;六是應(yīng)當(dāng)使用國家法定計量單位。
(2)簽發(fā)上行文,由主要負責(zé)人或者主持工作的負責(zé)人簽發(fā);下行文或平行文,由主要負責(zé)人或者由主要負責(zé)人授權(quán)的其他負責(zé)人簽發(fā)。涉及需兩位以上領(lǐng)導(dǎo)簽發(fā)的,需要在會簽欄簽署意見。
(3)行文關(guān)系確定行文關(guān)系:各級各類行政機關(guān)應(yīng)根據(jù)各自的隸屬關(guān)系和職權(quán)范圍確定行文關(guān)系,除重大緊急情況外,一般不得越級請示和報告。
聯(lián)合行文:
一是同級政府、同級政府各部門可以聯(lián)合行文;
二是上級政府部門與下一級政府可以聯(lián)合行文;
三是政府與同級黨委和軍隊機關(guān)可以聯(lián)合行文;
四是政府部門與相應(yīng)的黨組織和軍隊機關(guān)可以聯(lián)合行文;
五是政府部門與同級人民團體和具有行政職能的事業(yè)單位也可以聯(lián)合行文。
二、公文寫作要求。
國家行政機關(guān)公文的各要素分為眉首、主體、版記三個部分。置于公文首頁紅色反線以上的各要素統(tǒng)稱眉首;置于紅色反線(不含)以下至主題詞(不含)之間的各要素統(tǒng)稱主體;置于主題詞以下的各要素統(tǒng)稱版記?,F(xiàn)在我們按照順序從公文第一部分開始學(xué)習(xí)。
(1)眉首1.按照《國家行政機關(guān)公文處理辦法》規(guī)定,帶有密級的公文要編制份數(shù)序號。如考慮有的公文的特殊情況,不帶密級的公文也可編份數(shù)序號,以使準(zhǔn)確掌握公文的印制份數(shù)和分發(fā)范圍和對象。公文份數(shù)序號是將同一文稿印制若干份時每份公文的順序編號。如需標(biāo)識公文份數(shù)序號,用阿拉伯?dāng)?shù)碼頂格標(biāo)識在版心左上角第一行。序號編幾位,由發(fā)文機關(guān)根據(jù)公文的份數(shù)來決定,但至少不能少于兩位,即“1”編為“01”,不能只編1位。
2.秘級分為“絕密”、“機密”、“秘密”三種。需標(biāo)識秘密等級的公文,用3號黑體字,頂格標(biāo)識在版心右上角第1行,兩字之間空1字,如需同時標(biāo)識保密期限的,秘密等級和保密期限之間用“★”隔開,秘密等級的兩字間則不空1字距離,以使該字段不致過長。具體標(biāo)識方法是:“絕密★三個月”、“機密★一年”等。除特殊情況外,絕密級事項不超過30年,機密級事項不超過20年,秘密級事項不超過10年,保密期限在一年以上的以年計,在一年以內(nèi)的以月計,只有秘級而不標(biāo)期限的按保密30年看待。
3.緊急程度是對公文送達時限的要求,分為“特急”、“急件”兩種。需標(biāo)識緊急程度的公文,用3號黑體字,頂格標(biāo)識在版心右上角第1行,兩字之間空1字;如需同時標(biāo)識秘密等級與緊急程度,秘密等級頂格標(biāo)識在版心右上角第1行,緊急程度標(biāo)識在版心右上角第2行。也就是說,按照秘密等級在上、緊急程度在下的次序分兩行頂格標(biāo)注在版心右上角。凡電報都應(yīng)按規(guī)定在指定的位置,分別標(biāo)明“特提”、“特急”、“加急”、“平急”四種緊急程度。各種緊急程度的時間按以下原則把握:“特提”是要求一天之內(nèi)辦完的電報,“特急”是要求三天之內(nèi)辦完的電報,“加急”是要求五天之內(nèi)辦完的電報,“平急”是要求十天之內(nèi)辦完的電報;
4.文件標(biāo)識都應(yīng)加“文件”二字,用紅色標(biāo)識。平行文或下行文,發(fā)文機關(guān)標(biāo)識上邊緣至上頁邊為62mm;凡上報的公文,發(fā)文機關(guān)標(biāo)識上邊緣至版心上邊緣為80 mm,實際上就是發(fā)文機關(guān)標(biāo)識距上頁邊為天頭37 mm 80mm=117 mm;由于發(fā)文機關(guān)的標(biāo)識是有執(zhí)法職能的國家行政機關(guān)的公文,為體現(xiàn)莊重,《國家行政機關(guān)公文格式》國家標(biāo)準(zhǔn)推薦使用小標(biāo)宋體字;按照《國家行政機關(guān)公文格式》國家標(biāo)準(zhǔn)的規(guī)定,發(fā)文機關(guān)標(biāo)識的字號以22 mm?5 mm為字限,現(xiàn)行“國務(wù)院文件”的字號即是22 mm?5 mm.以
此為高限,就是要求除“國務(wù)院文件”以外,其他各級行政機關(guān)的字號要小于“國務(wù)院文件”,以顯示國務(wù)院作為最高國家行政機關(guān)的地位,具體用多大字號,由行政機關(guān)根據(jù)機關(guān)名稱的字數(shù)多少來定,一般要小于22 mm?5 mm以醒目美觀為原則;聯(lián)合行文時應(yīng)使主辦機關(guān)名稱排在前,其他機關(guān)自上至下排列,“文件”二字置于發(fā)文機關(guān)名稱右側(cè),上下居中排布,如聯(lián)合行文機關(guān)過多,可能出現(xiàn)把正文擠出首頁的情況,如果首頁沒有正文,是極不嚴(yán)肅的。發(fā)文機關(guān)過多,只能擠發(fā)文機關(guān),不能擠正文,擠的辦法是,可將發(fā)文機關(guān)標(biāo)識字號縮小,行距縮小,保證公文首頁留出發(fā)文字號、標(biāo)題、主送機關(guān)以及最少一行正文的位置。
5.各級行政機關(guān)的公文都要編發(fā)文字號。發(fā)文字號由發(fā)文機關(guān)代字、年份和發(fā)文序號組成。發(fā)文機關(guān)標(biāo)識下空2行,用3號仿宋體字,居中排布;年份、序號用阿拉伯?dāng)?shù)碼標(biāo)識,年份應(yīng)標(biāo)全稱,如“2000”,六角括號“〔〕”括入;序號不編虛位,即“1”不編為“001”,不加“第”字,如“金政發(fā)〔2006〕1號”。有的單位在發(fā)文機關(guān)代字后邊加“字”,如“請字〔鬃鬃〕號”“報字〔鬃鬃〕號”等虛字,從實用出發(fā),也不加“字”字,盡量減少發(fā)文字號的字數(shù);發(fā)文字號之下1—4 mm處印一條與版心等寬的紅色反線;
6.簽發(fā)人標(biāo)識僅是在上報的公文中才出現(xiàn)。上報的公文需要標(biāo)識簽發(fā)人姓名,平行排列于發(fā)文字號右側(cè)。發(fā)文字號居左空1字(不頂格),簽發(fā)人姓名居右空1字,也就是和發(fā)文字號同處在一行,這樣排列對稱、美觀?!昂灠l(fā)人”用3號仿宋體字,簽發(fā)人后標(biāo)全角冒號,冒號后用3號楷體字標(biāo)識簽發(fā)人姓名;如有多個簽發(fā)人,主辦單位簽發(fā)人姓名置于第1行,其他簽發(fā)人姓名從第2行起在主辦單位簽發(fā)人姓名之下,按發(fā)文機關(guān)順序依次順排,下移紅色反線,應(yīng)使發(fā)文字號與最后一個簽發(fā)人姓名處在同一行并使紅色反線與之的距離為1—4mm.
1.公文標(biāo)題應(yīng)當(dāng)準(zhǔn)確簡要地概括公文的主要內(nèi)容并標(biāo)明公文種類,除上報公文外,一般應(yīng)當(dāng)標(biāo)明發(fā)文機關(guān);公文標(biāo)題中除法規(guī)、規(guī)章或轉(zhuǎn)發(fā)的文件標(biāo)題名稱加書名號外,一般不用標(biāo)點符號,不能引用文件字號代替標(biāo)題內(nèi)容;公文標(biāo)題在紅色反線之下空2行標(biāo)識,用2號小標(biāo)宋體字,可分一行或多行居中排布;回行時要注意做到詞意完整,排列對稱,間距恰當(dāng)。
2.主送機關(guān)在標(biāo)題下空1行,用3號仿宋體字頂格標(biāo)識,回行時仍頂格;最后一個主送機關(guān)名稱后標(biāo)全角冒號。如主送機關(guān)過多使公文首頁不能顯示正文時,應(yīng)將主送機關(guān)移至版記中的主題詞之下、抄送之上,標(biāo)識方法同抄送。如果僅差一行就可以不擠出正文時,主送機關(guān)在標(biāo)題下也可以不空1行。標(biāo)識主送機關(guān)時應(yīng)標(biāo)明主送機關(guān)的全稱、規(guī)范化簡稱或同類型機關(guān)的統(tǒng)稱。
3.正文的標(biāo)識方法同寫信一樣,在主送機關(guān)名稱之下第1行開始標(biāo)注,每起一自然段均要左空2字,回行頂格。數(shù)字、年份用阿拉伯?dāng)?shù)碼標(biāo)識的不能回行;
4.正文用3號仿宋體字,文中如有小標(biāo)題可用3號小標(biāo)宋體或黑體字。
5.一般每頁排22行,每行排28個字;當(dāng)公文排版后所??瞻滋幉荒苋菹掠≌挛恢脮r,應(yīng)采取調(diào)整行距、字距的辦法加以解決,務(wù)使印章與正文末尾同處在一頁上,不得采取標(biāo)識“(此頁無正文)”的方法解決。
6.附件。公文如有附件,在正文的最后一行下邊空1行左空2字,用3號仿宋體字標(biāo)識“附件”后標(biāo)全角冒號,冒號后邊標(biāo)附件名稱。附件如有2件以上的,要用阿拉伯?dāng)?shù)碼標(biāo)識序號,如“附件:1.××××”。附件名稱后邊不加標(biāo)點符號。附件要與公文正文一起裝訂,并在附件左上角第1行頂格標(biāo)識“附件”,有序號時標(biāo)識序號,附件的序號和名稱前后標(biāo)識應(yīng)一致。如附件與公文正文不能一起裝訂,應(yīng)在附件左上角第一行頂格標(biāo)識公文的發(fā)文字號,并在其后標(biāo)識附件(有序號的帶序號)。
7.成文日期是公文生效的時間,是公文的一項重要內(nèi)容。為了加強其準(zhǔn)確性,成文日期一律要用漢字書寫,不能用阿拉伯?dāng)?shù)碼字與漢字混用,年、月、日要齊全?!傲恪币獙懗伞啊稹保耙肌币獙懗伞耙弧?。單一機關(guān)制發(fā)的公文,成文日期右空4字;兩個機關(guān)聯(lián)合制發(fā)的公文,應(yīng)將成文日期拉開,左右各空7字;三個機關(guān)聯(lián)合發(fā)的公文,在最后一排印章之下右空2字標(biāo)識;公文的成文日期以負責(zé)人簽發(fā)的日期為準(zhǔn),聯(lián)合行文以最后簽發(fā)機關(guān)負責(zé)人的簽發(fā)日期為準(zhǔn)。經(jīng)會議批準(zhǔn)的文件,以會議通過的日期為準(zhǔn)。電報以發(fā)出日期為準(zhǔn)。
8.公文如有附注,用3號仿宋體字,在成文日期下1行居左空2字加圓括號標(biāo)識。附注一般是對公文的發(fā)放范圍,使用時需注意的事項加以說明,如“(此件發(fā)至縣團級)”、“(此件可登報)”等,不是對公文內(nèi)容作出解釋或注釋。
9.用印。單一機關(guān)行文:單一機關(guān)制發(fā)的公文在落款處不署發(fā)文機關(guān)名稱,只標(biāo)識成文日期,加蓋印章應(yīng)上距正文1行字之內(nèi),端正、居右下壓成文時間,做到上不壓正文,下要騎年蓋月。當(dāng)印章下弧無文字時,采用下套方式,即僅以下弧壓在成文日期上;當(dāng)印章下弧有文字時,采用中套方式,即印章中心線壓在成文日期上,印章用紅色。兩個單位聯(lián)合行文:當(dāng)聯(lián)合行文需蓋兩個印章時,落款處不署發(fā)文機關(guān)名稱,主辦機關(guān)印章在前,兩個印章橫排均壓成文日期,兩印章間互不相交或相切,相距不超3 mm.三個或三個以上單位聯(lián)合行文:落款處應(yīng)將各發(fā)文機關(guān)名稱(可用簡稱)按加蓋印章順序排列署在相應(yīng)位置,再把印章套印在其上。主辦機關(guān)印章在前,每排最多排3個印章,兩端不能超出版心;最后一排如余一個或兩個印章,均居中排布;印章上下、左右之間不能相交或相切。
版記
1.“主題詞”用3號黑體字,居左頂格標(biāo)識,后標(biāo)全角冒號:詞目用3號小標(biāo)宋體字,詞目之間空1字,不能用標(biāo)點符號號。主題詞按照《國務(wù)院公文主題詞表》規(guī)定,依次以類別詞、類屬詞和文種三部分標(biāo)注,一般不超過5個,不少于3個。一些特殊內(nèi)容的公文沒有類屬詞,需要辦文的部門自己編寫。凡是自己編寫的類屬詞,必須在詞的后邊加一個三角符號,以說明這是自己編寫的類屬詞;主題詞下邊印一條黑色反線與抄送機關(guān)隔開。
2.公文如有抄送機關(guān),在主題詞下居左空1字,用3號仿宋體字標(biāo)識“抄送”,后標(biāo)全角冒號;抄送機關(guān)回行時與上一行的抄送機關(guān)對齊;抄送機關(guān)間用逗號隔開,在最后一個抄送機關(guān)后標(biāo)句號;按照實際情況,有的公文還有抄報機關(guān)或領(lǐng)導(dǎo),出現(xiàn)這種情況,可按“抄報”、“抄送”的順序自上而下標(biāo)識。在抄送機關(guān)下一行右空一字標(biāo)識“(共印××份)”,不排虛位數(shù)。
3.印發(fā)機關(guān)的標(biāo)識位于抄送機關(guān)之下左空1字,用3號仿宋體字。印發(fā)日期以公文繕印日期為準(zhǔn),右空1字,用阿拉伯?dāng)?shù)碼標(biāo)識,和印發(fā)機關(guān)同處一行。
4.為了對公文質(zhì)量負責(zé),也便于存檔查閱,公文必須標(biāo)識打字人和校對人。標(biāo)識的位置:“打字”用3號仿宋體字左空1字,標(biāo)識在印發(fā)機關(guān)下1行,“打字”后邊加全角冒號,全角冒號后邊署錄入人姓名:“校對”右空一字標(biāo)識在印發(fā)日期下與打字人處于一行上?!靶Α焙筮吋尤敲疤枺敲疤柡筮吺鹦θ诵彰?。版記中各要素之下(除“校對”外)均加一條反線,寬度同版心。這樣做,一是顯示各要素之間的區(qū)別,二是顯得美觀;版記應(yīng)置于公文最后一面(封四),版記的最后一個要素置于最后一行。也就是說版記一定要放在公文的最后一面的最下面位置。如果公文主體之后的空白容不下版記的位置,可以另加一頁在最下面標(biāo)識版記,前面完全空白也沒有關(guān)系。
三、公文裝訂。
版面1.公文用紙。公文用紙采用GB/T148中規(guī)定的A4型紙,其成品幅面尺寸為:210mm×297 mm,尺寸的允許偏差為±3 mm;一般使用紙張定量為60g/M2—80 g/M2的膠版印刷紙或復(fù)印紙。紙張白度為85%—90%,橫向耐折度≥15次,不透明度≥85%,PH值為7.5—9.5.
2.公文頁邊與版心尺寸:天頭(上白邊)為37mm±1mm;訂口(左白邊)為28 mm±1mm;版心尺寸為156 mm×225 mm(不含頁碼)。
3.公文的頁碼用4號半角宋體阿拉伯?dāng)?shù)碼標(biāo)識,置于版心下邊緣之下一行,數(shù)碼左右各致一條4號一字線,一字線距版心下邊緣7mm.單頁碼右空一字,雙頁碼左空一字??瞻醉摵涂瞻醉撘院蟮捻摬粯?biāo)識頁碼。公文如需附表,對橫排A4紙型表格,應(yīng)將頁碼放在橫表的左側(cè),單頁碼置于表的左下角,雙頁碼置于表的左上角,單頁碼表頭在訂口一邊,雙頁碼表頭在切口一邊。公文如需附A3紙型表格,且當(dāng)最后一頁為A3紙型表格時,封
三、封四應(yīng)為空白,將A3紙型表格貼在封三前,不應(yīng)貼在文件最后一頁(封四)上。
4.公文制版:版面干凈無底灰,字跡清楚無斷劃,尺寸標(biāo)準(zhǔn)、版心不斜,誤差不超過1 mm.
5.公文印刷:雙面印刷。頁碼套正,兩面誤差不得超2 mm.黑色油墨應(yīng)達到色譜所標(biāo)BL100%,紅色油墨應(yīng)達到色譜所標(biāo)Y80%、M80%.印品著墨實、均勻,字面不花、不白、不斷劃。
裝訂公文應(yīng)左側(cè)裝訂,不掉頁;包括公文的封面與書芯不脫落,后背平整、不空。兩頁頁碼之間誤差不超過4 mm.騎馬訂或平訂的訂位為兩釘釘鋸?fù)庥喲劬鄷旧舷赂?/4處,允許誤差±4 mm.平訂釘鋸與書脊間的距離為3 mm—5 mm;無壞釘、漏釘、重釘,釘腳平伏牢固;后背不可散頁明訂。裁切成品尺寸誤差±1mm,四角成90度,無毛茬或缺損。
四、公文種類。
主要有13種:命令、決定、公告、通告、通知、通報、議案、報告、請示、批復(fù)、意見、函、會議紀(jì)要。
第五篇:數(shù)據(jù)統(tǒng)計分析方法
數(shù)據(jù)統(tǒng)計分析方法
排列圖:
排列圖是由兩個縱坐標(biāo),一個橫坐標(biāo),若干個按高低順序依次排列的長方形和一條累計百分比折線所組 的,為尋找主要問題或主要原因所使用的圖。
排列圖有以下優(yōu)點:直觀,明了--全世界品質(zhì)管理界通用用數(shù)據(jù)說明問題--說服力強用途廣泛: 品質(zhì)管理 / 人員管理 / 治安管理排列圖的作圖步驟收集數(shù)據(jù)(某時間)作缺陷項目統(tǒng)計表繪制排列圖畫橫坐標(biāo)(標(biāo)出項目的等分刻度)畫左縱坐標(biāo)(表示頻數(shù))畫直方圖形(按每項的頻數(shù)畫)畫右縱坐標(biāo)(表示累計百分比)定點表數(shù)。
因果圖何謂因果圖:
對于結(jié)果(特性)與原因(要因)間或所期望之效果(特性)與對策的關(guān)系,以箭頭連接,詳細分析原因或?qū)Σ叩囊环N圖形稱為因果圖。因果圖為日本品管權(quán)威學(xué)者石川馨博士于1952年所發(fā)明,故又稱為石川圖,又因其形狀似魚骨,故也可稱其為魚骨圖,或特性要因圖作因果圖的原則采取由原因到結(jié)果的格式通常從‘人,機,料,法,環(huán)’這五方面找原因‘4M1E’, Man, Machine, Material, Method, Environment通常分三個層次:主干線、支干線、分支線盡可能把所有的原因全部找出來列上對少數(shù)的主要原因標(biāo)上特殊的標(biāo)志寫上繪制的日期、作者、有關(guān)說明等作因果圖應(yīng)注意的事項問題(結(jié)果)應(yīng)單
一、具體,表述規(guī)范最后細分出來的因應(yīng)是具體的,以便采取措施;在尋找和分析原因時,要集思廣益,力求準(zhǔn)確和無遺漏可召開諸葛亮?xí)?,采用頭腦風(fēng)暴法層次要清,因果關(guān)系不可顛倒原因歸類正確作因果圖應(yīng)注意的事項畫法按從左至右的貫例執(zhí)行--規(guī)范化在作因果圖前,可先從排列圖中找出主要問題,然后針對主要問題,召集相關(guān)人員進行討論,力求盡可能找出產(chǎn)生問題的原因,通過分析,確立主要原因。因果圖在今后可不斷進行修改,逐漸完善,反復(fù)使用。
直方圖:
是通過對數(shù)據(jù)的加工整理,從而分析和掌握品質(zhì)數(shù)據(jù)的分布狀況和估算工序不合格率的一種方法。直方圖的作法作直方圖的三大步驟作頻數(shù)表畫直方圖進行有關(guān)計算作直方圖的步驟(例3)1.搜集數(shù)據(jù)作直方圖的步驟計算極差(Range),上表中最大值Xmax=48;最小值Xmin=1;R=Xmax-Xmin=48-1=47適當(dāng)分組(k)在本例中,取k=10確定組距(h)組距用字母 h 表示:h=R/k=47/10=4.7, Y約等于5。確定各組界限--組的邊界值單位取最小測量單位的一半。作直方圖的步驟本例第一組的下限為:第一組的上限值為下界限值加上組距第二組的下界值為上界限值,第一組的上界值加上組距就是第二組上界限值,照此類推,定出各組的邊界。編制頻數(shù)分布表
分層法
分層的目的是把雜亂無章和錯綜復(fù)雜的數(shù)據(jù),按照不同的目的、性質(zhì)、來源等加以分類整理,使之系統(tǒng)化、條理化,能更確切地反映數(shù)據(jù)所代表的客觀事實,便于查明產(chǎn)品質(zhì)量波動的實質(zhì)性原因和變化規(guī)律,以便抓住主要矛盾,找到主要影響因素,從而對癥下藥,采取相應(yīng)的措施。
分層的原則是使同一層內(nèi)的數(shù)據(jù)波動盡可能小、而層與層之間的差別盡可能大。
為了達到目的,通常按操作者、機器設(shè)備、材料、工藝方法、測量手段、環(huán)境條件和時間等標(biāo)志對數(shù)據(jù)進行分層。
調(diào)查表
調(diào)查表也叫檢查表或核對表,它是一種為了便于搜集數(shù)據(jù)而使用簡單記號并予統(tǒng)計整理,并作進一步分析或作為核對、檢查之用而事先設(shè)計的一種表格或圖表
控制圖
控制圖是一種帶有控制界限的反映過程質(zhì)量的記錄圖形,圖的縱軸代表産品質(zhì)量特性值(或由質(zhì)量特性值獲得的某種統(tǒng)計量);橫軸代表按時間順序(自左至右)抽取的各個樣本號;圖內(nèi)有中心線(記爲(wèi)CL)、上控制界限(記爲(wèi)UCL)和下控制界限(記爲(wèi)LCL)三條線(見下圖)