第五章 統(tǒng)計估計和假設檢驗
統(tǒng)計學的基本問題就是根據(jù)樣本所提供的信息對總體的分布以及分布的數(shù)字特征作出統(tǒng)計推斷。統(tǒng)計推斷包括兩大部分:一是統(tǒng)計估計,二是假設檢驗。
統(tǒng)計估計問題就是根據(jù)樣本的數(shù)字特征來估計總體參數(shù)的數(shù)字特征,因此通常也稱作參數(shù)估計。參數(shù)估計根據(jù)所得出結論的方式不同有兩種形式:點估計和區(qū)間估計。
假設檢驗就是對關于總體分布的一些數(shù)字特征或分布函數(shù)所做的假設進行檢驗,以判斷其正確性。假設檢驗也分為兩類:一類是對總體分布的一些數(shù)字特征進行檢驗,稱為參數(shù)假設檢驗;另一類是要求根據(jù)樣本所提供的信息對關于分布函數(shù)的假設進行檢驗,此時只檢驗分布,而不對參數(shù)作檢驗,這稱作非參數(shù)的假設檢驗。非參數(shù)檢驗將在第六章進行討論,本章著重討論參數(shù)檢驗。
第一節(jié) 點估計
一、點估計的極大似然法
點估計就是以單個數(shù)據(jù)對總體參數(shù)值作出估計。若未知的總體參數(shù)為,這時是一個未知的常數(shù)。我們根據(jù)抽樣樣本的觀察值構造一個統(tǒng)計量()來估計總體參數(shù)。由于抽樣的隨機性,統(tǒng)計量是一個隨機變量。點估計就是將的具體值作為的估計值。顯然,這樣做必然會有誤差產(chǎn)生。這種誤差就稱為抽樣誤差。
極大似然法是一種對參數(shù)點估計的重要方法之一。我們先用一個例子說明其原理。
例5-1。設有一批產(chǎn)品,質(zhì)量上分為正品與次品。產(chǎn)品的次品率有兩種估計:0.1和0.4,今隨機抽樣15件產(chǎn)品,發(fā)現(xiàn)只有一件是次品。現(xiàn)根據(jù)這一抽樣情況,來決定用哪一種次品率來估計更為可靠呢?
記
A
=“抽取15件產(chǎn)品,只有一件是次品”,設抽得正品用X=0,抽得次品用X=1來表示。抽樣結果只有
X=0
與
X=1
兩種情形,于是,可得事件
A發(fā)生的概率為:
P(A)=
其中:是這批產(chǎn)品的次品率。
若次品率=0.1,則P(A)=×0.1=0.0229
若次品率=0.4,則P(A)=×0.4=0.0003。
現(xiàn)在事件A
既然在一次觀察中就發(fā)生了,直觀地我們可以認為事件A發(fā)生的概率P(A)不會小,故應選擇使P(A)較大的次品率作為產(chǎn)品的次品率的估計更為可靠些。
由于0.0229>0.0003,故應選擇0.1作為產(chǎn)品的次品率比選擇0.4更可靠些。
把上例推廣到一般的情形,我們就可以得到極大似然法的一般原理。設是取自密度函數(shù)為f(x,)的總體的一組樣本。其中:x和都為參數(shù),待估計。的極大似然估計的基本思路是,若記A
=“一次觀察中,所得一組樣本的樣本值為()”?,F(xiàn)在在一次觀察中A發(fā)生了,即P(A)應盡可能地大,即應在所有可能取值的集合中選出一個使P(A)達到最大值的作為的估計值。此時的又稱為的極大似然估計值。由于
相互獨立,且都與X具有相同的分布,由此可以得到,P(A)就相當于事件:
同時發(fā)生的概率,也就是P(A)=,記為L()=L(),于是有:
L()=
L()稱為的似然函數(shù)。求極大似然值的問題就是求似然函數(shù)L()的最大值問題,根據(jù)微分學的結果,L()取到最大值的必要條件是它對的導數(shù)為零。因為ln
L()與L()取得極大值的點相同,為計算方便,我們通常就用對數(shù)似然方程來求解最大似然估計值。
在我們上述例子中,f(1,)=,f(0,)=1-,于是得到似然函數(shù):
L()=
令=0,舍去=1,得的最大似然估計值=0.067。
實際上,正是在15次抽樣中得到一次次品的頻率,用頻率估計概率,當n充分大時無疑是合理的。
例5-2。從一個正態(tài)總體中抽取容量為n的樣本,求總體參數(shù)的極大似然估計。
解:構造似然函數(shù)
為了求和,使ln的極大,令
解上述方程得到:
所以得到和的極大似然估計量為:
二、估計量好壞的評選標準
前面討論了如何利用極大似然法來求參數(shù)的估計量。但對于同一個參數(shù)可以用不同的方法來求其估計量,于是,在參數(shù)估計中就存在怎樣選擇一個比較好的統(tǒng)計量來推斷總體參數(shù)的理論問題。那么,什么樣的估計量是好的估計量呢。這就有一個如何對估計進行評價的問題。請看下面一個例子。
例5-3。假如某一建設單位購進了一批建筑用的線材,就需要了解這批線材的平均抗拉強度是多少。現(xiàn)在要通過抽樣,選擇樣本的某個函數(shù)(統(tǒng)計量)來推斷總體指標值。由于隨機原因,每次抽取樣本的測量結果是不同的。如果樣本容量為3,抽取4組樣本,測得結果如表5-1所示。
表5-1
一組抽樣樣本的觀察值
樣本值
樣本順序
均值
900
999
1011
970
995
1050
1105
1065
1010
941
890
947
950
910
1140
1000
為了說明的方便起見,我們假定,實際上μ=1000公斤,當然這在事先是不知道的。我們要求利用樣本信息來推斷總體指標,并使其誤差最小。第一組樣本的中位數(shù)最接近總體指標,第二組樣本是最小值最接近總體指標,第三組樣本是最大值最接近總體指標,第四組樣本是均值剛好等于總體指標。于是就產(chǎn)生了一個問題,在大量的實驗中,究竟采用哪一個指標來推斷總體指標更合理呢?
評價點估計的結果通常有無偏性、有效性和一致性等標準。
1.無偏性
無偏性的含義是個別樣本由于隨機原因可能偏大或偏小,然而一個好的估計量從平均上看應該等于所估計的那個指標,其直觀意義是估計量的值應在參數(shù)的真值周圍擺動而無系統(tǒng)誤差。一般地,無偏性的定義為:設為被估計參數(shù),若有估計量(),對一切n,有=,則稱為的無偏估計量。
若-=b,則稱b為估計量的偏差。若b≠0,則稱為的有偏估計量。如果,則稱為的漸近無偏估計量。
不論是重復抽樣或不重復抽樣,也不論樣本容量大小,樣本均值及樣本比例都是總體均值和總體比例的無偏估計,即,但樣本方差并不是總體方差的無偏估計量。這是因為如果我們把定義為
=,則:
產(chǎn)生偏差的原因是總體方差的無偏估計應該是,但抽樣時由于μ是未知的,因而用估計量來代替。根據(jù)最小平方原理,變量X距樣本均值的離差平方和為最小,因此就小于,從而用代替μ計算的方差就低估了,為了得到的無偏估計,令
這時,由于,就是的無偏估計了。
樣本方差與之差稱為偏差。但當n很大時,所以它是漸近無偏差估計。當樣本容量很大時,也可以直接用樣本方差作為總體方差的估計值。但如樣本容量較小時偏差就比較大了。
圖5-1
估計的無偏性和有效性
2.有效性
即使是符合無偏性要求的估計統(tǒng)計量,在抽取個別樣本時也會產(chǎn)生誤差。為了使誤差盡量地小,要求估計量圍繞其真值的變動愈小愈好,也就是說要求統(tǒng)計量的離散程度要小,或者說其方差要小。一般地,有效性的定義為:設、是未知參數(shù)的兩個估計量,若對任意的正常數(shù)c,有,則稱比有效。有效性反映了估計量分布的集中程度,估計量的分布越是集中在參數(shù)真值附近,則其估計效率越高,如圖5-1所示。
但是為了方便起見,在實際上有效性可定義為:、是未知參數(shù)的兩個無偏估計量,若用V(),V()分別表示各自的方差,若V()/V()<1,則稱比有效。
例如,對正態(tài)總體,利用樣本均值及樣本中位數(shù)M來估計總體的均值時,均為無偏估計,那末哪一個更有效呢?
均值的抽樣分布為,統(tǒng)計上可以證明中位數(shù)的分布為,由于。這就說明比有效,即用樣本均值來估計總體的均值比用中位數(shù)來估計總體的均值效率高。換句話說,用中位數(shù)來估計總體均值的平均誤差要比用樣本均值來估計總體均值時的更大。如果用中位數(shù)作為估計量要達到與以樣本均值作為估計量同樣可靠的程度,就要增加樣本。設用均值估計的樣本為,中位數(shù)估計的樣本為,設其估計效率相等,即方差相等,則,由此得到=1.57,即用中位數(shù)估計時要比用樣本均值來估計時多抽57%的樣本單位。
3.一致性
這就是要使統(tǒng)計量隨樣本容量n的增加,不斷趨近于總體指標。在n→∞(有限總體n→N)時,估計值與總體參數(shù)完全一致。一般地,點估計的一致性定義如下:設
()為未知參數(shù)的估計量,若依概率收斂于,則為的一致估計量。
現(xiàn)在來看樣本均值這一統(tǒng)計量是否符合一致性的要求。根據(jù)切比雪夫等式:
令
當時
一致性是從極限意義上來說明統(tǒng)計量與總體參數(shù)關系的。這種性質(zhì)只有當樣本容量很大時才起作用。另外,符合一致性的統(tǒng)計量也不止一個,因此,僅考慮一致性是不夠的。事實上,我們也可以證明,當總體為正態(tài)分布時,中位數(shù)這一統(tǒng)計量也符合一致性的要求。而樣本的最小值和最大值盡管在個別的抽樣中可能取得好的效果,但從總體上來看并不是一個好的估計量。
第二節(jié) 區(qū)間估計
一、區(qū)間估計的概念和步驟
點估計用一個確定的值去估計未知的參數(shù),具有較大的風險。因為估計量來自于一個隨機抽取的樣本,結果也就帶有隨機性。樣本估計量剛好等于所估計的總體參數(shù)的可能性極小。但是如果說所估計的總體參數(shù)就落在估計值附近,即所估計的總體參數(shù)就落在以點估計所得到的估計值為中心的某一個小區(qū)間內(nèi),那就比較有把握了。這種方法就是區(qū)間估計法。
在第四章中我們已經(jīng)知道,一個足夠大樣本的均值的抽樣分布是正態(tài)的,并且所抽到的樣本均值落在總體均值的兩側范圍內(nèi)的概率是0.683,落在總體均值范圍內(nèi)的概率是0.955,落在總體均值范圍內(nèi)的概率是0.997等等。由此可見,我們可以按照概率來估計總體均值是落在某一區(qū)間范圍內(nèi)的。我們把這種對總體均值的估計稱作區(qū)間估計。從上述說明可以看到:
1.如果所估計的區(qū)間越大,參數(shù)被包含在該區(qū)間內(nèi)的概率就越大。
2.如果樣本的方差越小,則在相同的概率下區(qū)間估計所得到的結果就越短。
一般地,設為總體的一個未知參數(shù),分別為由一組樣本所確定的對的兩個估計量,對于給定的,若P()=,則稱區(qū)間[]為置信度是的置信區(qū)間。分別為置信區(qū)間的下限和上限。稱為置信度或置信概率,表示區(qū)間估計的可靠度。稱為置信度水平。
常用的置信度有 0.80,0.90,0.95 0.99等。一般來說,對于估計要求比較精確的問題,置信程度也要求高一些,在社會經(jīng)濟現(xiàn)象中,通常采用95%就可以了。置信度反過來也表示可能犯錯誤的概率。如置信度為95%,則犯錯誤的概率就為1-95%=5%。這一概率也就是置信度水平,也可理解為風險率或風險水平。
圖5-2
根據(jù)不同樣本所得到的置信度為95.5%的置信區(qū)間
需要指出的是,P()=不應理解為落在某一固定區(qū)間的概率。因為這里是一個參數(shù),而不是隨機變量,而是根據(jù)抽樣的結果計算出來的,因此,[]是一個隨機區(qū)間。即每一個樣本都可產(chǎn)生一個估計區(qū)間[],因此,上述概率可以理解為隨機區(qū)間[]中包括參數(shù)的概率。
圖5-2表示根據(jù)不同樣本所得到的置信度為95.5%的置信區(qū)間與總體均值的位置關系。從所有樣本得到的置信區(qū)間中有95.5%的區(qū)間將包括總體均值,因此可以說所得到的估計區(qū)間包括總體均值具有95.5%的置信度。
二、單個總體參數(shù)的區(qū)間估計
(一)正態(tài)總體,方差已知,總體均值的區(qū)間估計
根據(jù)第四章關于樣本均值分布的結果,有
~N(0,1)
在給定了估計置信度為時,我們有
我們可以根據(jù)這一原理用樣本均值來推斷總體均值的區(qū)間估計值。若樣本的均值為,同時若規(guī)定置信度為,則總體均值的區(qū)間估計的公式是
這一置信區(qū)間的估計可以用圖5-3來表示。
上述估計公式僅適用于無限總體的情形,對于有限總體的不放回抽樣來說,如果總體規(guī)模為N,樣本大小為n,則區(qū)間估計的公式中還需要乘上一個修正系數(shù)。因此,總體均值的區(qū)間估計的公式就變?yōu)?/p>
圖5-3
置信度為的置信區(qū)間
從上述說明中我們可以總結出對于正態(tài)總體,方差已知,總體均值的區(qū)間估計的步驟如下:
1.計算出樣本的統(tǒng)計量并確定該統(tǒng)計量的抽樣分布。例如,若總體是正態(tài)的,那么樣本均值也必然服從正態(tài)分布。
2.根據(jù)研究的目的確定置信度或置信度水平大小。按照要求的置信度或置信度水平查出相應的系數(shù)。
3.計算樣本均方差,即抽樣的標準誤。
4.最后把上述數(shù)據(jù)代入公式,得到區(qū)間估計的結果。
其實,這些步驟也同樣適用于其他類型的區(qū)間估計問題。
(二)非正態(tài)總體,方差未知,大樣本,總體均值的區(qū)間估計
實際中所遇到的總體,往往不一定服從正態(tài)分布,而且總體方差也是未知的。在這種情況下要推斷總體均值,就要借助于中心極限定理,這需要抽取足夠大的樣本。這樣樣本均值仍服從正態(tài)分布。此時盡管總體方差未知,但當樣本足夠大時,一般當時,我們可用樣本標準差來代替總體標準差,直接把S代入上式中的就可以了。
(三)正態(tài)總體、方差未知,用小樣本對總體均值的區(qū)間估計
在總體方差未知的情況下,如果抽取的樣本就必須采用其他的估計辦法。我們已知服從t分布,其自由度為n-1。因此我們就可以利用t分布來進行估計。此時
與前面同樣地,上述估計公式僅適用于無限總體的情形,對于有限總體來說,如果總體規(guī)模為N,樣本大小為n,不放回抽樣的情形,則區(qū)間估計公式中也還需要乘上一個修正系數(shù)。
(四)總體比例的區(qū)間估計
根據(jù)第四章關于樣本比例分布的結果,我們有
若樣本的比例為,同時規(guī)定估計的置信度為,則總體比例的區(qū)間估計的公式就是
這里有一個問題,就是在確定總體比例的置信區(qū)間時要用到本身,而又恰恰是待估值。但由點估計理論我們知道,樣本比例是總體比例P的無偏估計,于是在估計樣本比例的方差時,直接用樣本比例代替總體比例P。只要樣本容量n足夠大,并且滿足和都大于5就可以保證結果是可靠的。最后,得到總體比例的置信區(qū)間為:
當然對于有限總體不放回抽樣的情形,也同樣需要乘上一個修正系數(shù)。
(五)正態(tài)總體方差的區(qū)間估計
在第四章關于分布的結果中我們介紹過,來自正態(tài)總體的一組樣本的方差和總體方差之比服從于分布,即
~
于是對于給定的置信度,我們可以利用分布的特性,查表得到和,則有
于是總體方差的區(qū)間估計為
三、兩個總體參數(shù)的區(qū)間估計
(一)兩總體均值之差的區(qū)間估計
1.兩個正態(tài)總體,方差已知,大樣本
從兩個總體中所抽取的樣本都是大樣本,并且兩個總體的方差已知時,則兩個樣本均值之差也服從正態(tài)分布。此時,因此。
由此可以得到,在置信度水平為的情況下,的置信區(qū)間為
2.兩正態(tài)總體,方差未知,但相等,大樣本
兩個樣本都為大樣本時,兩樣本均值之差也服從正態(tài)分布,由于假設兩總體方差相等,但未知,需要根據(jù)樣本方差進行估計。由于樣本方差具有隨機性,一般地,因此,合并推算總體方差,所以,兩個樣本均值之差的抽樣分布的方差為,于是,對兩總體均值之差估計的置信區(qū)間為。
3.兩正態(tài)總體,方差未知但相等,小樣本
根據(jù)上一章的結果,總體方差未知時,我們用樣本的方差代替總體的方差,由于小樣本,相應的統(tǒng)計量不再服從正態(tài)分布而服從t分布。由于,則如大樣本時一樣,應將兩個樣本合并起來代替總體方差。即
其自由度為,則兩總體差的區(qū)間估計結果為。
(二)兩總體比例之差的區(qū)間估計
根據(jù)兩個樣本比例之差的抽樣分布,兩個樣本比例之差的均值為兩個總體比例之差。兩個樣本比例之差的方差為
當兩個比例的樣本容量為大樣本時,兩個比例之差也服從正態(tài)分布,所以當置信度為時,兩總體比例之差的置信區(qū)間為:
(三)兩正態(tài)總體方差比的區(qū)間估計
根據(jù)第四章所介紹的F分布的結果,來自于兩個正態(tài)分布總體的總體方差和樣本方差和,和所構成的統(tǒng)計量
故對于給定的置信度水平,我們可以從F分布表查得置信區(qū)間的臨界值:
和
從而
于是
最后我們得到的置信度為1-的置信區(qū)間為
第三節(jié)
樣本容量的確定
在區(qū)間估計中我們發(fā)現(xiàn),對于某一個總體的參數(shù)進行估計時,在樣本數(shù)目一定的條件下,要提高估計結果的可靠性,就需要擴大置信區(qū)間,這就要增加估計中的誤差,減少了估計的實際意義。如果要減少估計的誤差,就要縮短置信區(qū)間,但這樣就必須要降低估計的可靠性??梢娫跇颖緮?shù)目一定的條件下,估計的精確性和估計的可靠性不能兩全其美。既要提高估計的精確性,減少誤差,又要提高估計可靠性的辦法就是增加樣本容量。但是增加樣本就要同時增加抽樣調(diào)查的成本,同時又可能延誤時間。因此就需要研究能夠滿足對估計的可靠性和精確性要求的最小樣本數(shù)問題。
一、均值估計問題中,樣本大小的決定
在總體均值的估計問題中,要決定必要的樣本大小,必須先明確如下三個問題:
1.要規(guī)定允許的估計誤差的大小,即允許的估計值與實際值之間的最大偏離值是多少,實際上也就是估計區(qū)間的大小,
2.規(guī)定置信度,即估計所要求達到的可靠性,也就是實際的抽樣誤差不超過所規(guī)定的誤差的可信度。
3.要明確總體的標準差,即要求了解總體的分布情況??傮w的標準差小,只要抽較少的樣本就能滿足對估計精確度和可靠性的要求,若總體標準差大,就必須抽取較多的樣本才能達到對估計精確度和可靠性的要求。
設總體標準差為,樣本均值的標準差為。估計的置信度為,于是可以相應地得到置信系數(shù)。于是對總體均值的估計可由下式得到:
上式中的實際上就表示估計所允許的最大誤差,我們用Δ表示,于是根據(jù)上式有
則
由此只要規(guī)定了允許誤差的大小Δ和總體的標準差σ,由置信度查表得到相應的,代入公式,求得滿足要求的最小整數(shù)就是滿足估計誤差不大于Δ和置信度為的要求的最少樣本數(shù)。
上述公式適用于重復抽樣或無限總體不放回抽樣時的情形。但對于有限總體不放回抽樣的情形,公式變?yōu)槿缦碌男问剑?/p>
由此可求得滿足上式要求的最小的整數(shù)為。
其中:Δ為允許最大誤差,為有限總體的個體數(shù),為置信度水平,為根據(jù)置信度水平查表得到的置信系數(shù)。
二、比例估計問題中,樣本大小的決定
關于總體比例的估計問題中,要決定樣本大小首先也要明確關于均值的估計問題中同樣的三個問題:
1.允許誤差的大小,即規(guī)定估計值與實際值的最大偏離值。
2.規(guī)定置信度,即估計所要求達到的可信度。
3.對總體比例的事先估計值,即大致的或估計的總體比例是多少。
與均值的估計問題完全平行地,我們可以得到以下的結果。
對于重復抽樣或無限總體不重復(放回)抽樣時的情形為
但對于有限總體不放回抽樣的情形,公式變?yōu)槿缦碌男问剑?/p>
第四節(jié) 假設檢驗
一、假設檢驗的基本原理
假設總體的均值為某一個值,為了檢驗這一假設的正確性,我們收集樣本的數(shù)據(jù),計算出假設值與樣本均值之間的差異,然后根據(jù)差異的大小來判斷所作假設的正確性,這就是假設檢驗。直觀地,我們知道差異越小,對于總體均值的假設正確的可能性就愈大。差異越大,對總體均值的假設正確的可能性就愈小。
然而在多數(shù)情況下,對總體參數(shù)的假設值與樣本統(tǒng)計量之間的差異既不至于大到顯而易見,應該拒絕假設,也不至于小到可以完全肯定,應該接受假設的程度。于是就不能簡單地決定接受或拒絕所作的假設,而需要判斷所作的假設在多大的程度上是正確的。于是就需要研究假設和判斷假設是否正確的程度。
(一)假設檢驗中的假設
假設檢驗中通常把所要檢驗的假設稱作原假設或零假設,記作。例如要檢驗總體均值μ=100這個假設是否正確,就表示為:μ=100。如果樣本所提供的信息無法證明原假設成立,則我們就拒絕原假設。此時,我們只能接受另外備選的假設了,稱之為備擇假設,我們以表示備擇假設。備擇假設可以有三種形式,例如,在原假設:μ=100的條件下,備擇假設可以是:
:μ100。這表示備擇假設是總體的均值不等于100?;蛘呤?/p>
:μ>100。這表示備擇假設是總體的均值大于100?;蛘呤?/p>
:μ<100。這表示備擇假設是總體的均值小于100。
上述備擇假設的選擇與檢驗的要求是密切相關的。我們根據(jù)假設檢驗的目的要求不同又把假設檢驗分為雙側檢驗和單側檢驗。
如果樣本均值高于或低于假設的總體均值很顯著時都拒絕原假設,我們稱作雙側檢驗。在雙側檢驗時有左右兩個拒絕區(qū)域。當原假設是::μ=100,備擇假設是::μ100時就必須使用雙側檢驗。
若只有在樣本的均值高于(或低于)假設的總體均值很顯著時才拒絕原假設,這就稱作單側檢驗。單側檢驗只有一個拒絕區(qū)域。若假設檢驗只有在樣本均值高于假設的總體均值很顯著時才拒絕原假設,這種假設檢驗稱作右側檢驗。此時,原假設實際上變?yōu)?μ100,備擇假設為:μ>100。反之,如果只有在樣本均值低于假設的總體均值很顯著時才拒絕原假設,則稱作左側檢驗。此時,原假設實際上變?yōu)?μ100,備擇假設為:μ<100。由此可見,原假設和備擇假設總是排他性的。
(二)檢驗的顯著性水平
假設檢驗需要確定一個是接受還是拒絕原假設的標準,這個標準就是顯著性水平。所謂檢驗的顯著性水平就表示,在假設正確的條件下落在某個界限以外的樣本均值所占的百分比。具體地說,“在5%的顯著性水平下檢驗假設”就是說,假定對總體參數(shù)所作的假設正確,那么樣本均值同假設的總體均值差異過大的,在每100個樣本中不應超過5個。如果樣本均值與總體均值差異過大的超過這一數(shù)目就認為這個樣本不可能抽自所假設的總體,所以拒絕零假設。
我們可以用圖5-4來直觀地解釋假設檢驗的原理。假如設檢驗的顯著性水平=5%,我們已知在概率密度曲線下包括在假設的均值兩側直線間的面積是95%,兩邊每一個尾端的面積各為2.5%。于是若樣本的均值落在95%的區(qū)域內(nèi),我們就認為樣本統(tǒng)計量與假設的總體參數(shù)的差異是不顯著的。結果就接受原假設。若樣本統(tǒng)計量落在左右尾端的各為2.5%的區(qū)域內(nèi),則差異就是顯著的。我們就拒絕原假設。接受備擇假設。
圖5-4
假設檢驗的接受區(qū)域和拒絕區(qū)域
不過應該強調(diào)指出,在假設檢驗中“接受原假設”的意思僅僅是意味著沒有充分的統(tǒng)計證據(jù)拒絕原假設。在假設檢驗中“接受原假設”的特定含義就是不拒絕原假設。但實際上,即使樣本統(tǒng)計量落在95%的面積內(nèi),也并不能證明原假設就是正確的。因為只有在知道了總體參數(shù)的真實值與假設值完全相同才能證明假設正確。但我們無法知道總體參數(shù)的真實值。
在給定了檢驗的顯著性水平后,我們可以根據(jù)假設來確定接受還是拒絕原假設的區(qū)域或范圍。如果樣本均值落在某一區(qū)域內(nèi)我們就接受原假設,則就稱這一區(qū)域為接受區(qū)域。如果樣本均值落在某一區(qū)域內(nèi)就拒絕原假設,我們就稱這一區(qū)域為拒絕區(qū)域。
對于顯著性水平的選擇沒有一個唯一的或通用的標準。實際上在任何顯著性水平下檢驗某個假設都是可能的,但是必須注意不管選擇什么樣的顯著性水平,都存在假設為真而被拒絕的可能性。另一方面,在檢驗同一個假設時,使用的顯著性水平愈高,原假設為真時而被拒絕的概率也就愈高。這就需要研究假設檢驗中的錯誤,我們在以后將對此進行討論。
二、假設檢驗的步驟
1.提出原假設和備擇假設。原假設和備擇假設必須由題意來決定。在一般情況下總是把檢驗的目的作為備擇假設,這樣可以有充分的把握拒絕原假設。
2.選擇檢驗的顯著性水平,從而確定檢驗的拒絕區(qū)域或臨界點。表示在假設檢驗時當原假設為真而我們卻拒絕了原假設,接受備擇假設的錯誤概率。假設檢驗中還可能犯另一種錯誤,這將在下面討論。
3.確定樣本的統(tǒng)計量和分布。樣本統(tǒng)計量又稱檢驗統(tǒng)計量。不同的統(tǒng)計量具有不同的分布,用于檢驗不同的假設,要根據(jù)所檢驗的假設來正確地選擇檢驗統(tǒng)計量。
4.計算檢驗統(tǒng)計量并由此作出決策。根據(jù)樣本數(shù)據(jù)計算出檢驗統(tǒng)計量的值,如果統(tǒng)計量的值落在拒絕區(qū)(包括臨界點)內(nèi)就說明原假設與樣本所反映的情形有顯著的差異,應該拒絕原假設。如果統(tǒng)計量的值落在接受區(qū)域內(nèi),就說明原假設與樣本所反映的情形的差異并不顯著,應該接受原假設。
三、幾種常用的假設檢驗
(一)平均數(shù)的假設檢驗
1.雙側檢驗
讓我們研究下面的例子。
例5-4。某食品廠規(guī)定某種罐頭每罐的標準重量是500克。多年的經(jīng)驗表明這個廠每罐重量的標準差是15克。今隨機抽取了49個罐頭,發(fā)現(xiàn)這些罐頭的平均重量是506克。問在=0.05的顯著性水平下能否認為這批罐頭的重量符合標準的要求?
要檢驗這批罐頭的重量是否符合標準的要求就是要檢驗這批樣本的平均重量與標準重量之間是否具有明顯的差別。因此可以列出要檢驗的假設為:
:μ=500
:μ500。
這是一個雙側檢驗問題。根據(jù)區(qū)間估計的結論可知原假設的接受區(qū)域為
由于置信度水平=0.05,=1.96。由此得到接受區(qū)域為[495.8,504.2]。但現(xiàn)在樣本的實際均值為506,落在拒絕區(qū)域內(nèi),因此拒絕原假設接受備擇假設。我們無法認為這批罐頭的重量符合標準的要求,即這批罐頭的重量不符合標準的要求。
當總體方差未知,樣本數(shù)量又小于等于30時,檢驗統(tǒng)計量樣本均值服從t分布。這就要用t分布確定原假設的接受區(qū)域和拒絕區(qū)域了。在得到接受區(qū)域后也就可以利用上面同樣的方法,根據(jù)樣本均值所處的位置作出判斷。
2.單側檢驗
再看下面的例子。
例5-5。某飲料廠規(guī)定某種紙罐包裝飲料的容量不得少于500ml。今隨機抽取了25個紙罐,發(fā)現(xiàn)這些罐頭的平均重量是498
ml,標準差S=10。問在=0.05的顯著性水平下能否認為這批紙罐的容重符合標準的要求?
根據(jù)問題的要求可以列出要檢驗的假設為:
:μ500
:μ<500
由于總體方差未知,樣本容量又小于30,檢驗統(tǒng)計量服從t分布,其自由度為n-1。因此我們就必須利用t分布來進行檢驗。這又是一個單側(左側)檢驗問題。根據(jù)區(qū)間估計的結論可知原假設的接受區(qū)域為
根據(jù)置信度水平=0.05,查表得到。所以計算得到接受區(qū)域的臨界點是496.6。現(xiàn)樣本均值=498>496.6。可見樣本均值落在原假設的接受區(qū)域內(nèi)。我們接受原假設,即認為這批紙罐的容重符合標準的要求。
例5-6。某特種建材生產(chǎn)廠規(guī)定某種規(guī)格新型墻體材料的重量不得大于500公斤。今隨機抽取了16塊這種規(guī)格新型墻體材料,測得其平均重量為505公斤,標準差S=10。問在=0.05的顯著性水平下能否認為這批新型墻體材料的重量符合標準的要求?
這次要檢驗的假設為:
:μ500
:μ>500
這次也需要利用t分布來進行檢驗。這是一個右側檢驗問題。原假設的接受區(qū)域為
根據(jù)置信度水平=0.05,查表得到。由此可以得到原假設的接受區(qū)域臨界點是504.4?,F(xiàn)樣本均值=505>504.4??梢姌颖揪德湓谠僭O的拒絕區(qū)域內(nèi)。我們拒絕原假設,接受備擇假設,即認為這批新型墻體材料的重量不符合標準的要求。
(二)比例的假設檢驗
例5-7。某酒廠規(guī)定某種酒中含有的糖度應為12%,產(chǎn)品才能算合格。今隨機抽取了100瓶這種酒,發(fā)現(xiàn)平均的糖度為11.3%。問在顯著性水平=0.10的條件下,這批酒與合格產(chǎn)品對糖度的要求有無明顯的差別?
問題要檢驗的假設為:
:μ=0.12
:μ0.12
這是比例的雙側檢驗問題。根據(jù)區(qū)間估計的結果,原假設的接受區(qū)域是
由于=0.10,則=1.64。計算得到原假設的接受區(qū)域是[0.114,0.126]。由于樣本比例0.113<0.114,落在原假設的拒絕區(qū)域內(nèi)。我們拒絕原假設,接受備擇假設,即認為這批酒與合格產(chǎn)品對糖度的要求有明顯的差別。
對于比例問題也同樣可以進行單側的假設檢驗。方法也幾乎與總體均值的單側檢驗的情形相同。
此外,參照兩個總體區(qū)間估計的情形,我們也可以對兩個總體均值和比例差進行假設檢驗,所用的方法幾乎是完全同樣的。
四、假設檢驗中的兩類錯誤
假設檢驗是根據(jù)概率來進行判斷的,因此有可能判斷失誤。在三種不同顯著性水平下,例如=0.01,0.10,或0.50時,進行假設檢驗所得到的結果就可能是完全不同的。對于同一組樣本的均值的位置,在=0.01和0.10的顯著性水平下可能是接受零假設的,而在=0.50的顯著性水平下拒絕零假設。可見,采用高的顯著性水平不大可能接受一個不正確的零假設,但卻很可能拒絕掉正確的零假設。
在假設檢驗中,如果原假設正確而被拒絕時,就稱為犯了第一類錯誤,這是棄真的錯誤,犯第一類錯誤的概率記作。相反,如果原假設錯誤而被接受時,稱作犯了第二類錯誤,這是取偽的錯誤,犯第二類錯誤的概率記作。表5-3表示了兩者之間的關系。這兩種錯誤是互相替補的,這就是說,在樣本容量一定的情況下,要減少第一類錯誤的概率就不得不增加發(fā)生第二類錯誤的概率,反過來也一樣。實際上,為了減少第一類錯誤的概率就要增大接受區(qū)域,減少拒絕區(qū)域。但此時由于接受區(qū)域的增大,不正確的原假設也被接受的概率也隨之增大,即增加了,如圖5-4所示。要減少接受不正確的原假設的概率,就要減少的值,此時不正確的零假設被接受的概率減少了,但隨著拒絕區(qū)域的增大,正確的零假設被拒絕的概率就上升,即增大了,如圖5-4所示,表5-2
兩類錯誤之間的關系
接受
接受
為真
正確
棄真,第一類錯誤概率
α
為假
取偽,第二類錯誤概率β
正確
圖5-5
假設檢驗中的兩類錯誤
由于兩類錯誤之間的這種替補關系,在管理上決定檢驗第一類錯誤或第二類錯誤的顯著性水平時就要具體考察同這兩類錯誤相聯(lián)系的費用和可能造成的損失。由此來決定究竟寧可發(fā)生第一類錯誤,而不愿發(fā)生第二類錯誤,還是寧可發(fā)生第二類錯誤,而不愿發(fā)生第一類錯誤。
練習題
5-1
對某機器生產(chǎn)的滾動軸承隨機抽取196個樣本,測得直徑的均值為0.826厘米,樣本標準差0.042厘米,求這批軸承均值的95%與99%的置信區(qū)間。
5-2
某燈泡廠生產(chǎn)的燈泡的平均壽命是1120小時,現(xiàn)從一批新生產(chǎn)的燈泡中抽取8個樣本,測得其平均壽命為1070小時,樣本方差=(),試檢驗燈泡的平均壽命有無變化(=0.05和=0.01)?
5-3
設正態(tài)總體的方差為已知,問要抽取的樣本容量n應為多大,才能使總體均值的置信度為0.95的置信區(qū)間的長不大于L。
5-4有人在估計總體均值時要求在置信度為99%的條件下保證樣本平均數(shù)與總體均值之間的誤差不超過標準差的25%。問應抽取多少樣本?
5-5為降低貸款風險,某銀行內(nèi)部規(guī)定要求平均每筆貸款數(shù)額不能超過120萬元。隨著經(jīng)濟發(fā)展,貸款規(guī)模有增大趨勢?,F(xiàn)從一個n=144的樣本測得平均貸款額為128.1萬元,S=45萬元,用=0.01的顯著水平檢驗貸款的平均規(guī)模是否明顯超過120萬元。
5-6
正常人的脈搏平均為72次/分,今對某種疾病患者10人測得其脈搏為54
71(次/分)設患者的脈搏次數(shù)服從正態(tài)分布,試在顯著性水平=0.05下檢驗患者與正常人在脈搏上有無顯著差異?
5-7
從A市的16名學生測得其智商的平均值為107,樣本標準差為10,而B市的16名學生測得智商的平均值為112,標準差為8,問在下這兩組學生的智商有無顯著差別?
5-8
用簡單隨機重復抽樣方法選取樣本時,如果要使抽樣平均誤差降低50%,則樣本容量需要擴大到原來的()。(單選題)
A.2倍
B.3倍
C.4倍
D.5倍
5-9
某產(chǎn)品規(guī)定的標準壽命為1300小時,甲廠稱其產(chǎn)品超過此規(guī)定。隨機選取甲廠100件產(chǎn)品,測得均值為1345小時,已知標準差為300小時,計算得到樣本均值大于等于1345的概率是0.067,則在:μ=1300,:μ>1300的情況下,有()成立。(單選題)
A.若=0.05,則接受
B.若=0.05,則接受
C.若=0.10,則接受
D.若=0.10,則拒絕
5-10下面關于假設檢驗的陳述正確的是()。(多選題)
A.假設檢驗實質(zhì)上是對原假設進行檢驗
B.假設檢驗實質(zhì)上是對備擇假設進行檢驗
C.當拒絕原假設時,只能認為肯定它的根據(jù)尚不充分,而不能認為它絕對錯誤
D.假設檢驗并不是根據(jù)樣本結果簡單地或直接地判斷原假設和備擇假設哪一個更有可能正確
E.當接受原假設時,只能認為否定它的根據(jù)尚不充分,而不是認為它絕對正確
5-11
某種新型建材單位面積的平均抗壓力服從正態(tài)分布,均值為5000公斤,標準差為120公斤。公司每次對50塊這種新型建材的樣本進行檢驗以決定這批建材的平均抗壓力是否小于5000公斤。公司規(guī)定樣本均值如小于4970就算不合格,求這種規(guī)定下犯第一類錯誤的概率。