第一篇:統(tǒng)計分析方法學(xué)習(xí)總結(jié)
統(tǒng)計分析方法學(xué)習(xí)總結(jié)
S201505158 陳丹妮
一、統(tǒng)計的描述
一般采用以下幾種圖形描述數(shù)據(jù):
直方圖:表示幾個變量的數(shù)據(jù),使人們能夠看出這些數(shù)目的大體分布或“形狀”; 盒形圖:比直方圖簡單一些的是盒形圖(boxplot,又稱箱圖、箱線圖、盒子圖);
莖葉圖:既展示了數(shù)據(jù)的分布形狀又有原始數(shù)據(jù)。它象一片帶有莖的葉子。莖為較大位數(shù)的數(shù)字,葉為較小位數(shù)的數(shù)字;
散點圖:描述的數(shù)據(jù)有兩對連續(xù)變量; 定型變量的圖:定性變量(或?qū)傩宰兞?,分類變量)不能點出直方圖、散點圖或莖葉圖,但可以描繪出它們各類的比例,如:餅圖、條形圖。
二、匯總統(tǒng)計量
表示位置的匯總統(tǒng)計量:均值(mean):樣本值的算術(shù)平均值;中位數(shù)(median):中間大小的數(shù)(一半樣本點小于中位數(shù));(第一或第三)(下、上)四分位數(shù)(點)(first quantile, third quantile)(分別有1/4或3/4的數(shù)目小于它們);k-百分位數(shù)(k-percentile);a分位數(shù)(a centile): k-百分位數(shù)=k%分位數(shù):有k%的數(shù)目小于它;眾數(shù)(mode):樣本中出現(xiàn)最多的數(shù)。
表示尺度的匯總統(tǒng)計量:極差(range):極端值之差;四分位間距(四分位極差)(interquantile range)四分位數(shù)之差;標準差(standard deviation)方差平方根;方差(variance)各點到均值距離平方的平均。
三、相關(guān)的分布
相關(guān)的分布包括:離散分布、連續(xù)分布、抽樣分布:我們能夠利用樣本統(tǒng)計量中的(描述樣本的)信息, 比如樣本均值和樣本標準差中的信息,來對(描述總體的)總體參數(shù)(比如總體均值和總體標準差)進行推斷(估計、檢驗等)。
大數(shù)定律:闡述大量隨機變量的平均結(jié)果具有穩(wěn)定性的一系列定律的總稱。其中又分為獨立同分布大數(shù)定律(提供了用樣本平均數(shù)估計總體平均數(shù)的理論依據(jù))和貝努力大數(shù)定律(提供了頻率代替概率的理論依據(jù))。
中心極限定理:闡述大量隨機變量之和的極限分布是正態(tài)分布的一系列定理的總稱。獨立同分布中心極限定理(不論總體服從何種分布,只要它的數(shù)學(xué)期望和方差存在,從中抽取容量為n的樣本,當n充分大時,則這個樣本的總和或平均數(shù)是服從正態(tài)分布的隨機變量)和德莫佛-拉普拉斯中心極限定理(提供了用正態(tài)分布近似計算二項分布概率的方法)。均值的假設(shè)檢驗包括對于正態(tài)總體均值的檢驗、對于比例的檢驗
四、各種分析方法
1.列聯(lián)表分析
列聯(lián)表變量中每個都有兩個或更多的可能取值,稱為水平,比如收入有三個水平,觀點有兩個水平,性別有兩個水平等。列聯(lián)表的中間各個變量不同水平的交匯處,就是這種水平組合出現(xiàn)的頻數(shù)或計數(shù)(count)。二維的列聯(lián)表又稱為交叉表(cross table)。列聯(lián)表可以有
很多維。維數(shù)多的叫做高維列聯(lián)表。注意前面這個列聯(lián)表的變量都是定性變量;但列聯(lián)表也會帶有定量變量作為協(xié)變量。
2.方差分析
方差分析(analysis of variance,ANOVA)是分析各個自變量對因變量影響的一種方法。這里的自變量就是定性變量的因子及可能出現(xiàn)的稱為協(xié)變量(covariate)的定量變量。分析結(jié)果是由一個方差分析表表示的。原理為:把因變量的值隨著自變量的不同取值而得到的變化進行分解,使得每一個自變量都有一份貢獻,最后剩下無法用已知的原因解釋的則看成隨機誤差的貢獻。然后用各自變量的貢獻和隨機誤差的貢獻進行比較(F檢驗),以判斷該自變量的不同水平是否對因變量的變化有顯著貢獻。輸出就是F-值和檢驗的一些p-值。
3.相關(guān)和回歸分析
發(fā)現(xiàn)變量之間的統(tǒng)計關(guān)系,并且用此規(guī)律來幫助我們進行決策才是統(tǒng)計實踐的最終目的。一般來說,統(tǒng)計可以根據(jù)目前所擁有的信息(數(shù)據(jù))來建立人們所關(guān)心的變量和其他有關(guān)變量的關(guān)系。這種關(guān)系一般稱為模型(model)。
假如用Y表示感興趣的變量,用X表示其他可能與Y有關(guān)的變量(X也可能是若干變量組成的向量)。則所需要的是建立一個函數(shù)關(guān)系Y=f(X)。這里Y稱為因變量或響應(yīng)變量(dependent variable, response variable),而X稱為自變量,也稱為解釋變量或協(xié)變量(independent variable, explanatory variable, covariate)。建立這種關(guān)系的過程就叫做回歸(regression)。
一旦建立了回歸模型,除了對變量的關(guān)系有了進一步的定量理解之外,還可以利用該模型(函數(shù))通過自變量對因變量做預(yù)測(prediction)。這里所說的預(yù)測,是用已知的自變量的值通過模型對未知的因變量值進行估計;它并不一定涉及時間先后。
4.主成分分析和因子分析
主成分分析從原理上是尋找橢球的所有主軸。原先有幾個變量,就有幾個主成分。而因子分析是事先確定要找?guī)讉€成分,這里叫因子(factor)(比如兩個),那就找兩個。這使得在數(shù)學(xué)模型上,因子分析和主成分分析有不少區(qū)別。而且因子分析的計算也復(fù)雜得多。根據(jù)因子分析模型的特點,它還多一道工序:因子旋轉(zhuǎn)(factor rotation);這個步驟可以使結(jié)果更好。對于計算機,因子分析并不費事。從輸出的結(jié)果來看,因子分析也有因子載荷(factor loading)的概念,代表了因子和原先變量的相關(guān)系數(shù)。但是在因子分析公式中的因子載荷位置和主成分分析不同。因子分析也給出了二維圖;其解釋和主成分分析的載荷圖類似。
可以看出,因子分析和主成分分析都依賴于原始變量,也只能反映原始變量的信息。所以原始變量的選擇很重要。另外,如果原始變量都本質(zhì)上獨立,那么降維就可能失敗,這是因為很難把很多獨立變量用少數(shù)綜合的變量概括。數(shù)據(jù)越相關(guān),降維效果就越好。在得到分析的結(jié)果時,并不一定會都得到如我們例子那樣清楚的結(jié)果。這與問題的性質(zhì),選取的原始變量以及數(shù)據(jù)的質(zhì)量等都有關(guān)系。
5.聚類分析
物以類聚、人以群分;但根據(jù)什么分類呢?如要想把中國的縣分類,就有多種方法可以按照自然條件來分,比如考慮降水、土地、日照、濕度等,也可考慮收入、教育水準、醫(yī)療條件、基礎(chǔ)設(shè)施等指標;既可以用某一項來分類,也可以同時考慮多項指標來分類。對一個數(shù)據(jù),既可以對變量(指標)進行分類(相當于對數(shù)據(jù)中的列分類),也可以對觀測值(事件,樣品)來分類(相當于對數(shù)據(jù)中的行分類)。當然,不一定事先假定有多少類,完全可以按照數(shù)據(jù)
本身的規(guī)律來分類。對變量的聚類稱為R型聚類,而對觀測值聚類稱為Q型聚類。它們在數(shù)學(xué)上是無區(qū)別的。
k-均值聚類(k-means cluster,也叫快速聚類,quick cluster)卻要求先說好要分多少類。然后,根據(jù)和這三個點的距離遠近,把所有點分成三類。再把這三類的中心(均值)作為新的基石或種子(原來“種子”就沒用了),再重新按照距離分類。如此疊代下去,直到達到停止疊代的要求(比如,各類最后變化不大了,或者疊代次數(shù)太多了)。顯然,前面的聚類種子的選擇并不必太認真,它們很可能最后還會分到同一類中呢。另一種聚類稱為分層聚類或系統(tǒng)聚類(hierarchical cluster)。開始時,有多少點就是多少類。它第一步先把最近的兩類(點)合并成一類,然后再把剩下的最近的兩類合并成一類;這樣下去,每次都少一類,直到最后只有一大類為止。越是后來合并的類,距離就越遠。
6.判別分析
在聚類分析中,人們一般事先并不知道應(yīng)該分成幾類及哪幾類,全根據(jù)數(shù)據(jù)確定。在判別分析中,至少有一個已經(jīng)明確知道類別的“訓(xùn)練樣本”,并利用該樣本來建立判別準則,并通過預(yù)測變量來為未知類別的觀測值進行判別了。訓(xùn)練樣本中必須包含所有要判別的類型,分類必須清楚,不能有混雜。要選擇好可能用于判別的預(yù)測變量。這是最重要的。當然,在應(yīng)用中,選擇余地不見得有多大。要注意數(shù)據(jù)是否有不尋常的點或者模式存在。還要看預(yù)測變量中是否有些不適宜的;這可以用單變量方差分析(ANOVA)和相關(guān)分析來驗證。判別分析是為了正確地分類,但同時也要注意使用盡可能少的預(yù)測變量來達到這個目的。使用較少的變量意味著節(jié)省資源和易于對結(jié)果作解釋。在計算中需要看關(guān)于各個類的有關(guān)變量的均值是否顯著不同的。
7.典型相關(guān)分析
由于一組變量可以有無數(shù)種線性組合(線性組合由相應(yīng)的系數(shù)確定),因此必須找到既有意義又可以確定的線性組合。典型相關(guān)分析(canonical correlation analysis)就是要找到這兩組變量線性組合的系數(shù)使得這兩個由線性組合生成的變量(和其他線性組合相比)之間的相關(guān)系數(shù)最大。目的:研究多個變量之間的相關(guān)性。方法:利用主成分思想,可以把多個變量與多個變量之間的相關(guān)化為兩個變量之間的相關(guān).即找一組系數(shù)(向量)l和m, 使新變量U=l`X(1)和V=m`X(2)有最大可能的相關(guān)關(guān)系。
8.對應(yīng)分析
在因子分析中,或者只對變量(列中的變量)進行分析,或者只對樣品(觀測值或行中的變量)進行分析;而且利用載荷圖來描述各個變量之間的接近程度。典型相關(guān)分析也只研究列中兩組變量之間的關(guān)系。然而,在很多情況下,所關(guān)心的不僅僅是行或列本身變量之間的關(guān)系,而是行變量和列變量的相互關(guān)系;對應(yīng)分析方法被普遍認為是探索性數(shù)據(jù)分析的內(nèi)容,處理列聯(lián)表的問題僅僅是對應(yīng)分析的一個特例。一般地,對應(yīng)分析常規(guī)地處理連續(xù)變量的數(shù)據(jù)矩陣;這些數(shù)據(jù)具有如在主成分分析、因子分析、聚類分析等時所處理的數(shù)據(jù)形式。在對應(yīng)分析中,根據(jù)各行變量的因子載荷和各列變量的因子載荷之間的關(guān)系,行因子載荷和列因子載荷之間可以兩兩配對。如果對每組變量選擇前兩列因子載荷,則兩組變量就可畫出兩因子載荷的散點圖。由于這兩個圖所表示的載荷可以配對,于是就可以把這兩個因子載荷的兩個散點圖畫到同一張圖中,并以此來直觀地顯示各行變量和各列變量之間的關(guān)系。由于列聯(lián)表數(shù)據(jù)形式和一般的連續(xù)變量的數(shù)據(jù)形式類似,所以也可以用對應(yīng)分析的數(shù)學(xué)方法來研究行變量各個水平和列變量各個水平之間的關(guān)系。
9.時間序列分析
人們對統(tǒng)計數(shù)據(jù)往往可以根據(jù)其特點從兩個方面來切入,以簡化分析過程。一個是研究所謂橫截面(cross section)數(shù)據(jù),也就是對大體上同時,或者和時間無關(guān)的不同對象的觀測值組成的數(shù)據(jù)。另一個稱為時間序列(time series),也就是由對象在不同時間的觀測值形成的數(shù)據(jù)。時間序列分析也是一種回歸?;貧w分析的目的是建立因變量和自變量之間關(guān)系的模型;并且可以用自變量來對因變量進行預(yù)測。通常線性回歸分析因變量的觀測值假定是互相獨立并且有同樣分布。而時間序列的最大特點是觀測值并不獨立。時間序列的一個目的是用變量過去的觀測值來預(yù)測同一變量的未來值。也就是說,時間序列的因變量為變量未來的可能值,而用來預(yù)測的自變量中就包含該變量的一系列歷史觀測值。當然時間序列的自變量也可能包含隨著時間度量的獨立變量。一個時間序列可能有趨勢、季節(jié)、循環(huán)這三個成分中的某些或全部再加上隨機成分。因此,如果要想對一個時間序列本身進行較深入的研究,把序列的這些成分分解出來、或者把它們過慮掉則會有很大的幫助。如果要進行預(yù)測,則最好把模型中的與這些成分有關(guān)的參數(shù)估計出來。
如果我們不僅僅滿足于分解現(xiàn)有的時間序列,而且想要對未來進行預(yù)測,就需要建立模型。首先,這里介紹比較簡單的指數(shù)平滑(exponential smoothing)。指數(shù)平滑只能用于純粹時間序列的情況,而不能用于含有獨立變量時間序列的因果關(guān)系的研究。指數(shù)平滑的原理為:當利用過去觀測值的加權(quán)平均來預(yù)測未來的觀測值時(這個過程稱為平滑),離得越近的觀測值要給以更多的權(quán)。而“指數(shù)”意味著:按照已有觀測值“老”的程度,其上的權(quán)數(shù)按指數(shù)速度遞減。
第二篇:統(tǒng)計分析學(xué)習(xí)總結(jié)
經(jīng)過四周的課程主要學(xué)習(xí)了以下幾種分析方法: 1.方差分析
方差分析(Analysis of Variance,簡稱ANOVA),又稱“變異數(shù)分析”或“F檢 驗”,是R.A.Fisher發(fā)明的,用于兩個及兩個以上樣本均數(shù)差別的顯著性檢驗。由于各種因素的影響,研究所得的數(shù)據(jù)呈現(xiàn)波動狀。造成波動的原因可分成兩類,一是不可控的隨機因素,另一是研究中施加的對結(jié)果形成影響的可控因素。方差分析是從觀測變量的方差入手,研究諸多控制變量中哪些變量是對觀測變量有顯著影響的變量。
作用:一個復(fù)雜的事物,其中往往有許多因素互相制約又互相依存。方差分析的目的是通過數(shù)據(jù)分析找出對該事物有顯著影響的因素,各因素之間的交互作用,以及顯著影響因素的最佳水平等。方差分析是在可比較的數(shù)組中,把數(shù)據(jù)間的總的“變差”按各指定的變差來源進行分解的一種技術(shù)。對變差的度量,采用離差平方和。方差分析方法就是從總離差平方和分解出可追溯到指定來源的部分離差平方和,這是一個很重要的思想。
經(jīng)過方差分析若拒絕了檢驗假設(shè),只能說明多個樣本總體均值不相等或不全相等。若要得到各組均值間更詳細的信息,應(yīng)在方差分析的基礎(chǔ)上進行多個樣本均值的兩兩比較。
(1)多個樣本均值間兩兩比較
多個樣本均值間兩兩比較常用q檢驗的方法,即Newman-kueuls法,其基本步驟為:建立檢驗假設(shè)-->樣本均值排序-->計算q值-->查q界值表判斷結(jié)果。
(2)多個實驗組與一個對照組均值間兩兩比較
多個實驗組與一個對照組均值間兩兩比較,若目的是減小第II類錯誤,最好選用最小顯著差法(LSD法);若目的是減小第I類錯誤,最好選用新復(fù)極差法,前者查t界值表,后者查q'界值表。折疊
分析方法
根據(jù)資料設(shè)計類型的不同,有以下兩種方差分析的方法:
1、對成組設(shè)計的多個樣本均值比較,應(yīng)采用完全隨機設(shè)計的方差分析,即單因素方差分析。
2、對隨機區(qū)組設(shè)計的多個樣本均值比較,應(yīng)采用配伍組設(shè)計的方差分析,即兩因素方差分析。折疊兩類方差分析的異同
兩類方差分析的基本步驟相同,只是變異的分解方式不同,對成組設(shè)計的資料,總變異分解為組內(nèi)變異和組間變異(隨機誤差),即:SS總=SS組間+SS組內(nèi),而對配伍組設(shè)計的資料,總變異除了分解為處理組變異和隨機誤差外還包括配伍組變異,即:SS總=SS處理+SS配伍+SS誤差。折疊基本步驟
整個方差分析的基本步驟如下:
1、建立檢驗假設(shè); H0:多個樣本總體均值相等;
H1:多個樣本總體均值不相等或不全等。檢驗水準為0.05。
2、計算檢驗統(tǒng)計量F值;
3、確定P值并作出推斷結(jié)果。
2.回歸分析法定義
所謂回歸分析法,是在掌握大量觀察數(shù)據(jù)的基礎(chǔ)上,利用數(shù)理統(tǒng)計方法建立因變量與自變量之間的回歸關(guān)系函數(shù)表達式(稱回歸方程式)?;貧w分析法不能用于分析與評價工程項目風(fēng)險。
分類
回歸分析中,當研究的因果關(guān)系只涉及因變量和一個自變量時,叫做一元回歸分析;當研究的因果關(guān)系涉及因變量和兩個或兩個以上自變量時,叫做多元回歸分析。根據(jù)自變量的個數(shù),可以是一元回歸,也可以是多元回歸。此外,回歸分析中,又依據(jù)描述自變量與因變量之間因果關(guān)系的函數(shù)
表達式是線性的還是非線性的,分為線性回歸分析和非線性回歸分析。根據(jù)所研究問題的性質(zhì),可以是線性回歸,也可以是非線性回歸。通常線性回歸分析法是最基本的分析方法,遇到非線性回歸問題可以借助數(shù)學(xué)手段化為線性回歸問題處理?;貧w分析法預(yù)測是利用回歸分析方法,根據(jù)一個或一組自變量的變動情況預(yù)測與其有相關(guān)關(guān)系的某隨機變量的未來值。進行回歸分析需要建立描述變量間相關(guān)關(guān)系的回歸方程。
應(yīng)用
社會經(jīng)濟現(xiàn)象之間的相關(guān)關(guān)系往往難以用確定性的函數(shù)關(guān)系來描述,它們大多是隨機性的,要通過統(tǒng)計觀察才能找出其中規(guī)律?;貧w分析是利用統(tǒng)計學(xué)原理描述隨機變量間相關(guān)關(guān)系的一種重要方法。
在物流的計算中,回歸分析法的公式如下: y=a+bx b=∑xy-n·∑x∑y/[∑x²-n·(∑x)²];a=∑y-b·∑x/n
3.主成分分析和因子分析
principal component analysis(PCA)主成分分析法是一種數(shù)學(xué)變換的方法, 它把給定的一組相關(guān)變量通過線性變換轉(zhuǎn)成另一組不相關(guān)的變量,這些新的變量按照方差依次遞減的順序排列。在數(shù)學(xué)變換中保持變量的總方差不變,使第一變 量具有最大的方差,稱為第一主成分,第二變量的方差次大,并且和第一變量不相關(guān),稱為第二主成分。依次類推,I個變量就有I個主成分。
其中Li為p維正交化向量(Li*Li=1),Zi之間互不相關(guān)且按照方差由大到小排列,則稱Zi為X的第I個主成分。設(shè)X的協(xié)方差矩陣為Σ,則Σ必為半正定對稱矩陣,求特征值λi(按從大到小排序)及其特征向量,可以證明,λi所對應(yīng)的正交化特征向量,即為第I個主成分Zi所對應(yīng)的系數(shù)向量Li,而Zi的方差貢獻率定義為λi/Σλj,通常要求提取的主成分的數(shù)量k滿足Σλk/Σλj>0.85。
主成分分析主要是一種探索性的技術(shù),在分析者進行多元數(shù)據(jù)分析之前,用他來分析數(shù)據(jù),讓自己對數(shù)據(jù)有一個大致的了解,這是非常有必要的。主成分分析一般很少單獨使用:a、了解數(shù)據(jù)。(screening the data),b、和cluster analysis(聚類分析)一起使用,c、和判別分析一起使用,比如當變量很多,個案數(shù)不多,直接使用判別分析可能無解,這時候可以使用主成分對變量簡化(reduce dimensionality),d、在多元回歸中,主成分分析可以幫助判斷是否存在共線性(條件指數(shù)),還可以用來處理共線性。
1、因子分析中是把變量表示成各因子的線性組合,而主成分分析中則是把主成分表示成各變量的線性組合。
2、主成分分析的重點在于解釋各變量的總方差,而因子分析則把重點放在解釋各變量之間的協(xié)方差。
3、主成分分析中不需要有假設(shè)(assumptions),因子分析則需要一些假設(shè)。因子分析的假設(shè)包括:各個共同因子之間不相關(guān),特殊因子(specific factor)之間也不相關(guān),共同因子和特殊因子之間也不相關(guān)。
4、主成分分析中,當給定的協(xié)方差矩陣或者相關(guān)矩陣的特征值是唯一的時候,主成分一般是獨特的;而因子分析中因子不是獨特的,可以旋轉(zhuǎn)得到不同的因子。
5、在因子分析中,因子個數(shù)需要分析者指定(spss根據(jù)一定的條件自動設(shè)定,只要是特征值大于1的因子進入分析),而指定的因子數(shù)量不同而結(jié)果不同。在主成分分析中,成分的數(shù)量是一定的,一般有幾個變量就有幾個主成分。和主成分分析相比,由于因子分析可以使用旋轉(zhuǎn)技術(shù)幫助解釋因子,在解釋方面更加有優(yōu)勢。大致說來,當需要尋找潛在的因子,并對這些因子進行解釋的時候,更加傾向于使用因子分析,并且借助旋轉(zhuǎn)技術(shù)幫助更好解釋。而如果想把現(xiàn)有的變量變成少數(shù)幾個新的變量(新的變量幾乎帶有原來所有變量的信息)來進入后續(xù)的分析,則可以使用主成分分析。當然,這種情況也可以使用因子得分做到。所以這種區(qū)分不是絕對的。
在算法上,主成分分析和因子分析很類似,不過在因子分析中所采用的協(xié)方差矩陣的對角元素不再是變量的方差,而是和變量對應(yīng)的共同度(變量方差中被各因子所解釋的部分)。4.聚類分析
依據(jù)研究對象(樣品或指標)的特征,對其進行分類的方法,減少研究對象的數(shù)目。各類事物缺乏可靠的歷史資料,無法確定共有多少類別,目的是將性質(zhì)相近事物歸入一類。各指標之間具有一定的相關(guān)關(guān)系。聚類分析(cluster analysis)是一組將研究對象分為相對同質(zhì)的群組(clusters)的統(tǒng)計分析技術(shù)。聚類分析也叫分類分析(classification analysis)或數(shù)值分類(numerical taxonomy)變量類型:定類變量、定量(離散和連續(xù))變量 聚類方法
1,層次聚類(Hierarchical Clustering)合并法、分解法、樹狀圖 2.非層次聚類 劃分聚類、譜聚類 分析步驟:
定義問題與選擇分類變量;聚類方法;確定群組數(shù)目;聚類結(jié)果評估;結(jié)果的描述、解釋
5典型相關(guān)分析和對應(yīng)分析
典型相關(guān)分析(canonical correlation analysis)就是利用綜合變量對之間的相關(guān)關(guān)系來反映兩組指標之間的整體相關(guān)性的多元統(tǒng)計分析方法。它的基本原理是:為了從總體上把握兩組指標之間的相關(guān)關(guān)系,分別在兩組變量中提取有代表性的兩個綜合變量U1和V1(分別為兩個變量組中各變量的線性組合),利用這兩個綜合變量之間的相關(guān)關(guān)系來反映兩組指標之間的整體相關(guān)性。
對應(yīng)分析(Correspondence analysis)也稱關(guān)聯(lián)分析、R-Q型因子分析,是近年新發(fā)展起來的一種多元相依變量統(tǒng)計分析技術(shù),通過分析由定性變量構(gòu)成的交互匯總表來揭示變量間的聯(lián)系。可以揭示同一變量的各個類別之間的差異,以及不同變量各個類別之間的對應(yīng)關(guān)系。主要應(yīng)用在市場細分、產(chǎn)品定位、地質(zhì)研究以及計算機工程等領(lǐng)域中。原因在于,它是一種視覺化的數(shù)據(jù)分析方法,它能夠?qū)捉M看不出任何聯(lián)系的數(shù)據(jù),通過視覺上可以接受的定位圖展現(xiàn)出來。6.判別分析和時間序列分析 判別分析又稱“分辨法”,是在分類確定的條件下,根據(jù)某一研究對象的各種特征值判別其類型歸屬問題的一種多變量統(tǒng)計分析方法。其基本原理是按照一定的判別準則,建立一個或多個判別函數(shù),用研究對象的大量資料確定判別函數(shù)中的待定系數(shù),并計算判別指標。據(jù)此即可確定某一樣本屬于何類。當?shù)玫揭粋€新的樣品數(shù)據(jù),要確定該樣品屬于已知類型中哪一類,這類問題屬于判別分析問題。時間序列分析(Time series analysis)是一種動態(tài)數(shù)據(jù)處理的統(tǒng)計方法。該方法基于隨機過程理論和數(shù)理統(tǒng)計學(xué)方法,研究隨機數(shù)據(jù)序列所遵從的統(tǒng)計規(guī)律,以用于解決實際問題。它包括一般統(tǒng)計分析(如自相關(guān)分析,譜分析等),統(tǒng)計模型的建立與推斷,以及關(guān)于時間序列的最優(yōu)預(yù)測、控制與濾波等內(nèi)容。經(jīng)典的統(tǒng)計分析都假定數(shù)據(jù)序列具有獨立性,而時間序列分析則側(cè)重研究數(shù)據(jù)序列的互相依賴關(guān)系。后者實際上是對離散指標的隨機過程的統(tǒng)計分析,所以又可看作是隨機過程統(tǒng)計的一個組成部分。例如,記錄了某地區(qū)第一個月,第二個月,??,第N個月的降雨量,利用時間序列分析方法,可以對未來各月的雨量進行預(yù)報。
第三篇:數(shù)據(jù)統(tǒng)計分析方法
數(shù)據(jù)統(tǒng)計分析方法
排列圖:
排列圖是由兩個縱坐標,一個橫坐標,若干個按高低順序依次排列的長方形和一條累計百分比折線所組 的,為尋找主要問題或主要原因所使用的圖。
排列圖有以下優(yōu)點:直觀,明了--全世界品質(zhì)管理界通用用數(shù)據(jù)說明問題--說服力強用途廣泛: 品質(zhì)管理 / 人員管理 / 治安管理排列圖的作圖步驟收集數(shù)據(jù)(某時間)作缺陷項目統(tǒng)計表繪制排列圖畫橫坐標(標出項目的等分刻度)畫左縱坐標(表示頻數(shù))畫直方圖形(按每項的頻數(shù)畫)畫右縱坐標(表示累計百分比)定點表數(shù)。
因果圖何謂因果圖:
對于結(jié)果(特性)與原因(要因)間或所期望之效果(特性)與對策的關(guān)系,以箭頭連接,詳細分析原因或?qū)Σ叩囊环N圖形稱為因果圖。因果圖為日本品管權(quán)威學(xué)者石川馨博士于1952年所發(fā)明,故又稱為石川圖,又因其形狀似魚骨,故也可稱其為魚骨圖,或特性要因圖作因果圖的原則采取由原因到結(jié)果的格式通常從‘人,機,料,法,環(huán)’這五方面找原因‘4M1E’, Man, Machine, Material, Method, Environment通常分三個層次:主干線、支干線、分支線盡可能把所有的原因全部找出來列上對少數(shù)的主要原因標上特殊的標志寫上繪制的日期、作者、有關(guān)說明等作因果圖應(yīng)注意的事項問題(結(jié)果)應(yīng)單
一、具體,表述規(guī)范最后細分出來的因應(yīng)是具體的,以便采取措施;在尋找和分析原因時,要集思廣益,力求準確和無遺漏可召開諸葛亮?xí)捎妙^腦風(fēng)暴法層次要清,因果關(guān)系不可顛倒原因歸類正確作因果圖應(yīng)注意的事項畫法按從左至右的貫例執(zhí)行--規(guī)范化在作因果圖前,可先從排列圖中找出主要問題,然后針對主要問題,召集相關(guān)人員進行討論,力求盡可能找出產(chǎn)生問題的原因,通過分析,確立主要原因。因果圖在今后可不斷進行修改,逐漸完善,反復(fù)使用。
直方圖:
是通過對數(shù)據(jù)的加工整理,從而分析和掌握品質(zhì)數(shù)據(jù)的分布狀況和估算工序不合格率的一種方法。直方圖的作法作直方圖的三大步驟作頻數(shù)表畫直方圖進行有關(guān)計算作直方圖的步驟(例3)1.搜集數(shù)據(jù)作直方圖的步驟計算極差(Range),上表中最大值Xmax=48;最小值Xmin=1;R=Xmax-Xmin=48-1=47適當分組(k)在本例中,取k=10確定組距(h)組距用字母 h 表示:h=R/k=47/10=4.7, Y約等于5。確定各組界限--組的邊界值單位取最小測量單位的一半。作直方圖的步驟本例第一組的下限為:第一組的上限值為下界限值加上組距第二組的下界值為上界限值,第一組的上界值加上組距就是第二組上界限值,照此類推,定出各組的邊界。編制頻數(shù)分布表
分層法
分層的目的是把雜亂無章和錯綜復(fù)雜的數(shù)據(jù),按照不同的目的、性質(zhì)、來源等加以分類整理,使之系統(tǒng)化、條理化,能更確切地反映數(shù)據(jù)所代表的客觀事實,便于查明產(chǎn)品質(zhì)量波動的實質(zhì)性原因和變化規(guī)律,以便抓住主要矛盾,找到主要影響因素,從而對癥下藥,采取相應(yīng)的措施。
分層的原則是使同一層內(nèi)的數(shù)據(jù)波動盡可能小、而層與層之間的差別盡可能大。
為了達到目的,通常按操作者、機器設(shè)備、材料、工藝方法、測量手段、環(huán)境條件和時間等標志對數(shù)據(jù)進行分層。
調(diào)查表
調(diào)查表也叫檢查表或核對表,它是一種為了便于搜集數(shù)據(jù)而使用簡單記號并予統(tǒng)計整理,并作進一步分析或作為核對、檢查之用而事先設(shè)計的一種表格或圖表
控制圖
控制圖是一種帶有控制界限的反映過程質(zhì)量的記錄圖形,圖的縱軸代表産品質(zhì)量特性值(或由質(zhì)量特性值獲得的某種統(tǒng)計量);橫軸代表按時間順序(自左至右)抽取的各個樣本號;圖內(nèi)有中心線(記爲CL)、上控制界限(記爲UCL)和下控制界限(記爲LCL)三條線(見下圖)
第四篇:大數(shù)據(jù)的統(tǒng)計分析方法
統(tǒng)計分析方法有哪幾種?下面天互數(shù)據(jù)將詳細闡述,并介紹一些常用的統(tǒng)計分析軟件。
一、指標對比分析法指標對比分析法
統(tǒng)計分析的八種方法
一、指標對比分析法指標對比分析法,又稱比較分析法,是統(tǒng)計分析中最常用的方法。是通過有關(guān)的指標對比來反映事物數(shù)量上差異和變化的方法,有比較才能鑒別。
指標分析對比分析方法可分為靜態(tài)比較和動態(tài)比較分析。靜態(tài)比較是同一時間條件下不同總體指標比較,如不同部門、不同地區(qū)、不同國家的比較,也叫橫向比較;動態(tài)比較是同一總體條件不同時期指標數(shù)值的比較,也叫縱向比較。
二、分組分析法指標對比分析法
分組分析法指標對比分析法對比,但組成統(tǒng)計總體的各單位具有多種特征,這就使得在同一總體范圍內(nèi)的各單位之間產(chǎn)生了許多差別,統(tǒng)計分析不僅要對總體數(shù)量特征和數(shù)量關(guān)系進行分析,還要深入總體的內(nèi)部進行分組分析。分組分析法就是根據(jù)統(tǒng)計分析的目的要求,把所研究的總體按照一個或者幾個標志劃分為若干個部分,加以整理,進行觀察、分析,以揭示其內(nèi)在的聯(lián)系和規(guī)律性。
統(tǒng)計分組法的關(guān)鍵問題在于正確選擇分組標值和劃分各組界限。
三、時間數(shù)列及動態(tài)分析法
時間數(shù)列。是將同一指標在時間上變化和發(fā)展的一系列數(shù)值,按時間先后順序排列,就形成時間數(shù)列,又稱動態(tài)數(shù)列。它能反映社會經(jīng)濟現(xiàn)象的發(fā)展變動情況,通過時間數(shù)列的編制和分析,可以找出動態(tài)變化規(guī)律,為預(yù)測未來的發(fā)展趨勢提供依據(jù)。時間數(shù)列可分為絕對數(shù)時間數(shù)列、相對數(shù)時間數(shù)列、平均數(shù)時間數(shù)列。
時間數(shù)列速度指標。根據(jù)絕對數(shù)時間數(shù)列可以計算的速度指標:有發(fā)展速度、增長速度、平均發(fā)展速度、平均增長速度。
動態(tài)分析法。在統(tǒng)計分析中,如果只有孤立的一個時期指標值,是很難作出判斷的。如果編制了時間數(shù)列,就可以進行動態(tài)分析,反映其發(fā)展水平和速度的變化規(guī)律。
四、指數(shù)分析法
指數(shù)是指反映社會經(jīng)濟現(xiàn)象變動情況的相對數(shù)。有廣義和狹義之分。根據(jù)指數(shù)所研究的范圍不同可以有個體指數(shù)、類指數(shù)與總指數(shù)之分。
指數(shù)的作用:一是可以綜合反映復(fù)雜的社會經(jīng)濟現(xiàn)象的總體數(shù)量變動的方向和程度;二是可以分析某種社會經(jīng)濟現(xiàn)象的總變動受各因素變動影響的程度,這是一種因素分析法。操作方法是:通過指數(shù)體系中的數(shù)量關(guān)系,假定其他因素不變,來觀察某一因素的變動對總變動的影響。
用指數(shù)進行因素分析。因素分析就是將研究對象分解為各個因素,把研究對象的總體看成是各因素變動共同的結(jié)果,通過對各個因素的分析,對研究對象總變動中各項因素的影響程度進行測定。因素分析按其所研究的對象的統(tǒng)計指標不同可分為對總量指標的變動的因素分析,對平均指標變動的因素分析。
五、平衡分析法
平衡分析是研究社會經(jīng)濟現(xiàn)象數(shù)量變化對等關(guān)系的一種方法。它把對立統(tǒng)一的雙方按其構(gòu)成要素一一排列起來,給人以整體的概念,以便于全局來觀察它們之間的平衡關(guān)系。平衡關(guān)系廣泛存在于經(jīng)濟生活中,大至全國宏觀經(jīng)濟運行,小至個人經(jīng)濟收支。平衡分析的作用:一是從數(shù)量對等關(guān)系上反映社會經(jīng)濟現(xiàn)象的平衡狀況,分析各種比例關(guān)系相適應(yīng)狀況;二是揭示不平衡的因素和發(fā)展?jié)摿Γ蝗抢闷胶怅P(guān)系可以從各項已知指標中推算未知的個別指標。
六、綜合評價分析
社會經(jīng)濟分析現(xiàn)象往往是錯綜復(fù)雜的,社會經(jīng)濟運行狀況是多種因素綜合作用的結(jié)果,而且各個因素的變動方向和變動程度是不同的。如對宏觀經(jīng)濟運行的評價,涉及生活、分配、流通、消費各個方面;對企業(yè)經(jīng)濟效益的評價,涉及人、財、物合理利用和市場銷售狀況。如果只用單一指標,就難以作出恰當?shù)脑u價。
進行綜合評價包括四個步驟:
1.確定評價指標體系,這是綜合評價的基礎(chǔ)和依據(jù)。要注意指標體系的全面性和系統(tǒng)性。
2.搜集數(shù)據(jù),并對不同計量單位的指標數(shù)值進行同度量處理??刹捎孟鄬幚?、函數(shù)化處理、標準化處理等方法。
3.確定各指標的權(quán)數(shù),以保證評價的科學(xué)性。根據(jù)各個指標所處的地位和對總體影響程度不同,需要對不同指標賦予不同的權(quán)數(shù)。
4.對指標進行匯總,計算綜合分值,并據(jù)此作出綜合評價。
七、景氣分析
經(jīng)濟波動是客觀存在的,是任何國家都難以完全避免的。如何避免大的經(jīng)濟波動,保持經(jīng)濟的穩(wěn)定發(fā)展,一直是各國政府和經(jīng)濟之專家在宏觀調(diào)控和決策中面臨的重要課題,景氣分析正是適應(yīng)這一要求而產(chǎn)生和發(fā)展的。景氣分析是一種綜合評價分析,可分為宏觀經(jīng)濟景氣分析和企業(yè)景氣調(diào)查分析。
宏觀經(jīng)濟景氣分析。是國家統(tǒng)計局20世紀80年代后期開始著手建立監(jiān)測指標體系和評價方法,經(jīng)過十多年時間和不斷完善,已形成制度,定期提供景氣分析報告,對宏觀經(jīng)濟運行狀態(tài)起到晴雨表和報警器的作用,便于國務(wù)院和有關(guān)部門及時采取宏觀調(diào)控措施。以經(jīng)常性的小調(diào)整,防止經(jīng)濟的大起大落。
企業(yè)景氣調(diào)查分析。是全國的大中型各類企業(yè)中,采取抽樣調(diào)查的方法,通過問卷的形式,讓企業(yè)負責(zé)人回答有關(guān)情況判斷和預(yù)期。內(nèi)容分為兩類:一是對宏觀經(jīng)濟總體的判斷和預(yù)期;一是對企業(yè)經(jīng)營狀況的判斷和預(yù)期,如產(chǎn)品訂單、原材料購進、價格、存貨、就業(yè)、市場需求、固定資產(chǎn)投資等。
八、預(yù)測分析
宏觀經(jīng)濟決策和微觀經(jīng)濟決策,不僅需要了解經(jīng)濟運行中已經(jīng)發(fā)生了的實際情況,而且更需要預(yù)見未來將發(fā)生的情況。根據(jù)已知的過去和現(xiàn)在推測未來,就是預(yù)測分析。
統(tǒng)計預(yù)測屬于定量預(yù)測,是以數(shù)據(jù)分析為主,在預(yù)測中結(jié)合定性分析。統(tǒng)計預(yù)測的方法大致可分為兩類:一類是主要根據(jù)指標時間數(shù)列自身變化與時間的依存關(guān)系進行預(yù)測,屬于時間數(shù)列分析;另一類是根據(jù)指標之間相互影響的因果關(guān)系進行預(yù)測,屬于回歸分析。
預(yù)測分析的方法有回歸分析法、滑動平均法、指數(shù)平滑法、周期(季節(jié))變化分析和隨機變化分析等。比較復(fù)雜的預(yù)測分析需要建立計量經(jīng)濟模型,求解模型中的參數(shù)又有許多方法。
第五篇:應(yīng)用統(tǒng)計分析課程學(xué)習(xí)總結(jié)
應(yīng)用統(tǒng)計分析課程學(xué)習(xí)總結(jié)
在學(xué)期開始時,老師就語重心長的告訴我們:一定要好好聽應(yīng)用統(tǒng)計分析的課,那個SPSS軟件非常有用,以后寫論文肯定要用到!盡管心里也是一再暗示自己要好好學(xué),但是因為其他原因,學(xué)習(xí)的效果并沒有預(yù)期中的那么理想,課程結(jié)束后依舊是模模糊糊,好多知識還真的是一知半解。通過回顧課程內(nèi)容,閱讀老師發(fā)來的SPSS電子書,我簡略總結(jié)一下自己這學(xué)期所學(xué)到的基本內(nèi)容。
SPSS社會科學(xué)統(tǒng)計軟件是世界著名的統(tǒng)計分析軟件之一,SPSS作為數(shù)據(jù)統(tǒng)計分析的重要工具,其操作是屬于技術(shù)方面的,關(guān)鍵在于數(shù)據(jù)的收集描述和分析以及后期數(shù)據(jù)處理時的假設(shè)檢驗方法的選擇。通俗一點說,使用SPSS可以從一堆看似雜亂無章的數(shù)字中找到聯(lián)系,發(fā)現(xiàn)數(shù)據(jù)之間的影響關(guān)系。這就是SPSS的神奇之處,這也就是我們作為研究生在實證研究時使用SPSS的目的和用途。
描述性統(tǒng)計是進行其他統(tǒng)計分析的基礎(chǔ)和前提。利用這些基本統(tǒng)計方法,可以對要分析數(shù)據(jù)的總體特征有比較準確的把握,同時也為更深入的分析提供了依據(jù)。在商業(yè)分析中,通常需要進行組與組之間平均水平的比較。t檢驗方法,就是主要用來進行兩個樣本間的比較。t檢驗的基本原理是:首先假設(shè)零假設(shè)H0成立,即樣本間不存在顯著差異,然后利用現(xiàn)有樣本根據(jù)t 分布求得t值,并據(jù)此得到相應(yīng)的概率值p,若p≤ɑ,則拒絕原假設(shè),認為兩樣本間存在顯著差異。SPSS中“Analyze”菜單中的“Compare Means”可用于均值檢驗,其子菜單中的“One-sample t test”用于單一樣本t檢驗;“Independent-samples t test”用于兩獨立樣本t檢驗;“Baired-samples t test”用于兩配對樣本t檢驗。方差分析用于兩個及兩個以上樣本均值差異的顯著性檢驗。方差分析的基本思想是:通過分析研究中不同變量的變異對總變異的貢獻大小,確定控制變量對研究變量影響力的大小。通過方差分析,分析不同水平的控制變量是否對結(jié)果產(chǎn)生了顯著影響。如果控制變量的不同水平能夠?qū)Y(jié)果產(chǎn)生顯著影響,那么它和隨機變量共同作用,必將使結(jié)果有顯著變化。單因素方差分析所解決的是一個因素下的多個不同水平之間的相關(guān)問題;多因素方差分析的控制變量在兩個或兩個以上,其主要用于分析多個控制變量的作用、多個控制變量的交互作用以及其他隨機變量是否對結(jié)果產(chǎn)生了顯著影響;協(xié)方差分析將那些很難控制的因素作為協(xié)變量,在排除協(xié)變量影響的條件下,分析控制變量對觀察變量的影響,從而更準確地對控制因素進行評價。單因素方差分析主要用“Analysis”的“Compare Means”菜單下的“One—Way ANOVA”子菜單實現(xiàn);多因素方差分析和協(xié)方差分析都是在“Analysis”下“General Linear Model”菜單下的“Univariate”子菜單實現(xiàn)的。相關(guān)分析即是用適當?shù)慕y(tǒng)計指標來衡量事物之間,以及變量之間線性相關(guān)程度的強弱。相關(guān)分析的方法很多,包括簡單相關(guān)分析、偏相關(guān)分析和距離相關(guān)分析。簡單相關(guān)分析包括定距變量的相關(guān)分析和定序變量的相關(guān)分析。前者通過計算定距變量間的相關(guān)系數(shù)來判斷兩個或兩個以上定距變量之間的相關(guān)程度。后者則采用非參數(shù)檢驗的方法利用等級相關(guān)系數(shù)來衡量定序變量之間的相關(guān)程度;偏相關(guān)分析是指在排除了第三者影響的前提下,衡量兩個變量之間的相關(guān)程度,當然第三者與這兩個變量之間要有一定的聯(lián)系;距離相關(guān)分析是對觀測變量之間差異度或相似程度進行的測量。回歸分析是研究變量與變量之間聯(lián)系的最為廣泛的模型。在實際中,根據(jù)變量的個數(shù)、類型,以及變量之間的相關(guān)關(guān)系,回歸分析通常分為一元線性回歸分析、多元線性回歸分析、非線性回歸分析、曲線估計、時間序列的曲線估計、含虛擬自變量的回歸分析和邏輯回歸分析等。一元線性回歸只涉及一個自變量的回歸問題;多元線性回歸用于解決兩個或兩個以上自變量對一個因變量的數(shù)量變化關(guān)系問題;非線性回歸主要解決在非線性相關(guān)條件下,自變量對因變量的數(shù)量變化關(guān)系;時間序列的曲線回歸用于研究因變量與時間之間的變化關(guān)系;當遇到非數(shù)量型變量時,通過引入虛擬變量來構(gòu)造含虛擬變量的回歸模型;Logistic回歸分析是對定性變量進行的回歸分析。SPSS中“Analyze”/“Regression”菜單可用于回歸統(tǒng)計分析。其中,一元線性回歸、多元線性回歸和含虛擬變量的回歸分析可由“Linear”子菜單完成;非線性回歸分析、曲線估計和時間序列的曲線估計可由“Curve Estimation”子菜單完成;邏輯回歸分析可由“Binary Logistic”子菜單完成。
結(jié)構(gòu)方程模型又稱協(xié)方差結(jié)構(gòu)模型,它主要是在心理、行為、教育、和社會科學(xué)等學(xué)科的實際應(yīng)用中發(fā)展起來的一個研究方向。結(jié)構(gòu)方程模型是驗證性因子分析和因果模型的結(jié)合體,所包含的因子模型又稱為測量模型,其中的方程成為測量方程,描述了潛變量與觀察變量之間的關(guān)系,所包含的因果模型又稱為潛變量模型,也稱為結(jié)構(gòu)模型,描述了潛變量之間的關(guān)系。結(jié)構(gòu)方程模型具有諸多好處,可以同時處理多個因變量,容許自變量和因變量含測量誤差,同時估計因子結(jié)構(gòu)和因子關(guān)系,容許更大彈性的測量模型,估計整個模型的擬合程度。
以上是對每一部分內(nèi)容的簡要概述,其中更深層的內(nèi)容仍需要更深刻的理解。課程雖然結(jié)束了,但是對SPSS的學(xué)習(xí)不能停止,因為自己還不能獨自熟練的操作這個軟件,還不能依靠這個軟件為自己的論文或科研做出一些成果。SPSS是極其實用的,學(xué)習(xí)不能止步!很是希望能夠把SPSS的應(yīng)用熟練操作,并且能把它變?yōu)樽约旱囊环N技能,使自己在今后的工作與學(xué)習(xí)中,可以輕松運用。