第一篇:統(tǒng)計分析學(xué)習(xí)總結(jié)
經(jīng)過四周的課程主要學(xué)習(xí)了以下幾種分析方法: 1.方差分析
方差分析(Analysis of Variance,簡稱ANOVA),又稱“變異數(shù)分析”或“F檢 驗”,是R.A.Fisher發(fā)明的,用于兩個及兩個以上樣本均數(shù)差別的顯著性檢驗。由于各種因素的影響,研究所得的數(shù)據(jù)呈現(xiàn)波動狀。造成波動的原因可分成兩類,一是不可控的隨機因素,另一是研究中施加的對結(jié)果形成影響的可控因素。方差分析是從觀測變量的方差入手,研究諸多控制變量中哪些變量是對觀測變量有顯著影響的變量。
作用:一個復(fù)雜的事物,其中往往有許多因素互相制約又互相依存。方差分析的目的是通過數(shù)據(jù)分析找出對該事物有顯著影響的因素,各因素之間的交互作用,以及顯著影響因素的最佳水平等。方差分析是在可比較的數(shù)組中,把數(shù)據(jù)間的總的“變差”按各指定的變差來源進行分解的一種技術(shù)。對變差的度量,采用離差平方和。方差分析方法就是從總離差平方和分解出可追溯到指定來源的部分離差平方和,這是一個很重要的思想。
經(jīng)過方差分析若拒絕了檢驗假設(shè),只能說明多個樣本總體均值不相等或不全相等。若要得到各組均值間更詳細的信息,應(yīng)在方差分析的基礎(chǔ)上進行多個樣本均值的兩兩比較。
(1)多個樣本均值間兩兩比較
多個樣本均值間兩兩比較常用q檢驗的方法,即Newman-kueuls法,其基本步驟為:建立檢驗假設(shè)-->樣本均值排序-->計算q值-->查q界值表判斷結(jié)果。
(2)多個實驗組與一個對照組均值間兩兩比較
多個實驗組與一個對照組均值間兩兩比較,若目的是減小第II類錯誤,最好選用最小顯著差法(LSD法);若目的是減小第I類錯誤,最好選用新復(fù)極差法,前者查t界值表,后者查q'界值表。折疊
分析方法
根據(jù)資料設(shè)計類型的不同,有以下兩種方差分析的方法:
1、對成組設(shè)計的多個樣本均值比較,應(yīng)采用完全隨機設(shè)計的方差分析,即單因素方差分析。
2、對隨機區(qū)組設(shè)計的多個樣本均值比較,應(yīng)采用配伍組設(shè)計的方差分析,即兩因素方差分析。折疊兩類方差分析的異同
兩類方差分析的基本步驟相同,只是變異的分解方式不同,對成組設(shè)計的資料,總變異分解為組內(nèi)變異和組間變異(隨機誤差),即:SS總=SS組間+SS組內(nèi),而對配伍組設(shè)計的資料,總變異除了分解為處理組變異和隨機誤差外還包括配伍組變異,即:SS總=SS處理+SS配伍+SS誤差。折疊基本步驟
整個方差分析的基本步驟如下:
1、建立檢驗假設(shè); H0:多個樣本總體均值相等;
H1:多個樣本總體均值不相等或不全等。檢驗水準為0.05。
2、計算檢驗統(tǒng)計量F值;
3、確定P值并作出推斷結(jié)果。
2.回歸分析法定義
所謂回歸分析法,是在掌握大量觀察數(shù)據(jù)的基礎(chǔ)上,利用數(shù)理統(tǒng)計方法建立因變量與自變量之間的回歸關(guān)系函數(shù)表達式(稱回歸方程式)。回歸分析法不能用于分析與評價工程項目風(fēng)險。
分類
回歸分析中,當(dāng)研究的因果關(guān)系只涉及因變量和一個自變量時,叫做一元回歸分析;當(dāng)研究的因果關(guān)系涉及因變量和兩個或兩個以上自變量時,叫做多元回歸分析。根據(jù)自變量的個數(shù),可以是一元回歸,也可以是多元回歸。此外,回歸分析中,又依據(jù)描述自變量與因變量之間因果關(guān)系的函數(shù)
表達式是線性的還是非線性的,分為線性回歸分析和非線性回歸分析。根據(jù)所研究問題的性質(zhì),可以是線性回歸,也可以是非線性回歸。通常線性回歸分析法是最基本的分析方法,遇到非線性回歸問題可以借助數(shù)學(xué)手段化為線性回歸問題處理?;貧w分析法預(yù)測是利用回歸分析方法,根據(jù)一個或一組自變量的變動情況預(yù)測與其有相關(guān)關(guān)系的某隨機變量的未來值。進行回歸分析需要建立描述變量間相關(guān)關(guān)系的回歸方程。
應(yīng)用
社會經(jīng)濟現(xiàn)象之間的相關(guān)關(guān)系往往難以用確定性的函數(shù)關(guān)系來描述,它們大多是隨機性的,要通過統(tǒng)計觀察才能找出其中規(guī)律?;貧w分析是利用統(tǒng)計學(xué)原理描述隨機變量間相關(guān)關(guān)系的一種重要方法。
在物流的計算中,回歸分析法的公式如下: y=a+bx b=∑xy-n·∑x∑y/[∑x²-n·(∑x)²];a=∑y-b·∑x/n
3.主成分分析和因子分析
principal component analysis(PCA)主成分分析法是一種數(shù)學(xué)變換的方法, 它把給定的一組相關(guān)變量通過線性變換轉(zhuǎn)成另一組不相關(guān)的變量,這些新的變量按照方差依次遞減的順序排列。在數(shù)學(xué)變換中保持變量的總方差不變,使第一變 量具有最大的方差,稱為第一主成分,第二變量的方差次大,并且和第一變量不相關(guān),稱為第二主成分。依次類推,I個變量就有I個主成分。
其中Li為p維正交化向量(Li*Li=1),Zi之間互不相關(guān)且按照方差由大到小排列,則稱Zi為X的第I個主成分。設(shè)X的協(xié)方差矩陣為Σ,則Σ必為半正定對稱矩陣,求特征值λi(按從大到小排序)及其特征向量,可以證明,λi所對應(yīng)的正交化特征向量,即為第I個主成分Zi所對應(yīng)的系數(shù)向量Li,而Zi的方差貢獻率定義為λi/Σλj,通常要求提取的主成分的數(shù)量k滿足Σλk/Σλj>0.85。
主成分分析主要是一種探索性的技術(shù),在分析者進行多元數(shù)據(jù)分析之前,用他來分析數(shù)據(jù),讓自己對數(shù)據(jù)有一個大致的了解,這是非常有必要的。主成分分析一般很少單獨使用:a、了解數(shù)據(jù)。(screening the data),b、和cluster analysis(聚類分析)一起使用,c、和判別分析一起使用,比如當(dāng)變量很多,個案數(shù)不多,直接使用判別分析可能無解,這時候可以使用主成分對變量簡化(reduce dimensionality),d、在多元回歸中,主成分分析可以幫助判斷是否存在共線性(條件指數(shù)),還可以用來處理共線性。
1、因子分析中是把變量表示成各因子的線性組合,而主成分分析中則是把主成分表示成各變量的線性組合。
2、主成分分析的重點在于解釋各變量的總方差,而因子分析則把重點放在解釋各變量之間的協(xié)方差。
3、主成分分析中不需要有假設(shè)(assumptions),因子分析則需要一些假設(shè)。因子分析的假設(shè)包括:各個共同因子之間不相關(guān),特殊因子(specific factor)之間也不相關(guān),共同因子和特殊因子之間也不相關(guān)。
4、主成分分析中,當(dāng)給定的協(xié)方差矩陣或者相關(guān)矩陣的特征值是唯一的時候,主成分一般是獨特的;而因子分析中因子不是獨特的,可以旋轉(zhuǎn)得到不同的因子。
5、在因子分析中,因子個數(shù)需要分析者指定(spss根據(jù)一定的條件自動設(shè)定,只要是特征值大于1的因子進入分析),而指定的因子數(shù)量不同而結(jié)果不同。在主成分分析中,成分的數(shù)量是一定的,一般有幾個變量就有幾個主成分。和主成分分析相比,由于因子分析可以使用旋轉(zhuǎn)技術(shù)幫助解釋因子,在解釋方面更加有優(yōu)勢。大致說來,當(dāng)需要尋找潛在的因子,并對這些因子進行解釋的時候,更加傾向于使用因子分析,并且借助旋轉(zhuǎn)技術(shù)幫助更好解釋。而如果想把現(xiàn)有的變量變成少數(shù)幾個新的變量(新的變量幾乎帶有原來所有變量的信息)來進入后續(xù)的分析,則可以使用主成分分析。當(dāng)然,這種情況也可以使用因子得分做到。所以這種區(qū)分不是絕對的。
在算法上,主成分分析和因子分析很類似,不過在因子分析中所采用的協(xié)方差矩陣的對角元素不再是變量的方差,而是和變量對應(yīng)的共同度(變量方差中被各因子所解釋的部分)。4.聚類分析
依據(jù)研究對象(樣品或指標)的特征,對其進行分類的方法,減少研究對象的數(shù)目。各類事物缺乏可靠的歷史資料,無法確定共有多少類別,目的是將性質(zhì)相近事物歸入一類。各指標之間具有一定的相關(guān)關(guān)系。聚類分析(cluster analysis)是一組將研究對象分為相對同質(zhì)的群組(clusters)的統(tǒng)計分析技術(shù)。聚類分析也叫分類分析(classification analysis)或數(shù)值分類(numerical taxonomy)變量類型:定類變量、定量(離散和連續(xù))變量 聚類方法
1,層次聚類(Hierarchical Clustering)合并法、分解法、樹狀圖 2.非層次聚類 劃分聚類、譜聚類 分析步驟:
定義問題與選擇分類變量;聚類方法;確定群組數(shù)目;聚類結(jié)果評估;結(jié)果的描述、解釋
5典型相關(guān)分析和對應(yīng)分析
典型相關(guān)分析(canonical correlation analysis)就是利用綜合變量對之間的相關(guān)關(guān)系來反映兩組指標之間的整體相關(guān)性的多元統(tǒng)計分析方法。它的基本原理是:為了從總體上把握兩組指標之間的相關(guān)關(guān)系,分別在兩組變量中提取有代表性的兩個綜合變量U1和V1(分別為兩個變量組中各變量的線性組合),利用這兩個綜合變量之間的相關(guān)關(guān)系來反映兩組指標之間的整體相關(guān)性。
對應(yīng)分析(Correspondence analysis)也稱關(guān)聯(lián)分析、R-Q型因子分析,是近年新發(fā)展起來的一種多元相依變量統(tǒng)計分析技術(shù),通過分析由定性變量構(gòu)成的交互匯總表來揭示變量間的聯(lián)系??梢越沂就蛔兞康母鱾€類別之間的差異,以及不同變量各個類別之間的對應(yīng)關(guān)系。主要應(yīng)用在市場細分、產(chǎn)品定位、地質(zhì)研究以及計算機工程等領(lǐng)域中。原因在于,它是一種視覺化的數(shù)據(jù)分析方法,它能夠?qū)捉M看不出任何聯(lián)系的數(shù)據(jù),通過視覺上可以接受的定位圖展現(xiàn)出來。6.判別分析和時間序列分析 判別分析又稱“分辨法”,是在分類確定的條件下,根據(jù)某一研究對象的各種特征值判別其類型歸屬問題的一種多變量統(tǒng)計分析方法。其基本原理是按照一定的判別準則,建立一個或多個判別函數(shù),用研究對象的大量資料確定判別函數(shù)中的待定系數(shù),并計算判別指標。據(jù)此即可確定某一樣本屬于何類。當(dāng)?shù)玫揭粋€新的樣品數(shù)據(jù),要確定該樣品屬于已知類型中哪一類,這類問題屬于判別分析問題。時間序列分析(Time series analysis)是一種動態(tài)數(shù)據(jù)處理的統(tǒng)計方法。該方法基于隨機過程理論和數(shù)理統(tǒng)計學(xué)方法,研究隨機數(shù)據(jù)序列所遵從的統(tǒng)計規(guī)律,以用于解決實際問題。它包括一般統(tǒng)計分析(如自相關(guān)分析,譜分析等),統(tǒng)計模型的建立與推斷,以及關(guān)于時間序列的最優(yōu)預(yù)測、控制與濾波等內(nèi)容。經(jīng)典的統(tǒng)計分析都假定數(shù)據(jù)序列具有獨立性,而時間序列分析則側(cè)重研究數(shù)據(jù)序列的互相依賴關(guān)系。后者實際上是對離散指標的隨機過程的統(tǒng)計分析,所以又可看作是隨機過程統(tǒng)計的一個組成部分。例如,記錄了某地區(qū)第一個月,第二個月,??,第N個月的降雨量,利用時間序列分析方法,可以對未來各月的雨量進行預(yù)報。
第二篇:統(tǒng)計分析方法學(xué)習(xí)總結(jié)
統(tǒng)計分析方法學(xué)習(xí)總結(jié)
S201505158 陳丹妮
一、統(tǒng)計的描述
一般采用以下幾種圖形描述數(shù)據(jù):
直方圖:表示幾個變量的數(shù)據(jù),使人們能夠看出這些數(shù)目的大體分布或“形狀”; 盒形圖:比直方圖簡單一些的是盒形圖(boxplot,又稱箱圖、箱線圖、盒子圖);
莖葉圖:既展示了數(shù)據(jù)的分布形狀又有原始數(shù)據(jù)。它象一片帶有莖的葉子。莖為較大位數(shù)的數(shù)字,葉為較小位數(shù)的數(shù)字;
散點圖:描述的數(shù)據(jù)有兩對連續(xù)變量; 定型變量的圖:定性變量(或?qū)傩宰兞?,分類變量)不能點出直方圖、散點圖或莖葉圖,但可以描繪出它們各類的比例,如:餅圖、條形圖。
二、匯總統(tǒng)計量
表示位置的匯總統(tǒng)計量:均值(mean):樣本值的算術(shù)平均值;中位數(shù)(median):中間大小的數(shù)(一半樣本點小于中位數(shù));(第一或第三)(下、上)四分位數(shù)(點)(first quantile, third quantile)(分別有1/4或3/4的數(shù)目小于它們);k-百分位數(shù)(k-percentile);a分位數(shù)(a centile): k-百分位數(shù)=k%分位數(shù):有k%的數(shù)目小于它;眾數(shù)(mode):樣本中出現(xiàn)最多的數(shù)。
表示尺度的匯總統(tǒng)計量:極差(range):極端值之差;四分位間距(四分位極差)(interquantile range)四分位數(shù)之差;標準差(standard deviation)方差平方根;方差(variance)各點到均值距離平方的平均。
三、相關(guān)的分布
相關(guān)的分布包括:離散分布、連續(xù)分布、抽樣分布:我們能夠利用樣本統(tǒng)計量中的(描述樣本的)信息, 比如樣本均值和樣本標準差中的信息,來對(描述總體的)總體參數(shù)(比如總體均值和總體標準差)進行推斷(估計、檢驗等)。
大數(shù)定律:闡述大量隨機變量的平均結(jié)果具有穩(wěn)定性的一系列定律的總稱。其中又分為獨立同分布大數(shù)定律(提供了用樣本平均數(shù)估計總體平均數(shù)的理論依據(jù))和貝努力大數(shù)定律(提供了頻率代替概率的理論依據(jù))。
中心極限定理:闡述大量隨機變量之和的極限分布是正態(tài)分布的一系列定理的總稱。獨立同分布中心極限定理(不論總體服從何種分布,只要它的數(shù)學(xué)期望和方差存在,從中抽取容量為n的樣本,當(dāng)n充分大時,則這個樣本的總和或平均數(shù)是服從正態(tài)分布的隨機變量)和德莫佛-拉普拉斯中心極限定理(提供了用正態(tài)分布近似計算二項分布概率的方法)。均值的假設(shè)檢驗包括對于正態(tài)總體均值的檢驗、對于比例的檢驗
四、各種分析方法
1.列聯(lián)表分析
列聯(lián)表變量中每個都有兩個或更多的可能取值,稱為水平,比如收入有三個水平,觀點有兩個水平,性別有兩個水平等。列聯(lián)表的中間各個變量不同水平的交匯處,就是這種水平組合出現(xiàn)的頻數(shù)或計數(shù)(count)。二維的列聯(lián)表又稱為交叉表(cross table)。列聯(lián)表可以有
很多維。維數(shù)多的叫做高維列聯(lián)表。注意前面這個列聯(lián)表的變量都是定性變量;但列聯(lián)表也會帶有定量變量作為協(xié)變量。
2.方差分析
方差分析(analysis of variance,ANOVA)是分析各個自變量對因變量影響的一種方法。這里的自變量就是定性變量的因子及可能出現(xiàn)的稱為協(xié)變量(covariate)的定量變量。分析結(jié)果是由一個方差分析表表示的。原理為:把因變量的值隨著自變量的不同取值而得到的變化進行分解,使得每一個自變量都有一份貢獻,最后剩下無法用已知的原因解釋的則看成隨機誤差的貢獻。然后用各自變量的貢獻和隨機誤差的貢獻進行比較(F檢驗),以判斷該自變量的不同水平是否對因變量的變化有顯著貢獻。輸出就是F-值和檢驗的一些p-值。
3.相關(guān)和回歸分析
發(fā)現(xiàn)變量之間的統(tǒng)計關(guān)系,并且用此規(guī)律來幫助我們進行決策才是統(tǒng)計實踐的最終目的。一般來說,統(tǒng)計可以根據(jù)目前所擁有的信息(數(shù)據(jù))來建立人們所關(guān)心的變量和其他有關(guān)變量的關(guān)系。這種關(guān)系一般稱為模型(model)。
假如用Y表示感興趣的變量,用X表示其他可能與Y有關(guān)的變量(X也可能是若干變量組成的向量)。則所需要的是建立一個函數(shù)關(guān)系Y=f(X)。這里Y稱為因變量或響應(yīng)變量(dependent variable, response variable),而X稱為自變量,也稱為解釋變量或協(xié)變量(independent variable, explanatory variable, covariate)。建立這種關(guān)系的過程就叫做回歸(regression)。
一旦建立了回歸模型,除了對變量的關(guān)系有了進一步的定量理解之外,還可以利用該模型(函數(shù))通過自變量對因變量做預(yù)測(prediction)。這里所說的預(yù)測,是用已知的自變量的值通過模型對未知的因變量值進行估計;它并不一定涉及時間先后。
4.主成分分析和因子分析
主成分分析從原理上是尋找橢球的所有主軸。原先有幾個變量,就有幾個主成分。而因子分析是事先確定要找?guī)讉€成分,這里叫因子(factor)(比如兩個),那就找兩個。這使得在數(shù)學(xué)模型上,因子分析和主成分分析有不少區(qū)別。而且因子分析的計算也復(fù)雜得多。根據(jù)因子分析模型的特點,它還多一道工序:因子旋轉(zhuǎn)(factor rotation);這個步驟可以使結(jié)果更好。對于計算機,因子分析并不費事。從輸出的結(jié)果來看,因子分析也有因子載荷(factor loading)的概念,代表了因子和原先變量的相關(guān)系數(shù)。但是在因子分析公式中的因子載荷位置和主成分分析不同。因子分析也給出了二維圖;其解釋和主成分分析的載荷圖類似。
可以看出,因子分析和主成分分析都依賴于原始變量,也只能反映原始變量的信息。所以原始變量的選擇很重要。另外,如果原始變量都本質(zhì)上獨立,那么降維就可能失敗,這是因為很難把很多獨立變量用少數(shù)綜合的變量概括。數(shù)據(jù)越相關(guān),降維效果就越好。在得到分析的結(jié)果時,并不一定會都得到如我們例子那樣清楚的結(jié)果。這與問題的性質(zhì),選取的原始變量以及數(shù)據(jù)的質(zhì)量等都有關(guān)系。
5.聚類分析
物以類聚、人以群分;但根據(jù)什么分類呢?如要想把中國的縣分類,就有多種方法可以按照自然條件來分,比如考慮降水、土地、日照、濕度等,也可考慮收入、教育水準、醫(yī)療條件、基礎(chǔ)設(shè)施等指標;既可以用某一項來分類,也可以同時考慮多項指標來分類。對一個數(shù)據(jù),既可以對變量(指標)進行分類(相當(dāng)于對數(shù)據(jù)中的列分類),也可以對觀測值(事件,樣品)來分類(相當(dāng)于對數(shù)據(jù)中的行分類)。當(dāng)然,不一定事先假定有多少類,完全可以按照數(shù)據(jù)
本身的規(guī)律來分類。對變量的聚類稱為R型聚類,而對觀測值聚類稱為Q型聚類。它們在數(shù)學(xué)上是無區(qū)別的。
k-均值聚類(k-means cluster,也叫快速聚類,quick cluster)卻要求先說好要分多少類。然后,根據(jù)和這三個點的距離遠近,把所有點分成三類。再把這三類的中心(均值)作為新的基石或種子(原來“種子”就沒用了),再重新按照距離分類。如此疊代下去,直到達到停止疊代的要求(比如,各類最后變化不大了,或者疊代次數(shù)太多了)。顯然,前面的聚類種子的選擇并不必太認真,它們很可能最后還會分到同一類中呢。另一種聚類稱為分層聚類或系統(tǒng)聚類(hierarchical cluster)。開始時,有多少點就是多少類。它第一步先把最近的兩類(點)合并成一類,然后再把剩下的最近的兩類合并成一類;這樣下去,每次都少一類,直到最后只有一大類為止。越是后來合并的類,距離就越遠。
6.判別分析
在聚類分析中,人們一般事先并不知道應(yīng)該分成幾類及哪幾類,全根據(jù)數(shù)據(jù)確定。在判別分析中,至少有一個已經(jīng)明確知道類別的“訓(xùn)練樣本”,并利用該樣本來建立判別準則,并通過預(yù)測變量來為未知類別的觀測值進行判別了。訓(xùn)練樣本中必須包含所有要判別的類型,分類必須清楚,不能有混雜。要選擇好可能用于判別的預(yù)測變量。這是最重要的。當(dāng)然,在應(yīng)用中,選擇余地不見得有多大。要注意數(shù)據(jù)是否有不尋常的點或者模式存在。還要看預(yù)測變量中是否有些不適宜的;這可以用單變量方差分析(ANOVA)和相關(guān)分析來驗證。判別分析是為了正確地分類,但同時也要注意使用盡可能少的預(yù)測變量來達到這個目的。使用較少的變量意味著節(jié)省資源和易于對結(jié)果作解釋。在計算中需要看關(guān)于各個類的有關(guān)變量的均值是否顯著不同的。
7.典型相關(guān)分析
由于一組變量可以有無數(shù)種線性組合(線性組合由相應(yīng)的系數(shù)確定),因此必須找到既有意義又可以確定的線性組合。典型相關(guān)分析(canonical correlation analysis)就是要找到這兩組變量線性組合的系數(shù)使得這兩個由線性組合生成的變量(和其他線性組合相比)之間的相關(guān)系數(shù)最大。目的:研究多個變量之間的相關(guān)性。方法:利用主成分思想,可以把多個變量與多個變量之間的相關(guān)化為兩個變量之間的相關(guān).即找一組系數(shù)(向量)l和m, 使新變量U=l`X(1)和V=m`X(2)有最大可能的相關(guān)關(guān)系。
8.對應(yīng)分析
在因子分析中,或者只對變量(列中的變量)進行分析,或者只對樣品(觀測值或行中的變量)進行分析;而且利用載荷圖來描述各個變量之間的接近程度。典型相關(guān)分析也只研究列中兩組變量之間的關(guān)系。然而,在很多情況下,所關(guān)心的不僅僅是行或列本身變量之間的關(guān)系,而是行變量和列變量的相互關(guān)系;對應(yīng)分析方法被普遍認為是探索性數(shù)據(jù)分析的內(nèi)容,處理列聯(lián)表的問題僅僅是對應(yīng)分析的一個特例。一般地,對應(yīng)分析常規(guī)地處理連續(xù)變量的數(shù)據(jù)矩陣;這些數(shù)據(jù)具有如在主成分分析、因子分析、聚類分析等時所處理的數(shù)據(jù)形式。在對應(yīng)分析中,根據(jù)各行變量的因子載荷和各列變量的因子載荷之間的關(guān)系,行因子載荷和列因子載荷之間可以兩兩配對。如果對每組變量選擇前兩列因子載荷,則兩組變量就可畫出兩因子載荷的散點圖。由于這兩個圖所表示的載荷可以配對,于是就可以把這兩個因子載荷的兩個散點圖畫到同一張圖中,并以此來直觀地顯示各行變量和各列變量之間的關(guān)系。由于列聯(lián)表數(shù)據(jù)形式和一般的連續(xù)變量的數(shù)據(jù)形式類似,所以也可以用對應(yīng)分析的數(shù)學(xué)方法來研究行變量各個水平和列變量各個水平之間的關(guān)系。
9.時間序列分析
人們對統(tǒng)計數(shù)據(jù)往往可以根據(jù)其特點從兩個方面來切入,以簡化分析過程。一個是研究所謂橫截面(cross section)數(shù)據(jù),也就是對大體上同時,或者和時間無關(guān)的不同對象的觀測值組成的數(shù)據(jù)。另一個稱為時間序列(time series),也就是由對象在不同時間的觀測值形成的數(shù)據(jù)。時間序列分析也是一種回歸。回歸分析的目的是建立因變量和自變量之間關(guān)系的模型;并且可以用自變量來對因變量進行預(yù)測。通常線性回歸分析因變量的觀測值假定是互相獨立并且有同樣分布。而時間序列的最大特點是觀測值并不獨立。時間序列的一個目的是用變量過去的觀測值來預(yù)測同一變量的未來值。也就是說,時間序列的因變量為變量未來的可能值,而用來預(yù)測的自變量中就包含該變量的一系列歷史觀測值。當(dāng)然時間序列的自變量也可能包含隨著時間度量的獨立變量。一個時間序列可能有趨勢、季節(jié)、循環(huán)這三個成分中的某些或全部再加上隨機成分。因此,如果要想對一個時間序列本身進行較深入的研究,把序列的這些成分分解出來、或者把它們過慮掉則會有很大的幫助。如果要進行預(yù)測,則最好把模型中的與這些成分有關(guān)的參數(shù)估計出來。
如果我們不僅僅滿足于分解現(xiàn)有的時間序列,而且想要對未來進行預(yù)測,就需要建立模型。首先,這里介紹比較簡單的指數(shù)平滑(exponential smoothing)。指數(shù)平滑只能用于純粹時間序列的情況,而不能用于含有獨立變量時間序列的因果關(guān)系的研究。指數(shù)平滑的原理為:當(dāng)利用過去觀測值的加權(quán)平均來預(yù)測未來的觀測值時(這個過程稱為平滑),離得越近的觀測值要給以更多的權(quán)。而“指數(shù)”意味著:按照已有觀測值“老”的程度,其上的權(quán)數(shù)按指數(shù)速度遞減。
第三篇:應(yīng)用統(tǒng)計分析課程學(xué)習(xí)總結(jié)
應(yīng)用統(tǒng)計分析課程學(xué)習(xí)總結(jié)
在學(xué)期開始時,老師就語重心長的告訴我們:一定要好好聽?wèi)?yīng)用統(tǒng)計分析的課,那個SPSS軟件非常有用,以后寫論文肯定要用到!盡管心里也是一再暗示自己要好好學(xué),但是因為其他原因,學(xué)習(xí)的效果并沒有預(yù)期中的那么理想,課程結(jié)束后依舊是模模糊糊,好多知識還真的是一知半解。通過回顧課程內(nèi)容,閱讀老師發(fā)來的SPSS電子書,我簡略總結(jié)一下自己這學(xué)期所學(xué)到的基本內(nèi)容。
SPSS社會科學(xué)統(tǒng)計軟件是世界著名的統(tǒng)計分析軟件之一,SPSS作為數(shù)據(jù)統(tǒng)計分析的重要工具,其操作是屬于技術(shù)方面的,關(guān)鍵在于數(shù)據(jù)的收集描述和分析以及后期數(shù)據(jù)處理時的假設(shè)檢驗方法的選擇。通俗一點說,使用SPSS可以從一堆看似雜亂無章的數(shù)字中找到聯(lián)系,發(fā)現(xiàn)數(shù)據(jù)之間的影響關(guān)系。這就是SPSS的神奇之處,這也就是我們作為研究生在實證研究時使用SPSS的目的和用途。
描述性統(tǒng)計是進行其他統(tǒng)計分析的基礎(chǔ)和前提。利用這些基本統(tǒng)計方法,可以對要分析數(shù)據(jù)的總體特征有比較準確的把握,同時也為更深入的分析提供了依據(jù)。在商業(yè)分析中,通常需要進行組與組之間平均水平的比較。t檢驗方法,就是主要用來進行兩個樣本間的比較。t檢驗的基本原理是:首先假設(shè)零假設(shè)H0成立,即樣本間不存在顯著差異,然后利用現(xiàn)有樣本根據(jù)t 分布求得t值,并據(jù)此得到相應(yīng)的概率值p,若p≤ɑ,則拒絕原假設(shè),認為兩樣本間存在顯著差異。SPSS中“Analyze”菜單中的“Compare Means”可用于均值檢驗,其子菜單中的“One-sample t test”用于單一樣本t檢驗;“Independent-samples t test”用于兩獨立樣本t檢驗;“Baired-samples t test”用于兩配對樣本t檢驗。方差分析用于兩個及兩個以上樣本均值差異的顯著性檢驗。方差分析的基本思想是:通過分析研究中不同變量的變異對總變異的貢獻大小,確定控制變量對研究變量影響力的大小。通過方差分析,分析不同水平的控制變量是否對結(jié)果產(chǎn)生了顯著影響。如果控制變量的不同水平能夠?qū)Y(jié)果產(chǎn)生顯著影響,那么它和隨機變量共同作用,必將使結(jié)果有顯著變化。單因素方差分析所解決的是一個因素下的多個不同水平之間的相關(guān)問題;多因素方差分析的控制變量在兩個或兩個以上,其主要用于分析多個控制變量的作用、多個控制變量的交互作用以及其他隨機變量是否對結(jié)果產(chǎn)生了顯著影響;協(xié)方差分析將那些很難控制的因素作為協(xié)變量,在排除協(xié)變量影響的條件下,分析控制變量對觀察變量的影響,從而更準確地對控制因素進行評價。單因素方差分析主要用“Analysis”的“Compare Means”菜單下的“One—Way ANOVA”子菜單實現(xiàn);多因素方差分析和協(xié)方差分析都是在“Analysis”下“General Linear Model”菜單下的“Univariate”子菜單實現(xiàn)的。相關(guān)分析即是用適當(dāng)?shù)慕y(tǒng)計指標來衡量事物之間,以及變量之間線性相關(guān)程度的強弱。相關(guān)分析的方法很多,包括簡單相關(guān)分析、偏相關(guān)分析和距離相關(guān)分析。簡單相關(guān)分析包括定距變量的相關(guān)分析和定序變量的相關(guān)分析。前者通過計算定距變量間的相關(guān)系數(shù)來判斷兩個或兩個以上定距變量之間的相關(guān)程度。后者則采用非參數(shù)檢驗的方法利用等級相關(guān)系數(shù)來衡量定序變量之間的相關(guān)程度;偏相關(guān)分析是指在排除了第三者影響的前提下,衡量兩個變量之間的相關(guān)程度,當(dāng)然第三者與這兩個變量之間要有一定的聯(lián)系;距離相關(guān)分析是對觀測變量之間差異度或相似程度進行的測量。回歸分析是研究變量與變量之間聯(lián)系的最為廣泛的模型。在實際中,根據(jù)變量的個數(shù)、類型,以及變量之間的相關(guān)關(guān)系,回歸分析通常分為一元線性回歸分析、多元線性回歸分析、非線性回歸分析、曲線估計、時間序列的曲線估計、含虛擬自變量的回歸分析和邏輯回歸分析等。一元線性回歸只涉及一個自變量的回歸問題;多元線性回歸用于解決兩個或兩個以上自變量對一個因變量的數(shù)量變化關(guān)系問題;非線性回歸主要解決在非線性相關(guān)條件下,自變量對因變量的數(shù)量變化關(guān)系;時間序列的曲線回歸用于研究因變量與時間之間的變化關(guān)系;當(dāng)遇到非數(shù)量型變量時,通過引入虛擬變量來構(gòu)造含虛擬變量的回歸模型;Logistic回歸分析是對定性變量進行的回歸分析。SPSS中“Analyze”/“Regression”菜單可用于回歸統(tǒng)計分析。其中,一元線性回歸、多元線性回歸和含虛擬變量的回歸分析可由“Linear”子菜單完成;非線性回歸分析、曲線估計和時間序列的曲線估計可由“Curve Estimation”子菜單完成;邏輯回歸分析可由“Binary Logistic”子菜單完成。
結(jié)構(gòu)方程模型又稱協(xié)方差結(jié)構(gòu)模型,它主要是在心理、行為、教育、和社會科學(xué)等學(xué)科的實際應(yīng)用中發(fā)展起來的一個研究方向。結(jié)構(gòu)方程模型是驗證性因子分析和因果模型的結(jié)合體,所包含的因子模型又稱為測量模型,其中的方程成為測量方程,描述了潛變量與觀察變量之間的關(guān)系,所包含的因果模型又稱為潛變量模型,也稱為結(jié)構(gòu)模型,描述了潛變量之間的關(guān)系。結(jié)構(gòu)方程模型具有諸多好處,可以同時處理多個因變量,容許自變量和因變量含測量誤差,同時估計因子結(jié)構(gòu)和因子關(guān)系,容許更大彈性的測量模型,估計整個模型的擬合程度。
以上是對每一部分內(nèi)容的簡要概述,其中更深層的內(nèi)容仍需要更深刻的理解。課程雖然結(jié)束了,但是對SPSS的學(xué)習(xí)不能停止,因為自己還不能獨自熟練的操作這個軟件,還不能依靠這個軟件為自己的論文或科研做出一些成果。SPSS是極其實用的,學(xué)習(xí)不能止步!很是希望能夠把SPSS的應(yīng)用熟練操作,并且能把它變?yōu)樽约旱囊环N技能,使自己在今后的工作與學(xué)習(xí)中,可以輕松運用。
第四篇:金融統(tǒng)計分析學(xué)習(xí)指導(dǎo)
金融統(tǒng)計分析學(xué)習(xí)指導(dǎo)
金融統(tǒng)計分析是金融專業(yè)的一門基礎(chǔ)課。作為經(jīng)濟統(tǒng)計分析的重要分支,金融統(tǒng)計分析覆蓋了實證金融理論、金融統(tǒng)計指標、現(xiàn)實金融問題、統(tǒng)計分析方法運用等方面的內(nèi)容,是一個系統(tǒng)的知識體系。課程主要框架分為6個部分:
第一部分(第1章),介紹金融統(tǒng)計分析的基本問題;
第二部分(第2章),是貨幣與銀行統(tǒng)計分析,主要介紹貨幣與銀行統(tǒng)計體系、交易主體分類、貨幣當(dāng)局資產(chǎn)負債表、存款貨幣銀行資產(chǎn)負債表、貨幣概覽與銀行概覽等;
第三部分(第3、4章),是金融市場統(tǒng)計分析,主要介紹證券市場統(tǒng)計分析、外匯市場與匯率統(tǒng)計分析;
第四部分(第6、7章),是金融企業(yè)運營統(tǒng)計分析,主要介紹商業(yè)銀行統(tǒng)計分析、保險運營統(tǒng)計分析;
第五部分(第5、8章),是金融統(tǒng)計分析的綜合技術(shù)分析,主要介紹國際收支統(tǒng)計分析、資金流量統(tǒng)計分析;
第六部分(第9章),是金融統(tǒng)計分析的新領(lǐng)域,即金融體系國際競爭力分析。這六個部分,涵蓋了課程的9個章節(jié),依照由上至下的邏輯順序展開。這些章節(jié)所包括的具體內(nèi)容如下:
第一章:金融統(tǒng)計分析基本問題
1、了解
(1)經(jīng)濟分析方法:靜態(tài)經(jīng)濟分析;比較靜態(tài)經(jīng)濟分析;動態(tài)經(jīng)濟分析;比較動態(tài)經(jīng)濟分析。
(2)經(jīng)濟統(tǒng)計分析方法:描述性分析方法;應(yīng)用回歸和多元統(tǒng)計分析方法。
(3)常用經(jīng)濟統(tǒng)計分析方法:計量經(jīng)濟模型;投入產(chǎn)出分析;經(jīng)濟周期分析方法。
2、掌握
(1)貨幣供應(yīng)量統(tǒng)計;現(xiàn)金收支統(tǒng)計;對外金融統(tǒng)計;金融市場統(tǒng)計;中央銀行專項統(tǒng)計調(diào)查;保險統(tǒng)計;資金流量統(tǒng)計。
(2)金融統(tǒng)計分析的工作方法;金融統(tǒng)計分析的工作方法主要步驟。
3、重點掌握
(1)基本概念:貨幣流通;信用;金融;金融體系;金融制度;金融機構(gòu);金融工具;金融市場;金融調(diào)控機制;金融統(tǒng)計指標;金融賬戶。
(2)金融統(tǒng)計分析的主要任務(wù)。
(3)如何做好金融統(tǒng)計分析工作。
第二章:貨幣銀行統(tǒng)計分析
1、了解
(1)貨幣與銀行統(tǒng)計的一般結(jié)構(gòu)。
(2)交易主體分類。
(3)貨幣與銀行統(tǒng)計分析的理論依據(jù)。
(4)對貨幣與銀行統(tǒng)計中基礎(chǔ)貨幣、貨幣乘數(shù)、信貸總量、儲蓄存款、通貨膨脹和貨幣供應(yīng)量的統(tǒng)計分析。
2、掌握
(1)貨幣與銀行統(tǒng)計的一般結(jié)構(gòu)。
(2)貨幣與銀行統(tǒng)計的特點。
(3)貨幣與銀行統(tǒng)計的基本要求。
3、重點掌握
(1)貨幣的定義。
(2)我國貨幣與銀行的統(tǒng)計結(jié)構(gòu):掌握三個基本賬戶、兩個合并賬戶的表式、內(nèi)容、各項目的經(jīng)濟含義。能夠通過這三個基本賬戶和兩個合并賬戶的分析,獲得相關(guān)金融活動產(chǎn)生的原因,引發(fā)或可能引發(fā)的結(jié)果等信息,為金融決策提供決策依據(jù)。
(3)貨幣供給的定量分析:包括對基礎(chǔ)貨幣和派生貨幣的考察分析。
(4)貨幣需求的定量分析:利用簡單回歸分析法分析貨幣需求量。
第三章:證券市場統(tǒng)計分析
1、了解
(1)證券的概念及分類;證券市場的含義及分類。
(2)債券發(fā)行統(tǒng)計的內(nèi)容、分類、債券利息的計算方法、債券發(fā)行成本的內(nèi)容及計算,債券交易統(tǒng)計的內(nèi)容。
2、掌握
(1)上市公司統(tǒng)計分析的含義及內(nèi)容,中介機構(gòu)統(tǒng)計分析的含義及種類,股票市場宏觀基本面分析。
(2)債券投資收益風(fēng)險統(tǒng)計:債券投資收益的概念、統(tǒng)計。
(3)基金市場統(tǒng)計分析:基金費用統(tǒng)計、基金資產(chǎn)凈值統(tǒng)計。
(4)基金的種類及劃分,基金資產(chǎn)凈值總額的計算方法。
3、重點掌握
(1)股票市場統(tǒng)計分析:股票發(fā)行統(tǒng)計分析、股票交易統(tǒng)計分析、股票價格確定分析。
(2)債券價格確定統(tǒng)計:債券的定價原理、債券的基本價值評估。
(3)基金業(yè)績評估分析:對基金業(yè)績評估分析主要是通過基金的資產(chǎn)凈值增長率和單位風(fēng)險報酬率兩個指標的計算對比完成的。
第四章:外匯市場與率統(tǒng)計分析
1、了解
(1)外匯市場的功能。
(2)人民幣匯率制度的變革。
2、掌握
(1)我國外匯市場運行的基本結(jié)構(gòu):全國性的計算機網(wǎng)絡(luò)交易系統(tǒng)、入市主體采取會員制、交易幣種、交易方式、清算方式。
(2)匯率的概念、匯率的標價方法和匯率的種類。
(3)現(xiàn)行人民幣匯率制度的特點。
(4)貿(mào)易外匯統(tǒng)計分析。
3、重點掌握
(1)外匯市場的概念和外匯市場的類型。
(2)影響匯率變動的因素:國際收支差額、利率水平、通貨膨脹因素、財政、貨幣政策、投機資本、政府的市場干預(yù)、一國經(jīng)濟實力、其他因素等;匯率變化對經(jīng)濟的影響。
第五章:國際收支統(tǒng)計分析
1、了解
(1)國際收支統(tǒng)計數(shù)據(jù)來源:國際貿(mào)易統(tǒng)計、國際交易報告體系、企業(yè)調(diào)查、其他數(shù)據(jù)源。
(2)我國國際收支統(tǒng)計改革。
(3)國際收支統(tǒng)計與其他統(tǒng)計的關(guān)系。
(4)我國外債的發(fā)展:外債余額、外債規(guī)模的安全線、外債的期限結(jié)構(gòu)、外債的幣種結(jié)構(gòu)。
(5)外匯儲備規(guī)模與經(jīng)濟實力的國際比較;外匯儲備與國際收支變量的比較分析。
2、掌握
(1)國際收支統(tǒng)計的原則和方法:復(fù)式記賬法、價值及時間的記錄方法、國際收支統(tǒng)計中不同貨幣間的轉(zhuǎn)換。
(2)外匯收支統(tǒng)計的概念,我國外匯收支統(tǒng)計的歷史沿革。
(3)外債統(tǒng)計:外債的概念,我國在對外債進行管理的實際操作中,將外債分為五種。
(4)我國現(xiàn)行國際收支統(tǒng)計申報體系。
(5)我國外匯儲備規(guī)模的預(yù)測。
3、重點掌握
(1)國際收支的基本概念:國際收支、交易、經(jīng)濟體、居民和非居民。
(2)國際收支平衡表的內(nèi)容:經(jīng)常項目、資本與金融項目、儲備資產(chǎn)等。
(3)國際收支分析:國際收支分析的方法、國際收支項目分析的內(nèi)容、國際收支差額分析的內(nèi)容。
(4)外債的經(jīng)濟分析:外債的經(jīng)濟收益與成本、外債與國際收支平衡、債務(wù)償還比率與償債能力。
(5)外匯儲備的適度規(guī)模及外匯儲備規(guī)模的影響因素。
第六章:商業(yè)銀行統(tǒng)計分析
1、了解
(1)商業(yè)銀行的基本職能:中介職能、支付職能、擔(dān)保職能、代理功能、政策功能。
(2)銀行競爭力指標體系的內(nèi)容。
2、掌握
(1)商業(yè)銀行統(tǒng)計分析的主要任務(wù)。
(2)商業(yè)銀行資產(chǎn)負債表的結(jié)構(gòu)和內(nèi)容。
(3)商業(yè)銀行效益統(tǒng)計分析:衡量銀行盈利性指標分總量指標和比率指標兩類;對銀行損益表的分析,要能夠通過損益表分析銀行利潤增減變化的原因;盈利來源分析。
(4)商業(yè)銀行風(fēng)險統(tǒng)計分析:風(fēng)險的評價指標、銀行資產(chǎn)風(fēng)險識別統(tǒng)計分析、資產(chǎn)質(zhì)量分析。
(5)經(jīng)濟效益指標分析、安全能力指標分析。
3、重點掌握
(1)商業(yè)銀行資產(chǎn)業(yè)務(wù)統(tǒng)計分析:銀行資產(chǎn)業(yè)務(wù)統(tǒng)計對象和主要統(tǒng)計指標;資產(chǎn)業(yè)務(wù)統(tǒng)計分析和主要內(nèi)容,不良貸款情況分析,各類資產(chǎn)的結(jié)構(gòu)分析,資產(chǎn)的利率敏感性分析,資產(chǎn)變動的趨勢分析;資產(chǎn)流動性分析。
(2)商業(yè)銀行負債業(yè)務(wù)統(tǒng)計分析:負債分析的主要指標;負債統(tǒng)計分析內(nèi)容(包括各項負債余額統(tǒng)計分析、負債結(jié)構(gòu)統(tǒng)計分析、負債變化及預(yù)測分析、負債成本分析、負債的穩(wěn)定性分析、市場占比分析)。
(3)商業(yè)銀行資產(chǎn)負債管理統(tǒng)計:資產(chǎn)負債管理的概念、我國資產(chǎn)負債管理監(jiān)測指標體系。
第七章:保險運營統(tǒng)計分析
1、了解
(1)生命表的概念及計算。
(2)保費計算方法的發(fā)展過程。
(3)保險責(zé)任準備金的意義。
2、掌握
(1)累積函數(shù)、單利、復(fù)利、現(xiàn)值、貼現(xiàn)率和拆現(xiàn)率等基本概念;年金的概念及計算
(2)情景集的概念及分析方法。
(3)統(tǒng)計分析方法在保險公司運營其他環(huán)節(jié)的應(yīng)用。
3、重點掌握
(1)保費計算方法及保費計算的實例分析。
(2)保險責(zé)任準備金的計算,責(zé)任準備金對利潤的影響分析。
(3)現(xiàn)金償付能力的計算分析。
第八章:資金流量統(tǒng)計與分析
1、了解
(1)資金流量核算產(chǎn)生的背景。
(2)資金流量核算的范圍。
2、掌握
(1)資金流量核算的特點。
(2)資金流量核算的基本要求。
(3)資金流量核算的分類。
3、重點掌握
(1)基本概念:資金流量核算、資金流量核算體系。
(2)資金流量分析:金融結(jié)構(gòu)分析、社會融資活動分析。
第九章:金融統(tǒng)計分析的國際發(fā)展趨勢
1、掌握
金融體系國際競爭力
2、重點掌握
宏觀審慎監(jiān)管指標體系。
三、學(xué)習(xí)方法:
這9個章節(jié)中第2章、第3章和第6章覆蓋的內(nèi)容較多,需要掌握的知識點和分析方法也比較復(fù)雜,尤其第3章和第6章,不僅涉及到一些復(fù)雜的理論,還要用這些理論正確的分析和處理實際問題,大到宏觀的經(jīng)濟運行,小到一張債券如何定價。因此,這些章節(jié)要引起同學(xué)們的重視,花費更多的時間和精力深入學(xué)習(xí)。
這門課程中,需要了解和掌握的內(nèi)容,盡量在課堂上加深印象,明確問題本質(zhì),把效用提到最高。需要重點掌握的內(nèi)容,不僅要依靠老師的教授,更要在課后多加練習(xí),深入理解。金融統(tǒng)計分析實質(zhì)上是統(tǒng)計方法在金融領(lǐng)域的應(yīng)用問題,因此涉及到很多實務(wù),要求同學(xué)掌握實際動手能力,遇到實際問題如何采用正確的方法和手段處理。這就更依賴于課下不斷的演練了。所以,課后作業(yè)和金融統(tǒng)計分析學(xué)習(xí)指導(dǎo)這兩個武器是非常實用,非常高效的。學(xué)生可以依據(jù)自己的實際情況制定學(xué)習(xí)計劃,由于金融統(tǒng)計分析屬于方法性課程,不僅要熟記,更重要的是理解,所以務(wù)必要動手在先,未雨綢繆。
第五篇:ArcGIS地統(tǒng)計分析總結(jié)
ArcGIS地統(tǒng)計分析(Geostatistical Analyst)1 介紹
1.1為什么使用ArcGIS Geostatistical Analyst
人為判斷總是會遺漏某些重要信息,同時也會無中生有。而ArcGIS Geostatistical Analyst提供客觀的數(shù)據(jù)驅(qū)動方法,定量預(yù)測數(shù)據(jù)變化趨勢和從空間數(shù)據(jù)中發(fā)掘特征模型。如果數(shù)據(jù)不夠精確或者模型不夠準確,這樣勢必影響輸出的地圖和從中得到的結(jié)論。而ArcGIS Geostatistical Analyst可以提供一個概率框架,來定量計算生成數(shù)據(jù)面時的不確定性。
元統(tǒng)計分析方法利用屬性數(shù)據(jù)之間的相關(guān)來推斷不同變量之間的聯(lián)系,ArcGIS Geostatistical Analyst可以聯(lián)合各種數(shù)據(jù)來做更精確的預(yù)測。ArcGIS Geostatistical Analyst可以有效地推測一些空間現(xiàn)象的未知部分,因此,對采樣計劃的設(shè)計和優(yōu)化非常關(guān)鍵。
1.2使用ArcGIS Geostatistical Analyst的各個領(lǐng)域
這個模塊的應(yīng)用對象不計其數(shù),可以使用這個工具包開發(fā)任何一種地理數(shù)據(jù)集(比如坐標和屬性),下面列出幾個成功應(yīng)用ArcGIS Geostatistical Analyst的典型領(lǐng)域:
氣象學(xué)家和統(tǒng)計學(xué)家應(yīng)用ArcGIS Geostatistical Analyst來進行氣象數(shù)據(jù)分析。采礦行業(yè)廣泛的應(yīng)用ArcGIS Geostatistical Analyst,涉及從最初的地質(zhì)特征研究到產(chǎn)量控制的各個階段。
石油工業(yè)成功的應(yīng)用ArcGIS Geostatistical Analyst,來分析包括地震數(shù)據(jù)和油井?dāng)?shù)據(jù)集成的空間數(shù)據(jù),并且用來研究物理特性和地震屬性之間的相關(guān)關(guān)系。
在環(huán)境問題的研究中,ArcGIS Geostatistical Analyst的應(yīng)用提供了一個分析空氣、土壤和地下水污染高效和一致的模型。演示、個例研究和研究教育論文提供了大量的應(yīng)用ArcGIS Geostatistical Analyst的例子。同時,ArcGIS Geostatistical Analyst也成為評估漁業(yè)產(chǎn)量的一個標準方法。
精細農(nóng)業(yè)所應(yīng)用的土壤特性的圖形分析中,ArcGIS Geostatistical Analyst也得到廣泛應(yīng)用。越來越多的農(nóng)民或者農(nóng)村顧問使用ArcGIS Geostatistical Analyst來增加作物產(chǎn)量、提高利潤、減小對環(huán)境的不利影響。
2基本原理
地統(tǒng)計學(xué)與經(jīng)典統(tǒng)計學(xué)的共同之處在于:它們都是在大量采樣的基礎(chǔ)上,通過對樣本屬性值的頻率分布或均值、方差關(guān)系及其相應(yīng)規(guī)則的分析,確定其空間分布格局與相關(guān)關(guān)系。但地統(tǒng)計學(xué)區(qū)別于經(jīng)典統(tǒng)計學(xué)的最大特點即是:地統(tǒng)計學(xué)既考慮到樣本值的大小,又重視樣本空間位置及樣本間的距離,彌補了經(jīng)典統(tǒng)計學(xué)忽略空間方位的缺陷。
地統(tǒng)計分析理論基礎(chǔ)包括前提假設(shè)、區(qū)域化變量、變異分析和空間估值。
2.1 前提假設(shè)(1)隨機過程
與經(jīng)典統(tǒng)計學(xué)相同的是,地統(tǒng)計學(xué)也是在大量樣本的基礎(chǔ)上,通過分析樣本間的規(guī)律,探索其分布規(guī)律,并進行預(yù)測。地統(tǒng)計學(xué)認為研究區(qū)域中的所有樣本值都是隨機過程的結(jié)果,即所有樣本值都不是相互獨立的,它們是遵循一定的內(nèi)在規(guī)律的。因此地統(tǒng)計學(xué)就是要揭示這種內(nèi)在規(guī)律,并進行預(yù)測。
(2)正態(tài)分布
在統(tǒng)計學(xué)分析中,假設(shè)大量樣本是服從正態(tài)分布的,地統(tǒng)計學(xué)也不例外。在獲得數(shù)據(jù)后首先應(yīng)對數(shù)據(jù)進行分析,若不符合正態(tài)分布的假設(shè),應(yīng)對數(shù)據(jù)進行變換,轉(zhuǎn)為符合正態(tài)分布的形式,并盡量選取可逆的變換形式。
(3)平穩(wěn)性
對于統(tǒng)計學(xué)而言,重復(fù)的觀點是其理論基礎(chǔ)。統(tǒng)計學(xué)認為,從大量重復(fù)的觀察中可以進行預(yù)測和估計,并可以了解估計的變化性和不確定性。對于大部分的空間數(shù)據(jù)而言,平穩(wěn)性的假設(shè)是合理的。這其中包括兩種平穩(wěn)性:一是均值平穩(wěn),即假設(shè)均值是不變的并且與位置無關(guān);另一類是與協(xié)方差函數(shù)有關(guān)的二階平穩(wěn)和與半變異函數(shù)有關(guān)的內(nèi)蘊平穩(wěn)。二階平穩(wěn)是假設(shè)具有相同的距離和方向的任意兩點的協(xié)方差是相同的,協(xié)方差只與這兩點的值相關(guān)而與它們的位置無關(guān)。內(nèi)蘊平穩(wěn)假設(shè)是指具有相同距離和方向的任意兩點的方差(即變異函數(shù))是相同的。二階平穩(wěn)和內(nèi)蘊平穩(wěn)都是為了獲得基本重復(fù)規(guī)律而作的基本假設(shè),通過協(xié)方差函數(shù)和變異函數(shù)可以進行預(yù)測和估計預(yù)測結(jié)果的不確定性。
2.2 區(qū)域化變量
當(dāng)一個變量呈現(xiàn)一定的空間分布時,稱之為區(qū)域化變量,它反映了區(qū)域內(nèi)的某種特征或現(xiàn)象。區(qū)域化變量與一般的隨機變量不同之處在于,一般的隨機變量取值符合一定的概率分布,而區(qū)域化變量根據(jù)區(qū)域內(nèi)位置的不同而取不同的值。而當(dāng)區(qū)域化變量在區(qū)域內(nèi)確定位置取值時,表現(xiàn)為一般的隨機變量,也就是說,它是與位置有關(guān)的隨機變量。在實際分析中,常采用抽樣的方式獲得區(qū)域化變量在某個區(qū)域內(nèi)的值,即此時區(qū)域化變量表現(xiàn)為空間點函數(shù):
Z?x??Z?xu,xv,xw?
根據(jù)其定義,區(qū)域化變量具有兩個顯著特征:即隨機性和結(jié)構(gòu)性。首先,區(qū)域化變量是一個隨機變量,它具有局部的、隨機的、異常的特征;其次,區(qū)域化變量具有一定的結(jié)構(gòu)特點,即變量在點x與偏離空間距離為h的點x+h處的值Z(x)和Z(x+h)具有某種程度的相似性,即自相關(guān)性,這種自相關(guān)性的程度依賴于兩點間的距離h及變量特征。除此之外,區(qū)域化變量還具有空間局限性(即這種結(jié)構(gòu)性表現(xiàn)為一定范圍內(nèi))、不同程度的連續(xù)性和不同程度的各向異性(即各個方向表現(xiàn)出的自相關(guān)性有所區(qū)別)等特征。
2.3 變異分析
(1)協(xié)方差函數(shù) 協(xié)方差又稱半方差,表示兩隨機變量之間的差異。在概率論中,隨機變量X與Y的協(xié)方差定義為:
Cov?X,Y??E??X?E?X???Y?E?Y???
借鑒上式,地統(tǒng)計學(xué)中的協(xié)方差函數(shù)可表示為:
1N?h?C?h??Z?xi??Z?xi?Z?xi?h??Z?xi?h? ?N?h?i?1????
其中,Z(x)為區(qū)域化隨機變量,并滿足二階平穩(wěn)假設(shè),即隨機變量Z(x)的空間分布規(guī)律不因位移而改變;h為兩樣本點空間分隔距離;Z?xi?為Z(x)在空間點處xi的樣本值。
Z?xi?h?是Z(x)在處距離偏離h的樣本值[i=1,2,…,N(h)];N(h)是分隔距離為h時的樣本點對總數(shù);Z?xi?和Z?xi?h?分別為Z?xi?和Z?xi?h?的樣本平均數(shù),即:
1nZ?xi???Z?xi?
ni?1
1nZ?xi?h???Z?xi?h?
ni?1
(2)半變異函數(shù) 半變異函數(shù)又稱半變差函數(shù)、半變異矩,是地統(tǒng)計分析的特有函數(shù)。區(qū)域化變量Z(x)在點x和x+h處的值Z(x)與Z(x+h)差的方差的一半稱為區(qū)域化變量Z(x)的半變異函數(shù),記為r(h),2r(h)稱為變異函數(shù)。
根據(jù)定義有:
1r?x,h??Var[Z(x)?Z(x?h)]
2112r?x,h??E[Z(x)?Z(x?h)]?{E[Z(x)]?E[Z(x?h)]}2 22
區(qū)域化變量Z(x)滿足二階平穩(wěn)假設(shè),因此對于任意的h有:
E[Z(x?h)]?E[Z(x)]
因此,半變異函數(shù)可改寫為:
1r?x,h??E[Z(x)?Z(x?h)]2
2由上式可知,半變異函數(shù)依賴于自變量x和h,當(dāng)半變異函數(shù)r(x,h)僅僅依賴于距離h而與位置x無關(guān)時,r(x,h)可改寫為r(x),即:
1r?h??E[Z(x)?Z(x?h)]2
2具體表示為:
1N(h)2r?h??[Z(xi)?Z(xi?h)] ?2N(h)i?1
各變量的含義同前。也有將r(h)稱為變異函數(shù),兩者使用上不引起本質(zhì)上的差別。
(3)變異分析 半變異函數(shù)和協(xié)方差函數(shù)把統(tǒng)計相關(guān)系數(shù)的大小作為一個距離的函數(shù),是地理學(xué)相近相似定理定量量化。
圖10.1和圖10.2顯示,半變異值的變化隨著距離的加大而增加,協(xié)方差隨著距離的加大
而減小。這主要是由于半變異函數(shù)和協(xié)方差函數(shù)都是事物空間相關(guān)系數(shù)的表現(xiàn),當(dāng)兩事物彼此距離較小時,它們是相似的,因此協(xié)方差值較大,而半變異值較??;反之,協(xié)方差值較小,而半變異值較大。此外,協(xié)方差函數(shù)和半變異函數(shù)隨著距離的加大基本呈反向變化特征,它們之間的近似關(guān)系表達式為:
r(h)?sill?C(h)
半變異函數(shù)曲線圖和協(xié)方差函數(shù)曲線反映了一個采樣點與其相鄰采樣點的空間關(guān)系。此外,它們對異常采樣點具有很好的探測作用,在ArcGIS地統(tǒng)計分析模塊中可以使用兩者的任意一個,一般采用半變異函數(shù)。在半變異曲線圖中有兩個非常重要的點:間隔為0時的點和半變異函數(shù)趨近平穩(wěn)時的拐點,由這兩個點產(chǎn)生四個相應(yīng)的參數(shù):塊金值(Nugget)、變程(Range)、基臺值(Sill)、偏基臺值(Partial Sill)它們的含義表示如下:
塊金值(Nugget):理論上,當(dāng)采樣點間的距離為0時,半變異函數(shù)值應(yīng)為0,但由于存在測量誤差和空間變異,使得兩采樣點非常接近時,它們的半變異函數(shù)值不為0,即存在塊金值。測量誤差是儀器內(nèi)在誤差引起的,空間變異是自然現(xiàn)象在一定空間范圍內(nèi)的變化。它們?nèi)我庖环交騼烧吖餐饔卯a(chǎn)生了塊金值。
基臺值(Sill):當(dāng)采樣點間的距離h增大時,半變異函數(shù)人r(h)從初始的塊金值達到一個相對穩(wěn)定的常數(shù)時,該常數(shù)值稱為基臺值。當(dāng)半變異函數(shù)值超過基臺值時,即函數(shù)值不隨采樣點間隔距離而改變時,空間相關(guān)性不存在。
偏基臺值(Partial Sill):基臺值與塊金值的差值變程(Range):當(dāng)半變異函數(shù)的取值由初始的塊金值達到基臺值時采樣點的間隔距離稱為變程。變程表示了在某種觀測尺度下,空間相關(guān)性的作用范圍,其大小受觀測尺度的限定。在變程范圍內(nèi),樣點間的距離越小,其相似性,即空間相關(guān)性越大。當(dāng)h>R時,區(qū)域化變量Z(x)的空間相關(guān)性不存在,即當(dāng)某點與已知點的距離大于變程時,該點數(shù)據(jù)不能用于內(nèi)插或外推。
當(dāng)限定的樣本點間隔過小時,可能出現(xiàn)曲線圖上曲線為一近似平行于橫坐標的直線,此時半變異函數(shù)表現(xiàn)為純塊金效應(yīng)。這是由于所限定的樣本間隔內(nèi),點與點的變化很大,即各個樣點是隨機的,不具備空間相關(guān)性,區(qū)域內(nèi)樣點的平均值即是最佳估計值。此時只有增大樣本間隔,才能反映出樣本間的空間相關(guān)性。
空間相關(guān)性的強弱可由Partial_Sill/Sill來反映,該值越大,空間相關(guān)性越強,相應(yīng)地,Nugget/Sill稱為基底效應(yīng),表示樣本間的變異特征,該值越大,表示樣本間的變異更多得是由隨機因素引起的。
2.4 空間估值
一個完整的地統(tǒng)計分析過程,或者說空間估值過程,一般為:首先是獲取原始數(shù)據(jù),檢查、分析數(shù)據(jù),找尋數(shù)據(jù)暗含的特點和規(guī)律,比如是否為正態(tài)分布、有沒有趨勢效應(yīng)、各向異性等等;然后選擇合適的模型進行表面預(yù)測,這其中包括半變異模型的選擇和預(yù)測模型的選擇;最后檢驗?zāi)P褪欠窈侠砘驇追N模型進行對比。克里格插值
克里格插值(Kriging)又稱空間局部插值法,是以變異函數(shù)理論和結(jié)構(gòu)分析為基礎(chǔ),在有限區(qū)域內(nèi)對區(qū)域化變量進行無偏最優(yōu)估計的一種方法,是地統(tǒng)計學(xué)的主要內(nèi)容之一。南非礦產(chǎn)工程師D.R.Krige(1951年)在尋找金礦時首次運用這種方法,法國著名統(tǒng)計學(xué)家G.Matheron隨后將該方法理論化、系統(tǒng)化,并命名為Kriging,即克里格方法。
克里格方法的適用范圍為區(qū)域化變量存在空間相關(guān)性,即如果變異函數(shù)和結(jié)構(gòu)分析的結(jié)果表明區(qū)域化變量存在空間相關(guān)性,則可以利用克里格方法進行內(nèi)插或外推;否則反之。其實質(zhì)是利用區(qū)域化變量的原始數(shù)據(jù)和變異函數(shù)的結(jié)構(gòu)特點,對未知樣點進行線性無偏、最優(yōu)估計。無偏是指偏差的數(shù)學(xué)期望為0,最優(yōu)是指估計值與實際值之差的平方和最小。也就是說,克里格方法是根據(jù)未知樣點有限鄰域內(nèi)的若干已知樣本點數(shù)據(jù),在考慮了樣本點的形狀、大小和空間方位,與未知樣點的相互空間位置關(guān)系,以及變異函數(shù)提供的結(jié)構(gòu)信息之后,對未知樣點進行的一種線性無偏最優(yōu)估計。
地統(tǒng)計分析的核心就是通過對采樣數(shù)據(jù)的分析、對采樣區(qū)地理特征的認識選擇合適的空間內(nèi)插方法創(chuàng)建表面。插值方法按其實現(xiàn)的數(shù)學(xué)原理可以分為兩類:一是確定性插值方法,另一類是地統(tǒng)計插值,也就是克里格插值,如圖所示。
確定性插值方法以研究區(qū)域內(nèi)部的相似性(如反距離加權(quán)插值法)、或者以平滑度為基礎(chǔ)(如徑向基函數(shù)插值法)由已知樣點來創(chuàng)建表面。地統(tǒng)計插值方法(例如克里格法)利用的則是已知樣點的統(tǒng)計特性。地統(tǒng)計插值方法不但能夠量化已知點之間的空間自相關(guān)性,而且能夠解釋說明采樣點在預(yù)測區(qū)域范圍內(nèi)的空間分布情況。
確定性插值方法有可以分為兩種:即全局性插值方法和局部性插值方法,如圖10.4所示。全局性插值方法以整個研究區(qū)的樣點數(shù)據(jù)集為基礎(chǔ)來計算預(yù)測值,局部性插值方法則使用一個大研究區(qū)域內(nèi)較小的空間區(qū)域內(nèi)的已知樣點來計算預(yù)測值。
克里格方法與反距離權(quán)插值方法有些類似,兩者都通過對已知樣本點賦權(quán)重來求得未知樣點的值,可統(tǒng)一表示為:
Z(x0)???iZ(xi)i?1n
式中,Z(x0)為未知樣點的值,Z(xi)為未知樣點周圍的已知樣本點的值,λi為第i個已知樣本點對未知樣點的權(quán)重,n為已知樣本點的個數(shù)。
不同的是,在賦權(quán)重時,反距離權(quán)插值方法只考慮已知樣本點與未知樣點的距離遠近,而克里格方法不僅考慮距離,而且通過變異函數(shù)和結(jié)構(gòu)分析,考慮了已知樣本點的空間分布及與未知樣點的空間方位關(guān)系。
空間插值方法根據(jù)是否能保證創(chuàng)建的表面經(jīng)過所有的采樣點,又可以分為精確性插值和非精確性插值。精確性插值法預(yù)測值在樣點處的值與實測值相等,非精確性插值法預(yù)測值在樣點處的值與實測值一般不會相等。使用非精確性插值法可以避免在輸出表面上出現(xiàn)明顯的波峰或波谷。反距離權(quán)插值和徑向基插值屬于精確性插值方法,而全局多項式插值、局部多項式插值,以及克里格插值都屬于非精確性插值方法。
Z?xi? Z?xi?
Z?xi?h? Z?xi?h?
xi