第一篇:spss期末復(fù)習(xí)總結(jié)范文
1、SPSS運(yùn)行方式:菜單操作方式、程序運(yùn)行方式、Include運(yùn)行方式、Production Facility方式。
2、Spss界面窗口:數(shù)據(jù)編輯窗口、結(jié)果管理窗口、結(jié)果編輯窗口、語(yǔ)法編輯窗口、腳本窗口。
3、在數(shù)據(jù)預(yù)處理中應(yīng)用最廣泛的是計(jì)算變量。
4、Spss基本模塊不能直接實(shí)現(xiàn)的功能:統(tǒng)計(jì)分析、數(shù)據(jù)計(jì)劃、數(shù)據(jù)收集。1-
6、spss不能直接打開(kāi)*.html文件。
1、spss數(shù)據(jù)文件格式:每一行的數(shù)據(jù)成為一個(gè)記錄;每一列為一個(gè)變量。
2、Spss數(shù)據(jù)編輯器界面為數(shù)據(jù)視圖界面和變量視圖界面(定義數(shù)據(jù)集的數(shù)據(jù)字典)。2-
3、變量名命名準(zhǔn)則:必須以英文字母開(kāi)口,其他部分可以含有字母、數(shù)字、下劃線(xiàn);變量名盡量避免和spss已有的關(guān)鍵字重復(fù)(sum、compute、anova);變量名最長(zhǎng)為64個(gè)英文字符或者32個(gè)中文字符;spss變量名不區(qū)分大小寫(xiě)。
4、變量的度量類(lèi)型不是固定不變的,可以分局分析過(guò)程來(lái)改變變量的度量類(lèi)型。2-
5、spss中字符型數(shù)據(jù)值區(qū)分大小寫(xiě);字符型數(shù)據(jù)可以設(shè)置值標(biāo)簽。
6、對(duì)于數(shù)據(jù)的處理缺省值默認(rèn)為”.”,字符串默認(rèn)為空,若空字符串有意義,需在變量是同對(duì)缺省值進(jìn)行定義。
7、spss只讀入數(shù)據(jù)(excel)。
8、添加變量合并文件:一對(duì)一合并,一對(duì)多合并;合并相同個(gè)案數(shù),不同屬性的數(shù)據(jù)文件,為添加變量;合并數(shù)據(jù)之前,需按關(guān)鍵變量進(jìn)行排序,合并的詩(shī)句恩見(jiàn)必須是.sav或已經(jīng)在spss中打開(kāi)的文件,并確保兩個(gè)文件中需要合并的變量名稱(chēng)不同。
1、可視化分段方法:直接輸入分割點(diǎn);根據(jù)條件自動(dòng)生成分割點(diǎn)。
2、填補(bǔ)缺失數(shù)據(jù)方法:序列均值、臨近點(diǎn)均值、臨近點(diǎn)的中位數(shù)、線(xiàn)性插值法、點(diǎn)處線(xiàn)性趨勢(shì)。
3、在做統(tǒng)計(jì)分析之前一般要做數(shù)據(jù)效驗(yàn),如果是錄入錯(cuò)誤則重新錄入;若數(shù)據(jù)確實(shí)錯(cuò)誤,則可將這些數(shù)據(jù)設(shè)置成缺失值。
4、“標(biāo)記異常個(gè)案”過(guò)程基于個(gè)案偏離聚類(lèi)組中心的大小來(lái)判斷異常個(gè)案,一般用于探索性數(shù)據(jù)分析步驟中。
5、可視化變量分段是對(duì)連續(xù)數(shù)據(jù)進(jìn)行離散化。
1、描述數(shù)據(jù)特征的統(tǒng)計(jì)量,一類(lèi)表示數(shù)據(jù)的中心位置(均值、中位數(shù)、眾數(shù)),一類(lèi)表示數(shù)據(jù)的離散程度(方差、標(biāo)準(zhǔn)差、極差)。進(jìn)行數(shù)據(jù)分析第一步往往是進(jìn)行描述性統(tǒng)計(jì)分析。4-
2、頻率分析:對(duì)于給定的類(lèi),落入這個(gè)類(lèi)的個(gè)案數(shù)成為頻率,落入該類(lèi)中的個(gè)案數(shù)和個(gè)案總數(shù)的比例成為相對(duì)頻率——直方圖、條形圖、集中趨勢(shì)和離散趨勢(shì)的統(tǒng)計(jì)量來(lái)描述數(shù)據(jù)的分布特征。
3、餅圖和條形圖使用于分類(lèi)變量類(lèi)別個(gè)別數(shù)較少的情況,如果個(gè)別數(shù)較多,選擇直方圖。4-
4、中心趨勢(shì)的描述:均值、中位數(shù)、眾數(shù)、5%截尾均值,指一組數(shù)據(jù)向某個(gè)中心值靠攏的傾向。對(duì)于連續(xù)變量(尺度變量)和定序變量,描述中心趨勢(shì)的有均值、中位數(shù)、眾數(shù)、5%截尾均值(升序排序,剔除最小和最大的5%后的算術(shù)均值);對(duì)于定性數(shù)據(jù)(名義數(shù)據(jù)),指標(biāo)只有眾數(shù)。(尺度變量——連續(xù)變量;名義變量——定性數(shù)據(jù);名義變量和定序變量——分類(lèi)變量)
5、離散趨勢(shì)的描述:極差、方差、標(biāo)準(zhǔn)差、分位數(shù)、變異指標(biāo)。4-
6、總結(jié)五數(shù):最小值、下四分位數(shù)、中位數(shù)、上四分位數(shù)、最大值。(箱圖)4-
7、偏度:α∈(-3,3),α>0,左偏,在左拖尾。α=0對(duì)稱(chēng)分布。峰度:β>3,高峰度,β=0,正太峰。
8、分析/描述統(tǒng)計(jì)/頻率(條形圖、餅圖、直方圖)/描述/探索(箱圖、莖葉圖、直方圖、Q-Q圖),輸出統(tǒng)計(jì)量(均值、中值、眾數(shù)、標(biāo)準(zhǔn)差、方差、偏度、峰度、全距、極值、百分位數(shù))
9、定性數(shù)據(jù)圖形的描述:條形圖、帕累托圖(從高到低排序條形圖)、餅圖。(首先加權(quán)個(gè)案)
10、定量數(shù)據(jù)圖形的描述:直方圖(用于連續(xù)型數(shù)據(jù))、莖葉圖、箱圖。
11、在探索圖里面勾選帶檢驗(yàn)的正態(tài)圖可以輸出選定變量的QQ圖、變量正態(tài)性的K-S檢驗(yàn)和S-W檢驗(yàn)。
12、IQR(四分位距)=Q3-Q1,最下面的短線(xiàn)Q1-1.5IQR,最上面短線(xiàn)Q3+1.5IQR,離群值(圓圈表示)落入[Q3+1.5IQR,Q3+3IQR)或者(Q1-3IQR,Q1-1.5IQR],極端值(※表示)大于等于Q3+3IQR或Q1-3IQR。
13、如果只有一個(gè)因變量,莖葉圖或者箱圖按因子各個(gè)水平輸出,選擇不分組的輸出結(jié)果和選擇“按因子水平分組”的輸出結(jié)果只在標(biāo)題的組織形式上略有不同,如果有兩個(gè)因變量,則兩種選項(xiàng)的結(jié)果差異較大。
1、因?yàn)榧僭O(shè)檢驗(yàn)有何能犯兩類(lèi)錯(cuò)誤:拒真、受偽。
2、假設(shè)檢驗(yàn)的步驟:確定恰當(dāng)?shù)脑僭O(shè)和被擇假設(shè);選擇檢驗(yàn)統(tǒng)計(jì)量;計(jì)算檢驗(yàn)統(tǒng)計(jì)量觀測(cè)值發(fā)生個(gè)概率(P);給定顯著性水平α,并作出決策。5-
3、分析/比較均值/均值,輸出表格“案例處理摘要”(看缺失值)、“均值報(bào)告表”(看均值列,趨勢(shì)與增加幅度,如隨著工作年限增加,小時(shí)工資也增加,增加幅度不均勻,列舉每階段增加幅度)、“方差分析表(ANOVA表)”(線(xiàn)性顯著性<0.05,有線(xiàn)性關(guān)系,線(xiàn)性偏差>0.05,非線(xiàn)性關(guān)系成分不顯著)、“相關(guān)性度量表”(R方值不大,線(xiàn)性關(guān)系不十分強(qiáng))
4、雙因素分析:在均值對(duì)話(huà)框—下一張,均值過(guò)程只對(duì)第一層的自變量進(jìn)行方差分析和線(xiàn)性相關(guān)檢驗(yàn)(只有描述性統(tǒng)計(jì)表,即均值分析報(bào)告不一樣,均值列分析:同等經(jīng)驗(yàn)下,病房護(hù)士小時(shí)工資比辦公室高,隨著工作經(jīng)驗(yàn)增加,差距變?。粯?biāo)準(zhǔn)差列分析:同等經(jīng)驗(yàn)的辦公室護(hù)士,小時(shí)工資差距大于同等經(jīng)驗(yàn)的醫(yī)院護(hù)士)。5-
5、單樣本T檢驗(yàn)即檢驗(yàn)?zāi)硞€(gè)變量的總體均值和某指定值之間是否存在顯著性差異。T檢驗(yàn)的穩(wěn)健性好。數(shù)據(jù)準(zhǔn)備:數(shù)據(jù)—拆分文件—分割文件—比較組(完成分析之后要關(guān)閉文件分割)、單樣本T檢驗(yàn):分析/比較均值/單樣本T檢驗(yàn)(輸入檢驗(yàn)值)—— “單個(gè)樣本統(tǒng)計(jì)量”——均值,偏離檢驗(yàn)值、“單個(gè)樣本檢驗(yàn)”——t為T(mén)統(tǒng)計(jì)量,df為自由度,sig(雙側(cè))為P值,均值差值為各數(shù)據(jù)減去檢驗(yàn)值,上限下限位該均值差95%的置信區(qū)間的上限和下限。sig值<0.05,拒絕原假設(shè),不等于檢驗(yàn)值,不滿(mǎn)足要求。
6、兩個(gè)樣本的T檢驗(yàn)分為:獨(dú)立樣本T檢驗(yàn)和配對(duì)樣本T檢驗(yàn)。獨(dú)立樣本T檢驗(yàn)分析兩個(gè)獨(dú)立樣本的均值是夠有顯著性差異(男女身高、不同行業(yè)的起始工資)。配對(duì)樣本T檢驗(yàn)比較同一個(gè)總體的兩次不同的測(cè)量(醫(yī)學(xué)研究中藥物療效、被調(diào)查者父親和母親的受教育程度)。
7、獨(dú)立樣本T檢驗(yàn)的前提條件:獨(dú)立性、正態(tài)性、方差齊性;數(shù)據(jù)初探:分析/描述性統(tǒng)計(jì)/探索(直方圖、帶檢驗(yàn)的正態(tài)圖)—— “描述”(比較均值大小、標(biāo)準(zhǔn)差比接近于1,初步認(rèn)定方差齊性)、“直方圖”(初步判斷正態(tài)分布)、“正態(tài)性檢驗(yàn)”(K-S檢驗(yàn)和S-W檢驗(yàn),sig>0.05,接受正態(tài)性假設(shè))——判定是夠滿(mǎn)足T檢驗(yàn)前提條件,滿(mǎn)足則進(jìn)行T檢驗(yàn); 分析/比較均值/獨(dú)立樣本T檢驗(yàn)(定義分組變量)—— “組統(tǒng)計(jì)量”(顯示均值、標(biāo)準(zhǔn)差及均值的標(biāo)準(zhǔn)誤,均值的標(biāo)準(zhǔn)誤即為標(biāo)準(zhǔn)差除以樣本N的平方根)、“獨(dú)立樣本檢驗(yàn)”(方差方程的Leven檢驗(yàn),即方差齊性檢驗(yàn),和均值方程的t檢驗(yàn),p>0.05接受方差齊性假設(shè),選擇“假設(shè)方差相等”,sig(雙峰)<0.05,說(shuō)明新促銷(xiāo)方法消費(fèi)金額顯著不同于標(biāo)準(zhǔn)促銷(xiāo)消費(fèi)金額,再比較均值大小,說(shuō)明新方案有效)。
5-8 配對(duì)樣本T檢驗(yàn)配對(duì)設(shè)計(jì)方法:同一受試對(duì)象處理前后的數(shù)據(jù)/兩個(gè)部位數(shù)據(jù)/兩種方法測(cè)試數(shù)據(jù)/配對(duì)的兩個(gè)收拾對(duì)象分別接受兩種處理后的數(shù)據(jù)。
9、配對(duì)樣本T檢驗(yàn)的前提條件:兩個(gè)樣本配對(duì)、兩個(gè)樣本所來(lái)自的總體服從正太分布;分析/比較均值/配對(duì)樣本T檢驗(yàn)——“成對(duì)樣本統(tǒng)計(jì)量”(均值、標(biāo)準(zhǔn)量、標(biāo)準(zhǔn)差、均值的標(biāo)準(zhǔn)誤),“成對(duì)樣本相關(guān)系數(shù)”(樣本量N、相關(guān)系數(shù)、相關(guān)系數(shù)P值sig<0.05,相關(guān)系數(shù)明顯大于0,有強(qiáng)線(xiàn)性相關(guān)),“成對(duì)樣本檢驗(yàn)”(差值的均值、差值的標(biāo)準(zhǔn)差、差值均值的標(biāo)準(zhǔn)誤,t統(tǒng)計(jì)量和相對(duì)應(yīng)的顯著性,t=差值的均值/均值的標(biāo)準(zhǔn)誤,分析:對(duì)1的差值均值及為減輕量,由于對(duì)1均值及均值的標(biāo)準(zhǔn)誤遠(yuǎn)遠(yuǎn)高于對(duì)2,所以對(duì)2的t值遠(yuǎn)遠(yuǎn)大于對(duì)1的t值,從顯著性來(lái)看,對(duì)2的減輕是顯著的,因此該計(jì)劃最終的評(píng)估結(jié)果為可以減輕體重但不確定可以減輕脂肪)。注意:配對(duì)樣本T檢驗(yàn)之前需要檢查兩樣本是否服從正態(tài)分布(直方圖、QQ圖、k-s檢驗(yàn),注意分析變量中的離群值,用箱圖檢驗(yàn))。
1、非參數(shù)檢驗(yàn)的優(yōu)點(diǎn):穩(wěn)健性、使用范圍廣。缺點(diǎn):檢驗(yàn)?zāi)苄л^差。適用場(chǎng)合:參數(shù)檢驗(yàn)方法的條件不滿(mǎn)足,研究定類(lèi)變量和定序變量之間的關(guān)系。單樣本非參檢驗(yàn)方法:二項(xiàng)檢驗(yàn)、卡方檢驗(yàn)、k-s檢驗(yàn)。
2、卡方檢驗(yàn)——對(duì)總體分布進(jìn)行檢驗(yàn)(心臟病猝死人數(shù)與日期關(guān)系、人口結(jié)構(gòu)、血型和性格等),原假設(shè):樣本來(lái)自的總體分布于假設(shè)的分布無(wú)顯著性差異。卡方統(tǒng)計(jì)量服從自由度為k-1的卡方分布,如果卡方值較大,說(shuō)明期望頻數(shù)與觀測(cè)頻數(shù)分布差距較大,拒絕原假設(shè)。
3、二項(xiàng)式檢驗(yàn)(首先定義成功或失敗的類(lèi)別,默認(rèn)第一類(lèi)為成功類(lèi))
1、相關(guān)關(guān)系分為線(xiàn)性相關(guān)和非線(xiàn)性相關(guān),相關(guān)變量的研究根據(jù)變量的度量類(lèi)型分為定類(lèi)變量之間的相關(guān),定序變量之間的相關(guān),尺度變量之間的相關(guān)。
2、相關(guān)分析在統(tǒng)計(jì)分析中的作用:判斷變量之間有無(wú)聯(lián)系、確定相關(guān)關(guān)系的表現(xiàn)形式及相關(guān)分析方法、把握相關(guān)關(guān)系的方向與密切程度、進(jìn)一步采取其他統(tǒng)計(jì)方法進(jìn)行分析提供依據(jù)、用來(lái)描述變量之間的關(guān)系狀況和進(jìn)行預(yù)測(cè)。7-
3、相關(guān)分析的主要方法:圖示法(散點(diǎn)圖)、計(jì)算相關(guān)系數(shù)法。圖形/散點(diǎn)圖/簡(jiǎn)單散點(diǎn)圖,偏離大部分的點(diǎn)為離群值。
4、相關(guān)系數(shù)為0只能說(shuō)明沒(méi)有線(xiàn)性相關(guān)關(guān)系,相關(guān)系數(shù)適用于樣本量大于30且兩個(gè)變量的總體是正態(tài)分布的情況。
5、相關(guān)系數(shù)檢驗(yàn),原假設(shè)為ρ=0;分析/相關(guān)/雙變量——“相關(guān)性”(相關(guān)系數(shù)<0.3、顯著性>)0.05,線(xiàn)性相關(guān)不顯著;剔除離群值:數(shù)據(jù)/選擇個(gè)案/如果、分割文件:數(shù)據(jù)/拆分文件、分析/相關(guān)/雙變量——“相關(guān)性”(相關(guān)系數(shù)、顯著性)(散點(diǎn)圖——相關(guān)系數(shù)檢驗(yàn)——回歸)
1、確定變量之間線(xiàn)性相關(guān)后,通過(guò)回歸分析找出線(xiàn)性關(guān)系。線(xiàn)性回歸是指回歸系數(shù)為線(xiàn)性,不是非相關(guān)變量和預(yù)測(cè)變量之間的的關(guān)系。
2、回歸分析的步驟:寫(xiě)出研究的問(wèn)題和分析的目的、選擇潛在相關(guān)變量、收集數(shù)據(jù)、選擇合適擬合優(yōu)度、模型求解、模型驗(yàn)證和評(píng)價(jià)、應(yīng)用模型解決研究問(wèn)題。
3、簡(jiǎn)單線(xiàn)性回歸:Y=β0+β1X+ε(X為預(yù)測(cè)變量,可控,Y為因變量,隨機(jī),ε為隨機(jī)誤差,ε~N(0, σ2),且假設(shè)σ2與X無(wú)關(guān))。8-
4、決定系數(shù)R2=SSR/SST=1-SSE/SST,殘差平方和SSE,回歸平方和SSR,總平方和SST=SSR+SSE,0<=R2<=1。決定系數(shù)越大,回歸方程的擬合程度越高,0.6以上即可以接受回歸直線(xiàn)。
5、分析/回歸/線(xiàn)性——“系數(shù)”(B列,寫(xiě)出方程Y=常量B+UnitsBX,注意Y的帽子)、“模型摘要(匯總)”(調(diào)整)R2小于R2,一元看R2,多元看調(diào)整R2,分析:R2=0.978,說(shuō)明該線(xiàn)性模型可以解釋自變量97.8%的變差,擬合效果好、“模型擬合優(yōu)度檢驗(yàn)Anova”(F=回歸平方和/殘差均方,sig<0.05,方程整體有效,分析:F檢驗(yàn)中的顯著性小于0.05,一元線(xiàn)性回歸模型顯著)
6、COOK距離和Leverage值(杠桿值)能給出個(gè)案對(duì)回歸影響大小的信息。
7、進(jìn)行線(xiàn)性回歸需要對(duì)回歸進(jìn)行的條件驗(yàn)證:因變量和自變量的因果關(guān)系、殘差具有方差齊性、殘差之間不相關(guān)(自變量不需要服從正太分布)。
8、在一元的情況下,回歸方程的顯著性和斜率的顯著性檢驗(yàn)是等價(jià)的。
1、三個(gè)或三個(gè)以上樣本均值的差異——方差分析(ANOVA)。方差分析的因變量必須是尺度類(lèi)型數(shù)據(jù)(連續(xù)數(shù)據(jù))。因素分為觀測(cè)因素(因變量,最終結(jié)果)、控制因素(潛在原因,可選擇)。方差分析的條件:每個(gè)處理的因變量為正態(tài)分布(正態(tài)性);每個(gè)處理的因變量具有相同的方差(方差齊性)。
3、描述性數(shù)據(jù)分析:檢驗(yàn)方差分析的前提條件是否滿(mǎn)足,如果不滿(mǎn)足,看偏離是否嚴(yán)重,決定使用方差分析還是非參數(shù)檢驗(yàn)。
4、單因素方差分析(四表一圖):分析/比較均值/單因素ANONA,選擇因變量和因子,兩兩對(duì)比,假定方差齊性部分18種(LSD—精度最高、S-N-K輸出同類(lèi)子集、Tukey—各組大小相等,及組等容量時(shí)使用)、未假定方差齊性4種,選項(xiàng)/單因素勾選“描述性”(輸出方差分析描述性統(tǒng)計(jì)量“描述”)、“方差同質(zhì)性檢驗(yàn)”、均值圖。9-
5、總體均值之間是夠顯著差異: “描述”(均值、標(biāo)準(zhǔn)差,分析:培訓(xùn)時(shí)間越長(zhǎng),成績(jī)?cè)胶迷椒€(wěn)定); “方差齊性檢驗(yàn)”(顯著性希望>0.05,<0.05說(shuō)明方差不齊,分析:在比較各個(gè)組別樣本量相差不大,且各組分別的分布形態(tài)類(lèi)似的情況下,方差分析對(duì)方差不等具有穩(wěn)健性,案例中內(nèi)個(gè)組個(gè)案數(shù)相等,峰度和偏度相等,分布形態(tài)類(lèi)似,可進(jìn)行方差分析,建議方差分析后進(jìn)行相應(yīng)非參檢驗(yàn)驗(yàn)證方差分析結(jié)果)“ANOVA表”(均方=相應(yīng)平方和/自由度,F(xiàn)=組間均方/組內(nèi)均方,一共三個(gè)組,組間自由度2,60個(gè)個(gè)案,3個(gè)組,組內(nèi)自由度57。分析:顯著性<0.05,沒(méi)有證據(jù)說(shuō)明三種方式的效果相同)
6、均值的兩兩比較: “多重比較”(觀測(cè):顯著性。分析:多重比較結(jié)果一致,即培訓(xùn)兩天和三天無(wú)差異,培訓(xùn)一天和另外兩種都有差異)“同類(lèi)子集”(同一類(lèi)放在一列,當(dāng)其中一個(gè)可以在任意一列時(shí),看sig值大小,sig值大的在一列,分析:TukeyB兩兩比較把5%的顯著性水平下沒(méi)有區(qū)別的總體放在同一列,作為同類(lèi)子集,這里2天和3天沒(méi)有差別,放在一列,1天單獨(dú)一列)“均值圖”(直觀看出總體均值的趨勢(shì))
第二篇:SPSS總結(jié)
SPSS的基本統(tǒng)計(jì)功能
1、數(shù)據(jù)的預(yù)處理
2、描述性統(tǒng)計(jì)和探索性統(tǒng)計(jì)
3、假設(shè)檢驗(yàn)(包括參數(shù)檢驗(yàn)、非參數(shù)檢驗(yàn)等)
4、方差分析(包括一般的方差分析和多元方差分析)
5、相關(guān)分析
6、回歸分析
7、多元統(tǒng)計(jì)分析,包括聚類(lèi)分析、判別分析、因子分析、對(duì)應(yīng)分析、主成分分析等
8、時(shí)間序列分析
9、信度分析
10、數(shù)據(jù)挖掘:決策樹(shù)與神經(jīng)網(wǎng)絡(luò)
SPSS 統(tǒng)計(jì)分析的一般步驟
1、建立SPSS數(shù)據(jù)文件: 在【變量視圖】定義SPSS數(shù)據(jù)文件的結(jié)構(gòu),在【數(shù)據(jù)視圖】進(jìn)行錄入數(shù)據(jù)文件的錄入。
2、SPSS數(shù)據(jù)的管理數(shù)據(jù)的預(yù)處理 :
集中于【數(shù)據(jù)】和【轉(zhuǎn)換】?jī)蓚€(gè)菜單項(xiàng)。
3、SPSS數(shù)據(jù)的統(tǒng)計(jì)分析階段
: 在【分析】菜單中選擇正確的統(tǒng)計(jì)方法。
4、SPSS分析結(jié)果的閱讀和解釋
: 讀懂SPSS輸出窗口中的分析結(jié)果
5、明確其統(tǒng)計(jì)含義,并結(jié)合背景知識(shí)做出合理的解釋。
第2章 SPSS統(tǒng)計(jì)分析前的準(zhǔn)備
一、SPSS數(shù)據(jù)文件的特點(diǎn)
1、SPSS數(shù)據(jù)文件是一種有結(jié)構(gòu)的數(shù)據(jù)文件(一般文本文件僅有純數(shù)據(jù)部分,而沒(méi)有關(guān)于結(jié)構(gòu)的描述);
2、由數(shù)據(jù)的結(jié)構(gòu)和內(nèi)容兩部分構(gòu)成;
3、其中數(shù)據(jù)的結(jié)構(gòu)記錄數(shù)據(jù)類(lèi)型、取值說(shuō)明、數(shù)據(jù)缺失等必要信息(在【變量視圖】,每一列大家都要明白你在定義什么,有什么用);
4、數(shù)據(jù)的內(nèi)容是那些待分析的具體數(shù)據(jù);
5、在【數(shù)據(jù)視圖】每一列代表一個(gè)變量(variable),變量名顯示在表格頂部;
6、在【數(shù)據(jù)視圖】的每一行代表一個(gè)記錄(case)(即一個(gè)案例,或稱(chēng)一個(gè)對(duì)象、一個(gè)觀察、一個(gè)個(gè)體),記錄序號(hào)顯示在表格的左側(cè);
7、在【數(shù)據(jù)視圖】可以輸入和編輯數(shù)據(jù),但是不能輸入數(shù)學(xué)表達(dá)式和函數(shù)
二、定義變量
1、【數(shù)據(jù)視圖】是進(jìn)行數(shù)據(jù)輸入、數(shù)據(jù)編輯的界面,對(duì)應(yīng)的表格用于查看、錄入和修改數(shù)據(jù)。
2、【變量視圖】 是定義數(shù)據(jù)文件的變量的界面,對(duì)應(yīng)的表格用于輸入和修改變量的定義。
3、用SPSS讀取其他格式的數(shù)據(jù):
1)數(shù)據(jù)文件:*。sav
語(yǔ)法文件:*。sps 結(jié)果文件:*。spo
腳本文件: *。sbs 2)文件-打開(kāi)-數(shù)據(jù),可打開(kāi)多種文件類(lèi)型(。sav、。xls、。dbf、。txt、。dat等)
注:要想順利打開(kāi)txt文檔,txt文檔最好有固定的分隔符,如一個(gè)空格或一個(gè)逗號(hào)等。
三、數(shù)據(jù)的編輯
在SPSS中,數(shù)據(jù)文件的編輯、整理等功能被集中在了【數(shù)據(jù)】和【轉(zhuǎn)換】?jī)蓚€(gè)菜單項(xiàng)中:
1、數(shù)據(jù)的增刪、復(fù)制、剪切、粘貼;
2、數(shù)據(jù)的排序,Sort Cases排序便于數(shù)據(jù)的瀏覽,快捷找到最大值或最小值,迅速發(fā)現(xiàn)數(shù)據(jù)的異常值;
四、文件的拆分:文件的拆分相當(dāng)于統(tǒng)計(jì)學(xué)中的數(shù)據(jù)分組,即將數(shù)據(jù)按一個(gè)或幾個(gè)分組變量分組。
五、數(shù)據(jù)選取 :
數(shù)據(jù)選?。▊€(gè)案選?。┑幕痉绞?/p>
按指定條件選取(If condition is satisfied)
隨機(jī)抽樣(Random sample of cases)選取某一區(qū)域內(nèi)(Based on time or case range)
六、個(gè)案加權(quán):記錄加權(quán)是對(duì)觀測(cè)數(shù)據(jù)賦以權(quán)重,常用于頻數(shù)表資料;
七、文件的合并:合并文件是指將外部數(shù)據(jù)中的記錄或變量合并到當(dāng)前的數(shù)據(jù)文件中去。合并數(shù)據(jù)文件包括兩種方式:
從外部數(shù)據(jù)文件增加記錄到當(dāng)前數(shù)據(jù)文件中——縱向合并或稱(chēng)追加記錄。從外部數(shù)據(jù)文件增加變量到當(dāng)前數(shù)據(jù)文件中——橫向合并或稱(chēng)追加變量。
八、變量的計(jì)算和變換:【轉(zhuǎn)換】-【計(jì)算變量】
九、數(shù)據(jù)的重新編碼recode 統(tǒng)計(jì)分組
將字符型變量轉(zhuǎn)換為數(shù)值型變量 將幾個(gè)小類(lèi)別合為一個(gè)類(lèi)別 將數(shù)值型變量轉(zhuǎn)換為字符型
十、統(tǒng)計(jì)結(jié)果的保存為word文件:【文件】-【導(dǎo)出】
第3章
SPSS描述性統(tǒng)計(jì)
1.Frequencies(頻率)過(guò)程的特色是產(chǎn)生頻數(shù)表;功能 產(chǎn)生頻數(shù)分布表;
繪制條形圖、餅圖、直方圖;
計(jì)算集中趨勢(shì)與離散程度、分布形狀(峰度和偏度的意義)等統(tǒng)計(jì)量; 按要求給出分位數(shù);
對(duì)數(shù)據(jù)的分布趨勢(shì)進(jìn)行初步分析
(注:對(duì)于定性變量來(lái)說(shuō),一般來(lái)說(shuō)產(chǎn)生頻數(shù)分布表,制作條形圖,餅圖即可);
2.描述分析(Descriptives過(guò)程)
適用的分析對(duì)象:定量變量,測(cè)度為scale。功能:
調(diào)用此過(guò)程對(duì)變量進(jìn)行描述性統(tǒng)計(jì)分析,計(jì)算均值、標(biāo)準(zhǔn)差、全距和均值標(biāo)準(zhǔn)誤差等; 并可將原始數(shù)據(jù)轉(zhuǎn)換成Z分?jǐn)?shù)((原始值-均值)/標(biāo)準(zhǔn)差)。
3.Explore(探索)過(guò)程用于對(duì)數(shù)據(jù)概況不清時(shí)的探索性分析,定量變量; 在一般描述性統(tǒng)計(jì)分析的基礎(chǔ)上,增加有關(guān)數(shù)據(jù)其他特征的文字與圖形描述。提供莖葉圖、箱線(xiàn)圖、PP圖、QQ圖等;
指出異常值(Outliers),可檢查數(shù)據(jù)是否有錯(cuò)誤,剔除異常值和錯(cuò)誤數(shù)據(jù); 進(jìn)行點(diǎn)估計(jì)和區(qū)間估計(jì),計(jì)算均值的置信區(qū)間,; 檢驗(yàn)一組數(shù)據(jù)是否呈正態(tài)分布; 4.列聯(lián)表分析
(1)列聯(lián)表分析的適用條件
對(duì)一個(gè)定量變量的描述和分析,一般用頻數(shù)分析(頻數(shù)分布表、餅圖、直方圖、條形圖); 對(duì)兩個(gè)定性變量的描述和分析,通常使用列聯(lián)表、對(duì)應(yīng)分析,或使用卡方檢驗(yàn); 對(duì)兩個(gè)以上定性變量的描述和分析,通常使用高維列聯(lián)表。(2)期望頻數(shù)的分布
如果行變量和列變量是獨(dú)立的,可以計(jì)算出列聯(lián)表中每個(gè)格子里的頻數(shù)應(yīng)該是多少,稱(chēng)為期望頻數(shù);
(3)列聯(lián)表分析的基本思路
檢驗(yàn)列聯(lián)表中的行變量與列變量之間是否獨(dú)立(或是否相關(guān))。原假設(shè)為行變量與列變量之間獨(dú)立(或不相關(guān))。比較觀察頻數(shù)與期望頻數(shù)的差。
如果兩者的差越大,表明實(shí)際情況與原假設(shè)相去甚遠(yuǎn);如果差越小,表明實(shí)際情況與原假設(shè)越相近。
對(duì)于這個(gè)假設(shè)的檢驗(yàn),可以采用卡方分布,進(jìn)行卡方檢驗(yàn)。
(4)列聯(lián)表分析的步驟
檢驗(yàn)列聯(lián)表中的行變量與列變量之間是否獨(dú)立(是否相關(guān))提出假設(shè)
H0:行變量與列變量獨(dú)立(不相關(guān))H1:行變量與列變量不獨(dú)立(相關(guān) 計(jì)算檢驗(yàn)的統(tǒng)計(jì)量 統(tǒng)計(jì)決策
進(jìn)行決策:P值決策
P<0。05,則拒絕原假設(shè)H0,否則,接收原假設(shè)。(5)Pearson卡方檢驗(yàn)的應(yīng)用條件
所有單元的期望頻數(shù)應(yīng)該大于1,或不應(yīng)有大量的期望頻數(shù)小于5的單元格。
如果列聯(lián)表中有20%以上的單元格中的期望頻數(shù)小于5,則一般不宜用卡方檢驗(yàn)。Pearson卡方檢驗(yàn)最普遍
第4章
SPSS的均值比較過(guò)程 1。Means過(guò)程
對(duì)準(zhǔn)備比較的各組計(jì)算描述指標(biāo),進(jìn)行預(yù)分析,也可直接比較,定量變量。(1)Means過(guò)程是專(zhuān)門(mén)計(jì)算各種平均數(shù),并對(duì)平均數(shù)進(jìn)行簡(jiǎn)單比較的;(2)雖然Descriptive Statistics(描述統(tǒng)計(jì))菜單項(xiàng)中的幾個(gè)過(guò)程也能計(jì)算均數(shù),但Means過(guò)程的輸出結(jié)果是將各組的描述指標(biāo)放在一起的,便于相互比較;
(3)Means過(guò)程必須設(shè)置分組變量,若沒(méi)有分組變量的話(huà),可以使用Descriptive Statistics菜單項(xiàng)中的幾個(gè)過(guò)程。
(4)適用于測(cè)度水平為SCALE的變量。
2。單樣本T檢驗(yàn)(1)目的
檢驗(yàn)?zāi)匙兞康目傮w均值與指定的檢驗(yàn)值之間是否存在顯著差異。(2)適用條件
樣本來(lái)自的總體服從正態(tài)分布(3)基本步驟
H0: μ=μ0 H1: μ≠μ0
構(gòu)造檢驗(yàn)統(tǒng)計(jì)量 統(tǒng)計(jì)決策
如果P值<α(α一般取值為0。05),拒絕原假設(shè); 如果P值>α,接受原假設(shè);
3。
獨(dú)立樣本T 檢驗(yàn)(1)目的
通過(guò)比較兩個(gè)樣本均值差的大小來(lái)確定兩個(gè)總體的均值是否相等。(2)適用條件
獨(dú)立性:兩個(gè)樣本相互獨(dú)立,且均為大樣本;
正態(tài)性:如果兩個(gè)樣本相互獨(dú)立但都是小樣本,或有一個(gè)樣本是小樣本,則要求總體服從正態(tài)分布;
方差齊性
(3)基本步驟
a、方差齊性F檢驗(yàn)
原假設(shè):兩個(gè)總體方差相等; 備則假設(shè):兩個(gè)總體方差不相等;
P值<0。05 時(shí),拒絕原假設(shè),說(shuō)明方差不齊;否則兩個(gè)總體方差無(wú)顯著性差異。b、對(duì)兩總體的均值提出假設(shè) H0: μ1=μ2
H1: μ1≠μ2 c、統(tǒng)計(jì)決策
在SPSS中進(jìn)行兩獨(dú)立樣本t檢驗(yàn)時(shí),應(yīng)首先對(duì)F檢驗(yàn)作判斷。如果方差相等,觀察分析結(jié)果中Equal variances assumed列的t檢驗(yàn)相伴概率值;如果方差不相等,觀察Equal variances not assumed列的t檢驗(yàn)相伴概率值。如果P值<α,拒絕原假設(shè); 如果P值>α,不能拒絕原假設(shè);
4.配對(duì)樣本的T 檢驗(yàn)
配對(duì)樣本是指對(duì)同一樣本的某個(gè)變量進(jìn)行前后兩次測(cè)試所獲得的兩組數(shù)據(jù),或是對(duì)兩個(gè)完全相同的樣本在不同條件下進(jìn)行測(cè)試所獲得的兩組數(shù)據(jù)。其差別在于抽樣不是相互獨(dú)立的,而是互相關(guān)聯(lián)的。(1)配對(duì)樣本通常有兩個(gè)特征: 第一,兩組樣本的樣本數(shù)相同;
第二,兩個(gè)樣本記錄的先后順序一一對(duì)應(yīng),不能隨意更改。(2)適用條件
兩樣本數(shù)據(jù)必須兩兩配對(duì) 兩總體服從正態(tài)分布
配對(duì)樣本的錄入方式是:每對(duì)數(shù)據(jù)在同一個(gè)case的兩個(gè)配對(duì)的變量上(3)檢驗(yàn)步驟 a、提出假設(shè) H0: μ1=μ2
H1: μ1≠μ2 b、統(tǒng)計(jì)決策
如果P值<α,拒絕原假設(shè); 如果P值>α,不能拒絕原假設(shè);
第5章 方差分析
如何對(duì)一個(gè)或兩個(gè)總體的均值進(jìn)行檢驗(yàn),我們可以用均值比較,如果要討論多個(gè)總體均值是否相等,我們所采用的方法是方差分析。
方差分析中有以下幾個(gè)重要概念。(1)因素(Factor):是指所要研究的變量,它可能對(duì)因變量產(chǎn)生影響。如果方差分析只針對(duì)一個(gè)因素進(jìn)行,稱(chēng)為單因素方差分析。如果同時(shí)針對(duì)多個(gè)因素進(jìn)行,稱(chēng)為多因素方差分析。
(2)水平(Level):水平指因素的具體表現(xiàn),如銷(xiāo)售的四種方式就是因素的不同取值等級(jí)。
(3)單元(Cell):指因素水平之間的組合。(4)元素(Element):指用于測(cè)量因變量的最小單位。一個(gè)單元里可以只有一個(gè)元素,也可以有多個(gè)元素。
(5)交互作用(Interaction):如果一個(gè)因素的效應(yīng)大小在另一個(gè)因素不同水平下明顯不同,則稱(chēng)兩因素間存在交互作用。
1.單因素方差分析
單因素方差分析也叫一維方差分析,它用來(lái)研究一個(gè)因素的不同水平是否對(duì)觀測(cè)變量產(chǎn)生了顯著影響,即檢驗(yàn)由單一因素影響的一個(gè)(或幾個(gè)相互獨(dú)立的)因變量由因素各水平分組的均值之間的差異是否具有統(tǒng)計(jì)意義。(1)適用條件
在各個(gè)水平之下觀察對(duì)象是獨(dú)立隨機(jī)抽樣,即獨(dú)立性;
各個(gè)水平的因變量服從正態(tài)分布,即正態(tài)性;
各個(gè)水平下的總體具有相同的方差,即方差齊性;(2)基本原理
SST(總的離差平方和)=SSA(組間離差平方和)+SSE(組內(nèi)離差平方和)
如果在總的離差平方和中,組間離差平方和所占比例較大,說(shuō)明觀測(cè)變量的變動(dòng)主要是由因素的不同水平引起的,可以主要由因素的變動(dòng)來(lái)解釋?zhuān)到y(tǒng)性差異給觀測(cè)變量帶來(lái)了顯著影響;反之,如果組間離差平方和所占比例很小,說(shuō)明觀測(cè)變量的變動(dòng)主要由隨機(jī)變量因素引起的。
SPSS將自動(dòng)計(jì)算檢驗(yàn)統(tǒng)計(jì)量和相伴概率P值,若P<α,則拒絕原假設(shè),認(rèn)為因素的不同水平對(duì)觀測(cè)變量產(chǎn)生顯著影響;反之,接受零假設(shè),認(rèn)為因素的不同水平?jīng)]有對(duì)觀測(cè)變量產(chǎn)生顯著影響。
另外,SPSS還提供了多重比較方法,多重比較是通過(guò)對(duì)總體均值之間的配對(duì)比較來(lái)進(jìn)一步檢驗(yàn)到底哪些均值之間存在差異,最常用的多重比較方法是LSD。(3)檢驗(yàn)步驟 a、提出假設(shè)
H0: 各個(gè)總體的均值無(wú)顯著性差異。
H1: 各個(gè)總體的均值有顯著性差異。b、統(tǒng)計(jì)決策
方差齊性檢驗(yàn)結(jié)果,P值>0。05,方差齊,否則,方差不齊;
單因素方差分析表,P值>α,接受H0,都則,拒絕H0,接受H1。
2.多因素方差分析
多因素方差分析是對(duì)一個(gè)獨(dú)立變量是否受一個(gè)或多個(gè)因素或變量影響而進(jìn)行的方差分析。它不僅能夠分析多個(gè)因素對(duì)觀測(cè)變量的獨(dú)立影響,更能夠分析多個(gè)因素的交互作用能否對(duì)觀測(cè)變量產(chǎn)生顯著影響。(2)基本原理
由于多因素方差分析中觀察變量不僅要受到多個(gè)因素獨(dú)立作用的影響,而且因素其交互作用和一些隨機(jī)因素都會(huì)對(duì)變量產(chǎn)生影響。因此觀測(cè)變量值的波動(dòng)要受到多個(gè)控制變量獨(dú)立作用、控制變量交互作用及隨機(jī)因素等三方面的影響。以?xún)蓚€(gè)因素為例,可以表示為:
Q總=Q控1+Q控2+Q控1控2+Q隨其中,Q表示各部分對(duì)應(yīng)的離差平方和。多因素方差分析比較
Q
控
1、Q 控
2、Q 控 1 控
Q
隨
占 Q
總 的比例,以此推斷不同因素以及因素之間的交互作用
2、是否給觀測(cè)變量帶來(lái)顯著影響。
(3)基本術(shù)語(yǔ)
a、Dependent Variable 觀測(cè)變量或因變量 主要指研究中的定量變量
如:移動(dòng)話(huà)費(fèi)、學(xué)生成績(jī)、銷(xiāo)售量、畝產(chǎn)量等
b、Fixed Factor 固定效應(yīng)因素,固定因素,控制因素
主要指研究中的定性變量
如:資費(fèi)等級(jí)、客戶(hù)類(lèi)型、漫游類(lèi)型、促銷(xiāo)策略等 c、Random Factor 隨機(jī)效應(yīng)因素、隨機(jī)因素
人為無(wú)法對(duì)其水平值進(jìn)行準(zhǔn)確控制,只是能夠直觀觀測(cè)到
如:話(huà)費(fèi)水平、收入水平、消費(fèi)習(xí)慣等
d、Interaction 交互作用、交互效應(yīng)
如果一個(gè)因素的效應(yīng)大小在另一個(gè)因素不同水平下明顯不同,則稱(chēng)為兩因素間存在交互作用。
當(dāng)存在交互作用時(shí),單純研究某個(gè)因素的作用是沒(méi)有意義的,必須分另一個(gè)因素的不同水平研究該因素的作用大小。例如:飲食習(xí)慣、適量運(yùn)動(dòng)對(duì)減肥的作用; e、main effect 與交互效應(yīng)相對(duì)應(yīng)的
主效應(yīng)就是每個(gè)因素對(duì)因變量的單獨(dú)影響(main effect)f、Covariates 協(xié)變量
指對(duì)應(yīng)變量可能有影響,需要在分析時(shí)對(duì)其作用加以控制的連續(xù)性定量變量 當(dāng)模型中存在協(xié)變量時(shí),一般是通過(guò)找出它與因變量的回歸關(guān)系來(lái)控制其影響(3)應(yīng)用條件
等方差;
各樣本的獨(dú)立性:只有各樣本為相互獨(dú)立的隨機(jī)樣本,才能保證變異的可加性(可分解性);
正態(tài)性:即所有觀察值系從正態(tài)總體中抽樣得出;(4)基本步驟
提出假設(shè)
H0:因素A中的r個(gè)水平的均值相等(因素A 對(duì)因變量無(wú)顯著性影響)H1:因素A中的r個(gè)水平的均值不全相等(因素A 對(duì)因變量有顯著性影響)統(tǒng)計(jì)決斷 P值檢驗(yàn)法
依次查看各F值的P值,p-值<α,應(yīng)拒絕原假設(shè); 如果其P值大于顯著性水平,則不能拒絕H0,可以認(rèn)為相應(yīng)不同水平的控制變量或交互影響沒(méi)有造成均值的顯著差異;
第6章
非參數(shù)檢驗(yàn)
非參數(shù)檢驗(yàn)(nonparametric test),又稱(chēng)為任意分布檢驗(yàn)(distribution-free test); 不依賴(lài)于總體的分布類(lèi)型,對(duì)樣本所來(lái)自總體的分布不作嚴(yán)格假定的統(tǒng)計(jì)推斷方法,稱(chēng)為非參數(shù)檢驗(yàn)(nonparametric test)
它不考慮研究對(duì)象總體分布的具體形式,也不對(duì)總體參數(shù)進(jìn)行統(tǒng)計(jì)推斷;
而是通過(guò)檢驗(yàn)樣本所代表的總體分布位置及分布形狀是否一致來(lái)得出統(tǒng)計(jì)結(jié)論。特點(diǎn)
參數(shù)檢驗(yàn)條件不滿(mǎn)足時(shí)的處理方法
不對(duì)均數(shù)等參數(shù)檢驗(yàn),而是檢驗(yàn)分布是否相同
在總體分布未知的情況下,利用樣本數(shù)據(jù)對(duì)總體的分布形態(tài)進(jìn)行推斷。非參數(shù)檢驗(yàn)的著眼點(diǎn)不是總體參數(shù),而是總體的分布情況 非參數(shù)檢驗(yàn)研究目標(biāo)總體的分布是否與已知理論分布相同 非參數(shù)檢驗(yàn)研究各樣本所在總體的分布位置,形狀是否相同 優(yōu)點(diǎn)
第一,具有較好的穩(wěn)健性;
第二,受限條件少:對(duì)數(shù)據(jù)要求不像參數(shù)檢驗(yàn)?zāi)菢訃?yán)格
第三,適用范圍廣:可應(yīng)用于各種不同的情況,不受總體分布形狀的限制,適合處理無(wú)法精確數(shù)量化的定性數(shù)據(jù)和小樣本數(shù)據(jù) 第四,計(jì)算通常較簡(jiǎn)單,且容易理解 缺點(diǎn)
第一,將定量數(shù)據(jù)轉(zhuǎn)換為定性數(shù)據(jù)時(shí),漏失了數(shù)據(jù)的一些信息
第二,檢驗(yàn)的敏感度和效果,均不如參數(shù)檢驗(yàn)好。檢驗(yàn)效率低于參數(shù)檢驗(yàn),主要是犯第二類(lèi)錯(cuò)誤的可能性加大。
第三,參數(shù)檢驗(yàn)適用的數(shù)據(jù),非參數(shù)方法會(huì)降低檢驗(yàn)效能;當(dāng)數(shù)據(jù)滿(mǎn)足參數(shù)檢驗(yàn)條件時(shí),效能低于參數(shù)法,不滿(mǎn)足參數(shù)法條件時(shí),處于“優(yōu)勢(shì)” 非參數(shù)檢驗(yàn)的應(yīng)用場(chǎng)合
定量數(shù)據(jù),不滿(mǎn)足參數(shù)檢驗(yàn)的條件,且無(wú)適當(dāng)?shù)淖兞孔儞Q方法解決此問(wèn)題; 定量數(shù)據(jù),其分布類(lèi)型無(wú)法獲知,且為小樣本; 定量數(shù)據(jù),極度偏態(tài),或個(gè)別數(shù)值偏離過(guò)大; 各組離散度相差懸殊
一端或兩端存在不確定數(shù)值的定量數(shù)據(jù)
定序數(shù)據(jù),比較各組間等級(jí)強(qiáng)度的差別; 非參數(shù)檢驗(yàn)的主要方法 單個(gè)樣本的非參數(shù)檢驗(yàn)
卡方檢驗(yàn)(Chi-Square過(guò)程)
二項(xiàng)檢驗(yàn)(Binomial過(guò)程)
游程檢驗(yàn)(Runs過(guò)程)
柯?tīng)柲缏宸颉姑字Z夫檢驗(yàn)(l-Sample K-S過(guò)程)兩個(gè)獨(dú)立樣本的非參數(shù)檢驗(yàn) 多個(gè)獨(dú)立樣本的非參數(shù)檢驗(yàn) 兩個(gè)配對(duì)樣本的非參數(shù)檢驗(yàn) 多個(gè)配對(duì)樣本的非參數(shù)檢驗(yàn) 順序統(tǒng)計(jì)量
通過(guò)對(duì)數(shù)據(jù)從小到大的排序(即排隊(duì)),并由數(shù)據(jù)的大小排序號(hào)(排隊(duì)號(hào))代替原始數(shù)據(jù)進(jìn)行統(tǒng)計(jì)分析。
秩(Rank):排序號(hào)(排隊(duì)號(hào))在統(tǒng)計(jì)學(xué)上稱(chēng)為秩
結(jié)(ties):絕對(duì)值相等稱(chēng)為結(jié),又稱(chēng)同秩,則取平均秩次。
一般來(lái)說(shuō),秩就是該組數(shù)據(jù)按照升序排列之后,每個(gè)數(shù)據(jù)的位置。
1.單個(gè)樣本的非參數(shù)檢驗(yàn) 卡方檢驗(yàn)(Chi-Square過(guò)程)
用卡方檢驗(yàn)來(lái)檢驗(yàn)定性變量的幾個(gè)取值(分類(lèi)數(shù)據(jù),或類(lèi)別)所占比例是否和理論的比例沒(méi)有統(tǒng)計(jì)學(xué)差異。檢驗(yàn)分類(lèi)變量的分布
適合于定性數(shù)據(jù)及頻數(shù)資料的分析
要求樣本足夠大,要求樣本容量一般大于50; 應(yīng)用領(lǐng)域
如病人經(jīng)治療后治愈、好轉(zhuǎn)、有效和無(wú)效的人數(shù)總的說(shuō)來(lái)是否相同(實(shí)為治愈、好轉(zhuǎn)、有效和無(wú)效的概率或機(jī)會(huì)是否相同)成績(jī)優(yōu)、良、中、差的學(xué)生人數(shù)是否相同 贊同某種觀點(diǎn)的人數(shù)是否達(dá)到80%,等等。
比如在人群中抽取了一個(gè)樣本,可以用該方法來(lái)分析四種血型所占的比例是否相同(都是25%),或者是否符合我們所給出的一個(gè)比例(如分別為10%、30%、40%和20%)。Chi-Square檢驗(yàn)的基本思路
先按照已知總體的構(gòu)成比例分布,計(jì)算出樣本中定性數(shù)據(jù)(即各類(lèi)別)的期望頻數(shù)然后求出觀測(cè)頻數(shù)和期望頻數(shù)的差值,最后計(jì)算出卡方統(tǒng)計(jì)量 利用卡方分布求出P值,假設(shè)檢驗(yàn)的H0是樣本中某指標(biāo)的比例與已知比例一致 得出檢驗(yàn)結(jié)論
2.二項(xiàng)檢驗(yàn)(Binomial過(guò)程)檢驗(yàn)二項(xiàng)分類(lèi)變量分布
用于檢測(cè)所給的變量是否符合二項(xiàng)分布,變量可以是兩分類(lèi)的,也可以使連續(xù)性變量,然后按你給出的分界點(diǎn)一刀兩斷。
Binomial過(guò)程對(duì)二項(xiàng)分類(lèi)變量的單個(gè)樣本作檢驗(yàn),推斷總體中兩個(gè)分類(lèi)數(shù)據(jù)的比例是否分別為π和(1-π)應(yīng)用領(lǐng)域
射擊時(shí),擊中與未擊中;學(xué)生成績(jī),及格與不及格;疾病診斷,陰性與陽(yáng)性;硬幣,正面與反面;人群性別,男和女;產(chǎn)品質(zhì)量,合格和不合格 定量數(shù)據(jù)、符號(hào)檢驗(yàn)(SING TEST)與Binomial過(guò)程
定量數(shù)據(jù):大樣本;或小樣本,總體服從正態(tài)分布,總體方差已知; 參數(shù)檢驗(yàn):?jiǎn)蝹€(gè)樣本的均值檢驗(yàn)
定量數(shù)據(jù),不滿(mǎn)足參數(shù)檢驗(yàn)的條件,且無(wú)適當(dāng)?shù)淖兞孔儞Q方法解決此問(wèn)題;
極度偏態(tài),或個(gè)別數(shù)值偏離過(guò)大;
一端或兩端存在不確定數(shù)值
3.游程檢驗(yàn)(Runs過(guò)程)
Runs過(guò)程借助樣本序列的順序推斷總體序列的順序是否是隨機(jī)的,屬隨機(jī)性檢驗(yàn) 二分類(lèi)數(shù)據(jù)和定量數(shù)據(jù)(連續(xù)數(shù)據(jù))均可
對(duì)于一個(gè)取兩個(gè)值的分類(lèi)變量,游程檢驗(yàn)方法是檢驗(yàn)這兩個(gè)值的出現(xiàn)是否是隨機(jī)的。游程檢驗(yàn)還可以用于某個(gè)連續(xù)變量的取值小于某個(gè)值及大于該值的個(gè)數(shù)(類(lèi)似于0和1的個(gè)數(shù))是否隨機(jī)的問(wèn)題 游程檢驗(yàn)的作用
1、檢驗(yàn)總體分布是否相同
將從兩個(gè)總體中獨(dú)立抽取的兩個(gè)樣本的觀察值混合后,觀察游程個(gè)數(shù),進(jìn)行比較。
2、檢驗(yàn)樣本的隨機(jī)性
將取自某一總體的樣本的觀察值按從小到大順序排列,找出中位數(shù),分為大于中位數(shù)的小于中位數(shù)的兩個(gè)部分。用上下交錯(cuò)形成的游程個(gè)數(shù)來(lái)檢驗(yàn)樣本是否是隨機(jī)的。應(yīng)用范圍
生產(chǎn)過(guò)程是否需要調(diào)整,即不合格產(chǎn)品是否隨機(jī)產(chǎn)生; 獎(jiǎng)券的購(gòu)買(mǎi)是否隨機(jī);
期貨價(jià)格的變化是否隨機(jī)等等。
若事物的發(fā)生并非隨機(jī),即有某種規(guī)律,則往往可尋找規(guī)律,建立相應(yīng)模型,進(jìn)行分析,作出適宜的決策。
當(dāng)樣本按某種順序排列(如按抽取時(shí)間先后排列)時(shí),一個(gè)或者一個(gè)以上相同符號(hào)連續(xù)出現(xiàn)的段,就被稱(chēng)作游程 ;
4.(l-Sample K-S過(guò)程)
柯?tīng)柲Z夫-斯米爾諾夫檢驗(yàn),考察某個(gè)連續(xù)性變量是否符合理論分布 利用樣本數(shù)據(jù)推斷總體是否服從某種分布
可以檢驗(yàn)的分布有正態(tài)分布、均勻分布、Poission分布和指數(shù)分布。數(shù)據(jù)要求:定量數(shù)據(jù),Scale
5。
獨(dú)立樣本的非參數(shù)檢
檢驗(yàn)兩個(gè)或多個(gè)獨(dú)立樣本所在總體是否相同
在不了解總體分布的情況下,通過(guò)分析樣本數(shù)據(jù)均值或中位數(shù)的差異,推斷樣本來(lái)自的兩/多個(gè)獨(dú)立總體的分布存在的顯著性差異。Independent Samples過(guò)程:主要用于檢驗(yàn)兩個(gè)獨(dú)立樣本所在總體分布是否相同 K Independent Samples過(guò)程:主要用于檢驗(yàn)多個(gè)獨(dú)立樣本所在總體分布是否相同 界面上基本相同
(1)兩個(gè)獨(dú)立樣本的非參數(shù)檢驗(yàn)
含義:由樣本數(shù)據(jù),推斷兩個(gè)獨(dú)立總體的分布是否存在顯著差異(或兩樣本是否來(lái)自同一總體)分析對(duì)象:定量數(shù)據(jù)或定序數(shù)據(jù) 對(duì)分布的形狀不加考慮
分布形狀相同或類(lèi)似的兩個(gè)總體分布位置比較,可以簡(jiǎn)化地理解為兩總體中位數(shù)的比較 應(yīng)用范圍
兩種訓(xùn)練方法中哪一種更出成績(jī) 兩種汽 油中哪一個(gè)污染更少 兩種市場(chǎng)營(yíng)銷(xiāo)策略中那種更有效
與獨(dú)立樣本t檢驗(yàn)的區(qū)別
對(duì)于定量數(shù)據(jù),如果方差相等,且服從正態(tài)分布
兩個(gè)獨(dú)立樣本的非參數(shù)檢驗(yàn)的過(guò)程
定序數(shù)據(jù);對(duì)于定量數(shù)據(jù),不滿(mǎn)足兩個(gè)獨(dú)立樣本t檢驗(yàn)的條件
曼-惠特尼U檢驗(yàn)(Mann-Whitney U)
為檢驗(yàn)兩總體的中位數(shù)是否相等,常用Mann-Whitney U 檢驗(yàn),或稱(chēng)Wilcoxon秩和檢驗(yàn)(Wilcoxon rank sum test);
這兩種方法是獨(dú)立提出的,檢驗(yàn)結(jié)果完全等價(jià)的; 分析步驟
建立檢驗(yàn)假設(shè),確定顯著性水平α :
H0:兩個(gè)總體的分布位置相同,即高中生和大學(xué)生的每周平均上網(wǎng)時(shí)間的總體分布相同;
H1:兩個(gè)總體的分布位置不同,即高中生和大學(xué)生的每周平均上網(wǎng)時(shí)間的總體分布不同?;颍?/p>
H0:M1=M2;
H1:M1>M2
2、編秩,將兩組數(shù)據(jù)由小到大統(tǒng)一編秩,編秩時(shí)如遇有相同數(shù)據(jù),取平均秩次。
3、求秩和,兩組秩次分別相加。
4、確定統(tǒng)計(jì)量
若兩組樣本容量相等,則任取一組的秩和為統(tǒng)計(jì)量;
若兩組樣本容量不等,則以樣本樣本容量較小者對(duì)應(yīng)的秩和為統(tǒng)計(jì)量。
5、查表確定P值,作出推斷結(jié)論。若P>α,不能拒絕原假設(shè)。
若則P<α,拒絕原假設(shè),認(rèn)為兩總體的分布不相同。
(2)多獨(dú)立樣本非參數(shù)檢驗(yàn)
對(duì)三個(gè)或三個(gè)以上的總體的均值是否相等進(jìn)行檢驗(yàn),使用的方法是單因素方差分析 ; 單因素方差分析過(guò)程需要假定條件,F(xiàn)檢驗(yàn)才有效; 有時(shí)候所采集的數(shù)據(jù)常常不能滿(mǎn)足這些條件,K Independent Samples過(guò)程 K Independent Samples過(guò)程
含義:由樣本數(shù)據(jù),推斷多個(gè)獨(dú)立總體的分布是否存在顯著差異(或多個(gè)樣本是否來(lái)自同一總體)分析對(duì)象:定量數(shù)據(jù)或定序數(shù)據(jù) 對(duì)分布的形狀不加考慮
分布形狀相同或類(lèi)似的多個(gè)總體分布位置比較,可以簡(jiǎn)化地理解為多個(gè)總體中位數(shù)的比較。應(yīng)用范圍
各城市兒童身高分布一致嗎?
不同收入的居民存(?。┛罱痤~分布一致嗎?
電信公司人力資源部門(mén)比較3所大學(xué)雇員的管理業(yè)績(jī)是否存在差異? 檢驗(yàn)方法
Kruskal-Wallis H :克魯斯卡爾-沃利斯單因素方差分析最常用,原理同Wilcoxon檢驗(yàn) 多個(gè)樣本間的兩兩比較 多組獨(dú)立樣本;
每組5個(gè)觀察值,樣本量小,分布類(lèi)型未知;
考慮采用秩轉(zhuǎn)換的非參數(shù)檢驗(yàn)方法——Kruskal-Wallis秩和檢驗(yàn)。
(3)兩/多個(gè)配對(duì)樣本非參數(shù)檢驗(yàn)
檢驗(yàn)兩個(gè)或多個(gè)配對(duì)樣本所在總體位置是否相同
在不了解總體分布的情況下,通過(guò)分析兩/多個(gè)配對(duì)樣本,推斷樣本來(lái)自的兩/多個(gè)總體的分布是否存在顯著性差異。Related Samples過(guò)程:主要用于檢驗(yàn)兩個(gè)配對(duì)樣本所在總體分布是否相同 K Related Samples過(guò)程:主要用于檢驗(yàn)多個(gè)配對(duì)樣本所在總體分布是否相同 界面上基本相同
兩個(gè)配對(duì)樣本的非參數(shù)檢驗(yàn)
含義:由樣本數(shù)據(jù)推斷兩配對(duì)總體分布是否存在顯著差異。數(shù)據(jù)要求
兩組配對(duì)的樣本數(shù)據(jù);
兩組數(shù)據(jù)的樣本容量相同,先后次序不能任意改變,一一對(duì)應(yīng); 統(tǒng)計(jì)分析步驟
提出基本假設(shè)
H0:兩配對(duì)總體分布無(wú)顯著差異 H1:兩配對(duì)總體分布有顯著差異 統(tǒng)計(jì)決斷
P值>α,不能拒絕原假設(shè)
P值<α,拒絕原假設(shè)
多個(gè)配對(duì)樣本非參數(shù)檢驗(yàn)
含義:由樣本數(shù)據(jù)推斷多個(gè)配對(duì)總體分布是否存在顯著差異。
數(shù)據(jù)要求:多組配對(duì)的樣本數(shù)據(jù),多組數(shù)據(jù)的樣本容量相同,先后次序不能任意改變,一一對(duì)應(yīng); 應(yīng)用范圍
三種促銷(xiāo)形式的銷(xiāo)售額分布一致嗎? 收集乘客對(duì)多家航空公司是否滿(mǎn)意的數(shù)據(jù),分析航空公司的服務(wù)水平是否存在顯著差異 評(píng)委打分一致嗎? 三種檢驗(yàn)方法
Friedman M檢驗(yàn):最常用
Kendall W檢驗(yàn) :和諧系數(shù)檢驗(yàn)
Cochran Q:要求樣本數(shù)據(jù)為二分類(lèi)數(shù)據(jù)(1-滿(mǎn)意
0-不滿(mǎn)意)檢驗(yàn)方法的選擇
1)單個(gè)樣本:若來(lái)自正態(tài)總體,可用t檢驗(yàn),若來(lái)自非正態(tài)總體或總體分布無(wú)法確定,可用二項(xiàng)檢驗(yàn)(二項(xiàng)檢驗(yàn))2)配對(duì)樣本:
二分類(lèi)變量,可用McNemar檢驗(yàn);
連續(xù)型變量,若來(lái)自正態(tài)總體,可用配對(duì)t檢驗(yàn),否則可用Wilcoxon符號(hào)秩和檢驗(yàn)。
3)兩組獨(dú)立樣本:連續(xù)型變量,若來(lái)自正態(tài)總體,可用t檢驗(yàn),否則,可用 Wilcoxon秩和檢驗(yàn);
二分類(lèi)變量或無(wú)序多分類(lèi)變量,可用卡方檢驗(yàn);
有序多分類(lèi)變量,宜用Wilcoxon秩和檢驗(yàn)。4)多組獨(dú)立樣本
連續(xù)型變量值,來(lái)自正態(tài)總體且方差相等,可用方差分析;否則,進(jìn)行數(shù)據(jù)變換使其滿(mǎn)足正態(tài)性或方差齊的要求后,采用方差分析;數(shù)據(jù)變換仍不能滿(mǎn)足條件時(shí),可用Kruskal-Wallis秩和檢驗(yàn)。
二分類(lèi)變量或無(wú)序多分類(lèi)變量,可用卡方檢驗(yàn)。
有序多分類(lèi)變量宜用Kruskal-Wallis秩和檢驗(yàn)。
第7章 相關(guān)分析 概念
相關(guān)關(guān)系反映出變量之間雖然相互影響,具有依存關(guān)系,但彼此之間是不能一一對(duì)應(yīng)的。例如,學(xué)生成績(jī)與其智力因素、各科學(xué)習(xí)成績(jī)之間的關(guān)系、教育投資額與經(jīng)濟(jì)發(fā)展水平的關(guān)系、社會(huì)環(huán)境與人民健康的關(guān)系等等,都反映出客觀現(xiàn)象中存在的相關(guān)關(guān)系。相關(guān)關(guān)系的類(lèi)型
1)根據(jù)相關(guān)程度的不同,相關(guān)關(guān)系可分為完全相關(guān)、不完全相關(guān)和無(wú)相關(guān)。2)根據(jù)變量值變動(dòng)方向的趨勢(shì),相關(guān)關(guān)系可分為正相關(guān)和負(fù)相關(guān)。3)根據(jù)變量關(guān)系的形態(tài),相關(guān)關(guān)系可分為直線(xiàn)相關(guān)和曲線(xiàn)相關(guān)。4)根據(jù)研究變量的多少,可分為單相關(guān)、復(fù)相關(guān)。相關(guān)分析的作用
1)判斷變量之間有無(wú)聯(lián)系
2)確定選擇相關(guān)關(guān)系的表現(xiàn)形式及相關(guān)分析方法 3)把握相關(guān)關(guān)系的方向與密切程度
4)相關(guān)分析不但可以描述變量之間的關(guān)系狀況,而且用來(lái)進(jìn)行預(yù)測(cè)。5)相關(guān)分析還可以用來(lái)評(píng)價(jià)測(cè)量量具的信度、效度以及項(xiàng)目的區(qū)分度等 相關(guān)系數(shù)
相關(guān)系數(shù)是在直線(xiàn)相關(guān)條件下,說(shuō)明兩個(gè)變量之間相關(guān)程度以及相關(guān)方向的統(tǒng)計(jì)分析指標(biāo)。相關(guān)系數(shù)一般可以通過(guò)計(jì)算得到。作為樣本相關(guān)系數(shù),常用字母r表示;作為總體相關(guān)系數(shù),常用字母ρ表示。相關(guān)系數(shù)的數(shù)值范圍是介于–1與 +1之間(即–1≤ r ≤1),常用小數(shù)形式表示,一般要取小數(shù)點(diǎn)后兩位數(shù)字來(lái)表示,以便比較精確地描述其相關(guān)程度。
兩個(gè)變量之間的相關(guān)程度用相關(guān)系數(shù)r的絕對(duì)值表示,其絕對(duì)值越接近1,表明兩個(gè)變量的相關(guān)程度越高;其絕對(duì)值越接近于0,表明兩個(gè)變量相關(guān)程度越低。如果其絕對(duì)值等于零1,則表示兩個(gè)變量完全直線(xiàn)相關(guān)。如果其絕對(duì)值為零,則表示兩個(gè)變量完全不相關(guān)(不是直線(xiàn)相關(guān))。
相關(guān)系數(shù)的注意事項(xiàng)
1)相關(guān)系數(shù)只是一個(gè)比率值,并不具備與相關(guān)變量相同的測(cè)量單位。2)相關(guān)系數(shù)r 受變量取值區(qū)間大小及樣本數(shù)目多少的影響比較大。
3)來(lái)自于不同群體且不同質(zhì)的事物的相關(guān)系數(shù)不能進(jìn)行比較。4)對(duì)于不同類(lèi)型的數(shù)據(jù),計(jì)算相關(guān)系數(shù)的方法也不相同
1.簡(jiǎn)單相關(guān)分析的基本原理
簡(jiǎn)單相關(guān)分析是研究?jī)蓚€(gè)變量之間關(guān)聯(lián)程度的統(tǒng)計(jì)方法。它主要是通過(guò)計(jì)算簡(jiǎn)單相關(guān)系數(shù)來(lái)反映變量之間關(guān)系的強(qiáng)弱。一般它有圖形(散點(diǎn)圖)和數(shù)值(一方面應(yīng)觀察相關(guān)系數(shù)的大小,另一方面,應(yīng)觀察概率P值,其原假設(shè)為**不相關(guān))兩種表示方式。簡(jiǎn)單相關(guān)系數(shù)
1)皮爾遜(Pearson)相關(guān)系數(shù)
常稱(chēng)為積差相關(guān)系數(shù),適用于研究連續(xù)變量之間的相關(guān)程度。例如,收入和儲(chǔ)蓄存款、身高和體重等變量間的線(xiàn)性相關(guān)關(guān)系。注意Pearson相關(guān)系數(shù)適用于線(xiàn)性相關(guān)的情形,對(duì)于曲線(xiàn)相關(guān)等更為復(fù)雜的情形,系數(shù)的大小并不能代表其相關(guān)性的強(qiáng)弱。2)Spearman等級(jí)相關(guān)系
Spearman等級(jí)相關(guān)系數(shù)是用來(lái)度量順序水準(zhǔn)變量間的線(xiàn)性相關(guān)關(guān)系。它是利用兩變量的秩次大小作線(xiàn)性相關(guān)分析,適用條件為:
① 兩個(gè)變量的變量值是以等級(jí)次序表示的資料;
②
一個(gè)變量的變量值是等級(jí)數(shù)據(jù),另一個(gè)變量的變量值是等距或比率數(shù)據(jù),且其兩總體不要求是正態(tài)分布,樣本容量n不一定大于30。
從斯皮爾曼等級(jí)相關(guān)適用條件中可以看出,等級(jí)相關(guān)的應(yīng)用范圍要比積差相關(guān)廣泛,它的突出優(yōu)點(diǎn)是對(duì)數(shù)據(jù)的總體分布、樣本大小都不做要求。但缺點(diǎn)是計(jì)算精度不高。3)Kendall’s等級(jí)相關(guān)系數(shù)
它是用于反映分類(lèi)變量相關(guān)性的指標(biāo),適用于兩個(gè)變量均為有序分類(lèi)的情況。這種指標(biāo)采用非參數(shù)檢驗(yàn)方法測(cè)度變量間的相關(guān)關(guān)系。它利用變量的秩計(jì)算一致對(duì)數(shù)目和非一致對(duì)數(shù)目。
2.偏相關(guān)分析的基本原理
方法概述
簡(jiǎn)單相關(guān)分析計(jì)算兩個(gè)變量之間的相互關(guān)系,分析兩個(gè)變量間線(xiàn)性關(guān)系的程度。但是現(xiàn)實(shí)中,事物之間的聯(lián)系可能存在于多個(gè)主體之間,因此往往因?yàn)榈谌齻€(gè)變量的作用使得相關(guān)系數(shù)不能真實(shí)地反映兩個(gè)變量間的線(xiàn)性相關(guān)程度?;驹?/p>
偏相關(guān)分析是在相關(guān)分析的基礎(chǔ)上考慮了兩個(gè)因素以外的各種作用,或者說(shuō)在扣除了其他因素的作用大小以后,重新來(lái)測(cè)度這兩個(gè)因素間的關(guān)聯(lián)程度。這種方法的目的就在于消除其他變量關(guān)聯(lián)性的傳遞效應(yīng)。3.距離分析的基本原理
簡(jiǎn)單相關(guān)分析和偏相關(guān)分析有一個(gè)共同點(diǎn),那就是對(duì)所分析的數(shù)據(jù)背景應(yīng)當(dāng)有一定程度的了解。但在實(shí)際中有時(shí)會(huì)遇到一種情況,在分析前對(duì)數(shù)據(jù)所代表的專(zhuān)業(yè)背景知識(shí)尚不充分,本身就屬于探索性的研究。這時(shí)就需要先對(duì)各個(gè)指標(biāo)或者案例的差異性、相似程度進(jìn)行考察,以先對(duì)數(shù)據(jù)有一個(gè)初步了解,然后再根據(jù)結(jié)果考慮如何進(jìn)行深入分析。
距離分析是對(duì)觀測(cè)量之間或變量之間相似或不相似的程度的一種測(cè)度,是計(jì)算一對(duì)變量之間或一對(duì)觀測(cè)量之間的廣義的距離。根據(jù)變量的不同類(lèi)型,可以有許多距離、相似程度測(cè)量指標(biāo)供用戶(hù)選擇。但由于本模塊只是一個(gè)預(yù)分析過(guò)程,因此距離分析并不會(huì)給出常用的P值,而只能給出各變量/記錄間的距離大小,以供用戶(hù)自行判斷相似性。
第8章 SPSS的回歸分析 1。一元線(xiàn)性回歸 方法概述
線(xiàn)性回歸模型側(cè)重考察變量之間的數(shù)量變化規(guī)律,并通過(guò)線(xiàn)性表達(dá)式,即線(xiàn)性回歸方程,來(lái)描述其關(guān)系,進(jìn)而確定一個(gè)或幾個(gè)變量的變化對(duì)另一個(gè)變量的影響程度,為預(yù)測(cè)提供科學(xué)依據(jù)。
一般線(xiàn)性回歸的基本步驟如下。
① 確定回歸方程中的自變量和因變量。
② 從收集到的樣本數(shù)據(jù)出發(fā)確定自變量和因變量之間的數(shù)學(xué)關(guān)系式,即確定回歸方程。
③ 建立回歸方程,在一定統(tǒng)計(jì)擬合準(zhǔn)則下,估計(jì)出模型中的各個(gè)參數(shù),得到一個(gè)確定的回歸方程。
④ 對(duì)回歸方程進(jìn)行各種統(tǒng)計(jì)檢驗(yàn)。
⑤ 利用回歸方程進(jìn)行預(yù)測(cè)。
注:一元線(xiàn)性回歸的經(jīng)驗(yàn)?zāi)P褪牵篩=β0+β1X 統(tǒng)計(jì)檢驗(yàn)
在求解出了回歸模型的參數(shù)后,一般不能立即將結(jié)果付諸于實(shí)際問(wèn)題的分析和預(yù)測(cè),通常要進(jìn)行各種統(tǒng)計(jì)檢驗(yàn),例如擬合優(yōu)度檢驗(yàn)、回歸方程和回歸系數(shù)的顯著性檢驗(yàn)和殘差分析等。
1)輸出結(jié)果的模型摘要
其實(shí)就是對(duì)方程擬合情況的描述。通過(guò)這張表可以知道相關(guān)系數(shù)的取值(R),相關(guān)系數(shù)的平方即可決系數(shù)(R Square),校正后的可決系數(shù)(adjusted R Square)和回歸系數(shù)的標(biāo)準(zhǔn)誤(Std。Error of the Estimate)。注意這里的相關(guān)系數(shù)大小和前面相關(guān)分析中計(jì)算出的結(jié)果完全相同??蓻Q系數(shù)R Square的取值介于0和1之間,它的含義就是自變量所能解釋的方差在總方差中所占的百分比,取值越大說(shuō)明模型的效果越好。
2)輸出結(jié)果中的方差分析表
它是回歸模型顯著性檢驗(yàn)的結(jié)果,所用方法為F檢驗(yàn),其零假設(shè)為原方程無(wú)效,通過(guò)P值來(lái)判斷原方程是否有效。3)輸出結(jié)果中的回歸系數(shù)表
應(yīng)特別關(guān)注回歸系數(shù)β1 的T檢驗(yàn),它的零假設(shè)為β1 =0,通過(guò)P值來(lái)判斷β1 是否有實(shí)際意義。
2.多元線(xiàn)性回歸
在回歸分析中,如果有兩個(gè)或兩個(gè)以上的自變量,就稱(chēng)為多元回歸。
其基本步驟與一元回歸幾乎一致,只是在輸出結(jié)果的模型摘要中通過(guò)觀察調(diào)整R2 來(lái)判斷方程的擬合情況,另外,同樣可通過(guò)折線(xiàn)圖來(lái)觀察模型擬合效果。
3.曲線(xiàn)擬合
實(shí)際中,變量之間的關(guān)系往往不是簡(jiǎn)單的線(xiàn)性關(guān)系,而呈現(xiàn)為某種曲線(xiàn)或非線(xiàn)性的關(guān)系。此時(shí),就要選擇相應(yīng)的曲線(xiàn)去反映實(shí)際變量的變動(dòng)情況。為了決定選擇的曲線(xiàn)類(lèi)型,常用的方法是根據(jù)數(shù)據(jù)資料繪制出散點(diǎn)圖,通過(guò)圖形的變化趨勢(shì)特征并結(jié)合專(zhuān)業(yè)知識(shí)和經(jīng)驗(yàn)分析來(lái)確定曲線(xiàn)的類(lèi)型,即變量之間的函數(shù)關(guān)系。
在確定了變量間的函數(shù)關(guān)系后,需要估計(jì)函數(shù)關(guān)系中的未知參數(shù),并對(duì)擬合效果進(jìn)行顯著性檢驗(yàn)。雖然這里選擇的是曲線(xiàn)方程,在方程形式上是非線(xiàn)性的,但可以采用變量變換的方法將這些曲線(xiàn)方程轉(zhuǎn)化為線(xiàn)性方程來(lái)估計(jì)參數(shù)。
在選擇模型的時(shí)候可以結(jié)合專(zhuān)業(yè)知識(shí)多選幾種,如同時(shí)選擇“指數(shù)分布”、“逆模型”和“冪函數(shù)”,然后在模型匯總中比較R2 的大小,選擇最大的一個(gè),同時(shí),注意觀察各自的P值,其原假設(shè)為其模型無(wú)統(tǒng)計(jì)學(xué)意義。
4.非線(xiàn)性回歸分析
非線(xiàn)性回歸分析是探討因變量和一組自變量之間的非線(xiàn)性相關(guān)模型的統(tǒng)計(jì)方法。線(xiàn)性回歸模型要求變量之間必須是線(xiàn)性關(guān)系,曲線(xiàn)估計(jì)只能處理能夠通過(guò)變量變換化為線(xiàn)性關(guān)系的非線(xiàn)性問(wèn)題,因此這些方法都有一定的局限性。相反的,非線(xiàn)性回歸可以估計(jì)因變量和自變量之間具有任意關(guān)系的模型,用戶(hù)根據(jù)自身需要可隨意設(shè)定估計(jì)方程的具體形式。通過(guò)散點(diǎn)圖觀察,如果自變量和應(yīng)變量不能通過(guò)線(xiàn)性回歸或區(qū)縣估計(jì)來(lái)實(shí)現(xiàn),則可以在SPSS通過(guò)【分析】-【回歸】-【非線(xiàn)性】來(lái)實(shí)現(xiàn)。
以下是SPSS處理問(wèn)卷的總結(jié)
當(dāng)我們的調(diào)查問(wèn)卷在把調(diào)查數(shù)據(jù)拿回來(lái)后,我們?cè)撟龅墓ぷ骶褪怯孟嚓P(guān)的統(tǒng)計(jì)軟件進(jìn)行處理,在此,我們以SPSS為處理軟件,來(lái)簡(jiǎn)要說(shuō)明一下問(wèn)卷的處理過(guò)程,它的過(guò)程大致可分為四個(gè)過(guò)程:定義變量﹑數(shù)據(jù)錄入﹑統(tǒng)計(jì)分析和結(jié)果保存。下面將從這四個(gè)方面來(lái)對(duì)問(wèn)卷的處理做詳細(xì)的介紹。
SPSS處理:
第一步:定義變量
大多數(shù)情況下我們需要從頭定義變量,在打開(kāi)SPSS后,我們可以看到和excel相似的界面,在界面的左下方可以看到Data View,Variable View兩個(gè)標(biāo)簽,只需單擊左下方的Variable View標(biāo)簽就可以切換到變量定義界面開(kāi)始定義新變量。在表格上方可以看到一個(gè)變量要設(shè)置如下幾項(xiàng):name(變量名)、type(變量類(lèi)型)、width(變量值的寬度)、decimals(小數(shù)位)、label(變量標(biāo)簽)、Values(定義具體變量值的標(biāo)簽)、Missing(定義變量缺失值)、Colomns(定義顯示列寬)、Align(定義顯示對(duì)齊方式)、Measure(定義變量類(lèi)型是連續(xù)、有序分類(lèi)還是無(wú)序分類(lèi))。
我們知道在SPSS中,我們可以把一份問(wèn)卷上面的每一個(gè)問(wèn)題設(shè)為一個(gè)變量,這樣一份問(wèn)卷有多少個(gè)問(wèn)題就要有多少個(gè)變量與之對(duì)應(yīng),每一個(gè)問(wèn)題的答案即為變量的取值?,F(xiàn)在我們以問(wèn)卷第一個(gè)問(wèn)題為例來(lái)說(shuō)明變量的設(shè)置。為了便于說(shuō)明,可假設(shè)此題為:
1。請(qǐng)問(wèn)你的年齡屬于下面哪一個(gè)年齡段()? A:20—29 B:30—39 C:40—49 D:50--59 那么我們的變量設(shè)置可如下: name即變量名為1,type即類(lèi)型可根據(jù)答案的類(lèi)型設(shè)置,答案我們可以用1、2、3、4來(lái)代替A、B、C、D,所以我們選擇數(shù)字型的,即選擇Numeric,width寬度為4,decimals即小數(shù)位數(shù)位為0(因?yàn)榇鸢笡](méi)有小數(shù)點(diǎn)),label即變量標(biāo)簽為“年齡段查詢(xún)”。Values用于定義具體變量值的標(biāo)簽,單擊Value框右半部的省略號(hào),會(huì)彈出變量值標(biāo)簽對(duì)話(huà)框,在第一個(gè)文本框里輸入1,第二個(gè)輸入20—29,然后單擊添加即可。同樣道理我們可做如下設(shè)置,即1=20—
29、2=30—
39、3=40—
49、4=50--59;Missing,用于定義變量缺失值,單擊missing框右側(cè)的省略號(hào),會(huì)彈出缺失值對(duì)話(huà)框,界面上有一列三個(gè)單選鈕,默認(rèn)值為最上方的“無(wú)缺失值”;第二項(xiàng)為“不連續(xù)缺失值”,最多可以定義3個(gè)值;最后一項(xiàng)為“缺失值范圍加可選的一個(gè)缺失值”,在此我們不設(shè)置缺省值,所以選中第一項(xiàng)如圖;Colomns,定義顯示列寬,可自己根據(jù)實(shí)際情況設(shè)置;Align,定義顯示對(duì)齊方式,有居左、居右、居中三種方式;Measure,定義變量類(lèi)型是連續(xù)、有序分類(lèi)還是無(wú)序分類(lèi)。
以上為問(wèn)卷中常見(jiàn)的單項(xiàng)選擇題型的變量設(shè)置,下面將對(duì)一些特殊情況的變量設(shè)置也作一下說(shuō)明。
1。開(kāi)放式題型的設(shè)置:諸如你所在的省份是_____這樣的填空題即為開(kāi)放題,設(shè)置這些變量的時(shí)候只需要將Value、Missing兩項(xiàng)不設(shè)置即可。
2。多選題的變量設(shè)置:這類(lèi)題型的設(shè)置有兩種方法即多重二分法和多重分類(lèi)法,在這里我們只對(duì)多重二分法進(jìn)行介紹。這種方法的基本思想是把該題每一個(gè)選項(xiàng)設(shè)置成一個(gè)變量,然后將每一個(gè)選項(xiàng)拆分為兩個(gè)選項(xiàng),即選中該項(xiàng)和不選中該項(xiàng)?,F(xiàn)在舉例來(lái)說(shuō)明在SPSS中的具體操作。比如如下一例:
請(qǐng)問(wèn)您通常獲取新聞的方式有哪些()1 報(bào)紙 2 雜志 3 電視 4 收音機(jī) 5 網(wǎng)絡(luò)
在SPSS中設(shè)置變量時(shí)可為此題設(shè)置五個(gè)變量,假如此題為問(wèn)卷第三題,那么變量名分別為3_
1、3_
2、3_
3、3_
4、3_5,然后每一個(gè)選項(xiàng)有兩個(gè)選項(xiàng)選中和不選中,只需在Value一項(xiàng)中為每一個(gè)變量設(shè)置成1=選中此項(xiàng)、0=不選中此項(xiàng)即可。
使用該窗口,我們可以把一個(gè)問(wèn)卷中的所有問(wèn)題作為變量在這個(gè)窗口中一次定義。到此,我們的定義變量的工作就基本上可以結(jié)束了。下面我們要作就是數(shù)據(jù)的錄入了。首先,我們要回到數(shù)據(jù)錄入窗口,這很簡(jiǎn)單,只要我們點(diǎn)擊軟件左下方的Data View標(biāo)簽就可以了。
第二步:數(shù)據(jù)錄入
SPSS數(shù)據(jù)錄入有很多方式,大致有一下幾種: 1。讀取SPSS格式的數(shù)據(jù) 2。讀取Excel等格式的數(shù)據(jù)
3。讀取文本數(shù)據(jù)(Fixed和Delimiter)4。讀取數(shù)據(jù)庫(kù)格式數(shù)據(jù)(分如下兩步)(1)配置ODBC(2)在SPSS中通過(guò)ODBC和數(shù)據(jù)庫(kù)進(jìn)行
但是對(duì)于問(wèn)卷的數(shù)據(jù)錄入其實(shí)很簡(jiǎn)單,只要在SPSS的數(shù)據(jù)錄入窗口中直接輸入就可以了,只是在這里有幾點(diǎn)注意的事項(xiàng)需要說(shuō)明一下。
1。在數(shù)據(jù)錄入窗口,我們可以看到有一個(gè)表格,這個(gè)表格中的每一行代表一份問(wèn)卷,我們也稱(chēng)為一個(gè)個(gè)案。
2。在數(shù)據(jù)錄入窗口中,我們可以看到表格上方出現(xiàn)了1、2、3、4、5??。的標(biāo)簽名,這其實(shí)是我們?cè)诘谝徊蕉x變量中,我們?yōu)閱?wèn)卷的每一個(gè)問(wèn)題取的變量名,即1代表第一題,2代表第二題。以次類(lèi)推。我們只需要在變量名下面輸入對(duì)應(yīng)問(wèn)題的答案即可完成問(wèn)卷的數(shù)據(jù)錄入。比如上述年齡段查詢(xún)的例題,如果問(wèn)卷上勾選了A答案,我們?cè)?下面輸入1就行了(不要忘記我們通常是用1、2、3、4來(lái)代替A、B、C、D的)。
3。我們知道一行代表一份問(wèn)卷,所以有幾分問(wèn)卷,就要有幾行的數(shù)據(jù)。在數(shù)據(jù)錄入完成后,我們要做的就是我們的關(guān)鍵部分,即問(wèn)卷的統(tǒng)計(jì)分析了,因?yàn)檫@時(shí)我們已經(jīng)把問(wèn)卷中的數(shù)據(jù)錄入我們的軟件中了。
第三步:統(tǒng)計(jì)分析
有了數(shù)據(jù),可以利用SPSS的各種分析方法進(jìn)行分析,但選擇何種統(tǒng)計(jì)分析方法,即調(diào)用哪個(gè)統(tǒng)計(jì)分析過(guò)程,是得到正確分析結(jié)果的關(guān)鍵。這要根據(jù)我們的問(wèn)卷調(diào)查的目的和我們想要什么樣的結(jié)果來(lái)選擇。SPSS有數(shù)值分析和作圖分析兩類(lèi)方法。
1。作圖分析:
在SPSS中,除了生存分析所用的生存曲線(xiàn)圖被整合到Analyze菜單中外,其他的統(tǒng)計(jì)繪圖功能均放置在graph菜單中。該菜單具體分為以下幾部分::
(1)Gallery:相當(dāng)于一個(gè)自學(xué)向?qū)?,將統(tǒng)計(jì)繪圖功能做了簡(jiǎn)單的介紹,初學(xué)者可以通過(guò)它對(duì)SPSS的繪圖能力有一個(gè)大致的了解。
(2)Interactive:交互式統(tǒng)計(jì)圖。(3)Map:統(tǒng)計(jì)地圖。
(4)下方的其他菜單項(xiàng)是我們最為常用的普通統(tǒng)計(jì)圖,具體來(lái)說(shuō)有: 條圖 散點(diǎn)圖 線(xiàn)圖 直方圖 餅圖 面積圖 箱式圖
正態(tài)Q-Q圖 正態(tài)P-P圖 質(zhì)量控制圖 Pareto圖
自回歸曲線(xiàn)圖 高低圖 交互相關(guān)圖 序列圖 頻譜圖 誤差線(xiàn)圖
作圖分析簡(jiǎn)單易懂,一目了然,我們可根據(jù)需要來(lái)選擇我們需要作的圖形,一般來(lái)講,我們較常用的有條圖,直方圖,正態(tài)圖,散點(diǎn)圖,餅圖等等,具體操作很簡(jiǎn)單,大家可參閱相關(guān)書(shū)籍,作圖分析更多情況下是和數(shù)值分析相結(jié)合來(lái)對(duì)試卷進(jìn)行分析的,這樣的效果更好。
2。數(shù)值分析:
SPSS 數(shù)值統(tǒng)計(jì)分析過(guò)程均在Analyze菜單中,包括:
(1)、Reports和Descriptive Statistics:又稱(chēng)為基本統(tǒng)計(jì)分析。基本統(tǒng)計(jì)分析是進(jìn)行其他更深入的統(tǒng)計(jì)分析的前提,通過(guò)基本統(tǒng)計(jì)分析,用戶(hù)可以對(duì)分析數(shù)據(jù)的總體特征有比較準(zhǔn)確的把握,從而選擇更為深入的分析方法對(duì)分析對(duì)象進(jìn)行研究。Reports和Descriptive Statistics命令項(xiàng)中包括的功能是對(duì)單變量的描述統(tǒng)計(jì)分析。
Descriptive Statistics包括的統(tǒng)計(jì)功能有:
Frequencies(頻數(shù)分析):作用:了解變量的取值分布情況
Descriptives(描述統(tǒng)計(jì)量分析):功能:了解數(shù)據(jù)的基本統(tǒng)計(jì)特征和對(duì)指定的變量值進(jìn)行標(biāo)準(zhǔn)化處理
Explore(探索分析):功能:考察數(shù)據(jù)的奇異性和分布特征
Crosstabs(交叉分析):功能:分析事物(變量)之間的相互影響和關(guān)系 Reports包括的統(tǒng)計(jì)功能有:
OLAP Cubes(OLAP報(bào)告摘要表):功能: 以分組變量為基礎(chǔ),計(jì)算各組的總計(jì)、均值和其他統(tǒng)計(jì)量。而輸出的報(bào)告摘要?jiǎng)t是指每個(gè)組中所包含的各種變量的統(tǒng)計(jì)信息。
Case Summaries(觀測(cè)量列表):察看或打印所需要的變量值 Report Summaries in Row:行形式輸出報(bào)告 Report Summaries in Columns:列形式輸出報(bào)告
(2)、Compare Means(均值比較與檢驗(yàn)):能否用樣本均值估計(jì)總體均值??jī)蓚€(gè)變量均值接近的樣本是否來(lái)自均值相同的總體?換句話(huà)說(shuō),兩組樣本某變量均值不同,其差異是否具有統(tǒng)計(jì)意義?能否說(shuō)明總體差異?這是各種研究工作中經(jīng)常提出的問(wèn)題。這就要進(jìn)行均值比較。
以下是進(jìn)行均值比較及檢驗(yàn)的過(guò)程:
MEANS過(guò)程:不同水平下(不同組)的描述統(tǒng)計(jì)量,如男女的平均工資,各工種的平均工資。目的在于比較。術(shù)語(yǔ):水平數(shù)(指分類(lèi)變量的值數(shù),如sex變量有2個(gè)值,稱(chēng)為有兩個(gè)水平)、單元Cell(指因變量按分類(lèi)變量值所分的組)、水平組合
T test 過(guò)程:對(duì)樣本進(jìn)行T檢驗(yàn)的過(guò)程
單一樣本的T檢驗(yàn):檢驗(yàn)單個(gè)變量的均值是否與給定的常數(shù)之間存在差異。
獨(dú)立樣本的T檢驗(yàn):檢驗(yàn)兩組不相關(guān)的樣本是否來(lái)自具有相同均值的總體(均值是否相同,如男女的平均收入是否相同,是否有顯著性差異)
配對(duì)T檢驗(yàn):檢驗(yàn)兩組相關(guān)的樣本是否來(lái)自具有相同均值的總體(前后比較,如訓(xùn)練效果,治療效果)one-Way ANOVA:一元(單因素)方差分析,用于檢驗(yàn)幾個(gè)(三個(gè)或三個(gè)以上)獨(dú)立的組,是否來(lái)自均值相同的總體。
(3)、ANOVA Models(方差分析):方差分析是檢驗(yàn)多組樣本均值間的差異是否具有統(tǒng)計(jì)意義的一種方法。例如:醫(yī)學(xué)界研究幾種藥物對(duì)某種疾病的療效;農(nóng)業(yè)研究土壤、肥料、日照時(shí)間等因素對(duì)某種農(nóng)作物產(chǎn)量的影響;不同飼料對(duì)牲畜體重增長(zhǎng)的效果等,都可以使用方差分析方法去解決
(4)、Correlate(相關(guān)分析):它是研究變量間密切程度的一種常用統(tǒng)計(jì)方法,常用的相關(guān)分析有以下幾種:
1、線(xiàn)性相關(guān)分析:研究?jī)蓚€(gè)變量間線(xiàn)性關(guān)系的程度。用相關(guān)系數(shù)r來(lái)描述。
2、偏相關(guān)分析:它描述的是當(dāng)控制了一個(gè)或幾個(gè)另外的變量的影響條件下兩個(gè)變量間的相關(guān)性,如控制年齡和工作經(jīng)驗(yàn)的影響,估計(jì)工資收入與受教育水平之間的相關(guān)關(guān)系
3、相似性測(cè)度:兩個(gè)或若干個(gè)變量、兩個(gè)或兩組觀測(cè)量之間的關(guān)系有時(shí)也可以用相似性或不相似性來(lái)描述。相似性測(cè)度用大值表示很相似,而不相似性用距離或不相似性來(lái)描述,大值表示相差甚遠(yuǎn)
(5)、Regression(回歸分析):功能:尋求有關(guān)聯(lián)(相關(guān))的變量之間的關(guān)系在回歸過(guò)程中包括:Liner:線(xiàn)性回歸;Curve Estimation:曲線(xiàn)估計(jì);Binary Logistic:二分變量邏輯回歸;Multinomial Logistic:多分變量邏輯回歸;Ordinal 序回歸;Probit:概率單位回歸;Nonlinear:非線(xiàn)性回歸;Weight Estimation:加權(quán)估計(jì);2-Stage Least squares:二段最小平方法;Optimal Scaling 最優(yōu)編碼回歸;其中最常用的為前面三個(gè)。
(6)、Nonparametric Tests(非參數(shù)檢驗(yàn)):是指在總體不服從正態(tài)分布且分布情況不明時(shí),用來(lái)檢驗(yàn)數(shù)據(jù)資料是否來(lái)自同一個(gè)總體假設(shè)的一類(lèi)檢驗(yàn)方法。由于這些方法一般不涉及總體參數(shù)故得名。
非參數(shù)檢驗(yàn)的過(guò)程有以下幾個(gè): 1。Chi-Square test 卡方檢驗(yàn) 2。Binomial test 二項(xiàng)分布檢驗(yàn) 3。Runs test 游程檢驗(yàn)
4。1-Sample Kolmogorov-Smirnov test 一個(gè)樣本柯?tīng)柲缏宸?斯米諾夫檢驗(yàn) 5。2 independent Samples Test 兩個(gè)獨(dú)立樣本檢驗(yàn) 6。K independent Samples Test K個(gè)獨(dú)立樣本檢驗(yàn) 7。2 related Samples Test 兩個(gè)相關(guān)樣本檢驗(yàn) 8。K related Samples Test 兩個(gè)相關(guān)樣本檢驗(yàn)(7)、Data Reduction(因子分析)(8)、Classify(聚類(lèi)與判別)等等
以上就是數(shù)值統(tǒng)計(jì)分析Analyze菜單下幾項(xiàng)用于分析的數(shù)值統(tǒng)計(jì)分析方法的簡(jiǎn)介,在我們的變量定義以及數(shù)據(jù)錄入完成后,我們就可以根據(jù)我們的需要在以上幾種分析方法中選擇若干種對(duì)我們的問(wèn)卷數(shù)據(jù)進(jìn)行統(tǒng)計(jì)分析,來(lái)得到我們想要的結(jié)果。
第四步:結(jié)果保存
我們的SPSS軟件會(huì)把我們統(tǒng)計(jì)分析的多有結(jié)果保存在一個(gè)窗口中即結(jié)果輸出窗口(output),由于SPSS軟件支持復(fù)制和粘貼功能,這樣我們就可以把我們想要的結(jié)果復(fù)制﹑粘貼到我們的報(bào)告中,當(dāng)然我們也可以在菜單中執(zhí)行file->save來(lái)保存我們的結(jié)果,一般情況下,我們建議保存我們的數(shù)據(jù),結(jié)果可不保存。因?yàn)橹灰辛藬?shù)據(jù),如果我們想要結(jié)果的,我們可以隨時(shí)利用數(shù)據(jù)得到結(jié)果。
總結(jié):
以上便是SPSS處理問(wèn)卷的四個(gè)步驟,四個(gè)步驟結(jié)束后,我們需要SPSS軟件做的工作基本上也就結(jié)束了,接下來(lái)的任務(wù)就是寫(xiě)我們的統(tǒng)計(jì)報(bào)告了。值得一提的是。SPSS是一款在社會(huì)統(tǒng)計(jì)學(xué)應(yīng)用非常廣泛的統(tǒng)計(jì)類(lèi)軟件,學(xué)好它將對(duì)我們以后的工作學(xué)習(xí)產(chǎn)生很大的意義和作用。
第三篇:實(shí)習(xí)總結(jié)spss
實(shí)習(xí)總結(jié)
這次實(shí)習(xí)使用的是spss17.0版本的軟件,通過(guò)這次實(shí)習(xí),我了解到SPSS具有完整的數(shù)據(jù)輸入、編輯、統(tǒng)計(jì)分析、圖形制作等功能。平日課下進(jìn)行統(tǒng)計(jì)調(diào)查技能培訓(xùn)的時(shí)候,分析數(shù)據(jù)所用的軟件是Excel。雖然使用Excel可以對(duì)數(shù)據(jù)進(jìn)行透視、分類(lèi)、篩選以及計(jì)算相關(guān)系數(shù)等,但是這些操作都需要自己每一步每一步的進(jìn)行手動(dòng)操作,而使用SPSS軟件在對(duì)數(shù)據(jù)進(jìn)行整理時(shí),只需對(duì)軟件某選項(xiàng)內(nèi)設(shè)置變量條件,系統(tǒng)便自動(dòng)的進(jìn)行整理。通過(guò)這次spss實(shí)習(xí),我又入門(mén)了一項(xiàng)非常實(shí)用的軟件,會(huì)為以后統(tǒng)計(jì)分析提供多一種的選擇。下面我會(huì)從以下四方面分別闡述這次實(shí)習(xí)的收獲與總結(jié)。
做問(wèn)卷調(diào)查
根據(jù)指導(dǎo)老師的安排,我需要獨(dú)自完成6份 《廣東高校在校大學(xué)生消費(fèi)使用數(shù)碼產(chǎn) 品情況》的調(diào)查問(wèn)卷。去廣工、廣財(cái)聽(tīng)宣講會(huì)并且在那里做了兩份問(wèn)卷調(diào)查,剩下的4份是以電子版的形式做的問(wèn)卷調(diào)查。在做問(wèn)卷調(diào)查的過(guò)程中,為了保證問(wèn)卷的有效性和準(zhǔn)確性,我會(huì)認(rèn)真審核每一份問(wèn)卷是否填寫(xiě)完整以及前后是否合邏輯。在我的六份問(wèn)卷調(diào)查中,比較容易出現(xiàn)問(wèn)題的主要在每天使用數(shù)碼產(chǎn)品的時(shí)間,也是在做問(wèn)卷調(diào)查中叮囑最多的。這都是值得的,因?yàn)楸WC問(wèn)卷的客觀和有效是后面做統(tǒng)計(jì)分析的基礎(chǔ)。這次實(shí)訓(xùn)是全班合作完成問(wèn)卷,如果是一個(gè)人完成30幾份的問(wèn)卷,那么真是一項(xiàng)不容小覷的任務(wù)。
Spss入門(mén)操作
這一部分主要是根據(jù)老師編制的指導(dǎo)書(shū)展開(kāi)。Spss入門(mén)操作主要涉及到數(shù)據(jù)的輸入、描述統(tǒng)計(jì)分析、假設(shè)檢驗(yàn)、相關(guān)與回歸分析。針對(duì)每一項(xiàng)都有專(zhuān)門(mén)的案例以及相應(yīng)的練習(xí)。個(gè)人認(rèn)為最難的是假設(shè)檢驗(yàn)這一塊,因?yàn)椤督y(tǒng)計(jì)學(xué)原理》是在之前的學(xué)期學(xué)習(xí)的,統(tǒng)計(jì)分析的原理基本上都記不起來(lái),對(duì)于輸出假設(shè)檢驗(yàn)結(jié)果對(duì)問(wèn)題進(jìn)行分析方面問(wèn)題比較大。我自己也回去看了相應(yīng)的統(tǒng)計(jì)學(xué)原理,有一定的了解后,進(jìn)行實(shí)操也比較順利。假設(shè)檢驗(yàn)主要是
單樣本T檢驗(yàn)、獨(dú)立樣本T檢驗(yàn)、配對(duì)樣本T檢驗(yàn)。獨(dú)立樣本與配對(duì)樣本的區(qū)分很重要,這決定著我需要進(jìn)行哪種檢驗(yàn)以及得出什么樣的結(jié)論。假設(shè)檢驗(yàn)中通常都需要先進(jìn)行方差齊性的F檢驗(yàn),F(xiàn)值小,相應(yīng)的p值越大,就可以說(shuō)方差齊性,再進(jìn)行均值差異是否顯著的T檢驗(yàn),T檢驗(yàn)中,相應(yīng)的p值小于顯著性水平,就可以認(rèn)為兩個(gè)樣本的均值存在顯著差異。
問(wèn)卷分析
這部分需要設(shè)置多個(gè)變量,輸入至少30份數(shù)據(jù),我選擇跟舍友分工合作,我們的數(shù)據(jù)輸入降低到20份左右,彼此共享一部分?jǐn)?shù)據(jù)合起來(lái)達(dá)到30份以上的樣本量。對(duì)于問(wèn)卷的分析,主要從以下三方面進(jìn)行: 大學(xué)生基本情況 運(yùn)用描述性統(tǒng)計(jì)分析對(duì)大學(xué)生每月生活費(fèi)支出做頻率分析、計(jì)算均值及離散程度,發(fā)現(xiàn)大學(xué)生的月生活費(fèi)支出主要集中在800—1200范圍。
運(yùn)用交叉表分析得出手機(jī)、電腦這兩種數(shù)碼產(chǎn)品樣本中全部大學(xué)生都擁有,其他數(shù)碼產(chǎn)品的擁有比率各有不同。在這學(xué)期當(dāng)中更換意愿最強(qiáng)的數(shù)碼產(chǎn)品是手機(jī),并且主要是高年級(jí)的學(xué)生有更換的打算。
對(duì)大學(xué)生月生活費(fèi)支出與月消費(fèi)數(shù)碼產(chǎn)品支出做相關(guān)與回歸分析,發(fā)現(xiàn)這兩個(gè)變量存在較為顯著的相關(guān)性,一般情況下,大學(xué)生月生活費(fèi)越高,每月在數(shù)碼產(chǎn)品方面的消費(fèi)相應(yīng)也會(huì)越高。
數(shù)碼產(chǎn)品的購(gòu)買(mǎi)情況
對(duì)樣本中大學(xué)生對(duì)數(shù)碼產(chǎn)品的了解途徑、購(gòu)買(mǎi)方式、傾向性選擇、感興趣的促銷(xiāo)手段、能否接受分期付款做頻率分析,就目前來(lái)講,大學(xué)生主要通過(guò)網(wǎng)絡(luò)了解數(shù)碼產(chǎn)品,傾向于大陸行貨以及港澳臺(tái)行貨,對(duì)于打折促銷(xiāo)比較感興趣,大部分大學(xué)生還是會(huì)選擇實(shí)體店購(gòu)買(mǎi)較大宗數(shù)碼產(chǎn)品,并且對(duì)分期付款方式較為能接受。
對(duì)所有在用數(shù)碼產(chǎn)品購(gòu)買(mǎi)支出、月生活費(fèi)支出以及月消費(fèi)數(shù)碼產(chǎn)品支出做相關(guān)與回歸分析,發(fā)現(xiàn)所有在用數(shù)碼產(chǎn)品購(gòu)買(mǎi)支出與月消費(fèi)數(shù)碼產(chǎn)品支出存在較強(qiáng)的正相關(guān)性,可以說(shuō),月消費(fèi)數(shù)碼產(chǎn)品支出越高,大學(xué)期間夠買(mǎi)數(shù)碼產(chǎn)品總支出越高的可能性就越大。
數(shù)碼產(chǎn)品的使用情況
對(duì)樣本中 使用數(shù)碼產(chǎn)品對(duì)作息時(shí)間的影響、上課玩手機(jī)的頻率、數(shù)碼產(chǎn)品使用時(shí)間最長(zhǎng)的用途 做描述統(tǒng)計(jì)頻率分析,發(fā)現(xiàn)男生中有更大比例會(huì)因?yàn)槭褂脭?shù)碼產(chǎn)品而影響作息時(shí)間,數(shù)碼產(chǎn)品使用時(shí)間最長(zhǎng)的用途占比最大的是娛樂(lè),基本上所有人都會(huì)在課堂上使用數(shù)碼產(chǎn)品,經(jīng)常使用的頻率達(dá)到25.8%。
對(duì)使用數(shù)碼產(chǎn)品對(duì)學(xué)習(xí)的影響利弊進(jìn)行頻率分析,并且對(duì)每天花在數(shù)碼產(chǎn)品上的時(shí)間、學(xué)生績(jī)點(diǎn)做相關(guān)回歸分析,大部分學(xué)生認(rèn)為數(shù)碼產(chǎn)品對(duì)學(xué)習(xí)的影響利弊平衡或者利大于弊。相關(guān)性分析顯示,大學(xué)生每天使用數(shù)碼產(chǎn)品的時(shí)間與學(xué)生績(jī)點(diǎn)相關(guān)性不強(qiáng),兩者之間沒(méi)有必然的聯(lián)系。
通過(guò)這次實(shí)習(xí),對(duì)于spss軟件有了一個(gè)基本的認(rèn)識(shí),會(huì)對(duì)樣本進(jìn)行一些簡(jiǎn)單的描述性統(tǒng)計(jì)分析、假設(shè)檢驗(yàn)、相關(guān)與回歸分析,能夠?qū)⒁恍?shù)據(jù)信息轉(zhuǎn)換成可以直觀理解并運(yùn)用的實(shí)用信息,對(duì)于以后的學(xué)習(xí)和工作大有好處。數(shù)碼產(chǎn)品帶給我們極大的便利。基于調(diào)查問(wèn)卷的分析,大學(xué)生每天都會(huì)花相當(dāng)一部分時(shí)間使用電子產(chǎn)品。學(xué)習(xí)績(jī)點(diǎn)與每天使用數(shù)碼產(chǎn)品的時(shí)長(zhǎng)沒(méi)有必然聯(lián)系,不過(guò),的確有一部分同學(xué)承認(rèn)因過(guò)度使用數(shù)碼產(chǎn)品影響作息,同時(shí)也會(huì)在不同程度上受到他人使用數(shù)碼產(chǎn)品的影響。大學(xué)生應(yīng)該學(xué)會(huì)合理控制分配使用數(shù)碼產(chǎn)品的時(shí)間,讓自己最大程度地受益。
第四篇:個(gè)人總結(jié)SPSS
第一章 界面介紹
1、數(shù)據(jù)編輯窗口
2、結(jié)果瀏覽/輸出窗口
3、程序編輯器窗口:語(yǔ)法 編寫(xiě)
4、腳本編寫(xiě)窗口
系統(tǒng)參數(shù)設(shè)置 編輯-選項(xiàng)
第二章 數(shù)據(jù)挖掘 省略
OLAP on-line analytical processing 在線(xiàn)分析處理
第三章 數(shù)據(jù)文件、變量與函數(shù)
數(shù)據(jù)的編輯(插入個(gè)案、插入變量)
SPSS函數(shù) 即生成新變量
算數(shù)函數(shù)(軟件中的“算術(shù)”)當(dāng)然還包括類(lèi)似計(jì)算器的簡(jiǎn)單加減乘除
統(tǒng)計(jì)函數(shù)(軟件中的“統(tǒng)計(jì)量”)變異系數(shù) 滯后變量 最大值平均值 最小值 缺失數(shù)量 標(biāo)準(zhǔn)差 方差 和累積和
我們發(fā)現(xiàn)主要是橫向比較 對(duì)一個(gè)“個(gè)案”而言 所以函數(shù)式中的括號(hào)必須包含至少兩個(gè)變量以上
邏輯函數(shù)(軟件中的“檢索”)
Any 判斷
Range(變量名,下限、上限)數(shù)值型變量在下限和上限中為1 true 否則為0
時(shí)期和時(shí)間函數(shù) 數(shù)值型函數(shù)
定義時(shí)間格式(軟件中的“日期創(chuàng)建”)
DMY 日/月/年 括號(hào)中(日、月、年)
XDATE.??難點(diǎn)
隨機(jī)變量函數(shù)(軟件中的“隨機(jī)數(shù)字”)
RV.分布名(參數(shù))
缺失值函數(shù)
第四章 預(yù)處理
數(shù)據(jù)編輯、整理幾張?jiān)贒數(shù)據(jù)和T轉(zhuǎn)換兩個(gè)菜單
D標(biāo)題欄中 分組、合并、加權(quán)等
橫向/縱向合并 一般是從外部加入 兩者進(jìn)行綜合
第五篇:SPSS學(xué)習(xí)總結(jié)
學(xué)習(xí)SPSS感想
以前學(xué)統(tǒng)計(jì)學(xué)的時(shí)候就聽(tīng)老師講過(guò)SPSS有非常強(qiáng)大的統(tǒng)計(jì)功能,對(duì)我們學(xué)習(xí)、工作有很大的幫助,所以我一直認(rèn)為SPSS很神秘。通過(guò)這個(gè)學(xué)期周老師的課讓我對(duì)此清楚了許多,也學(xué)到了SPSS強(qiáng)大的統(tǒng)計(jì)功能,更加讓我明白了SPSS與Excel的區(qū)別。
SPSS是“社會(huì)科學(xué)統(tǒng)計(jì)軟件包”(Statistical Package for the Social Science)的簡(jiǎn)稱(chēng),是一種集成化的計(jì)算機(jī)數(shù)據(jù)處理應(yīng)用軟件。1968年,美國(guó)斯坦福大學(xué)H.Nie等三位大學(xué)生開(kāi)發(fā)了最早的SPSS統(tǒng)計(jì)軟件,并于1975年在芝加哥成立了SPSS公司,已有30余年的成長(zhǎng)歷史,全球約有25萬(wàn)家產(chǎn)品用戶(hù),廣泛分布于通訊、醫(yī)療、銀行、證券、保險(xiǎn)、制造、商業(yè)、市場(chǎng)研究、科研、教育等多個(gè)領(lǐng)域和行業(yè)。SPSS是世界上公認(rèn)的三大數(shù)據(jù)分析軟件之一(SAS、SPSS和SYSTAT)。
在學(xué)習(xí)SPSS期間,我主要遇到的問(wèn)題是后面幾章,SPSS的參數(shù)檢驗(yàn)、方差分析、相關(guān)分析、線(xiàn)性回歸分析、聚類(lèi)分析、因子分析等。
在參數(shù)檢驗(yàn)中我不知道原假設(shè)是什么,導(dǎo)致分析的時(shí)候不知道該拒絕原假設(shè)還是接受原假設(shè),不能分析出統(tǒng)計(jì)結(jié)果。不會(huì)區(qū)分單樣本t檢驗(yàn)和兩配對(duì)樣本t檢驗(yàn)的區(qū)別,現(xiàn)在懂得了它們都要服從正態(tài)分布,基本思想是小概率反證法,反證法思想是先提出假設(shè)(檢驗(yàn)假設(shè)H0),再用適當(dāng)?shù)慕y(tǒng)計(jì)方法確定假設(shè)成立的可能性大小,如果可能性小,則認(rèn)為假設(shè)不成立,否則,還不能認(rèn)為假設(shè)不成立。
在學(xué)習(xí)方差分析中,開(kāi)始常常把觀測(cè)變量和控制變量弄混淆,在分析的時(shí)候應(yīng)分別送入哪個(gè)對(duì)應(yīng)框中,如果反了的話(huà)會(huì)導(dǎo)致結(jié)果的不準(zhǔn)確。其次,對(duì)LSD、Bonferroni、Tukey、Scheffe等方法的使用不清楚,現(xiàn)在基本掌握了多重比較方法選擇:一般如果存在明確的對(duì)照組,要進(jìn)行的是驗(yàn)證性研究,即計(jì)劃好的某兩個(gè)或幾個(gè)組間(和對(duì)照組)的比較。宜用Bonferroni(LSD)法;若需要進(jìn)行多個(gè)均數(shù)間的兩兩比較,且各組個(gè)案數(shù)相等,適宜用Tukey法;其他情況宜用Scheffe法。最后,對(duì)方差齊性檢驗(yàn)、多重比較檢驗(yàn)、趨勢(shì)檢驗(yàn)理解不夠透徹,在方差檢驗(yàn)中,Post Hoc鍵有LSD的選項(xiàng):當(dāng)方差分析F檢驗(yàn)否定了原假設(shè),即認(rèn)為至少有兩個(gè)總體的均值存在顯著性差異時(shí),須進(jìn)一步確定是哪兩個(gè)或哪幾個(gè)均值顯著地不同,則需要進(jìn)行多重比較來(lái)檢驗(yàn)。LSD即是一種多因變量的三個(gè)或三個(gè)以上水平下均值之間進(jìn)行的兩兩比較檢驗(yàn)。
在學(xué)習(xí)相關(guān)分析的過(guò)程中,在繪制散點(diǎn)圖時(shí),不知道哪個(gè)該做橫坐標(biāo),哪個(gè)該做縱坐標(biāo),明白了橫坐標(biāo)是解釋變量,縱坐標(biāo)是被解釋變量,還有對(duì)相關(guān)系數(shù)的種類(lèi)分析不熟練等。在學(xué)習(xí)回歸分析的過(guò)程中,對(duì)DW可檢驗(yàn)的含義不理解,不記得對(duì)應(yīng)的DW表示的殘差序列的相關(guān)性。對(duì)解釋變量向前篩選、向后篩選、逐步帥選策略不能熟練掌握,特別是對(duì)向前向后篩選時(shí)到處的結(jié)果不會(huì)進(jìn)行分析。
學(xué)習(xí)聚類(lèi)分析中,變量的選擇分不清,無(wú)關(guān)變量有時(shí)會(huì)引起嚴(yán)重的錯(cuò)分,應(yīng)當(dāng)只引入在不同類(lèi)間有顯著差別的變量,盡量只使用相同類(lèi)型的變量進(jìn)行分析。分類(lèi)數(shù)不明確,從實(shí)用角度講,2~8 類(lèi)比較合適。掌握了K-means Cluster 分析,樣本量大于100時(shí)有必要考慮,只能使用連續(xù)性變量。
學(xué)習(xí)因子分析的過(guò)程中,對(duì)提取出來(lái)的因子的實(shí)際含義不清晰,不能使因子具有命名解釋性。
學(xué)習(xí)了SPSS后,我不禁想到了SPSS與Excel的區(qū)別,這一點(diǎn)是針對(duì)像我這樣開(kāi)始只懂得用EXCEL的人來(lái)說(shuō)。從個(gè)人的體會(huì)來(lái)說(shuō),二種軟件有一定相似,操作都簡(jiǎn)便,同時(shí)又有一些可以互補(bǔ)的地方。但是SPSS又比Excel更加強(qiáng)大:
一、圖型的表現(xiàn)力是SPSS的主要優(yōu)點(diǎn)之一
應(yīng)該說(shuō),Excel的圖型表現(xiàn)主要是簡(jiǎn)便,對(duì)許多的人來(lái)說(shuō)基本夠用,但對(duì)于科學(xué)的表現(xiàn),SPSS就更為詳細(xì)和準(zhǔn)確,這一點(diǎn)據(jù)說(shuō)在所有統(tǒng)計(jì)軟件中都突出。
二、通過(guò)SPSS檢驗(yàn)方差齊性和數(shù)據(jù)分布
假設(shè)檢驗(yàn)中,采用的t檢驗(yàn)和方差檢驗(yàn)都需要滿(mǎn)足二個(gè)要求,即
1.樣本方差齊性
2.樣本總體呈正態(tài)分布
在Excel中,提供了F檢驗(yàn)來(lái)檢驗(yàn)方差齊性問(wèn)題,也就是可以先通過(guò)F檢驗(yàn)確定方差齊性與否來(lái)選擇下一步用哪個(gè)T檢驗(yàn)或方差檢驗(yàn)分析工具。但只要數(shù)據(jù)多于二組則無(wú)從下手;通過(guò)描述統(tǒng)計(jì)大約能從峰度和偏度來(lái)了解樣本的分布實(shí)際工作中,只要分布單峰且近似對(duì)稱(chēng)分布,也可應(yīng)用,但要具體確定樣本的分布也有難度。這二個(gè)問(wèn)題在SPSS就可以解決
最后,在感嘆它的方便與快捷的同時(shí),對(duì)軟件開(kāi)發(fā)人員的智慧到了肅然起敬的地步。一直覺(jué)得計(jì)算機(jī)語(yǔ)言是最難的一門(mén)外語(yǔ)。雖然本科時(shí)曾經(jīng)對(duì)這種邏輯性很強(qiáng)的東西很感興趣,并在編程課上取得不錯(cuò)的成績(jī),但一直覺(jué)得這似乎不是我能掌控的東西。SPSS的神奇之處在于,它省去了使用者巨大的計(jì)算量,并提高準(zhǔn)確性。它開(kāi)發(fā)了開(kāi)發(fā)者的智慧,卻弱化了使用者的大腦。