第一篇:預(yù)防醫(yī)學(xué)spss軟件總結(jié)
一、Spss軟件的特點(diǎn):①功能強(qiáng)大:能夠完成多項(xiàng)功能,包括:建立數(shù)據(jù)庫(kù)、資料編輯、統(tǒng)計(jì)分析、統(tǒng)計(jì)表制作和統(tǒng)計(jì)圖繪制。理論上講,只要計(jì)算機(jī)硬盤(pán)和內(nèi)存足夠大,SPSS可以處理任意大小的數(shù)據(jù)文件,不限制變量個(gè)數(shù)和觀測(cè)(觀察單位)個(gè)數(shù)。②分析功能齊全:幾乎能夠完成所有的統(tǒng)計(jì)分析,包括數(shù)值變量資料(計(jì)量資料)、分類變量(計(jì)數(shù)資料)的統(tǒng)計(jì)分析方法,非參數(shù)檢驗(yàn)方法,以及多元回歸分析。③操作簡(jiǎn)便,易學(xué)實(shí)用:界面為窗口式,因而簡(jiǎn)便易學(xué),特別適用于非統(tǒng)計(jì)專業(yè)人員學(xué)習(xí)和使用。④直接可以調(diào)用Excel 等許多數(shù)據(jù)進(jìn)行分析。
一、spss界面:SPSS主界面上,有10個(gè)下拉菜單,單擊菜單可以完成各項(xiàng)功能。10個(gè)菜單為:①文件;②編輯;③視圖;④數(shù)據(jù);⑤轉(zhuǎn)換;
帶美元符號(hào)的數(shù)值型變量元格,點(diǎn)擊“復(fù)制”,;
(Dollar):顯示時(shí)數(shù)字前帶有$,用用鼠標(biāo)左鍵拖動(dòng)所有希望填入該值的逗號(hào)做分割符,用圓點(diǎn)做小數(shù)與整數(shù)單元格區(qū)域; 間的分界符。單擊右鍵,點(diǎn)擊“粘貼”。2)日期型變量(Date): 須按指定的(二)、利用值標(biāo)簽檢查錄入錯(cuò)誤:將格式進(jìn)行輸入。其格式有: 變量按照“數(shù)值型變量”進(jìn)行設(shè)置,mm-dd-yy: 月月-日日-年年 然后設(shè)置“值標(biāo)簽”;在快捷鍵中選擇 mm-dd-yyyy:月月-日日-年年年年 “值標(biāo)簽”快捷鍵,單擊之,變量值 Mm/dd/yy: 月月/日日/年年 即會(huì)切換成相應(yīng)的值標(biāo)簽; mm/dd/yyyy:月月/日日/年年年年 如果發(fā)現(xiàn)缺失值或無(wú)標(biāo)簽的數(shù)值,即實(shí)際上,日期型存儲(chǔ)的是該時(shí)間與為錄入中出現(xiàn)的錯(cuò)誤。1582年10月14日零點(diǎn)相差的秒數(shù); 第二章 可以用兩個(gè)時(shí)間變量的差值
一、數(shù)據(jù)文件的整理:數(shù)據(jù)文件的整/(60*60*24*365=86400*365)來(lái)計(jì)算理是我們?cè)诜治銮盎蚍治鲋袑?duì)數(shù)據(jù)所兩個(gè)時(shí)間相差的年數(shù) 做的分類、排序、行列轉(zhuǎn)置、數(shù)據(jù)文(3)字符型變量(String):字符型件的合并和分割,以及觀測(cè)的選擇和變量不能參與運(yùn)算,因此在設(shè)置為字加權(quán)等。符型變量時(shí)要考慮到這一點(diǎn)。
數(shù)據(jù)文件的整理是為進(jìn)一步分析變量的其它屬性:1。變量值標(biāo)簽做好準(zhǔn)備。(values): 4.測(cè)度
二、計(jì)算變量:在數(shù)據(jù)分析中常常需(measurement)2。列寬(column)要對(duì)某個(gè)變量值進(jìn)行計(jì)算和進(jìn)行變量個(gè)案,不創(chuàng)建組)analyze all cases, dot
not creat groups”,確定即可。第三章
一、統(tǒng)計(jì)圖的繪制原則:1)根據(jù)資料的性質(zhì)和分析目的,選擇合適的圖形;
(2)統(tǒng)計(jì)圖的標(biāo)題用簡(jiǎn)明扼要的語(yǔ)言說(shuō)明圖的內(nèi)容,放于圖的下方;
(3)縱坐標(biāo)和橫坐標(biāo)要注明標(biāo)目,有單位時(shí)要注明單位;
(4)一張圖中同時(shí)表達(dá)幾個(gè)事物時(shí),要用不同的圖案或不同的顏色表達(dá)不同的部分。
二、統(tǒng)計(jì)圖的繪制過(guò)程:
1、建立數(shù)據(jù)文件;
2、根據(jù)分析目的和數(shù)據(jù)類型選擇適當(dāng)圖形;
3、作圖;
4、對(duì)圖進(jìn)行編輯
三、條圖與誤差條圖:?jiǎn)问綏l圖
2、復(fù)式條圖
3、分段條圖:用分段表示頻數(shù)
4、誤差條圖 ① 指定可信度(一般為95%)可信區(qū)間:95%CI ② 均值±指定倍數(shù)的標(biāo)準(zhǔn)差(最常見(jiàn)為2SD)③ 均值±指定倍數(shù)的標(biāo)準(zhǔn)誤(最常見(jiàn)為2倍標(biāo)準(zhǔn)⑥統(tǒng)計(jì)分析;⑦作圖;⑧工具;⑨ 窗口轉(zhuǎn)換(Windows);⑩ 幫助(Help)
二、觀測(cè)(Case):即指研究的個(gè)體(觀察對(duì)象)。在SPSS 的數(shù)據(jù)文件中用“行”表示。觀測(cè)個(gè)數(shù)即觀察對(duì)象的個(gè)數(shù)。
變量(Variable): 指研究對(duì)象的某種特征,即研究的指標(biāo),如身高、體重等,在SPSS數(shù)據(jù)文件中用“列”表示。列數(shù)即為變量的個(gè)數(shù)。每一個(gè)變量只能占一列位置,即同一指標(biāo)的測(cè)量值應(yīng)在同一列出現(xiàn)。
三、數(shù)據(jù)文件的建立:1)打開(kāi)“數(shù)據(jù)視圖”:?jiǎn)?dòng)SPSS可直接進(jìn)入此窗口,或點(diǎn)擊菜單中的“文件”中的“新建”也可進(jìn)入該窗口。(2)定義變量屬性:打開(kāi)變量視圖(variable view),必須對(duì)變量名、變量類型進(jìn)行定義,必要時(shí)應(yīng)對(duì)其長(zhǎng)度和變量標(biāo)簽進(jìn)行定義。(3)數(shù)據(jù)錄入:打開(kāi)數(shù)據(jù)視圖(data view)進(jìn)行數(shù)據(jù)錄入。(4)保存數(shù)據(jù)文件:用快捷鍵存盤(pán),或打開(kāi)菜單用保存(Save)或另存為(Save as)將文件存入指定路徑,系統(tǒng)則生成擴(kuò)展名為.sav的SPSS數(shù)據(jù)文件。
四、數(shù)據(jù)文件的保存:
保存對(duì)話框中按鈕的“變量”,可用來(lái)選擇保存于數(shù)據(jù)庫(kù)中的變量,可以全選,也可以選擇某些變量保存成一個(gè)獨(dú)立的文件。
如果打開(kāi)一個(gè)已有文件,可以用該法選擇需要的變量組成新的文件,以便于分析。
六、分析結(jié)果的保存和導(dǎo)出:分析結(jié)果會(huì)在output窗口展現(xiàn),可用save/save as保存結(jié)果。但此文件只能用SPSS軟件才能打開(kāi)??梢詫⒋蜷_(kāi)的output窗口中的結(jié)果,利用Export轉(zhuǎn)成Word文檔進(jìn)行保存。
也可將結(jié)果中有用的表格,拷貝到Word文檔進(jìn)行保存和編輯。
七、變量:
變量有4種比較重要的屬性:變量名,類型,標(biāo)簽和變量長(zhǎng)度
定義一個(gè)變量至少要定義變量名和變量類型,變量標(biāo)簽和變量長(zhǎng)度可采用默認(rèn)值。
變量名(name):每一個(gè)變量必須有變量名,最大不超過(guò)256個(gè)字符。第一字符不能是數(shù)字,后可跟除“?”、“!”、“*”字符或數(shù)字。變量名也可漢字表示。
注意:變量名不區(qū)分大小寫(xiě)字母。在一個(gè)文件中文件名不能重復(fù)使用。
八、變量的類型:三種基本類型:數(shù)值型、字符型和日期型
(1)數(shù)值型:即數(shù)值變量,可進(jìn)行運(yùn)算。分為5類
標(biāo)準(zhǔn)數(shù)值型變量(Numeric): 默認(rèn)總長(zhǎng)度為8;小數(shù)點(diǎn)2位。
帶逗號(hào)的數(shù)值型變量(Comma): 數(shù)值顯示時(shí)整數(shù)部分自右向左每3位用逗號(hào)做分割符,用圓點(diǎn)做整數(shù)與小數(shù)的分割符。
圓點(diǎn)數(shù)值型變量(Dot):數(shù)值顯示時(shí)整數(shù)部分自右向左每3位用圓點(diǎn)做分割符,用逗號(hào)做整數(shù)與小數(shù)的分割符。
科學(xué)記數(shù)法(Scienmtific noation):可有指數(shù)部分也可沒(méi)有,指數(shù)的字母可用E也可用D。如1.23E2或 1.23D2。5.缺失值(missing)3。對(duì)齊方式(align)
九、變量標(biāo)簽和變量值標(biāo)簽:
1、變量標(biāo)簽(Variable labels): 是對(duì)變量進(jìn)行的附加說(shuō)明和進(jìn)一步解釋。變量標(biāo)簽可以定義也可不進(jìn)行定義。如:
變量名 變量標(biāo)簽 sex 性別 T101 第1題
2、變量值標(biāo)簽(values): 是對(duì)變量值進(jìn)行注釋。如:
變量名 變量值標(biāo)簽 sex 1=男 2=女
文化程度 1=小學(xué) 2=初中 3=高中 4=大專及以上
十、度量測(cè)度:(1)定義的變量必須是數(shù)值變量;
(2)數(shù)值之間是有大小的區(qū)別的; 序號(hào)測(cè)量:用于表示有序分類,比如用4、3、2、1,分別代表優(yōu)、良、中、差,只表示等級(jí),這里的4不表示為2的等級(jí)。名義測(cè)量:數(shù)值僅代表種類或?qū)傩?,沒(méi)有大小的差別。
十一、小批量的數(shù)據(jù),用SPSS錄入即可;數(shù)據(jù)量較大時(shí),可用Epidata、Foxpro進(jìn)行錄入,然后再轉(zhuǎn)換為SPSS數(shù)據(jù)進(jìn)行分析
十二、excel文件的調(diào)入:
1、打開(kāi)SPSS數(shù)據(jù)界面;
2、在主菜單中,點(diǎn)擊“打開(kāi)數(shù)據(jù)庫(kù)”命令;
3、將彈出的對(duì)話框中的文件類型改為Excel 類型,雙擊欲打開(kāi)的文件名;
4、在彈出的對(duì)話框中的選中文件所在的sheet;
5、點(diǎn)擊OK.十三、數(shù)據(jù)文件的編輯:復(fù)制(copy)剪切(cut)粘貼(paste)插入新變量/觀測(cè):(insert variable/case)注意:插入新變量后,必要時(shí)對(duì)變量的屬性進(jìn)行定義
刪除變量/觀測(cè):(delete variable/case)變量信息顯示:菜單utilities中的variable information
十四、已有數(shù)據(jù)和變量的修改:數(shù)據(jù)的修改:打開(kāi)數(shù)據(jù)庫(kù)(data view),將錯(cuò)誤數(shù)據(jù)進(jìn)行修改,并存盤(pán);變量的修改:打開(kāi)數(shù)據(jù)庫(kù)(variable view),將錯(cuò)誤進(jìn)行修改(包括變量的任何屬性),并存盤(pán);
十五、多選題的錄入:多選題需要使用幾個(gè)變量進(jìn)行記錄;
1、定義變量時(shí),如X20有三個(gè)選項(xiàng),可以設(shè)三個(gè)變量,X20_
1、X20_2 及X20_3; 均以1表示選中,2表示未選中;
2、在分析之前,還應(yīng)使用“分析”—“多重響應(yīng)”—“定義變量集”來(lái)設(shè)定多選題變量集。
3、而多選題變量集只能在“分析”—“多重響應(yīng)”—“頻率”或“交叉表”中使用。
十六、日期型變量的錄入:首先將變量定義為“日期型”,選定錄入格式,并按照選定格式錄入數(shù)據(jù);日期型變量可以進(jìn)行計(jì)算,兩個(gè)日期型變量相減,為兩個(gè)日期間隔的秒數(shù); 可以將秒數(shù)換算成天、月、年
十七、操作技巧
(一)、連續(xù)輸入多個(gè)相同值:如果許多連續(xù)單元格輸入相同的值,步驟如下: 首先在其中任意單元格內(nèi)輸入相應(yīng)數(shù)值,如“1”,按回車鍵后右擊該單變換,如將某個(gè)變量值擴(kuò)大10倍,或?qū)⑵滢D(zhuǎn)換為對(duì)數(shù)值等,可按下列方法實(shí)現(xiàn)。
(1)打開(kāi)主菜單----轉(zhuǎn)換----計(jì)算變量----進(jìn)入計(jì)算變量對(duì)話框;(2)在目標(biāo)變量(Target variable)中鍵入新變量名,如鍵入原有變量名,將用新的數(shù)值覆蓋原來(lái)的變量值。(3)從數(shù)字表達(dá)式(Numeric expression)中選擇計(jì)算式,或鍵入計(jì)算式,并把要改變的變量放于計(jì)算式中;(4)點(diǎn)擊 OK,即生成以目標(biāo)變量 所鍵名為變量名的變量
三、選擇個(gè)案:用途:按照分析者的要求選擇需要的觀測(cè)(病例)如只需要分析性別=1且年齡<10歲的人作為分析對(duì)象。
步驟:
(1)打開(kāi)“數(shù)據(jù)”----選擇個(gè)案,進(jìn)入選擇個(gè)案的的對(duì)話框,然后按照條件選擇符合要求的觀測(cè)
(2)將選擇的觀測(cè)過(guò)濾(filter)、保存成數(shù)據(jù)庫(kù)或刪除(delete).注意:不論濾過(guò)或刪除的變量將不再進(jìn)入統(tǒng)計(jì)分析。
四、重新編碼為相同或不同變量:根據(jù)數(shù)據(jù)分析的要求,有時(shí)需對(duì)數(shù)據(jù)進(jìn)行重新分類,如將數(shù)值變量轉(zhuǎn)換為分類變量,或?qū)⒛撤诸愖兞窟M(jìn)行重新分組。
步驟:
(1)打開(kāi)欲分析的數(shù)據(jù)文件;
(2)主菜單中的“轉(zhuǎn)換”---重新編碼為相同變量或重新編碼為不同變量;(3)如不對(duì)變量更改變量名,則點(diǎn)擊重新編碼為相同變量;如生成新變量名,則點(diǎn)擊重新編碼為不同變量.(4)點(diǎn)擊 舊值和新值 ,并進(jìn)行變量值的設(shè)置。
五、對(duì)個(gè)案內(nèi)的值計(jì)數(shù):將個(gè)案按照某種條件分成兩類。數(shù)據(jù)庫(kù)中會(huì)自動(dòng)生成一個(gè)新變量,“1”表示符合條件,“0”表示不符合條件
六、文件的合并:文件合并就是將兩個(gè)文件合并成一個(gè)新的文件。
(1)添加個(gè)案(縱向合并):在基礎(chǔ)數(shù)據(jù)文件后加入另一數(shù)據(jù)文件的個(gè)案。
(2)添加變量(橫向合并):在基礎(chǔ)數(shù)據(jù)文件變量后加入另一數(shù)據(jù)文件中的變量。
注意:進(jìn)行縱向合并時(shí),兩個(gè)文件必須已經(jīng)進(jìn)行過(guò)升序排列。
七、加權(quán)病例(weight,定義頻數(shù)列):功能:將某列數(shù)據(jù)定義為頻數(shù)列。
步驟:數(shù)據(jù)---加權(quán)個(gè)案,打開(kāi)加權(quán)個(gè)案對(duì)話框,選中加權(quán)個(gè)案,并將頻數(shù)變量放于頻率變量 框中.注意:定義頻數(shù)列后,其它各變量進(jìn)行運(yùn)算時(shí),會(huì)都按加權(quán)進(jìn)行。
八、拆分文件(spilt file):功能:按照指定變量將文件分組分析。步驟:數(shù)據(jù)---拆分文件(split flie),將選擇變量放于右側(cè)“分組方式(grouping based on)”框中.選擇“分組方式(compare group)”,或選擇“按組組織輸出(organize output by groups)”后,數(shù)據(jù)庫(kù)按照選擇變量進(jìn)行排序,后續(xù)分析中將按指定變量分組分析。注意:如取消拆分,選擇“分析所有
誤)
四、單式直條圖:點(diǎn)擊“圖形”→“圖表構(gòu)建程序”菜單項(xiàng),打開(kāi)“圖表構(gòu)建程序”對(duì)話框;
2、在圖庫(kù)中選擇“條”圖組,將右側(cè)出現(xiàn)的簡(jiǎn)單條圖圖標(biāo)拖入畫(huà)布中;
3、將橫軸變量拖入橫軸框中;
4、將縱軸變量拖入縱軸框中;
5、單擊確定;
6、編輯。
五、統(tǒng)計(jì)圖的編輯:在結(jié)果窗口雙擊欲進(jìn)行編輯的統(tǒng)計(jì)圖,就會(huì)打開(kāi)一個(gè)獨(dú)立的“圖形編輯器”窗口,一般與之相配套出現(xiàn)一個(gè)“屬性”子對(duì)話框;
“屬性”子對(duì)話框?yàn)槎噙x項(xiàng)卡界面。對(duì)應(yīng)著“圖形編輯器”窗口中被選中的元素種類,該子對(duì)話框出現(xiàn)的選項(xiàng)卡種類也會(huì)跟著變化。
如果希望選擇不同的多個(gè)圖形元素,按住Ctrl鍵分別選擇即可
編輯完成后,一定要利用編輯對(duì)話框右上角的“×”關(guān)閉對(duì)話框,然后再進(jìn)行拷貝。
六、
第二篇:SPSS軟件學(xué)習(xí)心得(模版)
SPSS軟件學(xué)習(xí)心得
SPSS(Statistical Product and Service Solutions),名稱是“統(tǒng)計(jì)產(chǎn)品與服務(wù)解決方案”軟件。SPSS軟件的統(tǒng)計(jì)分析步驟:
(1)讀入數(shù)據(jù)文件,或直接建立SPSS數(shù)據(jù)文件,或調(diào)用其它類型的數(shù)據(jù)文件,如:Excel、純文本文件等;
(2)調(diào)用統(tǒng)計(jì)分析程式或模板;
(3)選擇變量,設(shè)定參數(shù)并運(yùn)行;
(4)查看統(tǒng)計(jì)分析輸出結(jié)果。
SPSS的主要功能分為兩個(gè)方面:一個(gè)是對(duì)數(shù)據(jù)文件的建立和管理;另一個(gè)是提供了各種統(tǒng)計(jì)分析方法。對(duì)數(shù)據(jù)文件的建立和管理主要通過(guò)Data菜單和Transform菜單實(shí)現(xiàn),可以對(duì)數(shù)據(jù)進(jìn)行修改編輯、查找、排序、合并、分割、抽樣、加權(quán)、重新編碼、編秩、設(shè)定種子數(shù)及計(jì)算或轉(zhuǎn)換新的變量等多種功能;提供各種統(tǒng)計(jì)分析方法則是通過(guò)Analyze菜單實(shí)現(xiàn).可以對(duì)數(shù)據(jù)集進(jìn)行一般統(tǒng)計(jì)分析,如描述性統(tǒng)計(jì)、探索性分析、t檢驗(yàn)、單因素和多因素方差分析、協(xié)方差分析、四格表和列聯(lián)表卡方檢驗(yàn)、相關(guān)分析、線性回歸分析、非參數(shù)檢驗(yàn)、生存分析等。
特點(diǎn):不需編程,完全采用菜單和對(duì)話框的操作方式,絕大多數(shù)操作過(guò)程僅靠鼠標(biāo)點(diǎn)擊即可完成,簡(jiǎn)便易學(xué),易于操作;具備完備的統(tǒng)計(jì)圖表制作功能,能繪制精美的統(tǒng)計(jì)圖表,并可以極其方便地對(duì)其編輯和修飾。
應(yīng)用例子:如為了科學(xué)合理的評(píng)估和開(kāi)發(fā)利用河北省土壤中水分,并在不同地區(qū)因地制宜的采取相應(yīng)措施,選定了干旱指數(shù)、土壤質(zhì)地和植被等指數(shù),用層次分析法,計(jì)算出每個(gè)指標(biāo)的權(quán)重,利用SPSS統(tǒng)計(jì)軟件,對(duì)河北省土壤水資源進(jìn)行分類,細(xì)分為了8類,實(shí)現(xiàn)了有效合理地利用土壤水分。
第三篇:SPSS軟件學(xué)習(xí)心得
誤差理論數(shù)據(jù)處理分析
常見(jiàn)的統(tǒng)計(jì)軟件有SAS,SPSS,MINITAB,EXCEL等。這些統(tǒng)計(jì)軟件的功能大同小異,各有所側(cè)重。其中的SAS和SPSS是目前在大型企業(yè),各類院校及科研機(jī)構(gòu)中較為流行的兩種統(tǒng)計(jì)軟件。特別是SPSS,其界面友好,功能強(qiáng)大,易學(xué),易用,包含了幾乎全部尖端的統(tǒng)計(jì)方法,具備完善的數(shù)據(jù)定義,操作管理和開(kāi)放的數(shù)據(jù)接口以及靈活美觀的統(tǒng)計(jì)圖表制作。作為專業(yè)的統(tǒng)計(jì)軟件,SPSS感覺(jué)比EXCEL更豐富,也更準(zhǔn)確。
從表1中分析,抗拉強(qiáng)度的極小值為67.89,極大值為80.36,均值標(biāo)準(zhǔn)誤差為0.86948,標(biāo)準(zhǔn)差為3,47793,方差為12.096。屈服強(qiáng)度的極小值為47.14,極大值為8.227。
表
2從表2中分析,回歸平方和為176.469,自由度為1,均值方差,176.469,顯著性為
497.056,殘差平方和為4.970,自由度為14,均值方差為0.355。
表
3從表3從分析,常數(shù)量B為12.514,非標(biāo)準(zhǔn)化系數(shù)的標(biāo)準(zhǔn)誤差為2.719,T值為4.602。標(biāo)準(zhǔn)系數(shù)使用版為0.986,T值為22.自變量的B值為1.196,非標(biāo)準(zhǔn)化系數(shù)的標(biāo)準(zhǔn)誤差為0.054,295。
表
4圖
1從散點(diǎn)圖可以看出,抗拉強(qiáng)度Y與屈服強(qiáng)度X大致呈線性關(guān)系。人們假設(shè)Y與X之間的內(nèi)在關(guān)系是一條直線,這些點(diǎn)與直線的偏離是實(shí)驗(yàn)過(guò)程中其他一些隨機(jī)因素的影響而引起的。
心得體會(huì)
在學(xué)習(xí)SPSS中必須學(xué)會(huì)的是“數(shù)據(jù)組織方式和數(shù)據(jù)測(cè)度”,這個(gè)對(duì)于那些學(xué)習(xí)信息的人容易理解,對(duì)文科出身的人不容易理解。但是這個(gè)問(wèn)題對(duì)于初學(xué)者很重要。在實(shí)際使用SPSS時(shí),就得按部就班地按照先定義變量,測(cè)調(diào)度,在錄入(導(dǎo)入數(shù)據(jù)),再分析。分析并不是整個(gè)流程。
在大二快結(jié)束的學(xué)習(xí)過(guò)程中參加了SPSS的課程學(xué)習(xí),盡管我只是大略地學(xué)習(xí),泛泛地接觸這門(mén)課程,但是對(duì)這門(mén)課的興趣很濃。參與這次實(shí)踐的經(jīng)歷深刻改變了我對(duì)這門(mén)課的認(rèn)識(shí)。我越發(fā)感到我需要這門(mén)課程,我必須掌握這門(mén)統(tǒng)計(jì)技術(shù),分析方法。這就是社會(huì)的需求,學(xué)校的標(biāo)準(zhǔn),也是個(gè)人發(fā)展得需要。
雖然只有幾周的學(xué)習(xí)時(shí)間,但我已經(jīng)對(duì)該課程有了更多的了解,十分感謝黃璟老師講解的這門(mén)課,提供了這個(gè)平臺(tái)。理論加實(shí)踐,為不同基礎(chǔ)的學(xué)生提供了好的學(xué)習(xí)環(huán)境。我認(rèn)為開(kāi)設(shè)很有必要,應(yīng)當(dāng)成為重點(diǎn)。
現(xiàn)實(shí)生活中的數(shù)據(jù)多不勝數(shù),但要得到有用的數(shù)據(jù)并不容易,這就要應(yīng)用數(shù)據(jù)分析的方法確定數(shù)據(jù)的屬性,再用清理工具(清洗、集成、轉(zhuǎn)換、消減)進(jìn)行篩選轉(zhuǎn)化為有用的信息,再用SPSS深入分析,得出規(guī)律。
對(duì)數(shù)據(jù)的分析是以統(tǒng)計(jì)學(xué)為基礎(chǔ)的,統(tǒng)計(jì)學(xué)提供了一套完整的科學(xué)方法論,統(tǒng)計(jì)軟件則是實(shí)現(xiàn)的手段,統(tǒng)計(jì)分析軟件具有很多有點(diǎn)。它功能全面,系統(tǒng)地集成了多種成熟的統(tǒng)計(jì)分析方法;有完善的數(shù)據(jù)定義、操作和管理功能;方便地生成各種統(tǒng)計(jì)圖形和統(tǒng)計(jì)表格;使用方式簡(jiǎn)單,有完備的聯(lián)機(jī)幫助功能;軟件開(kāi)放性好,能方便地和其他軟件進(jìn)行數(shù)據(jù)交換。我們接觸最多的統(tǒng)計(jì)軟件是EXCEL 和SPSS。在統(tǒng)計(jì)學(xué)中應(yīng)用EXCEL,在數(shù)據(jù)分析中則主要是SPSS,它具有很好的人機(jī)界面和完善的輸出結(jié)果。
這門(mén)課程中我們學(xué)了另外一種數(shù)據(jù)分析方法就是聚類分析。它與“物以類聚,人以群分”是同樣的道理。多元統(tǒng)計(jì)分析方法就是對(duì)樣品或指標(biāo)進(jìn)行量化分類的問(wèn)題,它們討論的對(duì)象是大量的樣品,要求能合理地按各自的特性也就是相似性來(lái)進(jìn)行合理的分類,沒(méi)有任何模式可供參考或依循,即是在沒(méi)有先驗(yàn)知識(shí)的情況下進(jìn)行的。我們學(xué)習(xí)了Q型聚類法、R型聚類法以及系統(tǒng)聚類法。Q型聚類分析樣品間的聚類,用距離來(lái)測(cè)度親疏程度。R型聚類分析變量間的聚類,用相似系數(shù)來(lái)測(cè)度親疏程度。
常用的Q聚類法有閔氏距離和馬氏距離,只是我們必須掌握的。具體的計(jì)算方法有最短距離法、最長(zhǎng)距離法、重心法、離差平方和連接法等等。在最后一節(jié)課老師講了貝葉斯理論,根據(jù)先驗(yàn)概率和實(shí)驗(yàn)事件得出后驗(yàn)概率,從而得出更為可信的概率。最后,這門(mén)課程就學(xué)完了,學(xué)到了很,還有很多不懂。本課程需要很好的統(tǒng)計(jì)和概率論的基礎(chǔ),要不,很難聽(tīng)懂或者簡(jiǎn)直聽(tīng)不懂。同時(shí),老師很少?gòu)?qiáng)求我們及時(shí)做作業(yè),以至于我們知識(shí)掌握不牢固,前學(xué)后忘現(xiàn)象嚴(yán)重。有時(shí)候覺(jué)得老師講得過(guò)深,我們根本無(wú)法接受。希望老師以后講授本課程時(shí)把難度降低一點(diǎn),多給學(xué)生練習(xí)的機(jī)會(huì)。我希望在考試之前把學(xué)懂的知識(shí)鞏固,把不懂得盡量弄懂,但愿以后在工作中能輕松運(yùn)用。
第四篇:SPSS知識(shí)點(diǎn)總結(jié)—211重點(diǎn)軟件知識(shí)點(diǎn)
SPSS ? ? ? ? 緒論(1)
數(shù)據(jù)文件的建立、導(dǎo)入與導(dǎo)出(1)數(shù)據(jù)文件的整理(2)數(shù)據(jù)轉(zhuǎn)換(2)
? 基本統(tǒng)計(jì)分析(基本描述和卡方檢驗(yàn))(4)? 均數(shù)比較(2)? 相關(guān)與回歸分析(2)? 非參數(shù)檢驗(yàn)(2)
SPSS是軟件英文名稱的首字母縮寫(xiě),原意為Statistical Package for the Social Sciences,即“社會(huì)科學(xué)統(tǒng)計(jì)軟件包”。但是隨著SPSS產(chǎn)品服務(wù)領(lǐng)域的擴(kuò)大和服務(wù)深度的增加,SPSS公司已于2000年正式將英文全稱更改為Statistical Product and Service Solutions,意為“統(tǒng)計(jì)產(chǎn)品與服務(wù)解決方案”,標(biāo)志著SPSS的戰(zhàn)略方向正在做出重大調(diào)整。
? 輸出結(jié)果十分美觀漂亮(從國(guó)外的角度看),存儲(chǔ)時(shí)則是專用的SPO格式,可以轉(zhuǎn)存為HTML格式和文本格式。? SPSS采用類似EXCEL表格的方式輸入與管理數(shù)據(jù),數(shù)據(jù)接口較為通用,能方便的從其他數(shù)據(jù)庫(kù)中讀入數(shù)據(jù)。
? 其統(tǒng)計(jì)過(guò)程包括了常用的、較為成熟的統(tǒng)計(jì)過(guò)程,完全可以滿足非統(tǒng)計(jì)專業(yè)人士的工作需要。
? 對(duì)于熟悉老版本編程運(yùn)行方式的用戶,SPSS還特別設(shè)計(jì)了語(yǔ)法生成窗口,用戶只需在菜單中選好各個(gè)選項(xiàng),然后按“粘貼”按鈕就可以自動(dòng)生成標(biāo)準(zhǔn)的SPSS程序,極大的方便了中、高級(jí)用戶。SPSS基礎(chǔ):主要窗口及功能 ? 數(shù)據(jù)編輯窗口(data editor)? 結(jié)果輸出窗口(viewer)
? 程序編輯窗口(syntax editor)? 腳本編輯窗口(Script)
數(shù)據(jù)編輯窗口(data editor)
? 打開(kāi)方式:
? 啟動(dòng)SPSS后,數(shù)據(jù)編輯窗將首先自動(dòng)打開(kāi)
? 在SPSS運(yùn)行過(guò)程中建立新的數(shù)據(jù)文件,從菜單選擇
? File—New---Data
? 由數(shù)據(jù)窗口(Data View)和變量窗口(Variable View)組成,兩個(gè)窗口切換單獨(dú)顯
示
? 數(shù)據(jù)窗口用于顯示和編輯數(shù)據(jù)
? 變量窗口用于定義、顯示和編輯變量特征 結(jié)果輸出窗口(viewer)
? 打開(kāi)方式
? 在第一次產(chǎn)生分析結(jié)果的SPSS過(guò)程后,結(jié)果輸出窗口被自動(dòng)打開(kāi) ? 打開(kāi)新的結(jié)果輸出窗,從菜單選擇
? File—New---Output
? 結(jié)果輸出窗口(viewer)
? 功能:SPSS統(tǒng)計(jì)分析報(bào)表及圖形的輸出窗口
? 組成:窗口主菜單、工具欄、結(jié)果顯示區(qū)、狀態(tài)顯示區(qū)
? 在進(jìn)行第一次分析時(shí)自動(dòng)打開(kāi),也可手工打開(kāi);可以手工打開(kāi)若干個(gè)可相互切換的viewer窗口;輸出窗口可以關(guān)閉; ? 狀態(tài)欄上的!表示當(dāng)前輸出窗口 ? 窗口內(nèi)容以.spo存于磁盤(pán)上
? 程序編輯窗口(syntax editor)
? 功能:編輯命令語(yǔ)句
? 窗口內(nèi)容以.sps存于磁盤(pán)上
? 打開(kāi)方式:第一次通過(guò)對(duì)話框選擇SPSS過(guò)程時(shí),擊按鈕paste,程序編輯窗自動(dòng)打開(kāi);也可通過(guò)菜單打開(kāi)file—new—syntax
數(shù)據(jù)文件的建立、導(dǎo)入與導(dǎo)出 1.數(shù)據(jù)文件的建立
2.SPSS所處理的數(shù)據(jù)文件有兩種來(lái)源:
a)在SPSS環(huán)境下新建數(shù)據(jù)文件 b)調(diào)用已建立的各種類型的數(shù)據(jù)文件
在SPSS環(huán)境下建立數(shù)據(jù)文件:
? 啟動(dòng)SPSS后,界面顯示數(shù)據(jù)編輯窗
? 在數(shù)據(jù)編輯窗內(nèi)直接輸入數(shù)據(jù),保存后便形成SPSS數(shù)據(jù)文件 ?--數(shù)據(jù)文件的結(jié)構(gòu)
? 二維行列結(jié)構(gòu),每行為1個(gè)記錄或1個(gè)觀察單位(Case),每列為一個(gè)變量(Variable)
?--定義變量
SPSS數(shù)據(jù)文件是一種有結(jié)構(gòu)的數(shù)據(jù)文件:
定義數(shù)據(jù)文件的結(jié)構(gòu): 1.name:變量名,是變量存取的唯一標(biāo)志 ? 定義變量名的原則:
? 變量名最長(zhǎng)不超過(guò)64字節(jié)(32個(gè)漢字)(不推薦使用漢字,越簡(jiǎn)單越好)
? 首字符必須是字母或漢字,不能以下劃線或圓點(diǎn)結(jié)尾 ? 變量名中不能有空格或某些特殊符號(hào),如!、?和* ? 變量名不能與SPSS的關(guān)鍵字相同,即不能用all/and/by/eq/ge/gt/le/lt/ne/not/op/to/with等做變量名 ? 對(duì)變量名英文字母的大小寫(xiě)不作區(qū)分 ? 2.type:變量類型
? 數(shù)值型:常用標(biāo)準(zhǔn)數(shù)值型(Numeric):默認(rèn)類型8.2如:12345678、12345.67、-1234.56 ? 字符型(String): 存儲(chǔ)字符數(shù)據(jù)8位。如:beijing處理時(shí)用雙引號(hào)擴(kuò)起來(lái)
? 日期型(Date):存儲(chǔ)日期數(shù)據(jù),如:20-AUG-1999 ? 注意:顯示寬度不影響數(shù)據(jù)的存儲(chǔ)
? 3.width:變量寬度,默認(rèn)為8 ? 4.Decimals:小數(shù)位數(shù),默認(rèn)為2
? 5.label:變量標(biāo)簽,對(duì)每一個(gè)變量的含義進(jìn)行解釋,變量較多時(shí)非常重要!
? 6.Values:變量值標(biāo)簽,對(duì)變量取值的水平進(jìn)行定義
? 7.Missing:缺失值
? 8.Column:變量列寬,默認(rèn)為8。? 9.Align:對(duì)齊,默認(rèn)右對(duì)齊(Right)? 10.Measure:變量度量,包括三類:
? 定量變量(Scale),? 定性變量(Nominal),? 等級(jí)變量(Ordinal)。
? 該選項(xiàng)只用于統(tǒng)計(jì)制圖時(shí)坐標(biāo)軸變量的區(qū)分以及SPSS決策樹(shù)模塊的變量定義
? 統(tǒng)計(jì)軟件中數(shù)據(jù)的錄入原則: 1.同一觀察對(duì)象的數(shù)據(jù)應(yīng)獨(dú)占一行
2.同一個(gè)指標(biāo)的測(cè)量值都應(yīng)當(dāng)錄入到同一個(gè)變量中(除外配對(duì)數(shù)據(jù)和重復(fù)測(cè)量數(shù)據(jù))
3.最終的數(shù)據(jù)集應(yīng)當(dāng)能夠包含原始數(shù)據(jù)的所有信息
? 數(shù)據(jù)可保存為各種格式
2.數(shù)據(jù)文件的整理(Data菜單)
插入(Insert)
觀測(cè)值排序(sort):
合并文件(Merge Files):
Merge Files—Add Case(添加觀察單位): 例:new Drug(a).sav和new Drug(b).sav合并
Merge Files—Add Variables(添加變量): 例:將ex(a).sav
和
ex(b).sav合并
數(shù)據(jù)分類匯總(Aggregate Data):
例:分類匯總:不同文化程度的家庭平均收入 數(shù)據(jù)文件:休閑調(diào)查.sav
選擇觀察單位(select cases)選擇觀察單位(select cases)
變量加權(quán)(Weight Cases)
數(shù)據(jù)文件的整理(Transform菜單)
計(jì)數(shù)統(tǒng)計(jì)(count)
例:由家庭月收入產(chǎn)生一個(gè)分組變量group 月收入<1500 group=0
月收入>=1500 group=1
排秩(Rank)
例如:對(duì)sbp1(治療前SBP)進(jìn)行排秩
排秩后產(chǎn)生新變量rsbp1,其中對(duì)于相等的變量值(稱為結(jié)點(diǎn)ties)取平均秩次。本例中第2、3位的平均秩次為2.5。
例:按家庭收入等分為五組
第四章 基本統(tǒng)計(jì)分析(descriptive statistics菜單)
Frequencies過(guò)程的特色是產(chǎn)生頻數(shù)表;
Descriptives過(guò)程則進(jìn)行一般性的統(tǒng)計(jì)描述;
Explore過(guò)程用于對(duì)數(shù)據(jù)概況不清時(shí)的探索性分析;
Crosstabs過(guò)程則完成計(jì)數(shù)資料和等級(jí)資料的統(tǒng)計(jì)描述和一般的統(tǒng)計(jì)檢驗(yàn),我們 常用的檢驗(yàn)也在其中完成。
常用的描述統(tǒng)計(jì)量
集中趨勢(shì)指標(biāo)(Central tendency):均數(shù)(Mean)、中位數(shù)(Median)、眾數(shù)(Mode)、總和(Sum)等
離散趨勢(shì)指標(biāo)(Dispersion):標(biāo)準(zhǔn)差(Std.deviation)、方差(Variance)、全距(Range)、最小值(Minimum)、最大值(Maximum)、標(biāo)準(zhǔn)誤(S.E.mean)百分位數(shù)指標(biāo)(Percentile Values):四分位數(shù)(Quartiles)、每隔指定百分位輸出當(dāng)
前百分位數(shù)(Cut points for equal groups)、或直接指定某個(gè)百分位數(shù)(Percentiles)分布指標(biāo)(Distribution):偏度系數(shù)(Skewness)和峰度系數(shù)(Kurtosis)。
其他:M統(tǒng)計(jì)量(M-estimators)、極端值(outlier)等
眾數(shù)(mode):一組數(shù)據(jù)中出現(xiàn)次數(shù)最多的變量值稱為眾數(shù)。
偏度系數(shù)(skewness):數(shù)據(jù)分布的不對(duì)稱性稱為偏態(tài),偏態(tài)系數(shù)SK>0時(shí)為右(正)
偏,SK<0時(shí)為左(負(fù))偏。
峰度系數(shù)(kurtosis):數(shù)據(jù)分布的平峰或尖峰程度稱為峰態(tài),峰度系統(tǒng)K>0時(shí)
為尖峰分布,K<0時(shí)為扁平分布。K=0時(shí)為標(biāo)準(zhǔn)正態(tài)分布。
(一)頻數(shù)分析(Frequencies)
? 最常用的統(tǒng)計(jì)分析之一
? 功能:不僅可以產(chǎn)生詳細(xì)的頻數(shù)表,還可以按要求給出某百分位點(diǎn)的數(shù)值,以及常用的條圖,圓圖等統(tǒng)計(jì)圖
? 菜單:Analyze—Descriptive Statistics—Frequencies 命令
實(shí)例:對(duì)“diameter_sub.sav”中的“矢狀面管徑”變量作描述性分析并輸出直方圖
(二)Descriptives過(guò)程
? 是連續(xù)資料統(tǒng)計(jì)描述應(yīng)用最多的一個(gè)過(guò)程,計(jì)算并列出一系列相應(yīng)的統(tǒng)計(jì)指標(biāo)。
? 該過(guò)程特殊功能就是可將原始數(shù)據(jù)轉(zhuǎn)換成標(biāo)準(zhǔn)正態(tài)評(píng)分值并以變量的形式存入數(shù)據(jù)庫(kù)供以后分析。
? 菜單:Analyze—Descriptive Statistics—Descriptives命令
(三)Explore過(guò)程
? 可對(duì)變量進(jìn)行更為深入詳盡的描述性統(tǒng)計(jì)分析 ? 主要用于對(duì)資料的性質(zhì)、分布特點(diǎn)等完全不清楚時(shí),故又稱之為探索性分析。? 它在一般描述性統(tǒng)計(jì)指標(biāo)的基礎(chǔ)上,增加有關(guān)數(shù)據(jù)其他特征的文字與圖形描述,如枝葉圖、箱圖等
? 菜單:Analyze—Descriptive Statistics—Explore命令
例:對(duì)“clinical trial.sav”中的“plt1”按分類變量“group”進(jìn)行探索性 分析
第五章:基本統(tǒng)計(jì)分析descriptive statistics菜單
(二)Crosstabs過(guò)程:
? Crosstabs過(guò)程用于對(duì)計(jì)數(shù)資料和有序分類資料進(jìn)行統(tǒng)計(jì)描述和簡(jiǎn)單的統(tǒng)計(jì)推斷
? 在分析時(shí)可以產(chǎn)生2維至n維列聯(lián)表,并計(jì)算相應(yīng)的百分?jǐn)?shù)指標(biāo)。? 統(tǒng)計(jì)推斷則包括了我們常用的檢驗(yàn)、Kappa值,分層
? 還可計(jì)算n維列聯(lián)表的確切概率(Fisher’s Exact Test)值。? 菜單: Analyze—Descriptive Statistics—Crosstabs 命令
例
為比較紫外線和抗病毒藥物治療帶狀皰疹的療效,將帶狀皰疹患者隨機(jī)分為兩組,臨床觀察結(jié)果見(jiàn)下表,問(wèn)兩組的總體有效率有無(wú)差別? 組別 抗病毒組 紫外線組 合 計(jì)
有效 31 55 86
無(wú)效 25 9 34
合計(jì) 56 64 120 由于此處給出的直接是頻數(shù)表,因此在建立數(shù)據(jù)集時(shí)可以直接建立三個(gè)變量:行變量、列變量和頻數(shù)的變量 group,effect,freq
在默認(rèn)情況下,每一行就是一條記錄,這在多數(shù)情況下沒(méi)有什么問(wèn)題,但有時(shí)卻非常麻煩,想想看如果你需要計(jì)算一個(gè)四格表卡方,有100例,如果每一行就是一條記錄,你就需要輸入100條記錄!如果希望在計(jì)算過(guò)程中利用不同的變量對(duì)數(shù)據(jù)進(jìn)行加權(quán)處理,就需要用到Weight Cases對(duì)話框。
第五篇:SPSS總結(jié)
SPSS的基本統(tǒng)計(jì)功能
1、數(shù)據(jù)的預(yù)處理
2、描述性統(tǒng)計(jì)和探索性統(tǒng)計(jì)
3、假設(shè)檢驗(yàn)(包括參數(shù)檢驗(yàn)、非參數(shù)檢驗(yàn)等)
4、方差分析(包括一般的方差分析和多元方差分析)
5、相關(guān)分析
6、回歸分析
7、多元統(tǒng)計(jì)分析,包括聚類分析、判別分析、因子分析、對(duì)應(yīng)分析、主成分分析等
8、時(shí)間序列分析
9、信度分析
10、數(shù)據(jù)挖掘:決策樹(shù)與神經(jīng)網(wǎng)絡(luò)
SPSS 統(tǒng)計(jì)分析的一般步驟
1、建立SPSS數(shù)據(jù)文件: 在【變量視圖】定義SPSS數(shù)據(jù)文件的結(jié)構(gòu),在【數(shù)據(jù)視圖】進(jìn)行錄入數(shù)據(jù)文件的錄入。
2、SPSS數(shù)據(jù)的管理數(shù)據(jù)的預(yù)處理 :
集中于【數(shù)據(jù)】和【轉(zhuǎn)換】?jī)蓚€(gè)菜單項(xiàng)。
3、SPSS數(shù)據(jù)的統(tǒng)計(jì)分析階段
: 在【分析】菜單中選擇正確的統(tǒng)計(jì)方法。
4、SPSS分析結(jié)果的閱讀和解釋
: 讀懂SPSS輸出窗口中的分析結(jié)果
5、明確其統(tǒng)計(jì)含義,并結(jié)合背景知識(shí)做出合理的解釋。
第2章 SPSS統(tǒng)計(jì)分析前的準(zhǔn)備
一、SPSS數(shù)據(jù)文件的特點(diǎn)
1、SPSS數(shù)據(jù)文件是一種有結(jié)構(gòu)的數(shù)據(jù)文件(一般文本文件僅有純數(shù)據(jù)部分,而沒(méi)有關(guān)于結(jié)構(gòu)的描述);
2、由數(shù)據(jù)的結(jié)構(gòu)和內(nèi)容兩部分構(gòu)成;
3、其中數(shù)據(jù)的結(jié)構(gòu)記錄數(shù)據(jù)類型、取值說(shuō)明、數(shù)據(jù)缺失等必要信息(在【變量視圖】,每一列大家都要明白你在定義什么,有什么用);
4、數(shù)據(jù)的內(nèi)容是那些待分析的具體數(shù)據(jù);
5、在【數(shù)據(jù)視圖】每一列代表一個(gè)變量(variable),變量名顯示在表格頂部;
6、在【數(shù)據(jù)視圖】的每一行代表一個(gè)記錄(case)(即一個(gè)案例,或稱一個(gè)對(duì)象、一個(gè)觀察、一個(gè)個(gè)體),記錄序號(hào)顯示在表格的左側(cè);
7、在【數(shù)據(jù)視圖】可以輸入和編輯數(shù)據(jù),但是不能輸入數(shù)學(xué)表達(dá)式和函數(shù)
二、定義變量
1、【數(shù)據(jù)視圖】是進(jìn)行數(shù)據(jù)輸入、數(shù)據(jù)編輯的界面,對(duì)應(yīng)的表格用于查看、錄入和修改數(shù)據(jù)。
2、【變量視圖】 是定義數(shù)據(jù)文件的變量的界面,對(duì)應(yīng)的表格用于輸入和修改變量的定義。
3、用SPSS讀取其他格式的數(shù)據(jù):
1)數(shù)據(jù)文件:*。sav
語(yǔ)法文件:*。sps 結(jié)果文件:*。spo
腳本文件: *。sbs 2)文件-打開(kāi)-數(shù)據(jù),可打開(kāi)多種文件類型(。sav、。xls、。dbf、。txt、。dat等)
注:要想順利打開(kāi)txt文檔,txt文檔最好有固定的分隔符,如一個(gè)空格或一個(gè)逗號(hào)等。
三、數(shù)據(jù)的編輯
在SPSS中,數(shù)據(jù)文件的編輯、整理等功能被集中在了【數(shù)據(jù)】和【轉(zhuǎn)換】?jī)蓚€(gè)菜單項(xiàng)中:
1、數(shù)據(jù)的增刪、復(fù)制、剪切、粘貼;
2、數(shù)據(jù)的排序,Sort Cases排序便于數(shù)據(jù)的瀏覽,快捷找到最大值或最小值,迅速發(fā)現(xiàn)數(shù)據(jù)的異常值;
四、文件的拆分:文件的拆分相當(dāng)于統(tǒng)計(jì)學(xué)中的數(shù)據(jù)分組,即將數(shù)據(jù)按一個(gè)或幾個(gè)分組變量分組。
五、數(shù)據(jù)選取 :
數(shù)據(jù)選取(個(gè)案選?。┑幕痉绞?/p>
按指定條件選?。↖f condition is satisfied)
隨機(jī)抽樣(Random sample of cases)選取某一區(qū)域內(nèi)(Based on time or case range)
六、個(gè)案加權(quán):記錄加權(quán)是對(duì)觀測(cè)數(shù)據(jù)賦以權(quán)重,常用于頻數(shù)表資料;
七、文件的合并:合并文件是指將外部數(shù)據(jù)中的記錄或變量合并到當(dāng)前的數(shù)據(jù)文件中去。合并數(shù)據(jù)文件包括兩種方式:
從外部數(shù)據(jù)文件增加記錄到當(dāng)前數(shù)據(jù)文件中——縱向合并或稱追加記錄。從外部數(shù)據(jù)文件增加變量到當(dāng)前數(shù)據(jù)文件中——橫向合并或稱追加變量。
八、變量的計(jì)算和變換:【轉(zhuǎn)換】-【計(jì)算變量】
九、數(shù)據(jù)的重新編碼recode 統(tǒng)計(jì)分組
將字符型變量轉(zhuǎn)換為數(shù)值型變量 將幾個(gè)小類別合為一個(gè)類別 將數(shù)值型變量轉(zhuǎn)換為字符型
十、統(tǒng)計(jì)結(jié)果的保存為word文件:【文件】-【導(dǎo)出】
第3章
SPSS描述性統(tǒng)計(jì)
1.Frequencies(頻率)過(guò)程的特色是產(chǎn)生頻數(shù)表;功能 產(chǎn)生頻數(shù)分布表;
繪制條形圖、餅圖、直方圖;
計(jì)算集中趨勢(shì)與離散程度、分布形狀(峰度和偏度的意義)等統(tǒng)計(jì)量; 按要求給出分位數(shù);
對(duì)數(shù)據(jù)的分布趨勢(shì)進(jìn)行初步分析
(注:對(duì)于定性變量來(lái)說(shuō),一般來(lái)說(shuō)產(chǎn)生頻數(shù)分布表,制作條形圖,餅圖即可);
2.描述分析(Descriptives過(guò)程)
適用的分析對(duì)象:定量變量,測(cè)度為scale。功能:
調(diào)用此過(guò)程對(duì)變量進(jìn)行描述性統(tǒng)計(jì)分析,計(jì)算均值、標(biāo)準(zhǔn)差、全距和均值標(biāo)準(zhǔn)誤差等; 并可將原始數(shù)據(jù)轉(zhuǎn)換成Z分?jǐn)?shù)((原始值-均值)/標(biāo)準(zhǔn)差)。
3.Explore(探索)過(guò)程用于對(duì)數(shù)據(jù)概況不清時(shí)的探索性分析,定量變量; 在一般描述性統(tǒng)計(jì)分析的基礎(chǔ)上,增加有關(guān)數(shù)據(jù)其他特征的文字與圖形描述。提供莖葉圖、箱線圖、PP圖、QQ圖等;
指出異常值(Outliers),可檢查數(shù)據(jù)是否有錯(cuò)誤,剔除異常值和錯(cuò)誤數(shù)據(jù); 進(jìn)行點(diǎn)估計(jì)和區(qū)間估計(jì),計(jì)算均值的置信區(qū)間,; 檢驗(yàn)一組數(shù)據(jù)是否呈正態(tài)分布; 4.列聯(lián)表分析
(1)列聯(lián)表分析的適用條件
對(duì)一個(gè)定量變量的描述和分析,一般用頻數(shù)分析(頻數(shù)分布表、餅圖、直方圖、條形圖); 對(duì)兩個(gè)定性變量的描述和分析,通常使用列聯(lián)表、對(duì)應(yīng)分析,或使用卡方檢驗(yàn); 對(duì)兩個(gè)以上定性變量的描述和分析,通常使用高維列聯(lián)表。(2)期望頻數(shù)的分布
如果行變量和列變量是獨(dú)立的,可以計(jì)算出列聯(lián)表中每個(gè)格子里的頻數(shù)應(yīng)該是多少,稱為期望頻數(shù);
(3)列聯(lián)表分析的基本思路
檢驗(yàn)列聯(lián)表中的行變量與列變量之間是否獨(dú)立(或是否相關(guān))。原假設(shè)為行變量與列變量之間獨(dú)立(或不相關(guān))。比較觀察頻數(shù)與期望頻數(shù)的差。
如果兩者的差越大,表明實(shí)際情況與原假設(shè)相去甚遠(yuǎn);如果差越小,表明實(shí)際情況與原假設(shè)越相近。
對(duì)于這個(gè)假設(shè)的檢驗(yàn),可以采用卡方分布,進(jìn)行卡方檢驗(yàn)。
(4)列聯(lián)表分析的步驟
檢驗(yàn)列聯(lián)表中的行變量與列變量之間是否獨(dú)立(是否相關(guān))提出假設(shè)
H0:行變量與列變量獨(dú)立(不相關(guān))H1:行變量與列變量不獨(dú)立(相關(guān) 計(jì)算檢驗(yàn)的統(tǒng)計(jì)量 統(tǒng)計(jì)決策
進(jìn)行決策:P值決策
P<0。05,則拒絕原假設(shè)H0,否則,接收原假設(shè)。(5)Pearson卡方檢驗(yàn)的應(yīng)用條件
所有單元的期望頻數(shù)應(yīng)該大于1,或不應(yīng)有大量的期望頻數(shù)小于5的單元格。
如果列聯(lián)表中有20%以上的單元格中的期望頻數(shù)小于5,則一般不宜用卡方檢驗(yàn)。Pearson卡方檢驗(yàn)最普遍
第4章
SPSS的均值比較過(guò)程 1。Means過(guò)程
對(duì)準(zhǔn)備比較的各組計(jì)算描述指標(biāo),進(jìn)行預(yù)分析,也可直接比較,定量變量。(1)Means過(guò)程是專門(mén)計(jì)算各種平均數(shù),并對(duì)平均數(shù)進(jìn)行簡(jiǎn)單比較的;(2)雖然Descriptive Statistics(描述統(tǒng)計(jì))菜單項(xiàng)中的幾個(gè)過(guò)程也能計(jì)算均數(shù),但Means過(guò)程的輸出結(jié)果是將各組的描述指標(biāo)放在一起的,便于相互比較;
(3)Means過(guò)程必須設(shè)置分組變量,若沒(méi)有分組變量的話,可以使用Descriptive Statistics菜單項(xiàng)中的幾個(gè)過(guò)程。
(4)適用于測(cè)度水平為SCALE的變量。
2。單樣本T檢驗(yàn)(1)目的
檢驗(yàn)?zāi)匙兞康目傮w均值與指定的檢驗(yàn)值之間是否存在顯著差異。(2)適用條件
樣本來(lái)自的總體服從正態(tài)分布(3)基本步驟
H0: μ=μ0 H1: μ≠μ0
構(gòu)造檢驗(yàn)統(tǒng)計(jì)量 統(tǒng)計(jì)決策
如果P值<α(α一般取值為0。05),拒絕原假設(shè); 如果P值>α,接受原假設(shè);
3。
獨(dú)立樣本T 檢驗(yàn)(1)目的
通過(guò)比較兩個(gè)樣本均值差的大小來(lái)確定兩個(gè)總體的均值是否相等。(2)適用條件
獨(dú)立性:兩個(gè)樣本相互獨(dú)立,且均為大樣本;
正態(tài)性:如果兩個(gè)樣本相互獨(dú)立但都是小樣本,或有一個(gè)樣本是小樣本,則要求總體服從正態(tài)分布;
方差齊性
(3)基本步驟
a、方差齊性F檢驗(yàn)
原假設(shè):兩個(gè)總體方差相等; 備則假設(shè):兩個(gè)總體方差不相等;
P值<0。05 時(shí),拒絕原假設(shè),說(shuō)明方差不齊;否則兩個(gè)總體方差無(wú)顯著性差異。b、對(duì)兩總體的均值提出假設(shè) H0: μ1=μ2
H1: μ1≠μ2 c、統(tǒng)計(jì)決策
在SPSS中進(jìn)行兩獨(dú)立樣本t檢驗(yàn)時(shí),應(yīng)首先對(duì)F檢驗(yàn)作判斷。如果方差相等,觀察分析結(jié)果中Equal variances assumed列的t檢驗(yàn)相伴概率值;如果方差不相等,觀察Equal variances not assumed列的t檢驗(yàn)相伴概率值。如果P值<α,拒絕原假設(shè); 如果P值>α,不能拒絕原假設(shè);
4.配對(duì)樣本的T 檢驗(yàn)
配對(duì)樣本是指對(duì)同一樣本的某個(gè)變量進(jìn)行前后兩次測(cè)試所獲得的兩組數(shù)據(jù),或是對(duì)兩個(gè)完全相同的樣本在不同條件下進(jìn)行測(cè)試所獲得的兩組數(shù)據(jù)。其差別在于抽樣不是相互獨(dú)立的,而是互相關(guān)聯(lián)的。(1)配對(duì)樣本通常有兩個(gè)特征: 第一,兩組樣本的樣本數(shù)相同;
第二,兩個(gè)樣本記錄的先后順序一一對(duì)應(yīng),不能隨意更改。(2)適用條件
兩樣本數(shù)據(jù)必須兩兩配對(duì) 兩總體服從正態(tài)分布
配對(duì)樣本的錄入方式是:每對(duì)數(shù)據(jù)在同一個(gè)case的兩個(gè)配對(duì)的變量上(3)檢驗(yàn)步驟 a、提出假設(shè) H0: μ1=μ2
H1: μ1≠μ2 b、統(tǒng)計(jì)決策
如果P值<α,拒絕原假設(shè); 如果P值>α,不能拒絕原假設(shè);
第5章 方差分析
如何對(duì)一個(gè)或兩個(gè)總體的均值進(jìn)行檢驗(yàn),我們可以用均值比較,如果要討論多個(gè)總體均值是否相等,我們所采用的方法是方差分析。
方差分析中有以下幾個(gè)重要概念。(1)因素(Factor):是指所要研究的變量,它可能對(duì)因變量產(chǎn)生影響。如果方差分析只針對(duì)一個(gè)因素進(jìn)行,稱為單因素方差分析。如果同時(shí)針對(duì)多個(gè)因素進(jìn)行,稱為多因素方差分析。
(2)水平(Level):水平指因素的具體表現(xiàn),如銷售的四種方式就是因素的不同取值等級(jí)。
(3)單元(Cell):指因素水平之間的組合。(4)元素(Element):指用于測(cè)量因變量的最小單位。一個(gè)單元里可以只有一個(gè)元素,也可以有多個(gè)元素。
(5)交互作用(Interaction):如果一個(gè)因素的效應(yīng)大小在另一個(gè)因素不同水平下明顯不同,則稱兩因素間存在交互作用。
1.單因素方差分析
單因素方差分析也叫一維方差分析,它用來(lái)研究一個(gè)因素的不同水平是否對(duì)觀測(cè)變量產(chǎn)生了顯著影響,即檢驗(yàn)由單一因素影響的一個(gè)(或幾個(gè)相互獨(dú)立的)因變量由因素各水平分組的均值之間的差異是否具有統(tǒng)計(jì)意義。(1)適用條件
在各個(gè)水平之下觀察對(duì)象是獨(dú)立隨機(jī)抽樣,即獨(dú)立性;
各個(gè)水平的因變量服從正態(tài)分布,即正態(tài)性;
各個(gè)水平下的總體具有相同的方差,即方差齊性;(2)基本原理
SST(總的離差平方和)=SSA(組間離差平方和)+SSE(組內(nèi)離差平方和)
如果在總的離差平方和中,組間離差平方和所占比例較大,說(shuō)明觀測(cè)變量的變動(dòng)主要是由因素的不同水平引起的,可以主要由因素的變動(dòng)來(lái)解釋,系統(tǒng)性差異給觀測(cè)變量帶來(lái)了顯著影響;反之,如果組間離差平方和所占比例很小,說(shuō)明觀測(cè)變量的變動(dòng)主要由隨機(jī)變量因素引起的。
SPSS將自動(dòng)計(jì)算檢驗(yàn)統(tǒng)計(jì)量和相伴概率P值,若P<α,則拒絕原假設(shè),認(rèn)為因素的不同水平對(duì)觀測(cè)變量產(chǎn)生顯著影響;反之,接受零假設(shè),認(rèn)為因素的不同水平?jīng)]有對(duì)觀測(cè)變量產(chǎn)生顯著影響。
另外,SPSS還提供了多重比較方法,多重比較是通過(guò)對(duì)總體均值之間的配對(duì)比較來(lái)進(jìn)一步檢驗(yàn)到底哪些均值之間存在差異,最常用的多重比較方法是LSD。(3)檢驗(yàn)步驟 a、提出假設(shè)
H0: 各個(gè)總體的均值無(wú)顯著性差異。
H1: 各個(gè)總體的均值有顯著性差異。b、統(tǒng)計(jì)決策
方差齊性檢驗(yàn)結(jié)果,P值>0。05,方差齊,否則,方差不齊;
單因素方差分析表,P值>α,接受H0,都則,拒絕H0,接受H1。
2.多因素方差分析
多因素方差分析是對(duì)一個(gè)獨(dú)立變量是否受一個(gè)或多個(gè)因素或變量影響而進(jìn)行的方差分析。它不僅能夠分析多個(gè)因素對(duì)觀測(cè)變量的獨(dú)立影響,更能夠分析多個(gè)因素的交互作用能否對(duì)觀測(cè)變量產(chǎn)生顯著影響。(2)基本原理
由于多因素方差分析中觀察變量不僅要受到多個(gè)因素獨(dú)立作用的影響,而且因素其交互作用和一些隨機(jī)因素都會(huì)對(duì)變量產(chǎn)生影響。因此觀測(cè)變量值的波動(dòng)要受到多個(gè)控制變量獨(dú)立作用、控制變量交互作用及隨機(jī)因素等三方面的影響。以兩個(gè)因素為例,可以表示為:
Q總=Q控1+Q控2+Q控1控2+Q隨其中,Q表示各部分對(duì)應(yīng)的離差平方和。多因素方差分析比較
Q
控
1、Q 控
2、Q 控 1 控
Q
隨
占 Q
總 的比例,以此推斷不同因素以及因素之間的交互作用
2、是否給觀測(cè)變量帶來(lái)顯著影響。
(3)基本術(shù)語(yǔ)
a、Dependent Variable 觀測(cè)變量或因變量 主要指研究中的定量變量
如:移動(dòng)話費(fèi)、學(xué)生成績(jī)、銷售量、畝產(chǎn)量等
b、Fixed Factor 固定效應(yīng)因素,固定因素,控制因素
主要指研究中的定性變量
如:資費(fèi)等級(jí)、客戶類型、漫游類型、促銷策略等 c、Random Factor 隨機(jī)效應(yīng)因素、隨機(jī)因素
人為無(wú)法對(duì)其水平值進(jìn)行準(zhǔn)確控制,只是能夠直觀觀測(cè)到
如:話費(fèi)水平、收入水平、消費(fèi)習(xí)慣等
d、Interaction 交互作用、交互效應(yīng)
如果一個(gè)因素的效應(yīng)大小在另一個(gè)因素不同水平下明顯不同,則稱為兩因素間存在交互作用。
當(dāng)存在交互作用時(shí),單純研究某個(gè)因素的作用是沒(méi)有意義的,必須分另一個(gè)因素的不同水平研究該因素的作用大小。例如:飲食習(xí)慣、適量運(yùn)動(dòng)對(duì)減肥的作用; e、main effect 與交互效應(yīng)相對(duì)應(yīng)的
主效應(yīng)就是每個(gè)因素對(duì)因變量的單獨(dú)影響(main effect)f、Covariates 協(xié)變量
指對(duì)應(yīng)變量可能有影響,需要在分析時(shí)對(duì)其作用加以控制的連續(xù)性定量變量 當(dāng)模型中存在協(xié)變量時(shí),一般是通過(guò)找出它與因變量的回歸關(guān)系來(lái)控制其影響(3)應(yīng)用條件
等方差;
各樣本的獨(dú)立性:只有各樣本為相互獨(dú)立的隨機(jī)樣本,才能保證變異的可加性(可分解性);
正態(tài)性:即所有觀察值系從正態(tài)總體中抽樣得出;(4)基本步驟
提出假設(shè)
H0:因素A中的r個(gè)水平的均值相等(因素A 對(duì)因變量無(wú)顯著性影響)H1:因素A中的r個(gè)水平的均值不全相等(因素A 對(duì)因變量有顯著性影響)統(tǒng)計(jì)決斷 P值檢驗(yàn)法
依次查看各F值的P值,p-值<α,應(yīng)拒絕原假設(shè); 如果其P值大于顯著性水平,則不能拒絕H0,可以認(rèn)為相應(yīng)不同水平的控制變量或交互影響沒(méi)有造成均值的顯著差異;
第6章
非參數(shù)檢驗(yàn)
非參數(shù)檢驗(yàn)(nonparametric test),又稱為任意分布檢驗(yàn)(distribution-free test); 不依賴于總體的分布類型,對(duì)樣本所來(lái)自總體的分布不作嚴(yán)格假定的統(tǒng)計(jì)推斷方法,稱為非參數(shù)檢驗(yàn)(nonparametric test)
它不考慮研究對(duì)象總體分布的具體形式,也不對(duì)總體參數(shù)進(jìn)行統(tǒng)計(jì)推斷;
而是通過(guò)檢驗(yàn)樣本所代表的總體分布位置及分布形狀是否一致來(lái)得出統(tǒng)計(jì)結(jié)論。特點(diǎn)
參數(shù)檢驗(yàn)條件不滿足時(shí)的處理方法
不對(duì)均數(shù)等參數(shù)檢驗(yàn),而是檢驗(yàn)分布是否相同
在總體分布未知的情況下,利用樣本數(shù)據(jù)對(duì)總體的分布形態(tài)進(jìn)行推斷。非參數(shù)檢驗(yàn)的著眼點(diǎn)不是總體參數(shù),而是總體的分布情況 非參數(shù)檢驗(yàn)研究目標(biāo)總體的分布是否與已知理論分布相同 非參數(shù)檢驗(yàn)研究各樣本所在總體的分布位置,形狀是否相同 優(yōu)點(diǎn)
第一,具有較好的穩(wěn)健性;
第二,受限條件少:對(duì)數(shù)據(jù)要求不像參數(shù)檢驗(yàn)?zāi)菢訃?yán)格
第三,適用范圍廣:可應(yīng)用于各種不同的情況,不受總體分布形狀的限制,適合處理無(wú)法精確數(shù)量化的定性數(shù)據(jù)和小樣本數(shù)據(jù) 第四,計(jì)算通常較簡(jiǎn)單,且容易理解 缺點(diǎn)
第一,將定量數(shù)據(jù)轉(zhuǎn)換為定性數(shù)據(jù)時(shí),漏失了數(shù)據(jù)的一些信息
第二,檢驗(yàn)的敏感度和效果,均不如參數(shù)檢驗(yàn)好。檢驗(yàn)效率低于參數(shù)檢驗(yàn),主要是犯第二類錯(cuò)誤的可能性加大。
第三,參數(shù)檢驗(yàn)適用的數(shù)據(jù),非參數(shù)方法會(huì)降低檢驗(yàn)效能;當(dāng)數(shù)據(jù)滿足參數(shù)檢驗(yàn)條件時(shí),效能低于參數(shù)法,不滿足參數(shù)法條件時(shí),處于“優(yōu)勢(shì)” 非參數(shù)檢驗(yàn)的應(yīng)用場(chǎng)合
定量數(shù)據(jù),不滿足參數(shù)檢驗(yàn)的條件,且無(wú)適當(dāng)?shù)淖兞孔儞Q方法解決此問(wèn)題; 定量數(shù)據(jù),其分布類型無(wú)法獲知,且為小樣本; 定量數(shù)據(jù),極度偏態(tài),或個(gè)別數(shù)值偏離過(guò)大; 各組離散度相差懸殊
一端或兩端存在不確定數(shù)值的定量數(shù)據(jù)
定序數(shù)據(jù),比較各組間等級(jí)強(qiáng)度的差別; 非參數(shù)檢驗(yàn)的主要方法 單個(gè)樣本的非參數(shù)檢驗(yàn)
卡方檢驗(yàn)(Chi-Square過(guò)程)
二項(xiàng)檢驗(yàn)(Binomial過(guò)程)
游程檢驗(yàn)(Runs過(guò)程)
柯?tīng)柲缏宸颉姑字Z夫檢驗(yàn)(l-Sample K-S過(guò)程)兩個(gè)獨(dú)立樣本的非參數(shù)檢驗(yàn) 多個(gè)獨(dú)立樣本的非參數(shù)檢驗(yàn) 兩個(gè)配對(duì)樣本的非參數(shù)檢驗(yàn) 多個(gè)配對(duì)樣本的非參數(shù)檢驗(yàn) 順序統(tǒng)計(jì)量
通過(guò)對(duì)數(shù)據(jù)從小到大的排序(即排隊(duì)),并由數(shù)據(jù)的大小排序號(hào)(排隊(duì)號(hào))代替原始數(shù)據(jù)進(jìn)行統(tǒng)計(jì)分析。
秩(Rank):排序號(hào)(排隊(duì)號(hào))在統(tǒng)計(jì)學(xué)上稱為秩
結(jié)(ties):絕對(duì)值相等稱為結(jié),又稱同秩,則取平均秩次。
一般來(lái)說(shuō),秩就是該組數(shù)據(jù)按照升序排列之后,每個(gè)數(shù)據(jù)的位置。
1.單個(gè)樣本的非參數(shù)檢驗(yàn) 卡方檢驗(yàn)(Chi-Square過(guò)程)
用卡方檢驗(yàn)來(lái)檢驗(yàn)定性變量的幾個(gè)取值(分類數(shù)據(jù),或類別)所占比例是否和理論的比例沒(méi)有統(tǒng)計(jì)學(xué)差異。檢驗(yàn)分類變量的分布
適合于定性數(shù)據(jù)及頻數(shù)資料的分析
要求樣本足夠大,要求樣本容量一般大于50; 應(yīng)用領(lǐng)域
如病人經(jīng)治療后治愈、好轉(zhuǎn)、有效和無(wú)效的人數(shù)總的說(shuō)來(lái)是否相同(實(shí)為治愈、好轉(zhuǎn)、有效和無(wú)效的概率或機(jī)會(huì)是否相同)成績(jī)優(yōu)、良、中、差的學(xué)生人數(shù)是否相同 贊同某種觀點(diǎn)的人數(shù)是否達(dá)到80%,等等。
比如在人群中抽取了一個(gè)樣本,可以用該方法來(lái)分析四種血型所占的比例是否相同(都是25%),或者是否符合我們所給出的一個(gè)比例(如分別為10%、30%、40%和20%)。Chi-Square檢驗(yàn)的基本思路
先按照已知總體的構(gòu)成比例分布,計(jì)算出樣本中定性數(shù)據(jù)(即各類別)的期望頻數(shù)然后求出觀測(cè)頻數(shù)和期望頻數(shù)的差值,最后計(jì)算出卡方統(tǒng)計(jì)量 利用卡方分布求出P值,假設(shè)檢驗(yàn)的H0是樣本中某指標(biāo)的比例與已知比例一致 得出檢驗(yàn)結(jié)論
2.二項(xiàng)檢驗(yàn)(Binomial過(guò)程)檢驗(yàn)二項(xiàng)分類變量分布
用于檢測(cè)所給的變量是否符合二項(xiàng)分布,變量可以是兩分類的,也可以使連續(xù)性變量,然后按你給出的分界點(diǎn)一刀兩斷。
Binomial過(guò)程對(duì)二項(xiàng)分類變量的單個(gè)樣本作檢驗(yàn),推斷總體中兩個(gè)分類數(shù)據(jù)的比例是否分別為π和(1-π)應(yīng)用領(lǐng)域
射擊時(shí),擊中與未擊中;學(xué)生成績(jī),及格與不及格;疾病診斷,陰性與陽(yáng)性;硬幣,正面與反面;人群性別,男和女;產(chǎn)品質(zhì)量,合格和不合格 定量數(shù)據(jù)、符號(hào)檢驗(yàn)(SING TEST)與Binomial過(guò)程
定量數(shù)據(jù):大樣本;或小樣本,總體服從正態(tài)分布,總體方差已知; 參數(shù)檢驗(yàn):?jiǎn)蝹€(gè)樣本的均值檢驗(yàn)
定量數(shù)據(jù),不滿足參數(shù)檢驗(yàn)的條件,且無(wú)適當(dāng)?shù)淖兞孔儞Q方法解決此問(wèn)題;
極度偏態(tài),或個(gè)別數(shù)值偏離過(guò)大;
一端或兩端存在不確定數(shù)值
3.游程檢驗(yàn)(Runs過(guò)程)
Runs過(guò)程借助樣本序列的順序推斷總體序列的順序是否是隨機(jī)的,屬隨機(jī)性檢驗(yàn) 二分類數(shù)據(jù)和定量數(shù)據(jù)(連續(xù)數(shù)據(jù))均可
對(duì)于一個(gè)取兩個(gè)值的分類變量,游程檢驗(yàn)方法是檢驗(yàn)這兩個(gè)值的出現(xiàn)是否是隨機(jī)的。游程檢驗(yàn)還可以用于某個(gè)連續(xù)變量的取值小于某個(gè)值及大于該值的個(gè)數(shù)(類似于0和1的個(gè)數(shù))是否隨機(jī)的問(wèn)題 游程檢驗(yàn)的作用
1、檢驗(yàn)總體分布是否相同
將從兩個(gè)總體中獨(dú)立抽取的兩個(gè)樣本的觀察值混合后,觀察游程個(gè)數(shù),進(jìn)行比較。
2、檢驗(yàn)樣本的隨機(jī)性
將取自某一總體的樣本的觀察值按從小到大順序排列,找出中位數(shù),分為大于中位數(shù)的小于中位數(shù)的兩個(gè)部分。用上下交錯(cuò)形成的游程個(gè)數(shù)來(lái)檢驗(yàn)樣本是否是隨機(jī)的。應(yīng)用范圍
生產(chǎn)過(guò)程是否需要調(diào)整,即不合格產(chǎn)品是否隨機(jī)產(chǎn)生; 獎(jiǎng)券的購(gòu)買是否隨機(jī);
期貨價(jià)格的變化是否隨機(jī)等等。
若事物的發(fā)生并非隨機(jī),即有某種規(guī)律,則往往可尋找規(guī)律,建立相應(yīng)模型,進(jìn)行分析,作出適宜的決策。
當(dāng)樣本按某種順序排列(如按抽取時(shí)間先后排列)時(shí),一個(gè)或者一個(gè)以上相同符號(hào)連續(xù)出現(xiàn)的段,就被稱作游程 ;
4.(l-Sample K-S過(guò)程)
柯?tīng)柲Z夫-斯米爾諾夫檢驗(yàn),考察某個(gè)連續(xù)性變量是否符合理論分布 利用樣本數(shù)據(jù)推斷總體是否服從某種分布
可以檢驗(yàn)的分布有正態(tài)分布、均勻分布、Poission分布和指數(shù)分布。數(shù)據(jù)要求:定量數(shù)據(jù),Scale
5。
獨(dú)立樣本的非參數(shù)檢
檢驗(yàn)兩個(gè)或多個(gè)獨(dú)立樣本所在總體是否相同
在不了解總體分布的情況下,通過(guò)分析樣本數(shù)據(jù)均值或中位數(shù)的差異,推斷樣本來(lái)自的兩/多個(gè)獨(dú)立總體的分布存在的顯著性差異。Independent Samples過(guò)程:主要用于檢驗(yàn)兩個(gè)獨(dú)立樣本所在總體分布是否相同 K Independent Samples過(guò)程:主要用于檢驗(yàn)多個(gè)獨(dú)立樣本所在總體分布是否相同 界面上基本相同
(1)兩個(gè)獨(dú)立樣本的非參數(shù)檢驗(yàn)
含義:由樣本數(shù)據(jù),推斷兩個(gè)獨(dú)立總體的分布是否存在顯著差異(或兩樣本是否來(lái)自同一總體)分析對(duì)象:定量數(shù)據(jù)或定序數(shù)據(jù) 對(duì)分布的形狀不加考慮
分布形狀相同或類似的兩個(gè)總體分布位置比較,可以簡(jiǎn)化地理解為兩總體中位數(shù)的比較 應(yīng)用范圍
兩種訓(xùn)練方法中哪一種更出成績(jī) 兩種汽 油中哪一個(gè)污染更少 兩種市場(chǎng)營(yíng)銷策略中那種更有效
與獨(dú)立樣本t檢驗(yàn)的區(qū)別
對(duì)于定量數(shù)據(jù),如果方差相等,且服從正態(tài)分布
兩個(gè)獨(dú)立樣本的非參數(shù)檢驗(yàn)的過(guò)程
定序數(shù)據(jù);對(duì)于定量數(shù)據(jù),不滿足兩個(gè)獨(dú)立樣本t檢驗(yàn)的條件
曼-惠特尼U檢驗(yàn)(Mann-Whitney U)
為檢驗(yàn)兩總體的中位數(shù)是否相等,常用Mann-Whitney U 檢驗(yàn),或稱Wilcoxon秩和檢驗(yàn)(Wilcoxon rank sum test);
這兩種方法是獨(dú)立提出的,檢驗(yàn)結(jié)果完全等價(jià)的; 分析步驟
建立檢驗(yàn)假設(shè),確定顯著性水平α :
H0:兩個(gè)總體的分布位置相同,即高中生和大學(xué)生的每周平均上網(wǎng)時(shí)間的總體分布相同;
H1:兩個(gè)總體的分布位置不同,即高中生和大學(xué)生的每周平均上網(wǎng)時(shí)間的總體分布不同。或:
H0:M1=M2;
H1:M1>M2
2、編秩,將兩組數(shù)據(jù)由小到大統(tǒng)一編秩,編秩時(shí)如遇有相同數(shù)據(jù),取平均秩次。
3、求秩和,兩組秩次分別相加。
4、確定統(tǒng)計(jì)量
若兩組樣本容量相等,則任取一組的秩和為統(tǒng)計(jì)量;
若兩組樣本容量不等,則以樣本樣本容量較小者對(duì)應(yīng)的秩和為統(tǒng)計(jì)量。
5、查表確定P值,作出推斷結(jié)論。若P>α,不能拒絕原假設(shè)。
若則P<α,拒絕原假設(shè),認(rèn)為兩總體的分布不相同。
(2)多獨(dú)立樣本非參數(shù)檢驗(yàn)
對(duì)三個(gè)或三個(gè)以上的總體的均值是否相等進(jìn)行檢驗(yàn),使用的方法是單因素方差分析 ; 單因素方差分析過(guò)程需要假定條件,F(xiàn)檢驗(yàn)才有效; 有時(shí)候所采集的數(shù)據(jù)常常不能滿足這些條件,K Independent Samples過(guò)程 K Independent Samples過(guò)程
含義:由樣本數(shù)據(jù),推斷多個(gè)獨(dú)立總體的分布是否存在顯著差異(或多個(gè)樣本是否來(lái)自同一總體)分析對(duì)象:定量數(shù)據(jù)或定序數(shù)據(jù) 對(duì)分布的形狀不加考慮
分布形狀相同或類似的多個(gè)總體分布位置比較,可以簡(jiǎn)化地理解為多個(gè)總體中位數(shù)的比較。應(yīng)用范圍
各城市兒童身高分布一致嗎?
不同收入的居民存(取)款金額分布一致嗎?
電信公司人力資源部門(mén)比較3所大學(xué)雇員的管理業(yè)績(jī)是否存在差異? 檢驗(yàn)方法
Kruskal-Wallis H :克魯斯卡爾-沃利斯單因素方差分析最常用,原理同Wilcoxon檢驗(yàn) 多個(gè)樣本間的兩兩比較 多組獨(dú)立樣本;
每組5個(gè)觀察值,樣本量小,分布類型未知;
考慮采用秩轉(zhuǎn)換的非參數(shù)檢驗(yàn)方法——Kruskal-Wallis秩和檢驗(yàn)。
(3)兩/多個(gè)配對(duì)樣本非參數(shù)檢驗(yàn)
檢驗(yàn)兩個(gè)或多個(gè)配對(duì)樣本所在總體位置是否相同
在不了解總體分布的情況下,通過(guò)分析兩/多個(gè)配對(duì)樣本,推斷樣本來(lái)自的兩/多個(gè)總體的分布是否存在顯著性差異。Related Samples過(guò)程:主要用于檢驗(yàn)兩個(gè)配對(duì)樣本所在總體分布是否相同 K Related Samples過(guò)程:主要用于檢驗(yàn)多個(gè)配對(duì)樣本所在總體分布是否相同 界面上基本相同
兩個(gè)配對(duì)樣本的非參數(shù)檢驗(yàn)
含義:由樣本數(shù)據(jù)推斷兩配對(duì)總體分布是否存在顯著差異。數(shù)據(jù)要求
兩組配對(duì)的樣本數(shù)據(jù);
兩組數(shù)據(jù)的樣本容量相同,先后次序不能任意改變,一一對(duì)應(yīng); 統(tǒng)計(jì)分析步驟
提出基本假設(shè)
H0:兩配對(duì)總體分布無(wú)顯著差異 H1:兩配對(duì)總體分布有顯著差異 統(tǒng)計(jì)決斷
P值>α,不能拒絕原假設(shè)
P值<α,拒絕原假設(shè)
多個(gè)配對(duì)樣本非參數(shù)檢驗(yàn)
含義:由樣本數(shù)據(jù)推斷多個(gè)配對(duì)總體分布是否存在顯著差異。
數(shù)據(jù)要求:多組配對(duì)的樣本數(shù)據(jù),多組數(shù)據(jù)的樣本容量相同,先后次序不能任意改變,一一對(duì)應(yīng); 應(yīng)用范圍
三種促銷形式的銷售額分布一致嗎? 收集乘客對(duì)多家航空公司是否滿意的數(shù)據(jù),分析航空公司的服務(wù)水平是否存在顯著差異 評(píng)委打分一致嗎? 三種檢驗(yàn)方法
Friedman M檢驗(yàn):最常用
Kendall W檢驗(yàn) :和諧系數(shù)檢驗(yàn)
Cochran Q:要求樣本數(shù)據(jù)為二分類數(shù)據(jù)(1-滿意
0-不滿意)檢驗(yàn)方法的選擇
1)單個(gè)樣本:若來(lái)自正態(tài)總體,可用t檢驗(yàn),若來(lái)自非正態(tài)總體或總體分布無(wú)法確定,可用二項(xiàng)檢驗(yàn)(二項(xiàng)檢驗(yàn))2)配對(duì)樣本:
二分類變量,可用McNemar檢驗(yàn);
連續(xù)型變量,若來(lái)自正態(tài)總體,可用配對(duì)t檢驗(yàn),否則可用Wilcoxon符號(hào)秩和檢驗(yàn)。
3)兩組獨(dú)立樣本:連續(xù)型變量,若來(lái)自正態(tài)總體,可用t檢驗(yàn),否則,可用 Wilcoxon秩和檢驗(yàn);
二分類變量或無(wú)序多分類變量,可用卡方檢驗(yàn);
有序多分類變量,宜用Wilcoxon秩和檢驗(yàn)。4)多組獨(dú)立樣本
連續(xù)型變量值,來(lái)自正態(tài)總體且方差相等,可用方差分析;否則,進(jìn)行數(shù)據(jù)變換使其滿足正態(tài)性或方差齊的要求后,采用方差分析;數(shù)據(jù)變換仍不能滿足條件時(shí),可用Kruskal-Wallis秩和檢驗(yàn)。
二分類變量或無(wú)序多分類變量,可用卡方檢驗(yàn)。
有序多分類變量宜用Kruskal-Wallis秩和檢驗(yàn)。
第7章 相關(guān)分析 概念
相關(guān)關(guān)系反映出變量之間雖然相互影響,具有依存關(guān)系,但彼此之間是不能一一對(duì)應(yīng)的。例如,學(xué)生成績(jī)與其智力因素、各科學(xué)習(xí)成績(jī)之間的關(guān)系、教育投資額與經(jīng)濟(jì)發(fā)展水平的關(guān)系、社會(huì)環(huán)境與人民健康的關(guān)系等等,都反映出客觀現(xiàn)象中存在的相關(guān)關(guān)系。相關(guān)關(guān)系的類型
1)根據(jù)相關(guān)程度的不同,相關(guān)關(guān)系可分為完全相關(guān)、不完全相關(guān)和無(wú)相關(guān)。2)根據(jù)變量值變動(dòng)方向的趨勢(shì),相關(guān)關(guān)系可分為正相關(guān)和負(fù)相關(guān)。3)根據(jù)變量關(guān)系的形態(tài),相關(guān)關(guān)系可分為直線相關(guān)和曲線相關(guān)。4)根據(jù)研究變量的多少,可分為單相關(guān)、復(fù)相關(guān)。相關(guān)分析的作用
1)判斷變量之間有無(wú)聯(lián)系
2)確定選擇相關(guān)關(guān)系的表現(xiàn)形式及相關(guān)分析方法 3)把握相關(guān)關(guān)系的方向與密切程度
4)相關(guān)分析不但可以描述變量之間的關(guān)系狀況,而且用來(lái)進(jìn)行預(yù)測(cè)。5)相關(guān)分析還可以用來(lái)評(píng)價(jià)測(cè)量量具的信度、效度以及項(xiàng)目的區(qū)分度等 相關(guān)系數(shù)
相關(guān)系數(shù)是在直線相關(guān)條件下,說(shuō)明兩個(gè)變量之間相關(guān)程度以及相關(guān)方向的統(tǒng)計(jì)分析指標(biāo)。相關(guān)系數(shù)一般可以通過(guò)計(jì)算得到。作為樣本相關(guān)系數(shù),常用字母r表示;作為總體相關(guān)系數(shù),常用字母ρ表示。相關(guān)系數(shù)的數(shù)值范圍是介于–1與 +1之間(即–1≤ r ≤1),常用小數(shù)形式表示,一般要取小數(shù)點(diǎn)后兩位數(shù)字來(lái)表示,以便比較精確地描述其相關(guān)程度。
兩個(gè)變量之間的相關(guān)程度用相關(guān)系數(shù)r的絕對(duì)值表示,其絕對(duì)值越接近1,表明兩個(gè)變量的相關(guān)程度越高;其絕對(duì)值越接近于0,表明兩個(gè)變量相關(guān)程度越低。如果其絕對(duì)值等于零1,則表示兩個(gè)變量完全直線相關(guān)。如果其絕對(duì)值為零,則表示兩個(gè)變量完全不相關(guān)(不是直線相關(guān))。
相關(guān)系數(shù)的注意事項(xiàng)
1)相關(guān)系數(shù)只是一個(gè)比率值,并不具備與相關(guān)變量相同的測(cè)量單位。2)相關(guān)系數(shù)r 受變量取值區(qū)間大小及樣本數(shù)目多少的影響比較大。
3)來(lái)自于不同群體且不同質(zhì)的事物的相關(guān)系數(shù)不能進(jìn)行比較。4)對(duì)于不同類型的數(shù)據(jù),計(jì)算相關(guān)系數(shù)的方法也不相同
1.簡(jiǎn)單相關(guān)分析的基本原理
簡(jiǎn)單相關(guān)分析是研究?jī)蓚€(gè)變量之間關(guān)聯(lián)程度的統(tǒng)計(jì)方法。它主要是通過(guò)計(jì)算簡(jiǎn)單相關(guān)系數(shù)來(lái)反映變量之間關(guān)系的強(qiáng)弱。一般它有圖形(散點(diǎn)圖)和數(shù)值(一方面應(yīng)觀察相關(guān)系數(shù)的大小,另一方面,應(yīng)觀察概率P值,其原假設(shè)為**不相關(guān))兩種表示方式。簡(jiǎn)單相關(guān)系數(shù)
1)皮爾遜(Pearson)相關(guān)系數(shù)
常稱為積差相關(guān)系數(shù),適用于研究連續(xù)變量之間的相關(guān)程度。例如,收入和儲(chǔ)蓄存款、身高和體重等變量間的線性相關(guān)關(guān)系。注意Pearson相關(guān)系數(shù)適用于線性相關(guān)的情形,對(duì)于曲線相關(guān)等更為復(fù)雜的情形,系數(shù)的大小并不能代表其相關(guān)性的強(qiáng)弱。2)Spearman等級(jí)相關(guān)系
Spearman等級(jí)相關(guān)系數(shù)是用來(lái)度量順序水準(zhǔn)變量間的線性相關(guān)關(guān)系。它是利用兩變量的秩次大小作線性相關(guān)分析,適用條件為:
① 兩個(gè)變量的變量值是以等級(jí)次序表示的資料;
②
一個(gè)變量的變量值是等級(jí)數(shù)據(jù),另一個(gè)變量的變量值是等距或比率數(shù)據(jù),且其兩總體不要求是正態(tài)分布,樣本容量n不一定大于30。
從斯皮爾曼等級(jí)相關(guān)適用條件中可以看出,等級(jí)相關(guān)的應(yīng)用范圍要比積差相關(guān)廣泛,它的突出優(yōu)點(diǎn)是對(duì)數(shù)據(jù)的總體分布、樣本大小都不做要求。但缺點(diǎn)是計(jì)算精度不高。3)Kendall’s等級(jí)相關(guān)系數(shù)
它是用于反映分類變量相關(guān)性的指標(biāo),適用于兩個(gè)變量均為有序分類的情況。這種指標(biāo)采用非參數(shù)檢驗(yàn)方法測(cè)度變量間的相關(guān)關(guān)系。它利用變量的秩計(jì)算一致對(duì)數(shù)目和非一致對(duì)數(shù)目。
2.偏相關(guān)分析的基本原理
方法概述
簡(jiǎn)單相關(guān)分析計(jì)算兩個(gè)變量之間的相互關(guān)系,分析兩個(gè)變量間線性關(guān)系的程度。但是現(xiàn)實(shí)中,事物之間的聯(lián)系可能存在于多個(gè)主體之間,因此往往因?yàn)榈谌齻€(gè)變量的作用使得相關(guān)系數(shù)不能真實(shí)地反映兩個(gè)變量間的線性相關(guān)程度?;驹?/p>
偏相關(guān)分析是在相關(guān)分析的基礎(chǔ)上考慮了兩個(gè)因素以外的各種作用,或者說(shuō)在扣除了其他因素的作用大小以后,重新來(lái)測(cè)度這兩個(gè)因素間的關(guān)聯(lián)程度。這種方法的目的就在于消除其他變量關(guān)聯(lián)性的傳遞效應(yīng)。3.距離分析的基本原理
簡(jiǎn)單相關(guān)分析和偏相關(guān)分析有一個(gè)共同點(diǎn),那就是對(duì)所分析的數(shù)據(jù)背景應(yīng)當(dāng)有一定程度的了解。但在實(shí)際中有時(shí)會(huì)遇到一種情況,在分析前對(duì)數(shù)據(jù)所代表的專業(yè)背景知識(shí)尚不充分,本身就屬于探索性的研究。這時(shí)就需要先對(duì)各個(gè)指標(biāo)或者案例的差異性、相似程度進(jìn)行考察,以先對(duì)數(shù)據(jù)有一個(gè)初步了解,然后再根據(jù)結(jié)果考慮如何進(jìn)行深入分析。
距離分析是對(duì)觀測(cè)量之間或變量之間相似或不相似的程度的一種測(cè)度,是計(jì)算一對(duì)變量之間或一對(duì)觀測(cè)量之間的廣義的距離。根據(jù)變量的不同類型,可以有許多距離、相似程度測(cè)量指標(biāo)供用戶選擇。但由于本模塊只是一個(gè)預(yù)分析過(guò)程,因此距離分析并不會(huì)給出常用的P值,而只能給出各變量/記錄間的距離大小,以供用戶自行判斷相似性。
第8章 SPSS的回歸分析 1。一元線性回歸 方法概述
線性回歸模型側(cè)重考察變量之間的數(shù)量變化規(guī)律,并通過(guò)線性表達(dá)式,即線性回歸方程,來(lái)描述其關(guān)系,進(jìn)而確定一個(gè)或幾個(gè)變量的變化對(duì)另一個(gè)變量的影響程度,為預(yù)測(cè)提供科學(xué)依據(jù)。
一般線性回歸的基本步驟如下。
① 確定回歸方程中的自變量和因變量。
② 從收集到的樣本數(shù)據(jù)出發(fā)確定自變量和因變量之間的數(shù)學(xué)關(guān)系式,即確定回歸方程。
③ 建立回歸方程,在一定統(tǒng)計(jì)擬合準(zhǔn)則下,估計(jì)出模型中的各個(gè)參數(shù),得到一個(gè)確定的回歸方程。
④ 對(duì)回歸方程進(jìn)行各種統(tǒng)計(jì)檢驗(yàn)。
⑤ 利用回歸方程進(jìn)行預(yù)測(cè)。
注:一元線性回歸的經(jīng)驗(yàn)?zāi)P褪牵篩=β0+β1X 統(tǒng)計(jì)檢驗(yàn)
在求解出了回歸模型的參數(shù)后,一般不能立即將結(jié)果付諸于實(shí)際問(wèn)題的分析和預(yù)測(cè),通常要進(jìn)行各種統(tǒng)計(jì)檢驗(yàn),例如擬合優(yōu)度檢驗(yàn)、回歸方程和回歸系數(shù)的顯著性檢驗(yàn)和殘差分析等。
1)輸出結(jié)果的模型摘要
其實(shí)就是對(duì)方程擬合情況的描述。通過(guò)這張表可以知道相關(guān)系數(shù)的取值(R),相關(guān)系數(shù)的平方即可決系數(shù)(R Square),校正后的可決系數(shù)(adjusted R Square)和回歸系數(shù)的標(biāo)準(zhǔn)誤(Std。Error of the Estimate)。注意這里的相關(guān)系數(shù)大小和前面相關(guān)分析中計(jì)算出的結(jié)果完全相同??蓻Q系數(shù)R Square的取值介于0和1之間,它的含義就是自變量所能解釋的方差在總方差中所占的百分比,取值越大說(shuō)明模型的效果越好。
2)輸出結(jié)果中的方差分析表
它是回歸模型顯著性檢驗(yàn)的結(jié)果,所用方法為F檢驗(yàn),其零假設(shè)為原方程無(wú)效,通過(guò)P值來(lái)判斷原方程是否有效。3)輸出結(jié)果中的回歸系數(shù)表
應(yīng)特別關(guān)注回歸系數(shù)β1 的T檢驗(yàn),它的零假設(shè)為β1 =0,通過(guò)P值來(lái)判斷β1 是否有實(shí)際意義。
2.多元線性回歸
在回歸分析中,如果有兩個(gè)或兩個(gè)以上的自變量,就稱為多元回歸。
其基本步驟與一元回歸幾乎一致,只是在輸出結(jié)果的模型摘要中通過(guò)觀察調(diào)整R2 來(lái)判斷方程的擬合情況,另外,同樣可通過(guò)折線圖來(lái)觀察模型擬合效果。
3.曲線擬合
實(shí)際中,變量之間的關(guān)系往往不是簡(jiǎn)單的線性關(guān)系,而呈現(xiàn)為某種曲線或非線性的關(guān)系。此時(shí),就要選擇相應(yīng)的曲線去反映實(shí)際變量的變動(dòng)情況。為了決定選擇的曲線類型,常用的方法是根據(jù)數(shù)據(jù)資料繪制出散點(diǎn)圖,通過(guò)圖形的變化趨勢(shì)特征并結(jié)合專業(yè)知識(shí)和經(jīng)驗(yàn)分析來(lái)確定曲線的類型,即變量之間的函數(shù)關(guān)系。
在確定了變量間的函數(shù)關(guān)系后,需要估計(jì)函數(shù)關(guān)系中的未知參數(shù),并對(duì)擬合效果進(jìn)行顯著性檢驗(yàn)。雖然這里選擇的是曲線方程,在方程形式上是非線性的,但可以采用變量變換的方法將這些曲線方程轉(zhuǎn)化為線性方程來(lái)估計(jì)參數(shù)。
在選擇模型的時(shí)候可以結(jié)合專業(yè)知識(shí)多選幾種,如同時(shí)選擇“指數(shù)分布”、“逆模型”和“冪函數(shù)”,然后在模型匯總中比較R2 的大小,選擇最大的一個(gè),同時(shí),注意觀察各自的P值,其原假設(shè)為其模型無(wú)統(tǒng)計(jì)學(xué)意義。
4.非線性回歸分析
非線性回歸分析是探討因變量和一組自變量之間的非線性相關(guān)模型的統(tǒng)計(jì)方法。線性回歸模型要求變量之間必須是線性關(guān)系,曲線估計(jì)只能處理能夠通過(guò)變量變換化為線性關(guān)系的非線性問(wèn)題,因此這些方法都有一定的局限性。相反的,非線性回歸可以估計(jì)因變量和自變量之間具有任意關(guān)系的模型,用戶根據(jù)自身需要可隨意設(shè)定估計(jì)方程的具體形式。通過(guò)散點(diǎn)圖觀察,如果自變量和應(yīng)變量不能通過(guò)線性回歸或區(qū)縣估計(jì)來(lái)實(shí)現(xiàn),則可以在SPSS通過(guò)【分析】-【回歸】-【非線性】來(lái)實(shí)現(xiàn)。
以下是SPSS處理問(wèn)卷的總結(jié)
當(dāng)我們的調(diào)查問(wèn)卷在把調(diào)查數(shù)據(jù)拿回來(lái)后,我們?cè)撟龅墓ぷ骶褪怯孟嚓P(guān)的統(tǒng)計(jì)軟件進(jìn)行處理,在此,我們以SPSS為處理軟件,來(lái)簡(jiǎn)要說(shuō)明一下問(wèn)卷的處理過(guò)程,它的過(guò)程大致可分為四個(gè)過(guò)程:定義變量﹑數(shù)據(jù)錄入﹑統(tǒng)計(jì)分析和結(jié)果保存。下面將從這四個(gè)方面來(lái)對(duì)問(wèn)卷的處理做詳細(xì)的介紹。
SPSS處理:
第一步:定義變量
大多數(shù)情況下我們需要從頭定義變量,在打開(kāi)SPSS后,我們可以看到和excel相似的界面,在界面的左下方可以看到Data View,Variable View兩個(gè)標(biāo)簽,只需單擊左下方的Variable View標(biāo)簽就可以切換到變量定義界面開(kāi)始定義新變量。在表格上方可以看到一個(gè)變量要設(shè)置如下幾項(xiàng):name(變量名)、type(變量類型)、width(變量值的寬度)、decimals(小數(shù)位)、label(變量標(biāo)簽)、Values(定義具體變量值的標(biāo)簽)、Missing(定義變量缺失值)、Colomns(定義顯示列寬)、Align(定義顯示對(duì)齊方式)、Measure(定義變量類型是連續(xù)、有序分類還是無(wú)序分類)。
我們知道在SPSS中,我們可以把一份問(wèn)卷上面的每一個(gè)問(wèn)題設(shè)為一個(gè)變量,這樣一份問(wèn)卷有多少個(gè)問(wèn)題就要有多少個(gè)變量與之對(duì)應(yīng),每一個(gè)問(wèn)題的答案即為變量的取值?,F(xiàn)在我們以問(wèn)卷第一個(gè)問(wèn)題為例來(lái)說(shuō)明變量的設(shè)置。為了便于說(shuō)明,可假設(shè)此題為:
1。請(qǐng)問(wèn)你的年齡屬于下面哪一個(gè)年齡段()? A:20—29 B:30—39 C:40—49 D:50--59 那么我們的變量設(shè)置可如下: name即變量名為1,type即類型可根據(jù)答案的類型設(shè)置,答案我們可以用1、2、3、4來(lái)代替A、B、C、D,所以我們選擇數(shù)字型的,即選擇Numeric,width寬度為4,decimals即小數(shù)位數(shù)位為0(因?yàn)榇鸢笡](méi)有小數(shù)點(diǎn)),label即變量標(biāo)簽為“年齡段查詢”。Values用于定義具體變量值的標(biāo)簽,單擊Value框右半部的省略號(hào),會(huì)彈出變量值標(biāo)簽對(duì)話框,在第一個(gè)文本框里輸入1,第二個(gè)輸入20—29,然后單擊添加即可。同樣道理我們可做如下設(shè)置,即1=20—
29、2=30—
39、3=40—
49、4=50--59;Missing,用于定義變量缺失值,單擊missing框右側(cè)的省略號(hào),會(huì)彈出缺失值對(duì)話框,界面上有一列三個(gè)單選鈕,默認(rèn)值為最上方的“無(wú)缺失值”;第二項(xiàng)為“不連續(xù)缺失值”,最多可以定義3個(gè)值;最后一項(xiàng)為“缺失值范圍加可選的一個(gè)缺失值”,在此我們不設(shè)置缺省值,所以選中第一項(xiàng)如圖;Colomns,定義顯示列寬,可自己根據(jù)實(shí)際情況設(shè)置;Align,定義顯示對(duì)齊方式,有居左、居右、居中三種方式;Measure,定義變量類型是連續(xù)、有序分類還是無(wú)序分類。
以上為問(wèn)卷中常見(jiàn)的單項(xiàng)選擇題型的變量設(shè)置,下面將對(duì)一些特殊情況的變量設(shè)置也作一下說(shuō)明。
1。開(kāi)放式題型的設(shè)置:諸如你所在的省份是_____這樣的填空題即為開(kāi)放題,設(shè)置這些變量的時(shí)候只需要將Value、Missing兩項(xiàng)不設(shè)置即可。
2。多選題的變量設(shè)置:這類題型的設(shè)置有兩種方法即多重二分法和多重分類法,在這里我們只對(duì)多重二分法進(jìn)行介紹。這種方法的基本思想是把該題每一個(gè)選項(xiàng)設(shè)置成一個(gè)變量,然后將每一個(gè)選項(xiàng)拆分為兩個(gè)選項(xiàng),即選中該項(xiàng)和不選中該項(xiàng)?,F(xiàn)在舉例來(lái)說(shuō)明在SPSS中的具體操作。比如如下一例:
請(qǐng)問(wèn)您通常獲取新聞的方式有哪些()1 報(bào)紙 2 雜志 3 電視 4 收音機(jī) 5 網(wǎng)絡(luò)
在SPSS中設(shè)置變量時(shí)可為此題設(shè)置五個(gè)變量,假如此題為問(wèn)卷第三題,那么變量名分別為3_
1、3_
2、3_
3、3_
4、3_5,然后每一個(gè)選項(xiàng)有兩個(gè)選項(xiàng)選中和不選中,只需在Value一項(xiàng)中為每一個(gè)變量設(shè)置成1=選中此項(xiàng)、0=不選中此項(xiàng)即可。
使用該窗口,我們可以把一個(gè)問(wèn)卷中的所有問(wèn)題作為變量在這個(gè)窗口中一次定義。到此,我們的定義變量的工作就基本上可以結(jié)束了。下面我們要作就是數(shù)據(jù)的錄入了。首先,我們要回到數(shù)據(jù)錄入窗口,這很簡(jiǎn)單,只要我們點(diǎn)擊軟件左下方的Data View標(biāo)簽就可以了。
第二步:數(shù)據(jù)錄入
SPSS數(shù)據(jù)錄入有很多方式,大致有一下幾種: 1。讀取SPSS格式的數(shù)據(jù) 2。讀取Excel等格式的數(shù)據(jù)
3。讀取文本數(shù)據(jù)(Fixed和Delimiter)4。讀取數(shù)據(jù)庫(kù)格式數(shù)據(jù)(分如下兩步)(1)配置ODBC(2)在SPSS中通過(guò)ODBC和數(shù)據(jù)庫(kù)進(jìn)行
但是對(duì)于問(wèn)卷的數(shù)據(jù)錄入其實(shí)很簡(jiǎn)單,只要在SPSS的數(shù)據(jù)錄入窗口中直接輸入就可以了,只是在這里有幾點(diǎn)注意的事項(xiàng)需要說(shuō)明一下。
1。在數(shù)據(jù)錄入窗口,我們可以看到有一個(gè)表格,這個(gè)表格中的每一行代表一份問(wèn)卷,我們也稱為一個(gè)個(gè)案。
2。在數(shù)據(jù)錄入窗口中,我們可以看到表格上方出現(xiàn)了1、2、3、4、5??。的標(biāo)簽名,這其實(shí)是我們?cè)诘谝徊蕉x變量中,我們?yōu)閱?wèn)卷的每一個(gè)問(wèn)題取的變量名,即1代表第一題,2代表第二題。以次類推。我們只需要在變量名下面輸入對(duì)應(yīng)問(wèn)題的答案即可完成問(wèn)卷的數(shù)據(jù)錄入。比如上述年齡段查詢的例題,如果問(wèn)卷上勾選了A答案,我們?cè)?下面輸入1就行了(不要忘記我們通常是用1、2、3、4來(lái)代替A、B、C、D的)。
3。我們知道一行代表一份問(wèn)卷,所以有幾分問(wèn)卷,就要有幾行的數(shù)據(jù)。在數(shù)據(jù)錄入完成后,我們要做的就是我們的關(guān)鍵部分,即問(wèn)卷的統(tǒng)計(jì)分析了,因?yàn)檫@時(shí)我們已經(jīng)把問(wèn)卷中的數(shù)據(jù)錄入我們的軟件中了。
第三步:統(tǒng)計(jì)分析
有了數(shù)據(jù),可以利用SPSS的各種分析方法進(jìn)行分析,但選擇何種統(tǒng)計(jì)分析方法,即調(diào)用哪個(gè)統(tǒng)計(jì)分析過(guò)程,是得到正確分析結(jié)果的關(guān)鍵。這要根據(jù)我們的問(wèn)卷調(diào)查的目的和我們想要什么樣的結(jié)果來(lái)選擇。SPSS有數(shù)值分析和作圖分析兩類方法。
1。作圖分析:
在SPSS中,除了生存分析所用的生存曲線圖被整合到Analyze菜單中外,其他的統(tǒng)計(jì)繪圖功能均放置在graph菜單中。該菜單具體分為以下幾部分::
(1)Gallery:相當(dāng)于一個(gè)自學(xué)向?qū)?,將統(tǒng)計(jì)繪圖功能做了簡(jiǎn)單的介紹,初學(xué)者可以通過(guò)它對(duì)SPSS的繪圖能力有一個(gè)大致的了解。
(2)Interactive:交互式統(tǒng)計(jì)圖。(3)Map:統(tǒng)計(jì)地圖。
(4)下方的其他菜單項(xiàng)是我們最為常用的普通統(tǒng)計(jì)圖,具體來(lái)說(shuō)有: 條圖 散點(diǎn)圖 線圖 直方圖 餅圖 面積圖 箱式圖
正態(tài)Q-Q圖 正態(tài)P-P圖 質(zhì)量控制圖 Pareto圖
自回歸曲線圖 高低圖 交互相關(guān)圖 序列圖 頻譜圖 誤差線圖
作圖分析簡(jiǎn)單易懂,一目了然,我們可根據(jù)需要來(lái)選擇我們需要作的圖形,一般來(lái)講,我們較常用的有條圖,直方圖,正態(tài)圖,散點(diǎn)圖,餅圖等等,具體操作很簡(jiǎn)單,大家可參閱相關(guān)書(shū)籍,作圖分析更多情況下是和數(shù)值分析相結(jié)合來(lái)對(duì)試卷進(jìn)行分析的,這樣的效果更好。
2。數(shù)值分析:
SPSS 數(shù)值統(tǒng)計(jì)分析過(guò)程均在Analyze菜單中,包括:
(1)、Reports和Descriptive Statistics:又稱為基本統(tǒng)計(jì)分析?;窘y(tǒng)計(jì)分析是進(jìn)行其他更深入的統(tǒng)計(jì)分析的前提,通過(guò)基本統(tǒng)計(jì)分析,用戶可以對(duì)分析數(shù)據(jù)的總體特征有比較準(zhǔn)確的把握,從而選擇更為深入的分析方法對(duì)分析對(duì)象進(jìn)行研究。Reports和Descriptive Statistics命令項(xiàng)中包括的功能是對(duì)單變量的描述統(tǒng)計(jì)分析。
Descriptive Statistics包括的統(tǒng)計(jì)功能有:
Frequencies(頻數(shù)分析):作用:了解變量的取值分布情況
Descriptives(描述統(tǒng)計(jì)量分析):功能:了解數(shù)據(jù)的基本統(tǒng)計(jì)特征和對(duì)指定的變量值進(jìn)行標(biāo)準(zhǔn)化處理
Explore(探索分析):功能:考察數(shù)據(jù)的奇異性和分布特征
Crosstabs(交叉分析):功能:分析事物(變量)之間的相互影響和關(guān)系 Reports包括的統(tǒng)計(jì)功能有:
OLAP Cubes(OLAP報(bào)告摘要表):功能: 以分組變量為基礎(chǔ),計(jì)算各組的總計(jì)、均值和其他統(tǒng)計(jì)量。而輸出的報(bào)告摘要?jiǎng)t是指每個(gè)組中所包含的各種變量的統(tǒng)計(jì)信息。
Case Summaries(觀測(cè)量列表):察看或打印所需要的變量值 Report Summaries in Row:行形式輸出報(bào)告 Report Summaries in Columns:列形式輸出報(bào)告
(2)、Compare Means(均值比較與檢驗(yàn)):能否用樣本均值估計(jì)總體均值??jī)蓚€(gè)變量均值接近的樣本是否來(lái)自均值相同的總體?換句話說(shuō),兩組樣本某變量均值不同,其差異是否具有統(tǒng)計(jì)意義?能否說(shuō)明總體差異?這是各種研究工作中經(jīng)常提出的問(wèn)題。這就要進(jìn)行均值比較。
以下是進(jìn)行均值比較及檢驗(yàn)的過(guò)程:
MEANS過(guò)程:不同水平下(不同組)的描述統(tǒng)計(jì)量,如男女的平均工資,各工種的平均工資。目的在于比較。術(shù)語(yǔ):水平數(shù)(指分類變量的值數(shù),如sex變量有2個(gè)值,稱為有兩個(gè)水平)、單元Cell(指因變量按分類變量值所分的組)、水平組合
T test 過(guò)程:對(duì)樣本進(jìn)行T檢驗(yàn)的過(guò)程
單一樣本的T檢驗(yàn):檢驗(yàn)單個(gè)變量的均值是否與給定的常數(shù)之間存在差異。
獨(dú)立樣本的T檢驗(yàn):檢驗(yàn)兩組不相關(guān)的樣本是否來(lái)自具有相同均值的總體(均值是否相同,如男女的平均收入是否相同,是否有顯著性差異)
配對(duì)T檢驗(yàn):檢驗(yàn)兩組相關(guān)的樣本是否來(lái)自具有相同均值的總體(前后比較,如訓(xùn)練效果,治療效果)one-Way ANOVA:一元(單因素)方差分析,用于檢驗(yàn)幾個(gè)(三個(gè)或三個(gè)以上)獨(dú)立的組,是否來(lái)自均值相同的總體。
(3)、ANOVA Models(方差分析):方差分析是檢驗(yàn)多組樣本均值間的差異是否具有統(tǒng)計(jì)意義的一種方法。例如:醫(yī)學(xué)界研究幾種藥物對(duì)某種疾病的療效;農(nóng)業(yè)研究土壤、肥料、日照時(shí)間等因素對(duì)某種農(nóng)作物產(chǎn)量的影響;不同飼料對(duì)牲畜體重增長(zhǎng)的效果等,都可以使用方差分析方法去解決
(4)、Correlate(相關(guān)分析):它是研究變量間密切程度的一種常用統(tǒng)計(jì)方法,常用的相關(guān)分析有以下幾種:
1、線性相關(guān)分析:研究?jī)蓚€(gè)變量間線性關(guān)系的程度。用相關(guān)系數(shù)r來(lái)描述。
2、偏相關(guān)分析:它描述的是當(dāng)控制了一個(gè)或幾個(gè)另外的變量的影響條件下兩個(gè)變量間的相關(guān)性,如控制年齡和工作經(jīng)驗(yàn)的影響,估計(jì)工資收入與受教育水平之間的相關(guān)關(guān)系
3、相似性測(cè)度:兩個(gè)或若干個(gè)變量、兩個(gè)或兩組觀測(cè)量之間的關(guān)系有時(shí)也可以用相似性或不相似性來(lái)描述。相似性測(cè)度用大值表示很相似,而不相似性用距離或不相似性來(lái)描述,大值表示相差甚遠(yuǎn)
(5)、Regression(回歸分析):功能:尋求有關(guān)聯(lián)(相關(guān))的變量之間的關(guān)系在回歸過(guò)程中包括:Liner:線性回歸;Curve Estimation:曲線估計(jì);Binary Logistic:二分變量邏輯回歸;Multinomial Logistic:多分變量邏輯回歸;Ordinal 序回歸;Probit:概率單位回歸;Nonlinear:非線性回歸;Weight Estimation:加權(quán)估計(jì);2-Stage Least squares:二段最小平方法;Optimal Scaling 最優(yōu)編碼回歸;其中最常用的為前面三個(gè)。
(6)、Nonparametric Tests(非參數(shù)檢驗(yàn)):是指在總體不服從正態(tài)分布且分布情況不明時(shí),用來(lái)檢驗(yàn)數(shù)據(jù)資料是否來(lái)自同一個(gè)總體假設(shè)的一類檢驗(yàn)方法。由于這些方法一般不涉及總體參數(shù)故得名。
非參數(shù)檢驗(yàn)的過(guò)程有以下幾個(gè): 1。Chi-Square test 卡方檢驗(yàn) 2。Binomial test 二項(xiàng)分布檢驗(yàn) 3。Runs test 游程檢驗(yàn)
4。1-Sample Kolmogorov-Smirnov test 一個(gè)樣本柯?tīng)柲缏宸?斯米諾夫檢驗(yàn) 5。2 independent Samples Test 兩個(gè)獨(dú)立樣本檢驗(yàn) 6。K independent Samples Test K個(gè)獨(dú)立樣本檢驗(yàn) 7。2 related Samples Test 兩個(gè)相關(guān)樣本檢驗(yàn) 8。K related Samples Test 兩個(gè)相關(guān)樣本檢驗(yàn)(7)、Data Reduction(因子分析)(8)、Classify(聚類與判別)等等
以上就是數(shù)值統(tǒng)計(jì)分析Analyze菜單下幾項(xiàng)用于分析的數(shù)值統(tǒng)計(jì)分析方法的簡(jiǎn)介,在我們的變量定義以及數(shù)據(jù)錄入完成后,我們就可以根據(jù)我們的需要在以上幾種分析方法中選擇若干種對(duì)我們的問(wèn)卷數(shù)據(jù)進(jìn)行統(tǒng)計(jì)分析,來(lái)得到我們想要的結(jié)果。
第四步:結(jié)果保存
我們的SPSS軟件會(huì)把我們統(tǒng)計(jì)分析的多有結(jié)果保存在一個(gè)窗口中即結(jié)果輸出窗口(output),由于SPSS軟件支持復(fù)制和粘貼功能,這樣我們就可以把我們想要的結(jié)果復(fù)制﹑粘貼到我們的報(bào)告中,當(dāng)然我們也可以在菜單中執(zhí)行file->save來(lái)保存我們的結(jié)果,一般情況下,我們建議保存我們的數(shù)據(jù),結(jié)果可不保存。因?yàn)橹灰辛藬?shù)據(jù),如果我們想要結(jié)果的,我們可以隨時(shí)利用數(shù)據(jù)得到結(jié)果。
總結(jié):
以上便是SPSS處理問(wèn)卷的四個(gè)步驟,四個(gè)步驟結(jié)束后,我們需要SPSS軟件做的工作基本上也就結(jié)束了,接下來(lái)的任務(wù)就是寫(xiě)我們的統(tǒng)計(jì)報(bào)告了。值得一提的是。SPSS是一款在社會(huì)統(tǒng)計(jì)學(xué)應(yīng)用非常廣泛的統(tǒng)計(jì)類軟件,學(xué)好它將對(duì)我們以后的工作學(xué)習(xí)產(chǎn)生很大的意義和作用。