判別分析的SPSS操作.ppt
《判別分析的SPSS操作.ppt》由會員分享,可在線閱讀,更多相關(guān)《判別分析的SPSS操作.ppt(51頁珍藏版)》請在裝配圖網(wǎng)上搜索。
1、判別分析的SPSS操作,1. 基本原理 2. 基本操作 3. 選項設(shè)置 4. 實例分析,1. 基本原理,判別分析的目的是得到體現(xiàn)分類的函數(shù)關(guān)系式,即判別函數(shù)?;舅枷胧窃谝阎^測對象的分類和特征變量值的前提下,從中篩選出能提供較多信息的變量,并建立判別函數(shù);目標是使得到的判別函數(shù)在對觀測量進行判別其所屬類別時的錯判率最小。 判別函數(shù)的一般形式是:,,其中,,,為判別函數(shù)判別值;,,為反映研究對象,特征的變量;,,為各變量的系數(shù),即判別系數(shù)。,常用的判別法有距離判別法、Fisher判別法和Bayes判別法。,例1 人文發(fā)展指數(shù)是聯(lián)合國開發(fā)計劃署于1990年5月發(fā)表的第一份人類發(fā)展報告中公布
2、的。該報告建議,目前對人文發(fā)展的衡量應(yīng)當以人生的三大要素為重點,衡量人生三大要素的指示分別采用出生時的預(yù)期壽命、成人識字率和實際人均GDP,將以上三個指示指標的數(shù)值合成為一個復(fù)合指數(shù),即為人文發(fā)展指數(shù)。資料來源UNDP人類發(fā)展報告1995年。,今從1995年世界各國人文發(fā)展指數(shù)的排序中,選取高發(fā)展水平、中等發(fā)展水平的國家各五個作為兩組樣品,另選四個國家作為待判樣品作判別分析。,使用三種判別方法進行判別,并進行研究三者之間的關(guān)系。,本例中變量個數(shù)p3,兩類總體各有5個樣品,即n1n25 ,有4個待判樣品,假定兩總體協(xié)差陣相等。,兩組線性判別的計算過程如下:,(1)計算兩類樣本均值,(2)計算樣本
3、協(xié)差陣,從而求出,類似地,經(jīng)計算,(3)求線性判別函數(shù)W(X),解線性方程組,得,(4)對已知類別的樣品判別分類,對已知類別的樣品(通常稱為訓(xùn)練樣品)用線性判別函數(shù)進行判別歸類,結(jié)果如下表,全部判對。,(5)對判別效果作檢驗,判別分析是假設(shè)兩組樣品取自不同總體,如果兩個總體的均值向量在統(tǒng)計上差異不顯著,作判別分析意義就不大:所謂判別效果的檢驗就是檢驗兩個正態(tài)總體的均值向量是否相等,取檢驗的統(tǒng)計量為:,其中,將上邊計算結(jié)果代人統(tǒng)計量后可得:,函數(shù)有效。,故在,檢驗水平下,兩總體間差異顯著,即判別,(6)對待判樣品判別歸類結(jié)果如下表:,2、繼續(xù)用前面距離判別法例1的人文發(fā)展指數(shù)的數(shù)據(jù)作Bayes判
4、別分析。,這里組數(shù)k2,指標數(shù)p3,n1n25,代人判別函數(shù):,得兩組的判別函數(shù)分別為:,將原各組樣品進行回判結(jié)果如下一燈片表:,待判樣品判別結(jié)果如下:,3、利用距離判別法中例l的人文發(fā)展指數(shù)的數(shù)據(jù)作 Fisher判別分析:,(1)建立判別函數(shù),利用前例計算的結(jié)果,可得Fisher判別函數(shù)的系數(shù),所以判別函數(shù)為,(2)計算判別臨界值y0。,由于,所以,(3)判別準則,(4)對已知類別的樣品判別歸類,上述回判結(jié)果表明:總的回代判對率為100,這與統(tǒng)計資料的結(jié)果相符,而且與前面用距離判別法的結(jié)果也一致。,(5)對判別效果作檢驗,由于,所以在,檢驗水平下判別有效。,(6)待判樣品判別結(jié)果如下:,判別
5、結(jié)果與實際情況吻合。,2. 基本操作,SPSS利用“Discriminate”過程進行判別分析操作,下面給出基本操作步驟。,Step1:打開主對話框。,選擇“Analyze” “Classify” “Discriminate”命令,打開“Discriminate Analysis”對話框,如圖1.1所示,圖1.1 “Discriminate Analysis”對話框,,Step2:選擇分組變量和自變量,在變量列表中選擇指定分組變量,單擊右向箭頭按鈕,將其移動至右側(cè)的“Grouping Variable”(分組)文本框中,并單擊“Define Range”(定義范圍)按鈕,出現(xiàn)圖1.2所示的“D
6、iscriminant Analysis:Define Range”(判別分析定義范圍)對話框,在“Minimum”文本框中輸入該分組變量的最小值,在“Maximum”文本框中輸入該分組變量的最大值,單擊“Continue”按鈕,返回主對話框。,圖1.2 “Discriminate Analysis:Define Range”對話框,在變量列表中選擇判別分析的變量,單擊右向箭頭按鈕, 將其移動至“Independents”(自變量)列表框中。,Step3:選擇判別分析方法。,在主對話框中,自變量列表框下側(cè)顯示兩個單選框,用 于指定選擇判別分析的方法。,Enter independents to
7、gether 默認選項。當認為所有自變量都能對觀測特性提供豐富的信息時,使用該選項,選擇該項將不加uanz地使用所有自變量進行判別分析,建立全模型,且不需要進一步選擇。,Use stepwise method 逐步分析方法。當認為不是所有自變量都能對觀測量特性提供豐的信息時,選擇該項,因此需要判別貢獻的大小再進行選擇。選中該單選按鈕時,“Method”按鈕被激活,可以進一步選擇判別分析方法。,Step4:選擇變量值標識。,如果需要使用一部分個案參與判別函數(shù)的推導(dǎo),而且有一個變量的某個值可以作為這些觀測量的標識,則用Select Variable功能進行選擇。方法為在變量列表中選擇變量,單擊右向
8、箭頭按鈕,將其移動至“Selection”(選擇變量)文本框;然后單擊“Selection”文本框右側(cè)的“Value”按鈕,顯示“Discriminant Analysis:Set Value”(判別分析:設(shè)定值)子對話框,如圖1.3所示,輸入選擇變量的標識。單擊“Continue”按鈕,返回主對話框。,圖1.3 “Discriminant Analysis:Set Value”,Step5:執(zhí)行操作。,選擇完畢后,單擊“OK”按鈕,執(zhí)行判別分析操作。,3. 選項設(shè)置,3.1 Method選項,選擇“Use stepwise method”方法進行判別分析時,“Method”(方法)按鈕將被激
9、活,單擊“Method”按鈕,打開“Discriminant Analysis:Stepwise Method”(判別分析:逐步分析方法)對話框,如圖1.4所示,在“Method”選項組中選擇進行逐步判別分析的方法,可供選擇的判別分析方法有5種:,1.Wilkslambda Wilkslambda方法。默認選項,每步都是Wilk的概計量最小的進入判別函數(shù)。,2.Unexplained variance 不可解釋方差方法。選擇該項,表示每步都是使各類不可解釋的方差和最小變量進入判別函數(shù)。,3.Mahalanobisdistance Mahalanobis距離方法。選擇該項,表示每步都使靠的最近的
10、兩類間Mahalanobis距離最大的變量進入判別函數(shù)。,4.Smallest F ratio最小F值方法。選擇該項,表示每步都使任何兩類間的最小的F值最大變量進入判別函數(shù)。,5.Raos V Rao V統(tǒng)計量。選擇該項,表示每步都使Rao V統(tǒng)計量產(chǎn)生最大增量的變量進入判別函數(shù),可以對一個要加入到模型中的變量的V值指定一個最小增量。選擇該方法時需要在該項下面的“V-to-enter”(輸入V值)文本框中輸入這個增量的指定值,當某變量導(dǎo)致的V值增量大于指定值的變量進入判別函數(shù)。,“Criteria”(準則)選項組用于選擇逐步判別停止的判據(jù),可供選擇的判據(jù)包括以下幾項:,Use F value
11、默認選項。使用F值是系統(tǒng)默認的判據(jù),當加入一個變量(或剔除一個變量)后,對判別分析的變量進行方差分析。當計算的F值大于指定的Entry值時,該變量保存在函數(shù)中,默認Entry值是3.84;當該變量使計算的F值小于指定的Removal值時,該變量從函數(shù)中剔除,默認Removal值是2.71。即當被加入的變量F值為3.84時,才把該變量加入到模型中,否則變量不能進入模型;或者當要從模型中移出的變量F值為2.71時,該變量才被移出模型,否則模型中的變量不會被移出。設(shè)置這兩個值時應(yīng)該注意Entry值和Removal值。,Use probability of F 選擇該項,表示用F檢驗的概率決定變量是否
12、被加入函數(shù)或被剔除,而不是用F值加入變量的,F(xiàn)值概率的默認值是0.05,移出變量的F值概率是0.10。Removal值是移出變量的F值概率;Entry值是加入變量的F值概率。,“Display”(顯示)選項組的選項用于顯示逐步變量判別法的過程設(shè)置。有以下兩個復(fù)選項: Summary of step要求在逐步選擇變量過程中的每一步之后顯示每個變量的統(tǒng)計量。 F for pairwise distances要求顯示兩兩類之間的兩兩F值矩陣。,3.2 Statistics選項,在主對話框中單擊“statistics”按鈕,打開“Discriminant Anlysis:statistics”(
13、判別分析:統(tǒng)計量)對話框,如圖1.5所示。,圖1.5 “Discriminant Anlysis:statistics” 對話框,該對話框中給出了輸出結(jié)果中顯示的統(tǒng)計量,包括如下選項。 在“descriptive”(描述性)選項組中選擇對原始數(shù)據(jù)的描述統(tǒng)計量的輸出。 Means 均值。選擇該項,可以輸出各類中各自變量的均值、標準差以及各自變量總樣本的均值和標準差。 Univariate ANOVA 單變量方差分析。選擇該項,表示對每一類同一自變量均值都相等的假設(shè)進行檢驗,輸出單變量的方差分析結(jié)果。 Boxs M 選擇該項,表示對各類的協(xié)方差矩陣相等的假設(shè)進行檢驗。,“Functi
14、on Coefficients”(判別分析的系數(shù))選項組中給出選擇判別函數(shù)系數(shù)的輸出形式的選項,有兩個復(fù)選項: Fishers 選擇該項,表示可以用于對新樣本進行判別分類的fisher系數(shù),對每一類給出一組系數(shù),并給出該組中判別分數(shù)最大的觀測量。 Unstandardized 選擇該項,表示未經(jīng)標準化處理的判別系數(shù)。 在“matrices”(矩陣)選項組中選擇自變量的系數(shù)矩陣,有4個復(fù)選項: Within-group correlation類內(nèi)相關(guān)矩陣。它計算相關(guān)矩陣之前將各組協(xié)方差矩陣平均后,計算類內(nèi)相關(guān)矩陣。 Within-group covariance合并類內(nèi)協(xié)方差矩陣,
15、是將各組(類)協(xié)方差矩陣平均后計算的,區(qū)別與總協(xié)方差矩陣。 Separate-groups covariance協(xié)方差矩陣。 Total covariance總樣本的協(xié)方差矩陣。,3.3 Classification選項,在主對話框中單擊“classify”按鈕,顯示“Discriminant Analysis:Classification”(判別分析:分類)子對話框,如圖1.6所示。,圖1.6 “Discriminant Analysis:Classification” 對話框,該對話框用于指定分類參數(shù)和判別結(jié)果。分別介紹各個選項組的選項。 在“prior probabilities”
16、選項組中選擇先驗概率,有兩個單選項供選擇: All groups equal 表示各類先驗概率相等。 Compute from groups sizes 表示由各類的樣本量計算決定,即各類的先驗概率與其樣本量成正比。 在“use covariance matrix”(利用協(xié)方差矩陣)選項組中選擇分類使用的協(xié)方差矩陣,有兩個單選項: Within-groups選擇該項,表示指定使用合并組內(nèi)協(xié)方差矩陣進行分類。 Separate-groups選擇該項,表示指定使用各組協(xié)方差矩陣進行分類,由于分類是根據(jù)判別函數(shù)而不是根據(jù)原始變量,因此該選擇項不是總等價于二次判別。,在“plots”選項組中
17、選擇要求輸入的統(tǒng)計圖形,給出3個復(fù)選項: Combined-groups選擇該項,生成一張包括各類的散點圖,該散點圖是根據(jù)前兩個判別函數(shù)值做的散點圖;如果只有一個判別函數(shù),就輸出直方圖。 Separate-groups選擇該項,根據(jù)前兩個判別函數(shù)值對每一類生成一張散點圖,共分為幾類就生成幾張散點圖;如果只有一個判別函數(shù)就生成一張直方圖。 Territorial map選擇該項,生成用于根據(jù)函數(shù)值把觀測量分到各組中去的邊界圖,此種統(tǒng)計圖把一張圖的平面劃分出與類數(shù)相同的區(qū)域,每一類占據(jù)一個區(qū),各類的均值在各區(qū)中用*號標出;如果僅有一個判別函數(shù)則不作此圖。,在“display”選項組中選擇生成
18、到輸出窗中的分類結(jié)果,其中包括3個復(fù)選框: Casewise results 要求輸出每個管測量,包括判別分數(shù)實際類預(yù)測類(根據(jù)判別函數(shù)求得的分類結(jié)果)和后驗概率等,選擇此項還可以選擇其附屬選擇項,選擇“Limit cases to”(個案限制)選項,并在后面的文本框中輸入觀測量數(shù)n,選擇此項則僅對前n個觀測量輸出分類結(jié)果,觀測數(shù)量大時可以選擇此項。 Summary table 要求輸出分類的綜述表,給出正確分類觀測數(shù)(原始類和根據(jù)判別函數(shù)計算的預(yù)測類相同)和錯分觀測量數(shù)即錯分率。 Leave-one-out classification 輸出對每個觀測量進行分類的結(jié)果,所依據(jù)的判別時由
19、除該觀測量以外的其他觀測量導(dǎo)出的,也稱為交互校驗結(jié)果。 該對話框給出選擇缺失值的處理方法,即“Replace missing values with mean”,表示用該變量的均值代替缺失值。,3.4 Save選項,在主對話框單擊“save”按鈕,打開“Discriminant Analysis:Save”(判別分析:保存)對話框,如圖1.7所示。,該對話框用于指定生成并保存在數(shù)據(jù)文件中的新變量,其中包括如下選項:,圖1.7 “Discriminant Analysis:Save” 對話框,Predicted groups membership 選擇該項,要求建立一個新變量預(yù)測觀測量的分類,
20、是根據(jù)判別分數(shù)把觀測量按后驗概率最大指派所屬的類,每運行一次“Discriminant”過程就建立一個,表民使用判別函數(shù)預(yù)測各觀測量屬于哪一類的新變量。第一次運行建立新變量的變量名為dis_1,如果在工作數(shù)據(jù)文件中不把前一次建立的新變量刪除,第n次運行建立的新變量名為dis_n。 Discriminant scores 選擇該項,要求建立表明判別分數(shù)的新變量,該分數(shù)是由未標準化的判別系數(shù)乘自變量的值,將這些乘積求和后加上常數(shù)得來的。每次運行“Discriminant”過程就給出一組表明判別分數(shù)的新變量,建立幾個判別函數(shù)就有幾個判別分數(shù)變量參與分析的觀測量,共分為m類,則建立m個點則判別函數(shù)指
21、定該選擇項就可以生成m-1個表明判別分數(shù)的新變量。 Probabilities of groups membership 選擇該項,要求建立新變量表明觀測量屬于某一類的概率。如果有m類,對一個觀測量就會給出m個概率值,因此建立m個新變量。,4. 實例分析,例1、 為研究舒張期血壓和血漿膽固醇對冠心病的作用,某醫(yī)師測定了5059歲冠心病人15例和正常人16例的舒張壓和膽固醇指標,結(jié)果如下表所示。試做判別分析,建立判別函數(shù)以便在臨床中用于篩選在臨床中用于篩選冠心病人(數(shù)據(jù)文件:discriminant.sav),操作步驟:,Step1:讀取數(shù)據(jù)文件discriminant.sav。其中,變量名“
22、舒張壓”、“膽固醇”代表兩項指標值。病人資料和正常人資料合并一同輸入,定義變量名為“組別”的變量用于區(qū)分冠心病人資料和正常人資料,即冠心病人資料的“組別”值均為1,正常人資料的“組別”值均為2. Step2:選擇“Analysis” “Classify” “Discriminant”命令,在“Discriminant Analysis”對話框中,選擇“組別”變量進入“Grouping Variable”文本框;單擊“Define Range”按鈕,在“Minimum”文本框中輸入1,在“Maximum”文本框中輸入2,單擊“Continue”按鈕,返回主對話框。 Step3:選擇變量“舒張
23、壓”和“膽固醇”移動到“Independ ents”列表框中,本例選擇“Enterindependents together”判別方式作為判別分析的方法。,Step4:單擊“Statistics”按鈕,在“Descriptive”選項中選擇“Mean”;在“Function Coefficients”選擇“Unstandardized”。單擊“Continue”按鈕,返回主對話框。 Step5:單擊“Classify”按鈕,在“Plot”選項組中選擇“Combined-groups”選項,在“Display”選項組中選擇“Cas ewise result”和“Summmary table”選
24、項;單擊“Continue”按鈕,返回主對話框。 Step6:單擊“Save”按鈕,在彈出的對話框中選擇“Pred icted group membership”選項,單擊“Continue”按鈕,返回主對話框。 Step7:單擊“OK”按鈕,執(zhí)行判別分析操作。,判別分析的結(jié)果,1、分析個案綜合統(tǒng)計量 表1.2和表1.3所示為系統(tǒng)處理的數(shù)據(jù)簡明表明中的數(shù)據(jù),按變量“組別”分組共有31個樣本為判別基礎(chǔ)數(shù)據(jù)進入分析,其中第一組十五例,第二組十六例。,Analysis Case Processing Summary,,表1.2 分析個案綜合統(tǒng)計量,2、分組統(tǒng)計量 表1.3所示為分組統(tǒng)計量列表。
25、表中給出分組變量和合計的均數(shù)(means)、標準差(standard deviation)和有效個案的例數(shù)。,Group Statistics,,,表1.3 分組統(tǒng)計量,3、典型判別函數(shù)的特征函數(shù)的特征值表 表1.4所示是典型判別函數(shù)的特征值表,其特征(Eigen value)為組間平方和與組內(nèi)平方和之比,計算得0.713,典型相關(guān)系數(shù)(Canonical Corr)為0.645。,Eigenvalues,a First 1 canonical discriminate functions were used in the analysis.,表1.4 典型判別函數(shù)的特征值表,4、Wilks
26、檢驗結(jié)果 表1.5所示為典型判別分析的Wilks檢驗結(jié)果。其中Wilks值為0.584,卡方檢驗統(tǒng)計量的觀測值為15.071,概率P值為0.001,小于0.05。,Wilks Lambda,表1.5 Wilks 檢驗,5、標準化典型判別函數(shù)系數(shù) 表1.6給出典型判別函數(shù)的系數(shù),其標準化函數(shù)為: 根據(jù)判別函數(shù)方程的標準化系數(shù),確定各變量對結(jié)果的作用大小,本例舒張壓的標準化系數(shù)為0.873,大于膽固醇的標準化系數(shù)0.669,因而舒張壓對冠心病的影響作用大于膽固醇。,Standardized Canonical Discriminant Function Coefficients,表1.6 標準化
27、典型判別函數(shù)系數(shù),,6、典型判別函數(shù)系數(shù) 表所示為典型判別函數(shù)的系數(shù),其典型函數(shù)為:,Canonical Discriminant Function Coefficients,Unstandardized coefficients,表1.7典型判別函數(shù)系數(shù),,7、分類過程摘要 表1.8分類過程摘要,顯示參與分類的個案例數(shù)和剔除例數(shù),Classification Processing Summary,表1.8分類過程摘要,8、個案統(tǒng)計量表 表1.9所示為原始數(shù)據(jù)逐一回代的判別結(jié)果和預(yù)測分類的結(jié)果顯示,其中病人組有3人被錯判(標注**者,編號為1,6,7)正常人組有3人被錯判(標注**者,1
28、6,17,18),9、分類結(jié)果 表1.10給出分類結(jié)果。最后系統(tǒng)對回代判別情況做出評價,即病人組正確率為75.0%。正常人組為86.7%,總判別正確率為80.65%,說明該判別函數(shù)的正確率還是較高的。,Classification Results(a),a 80.6% of original grouped cases correctly classified.,表1.10 分類結(jié)果,例2、某氣象站預(yù)報某地區(qū)有無春旱的觀測資料中, 與 是與氣象有關(guān)的綜合預(yù)報因子,數(shù)據(jù)包括發(fā)生春旱的6個年份的 和 的觀測值和無春旱的8個年份的相應(yīng)觀測值(見下表),試建立距離判別函數(shù)并估計誤判率。,,,某地區(qū)有無春旱觀測數(shù)據(jù),例3、1991年全國大陸個省市、自治區(qū)城鎮(zhèn)居民月平均收入情況見表,考察下列指標:(元/人) X1:人均生活費收入; X2:人均全民所有制職工工資; X3:人均來源于全民標準工資; X4:人均集體所有制工資; X5:人均集體職工標準工資 X6:人均各種獎金及超額工資; X7:人均各種緊貼; X8:職工人均從工作單位得到的其他收入; X9:個體勞動者收入,試判定廣東和西藏屬于哪種收入類型,并確定回代誤判概率與交叉誤判概率。,
- 溫馨提示:
1: 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2: 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3.本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 裝配圖網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。