《《判別分析操作》PPT課件.ppt》由會員分享,可在線閱讀,更多相關(guān)《《判別分析操作》PPT課件.ppt(51頁珍藏版)》請在裝配圖網(wǎng)上搜索。
1、例1:通過城市人口所占的比例、有文化居民的比例、人口增長率、人均GDP等四個變量來判別某國所屬的類型。我們將國家分為三種類型,分別為OECD國家、亞太地區(qū)的國家和非洲地區(qū)的國家。來自三個總體的訓(xùn)練樣本數(shù)分別為16、12、16,共44個樣本。,第四章判別分析(操作部分),選擇Analyze→Classify→Discriminant進入判別分析對話框,如下:,,■GroupingVariable框用于選擇已知的類別變量(離散型的)。?DefineRange按鈕具體確定變量的取值范圍。?Minimum欄輸入該分類變量的最小值。?Maximum欄輸入該分類變量的最大值。,,■Independents
2、用于指定判別分析的自變量。即建立判別函數(shù)所需的變量。?Enterindependentstogether所有自變量同時進入判別函數(shù),是系統(tǒng)默認值。當認為所有自變量都能對樣本觀測值的特性提供豐富的信息,且彼此獨立時使用該選項。?Usestepwisemethod使用逐步判別法,按照所指定的引入或刪除變量方法依次引入或刪除變量。,■SelectionVariable框用于定義樣本選擇條件。選中一個變量引入框中,然后使用右側(cè)的Value按鈕定義一個取值,這樣全部樣本中只有該變量等于所指定值的樣本才被納入分析中。,■Statistics對話框用于給出一些統(tǒng)計量。,?Descriptives?Means
3、輸出各類中各分類變量的均值、標準差和各分類變量總樣本的均值和標準差。?UnivariableANOVA輸出各變量的方差分析結(jié)果,即進行假設(shè)檢驗,原假設(shè)是該變量在各類的均值相等。通過此項判斷各個變量在不同組之間是否有差別,建立判別函數(shù)時選用該變量是否有意義。?Box,M對各類的協(xié)方差矩陣相等的假設(shè)進行檢驗,一般不太關(guān)心這個結(jié)果。,?Functioncoefficients用于選擇判別函數(shù)系數(shù)的輸出形式:?Fisher,s給出Bayes判別準則的判別函數(shù)。?Unstandardized給出Fisher判別法建立判別函數(shù)的未標準化系數(shù)。?Matrice?Within-groupscovariance
4、matrix計算合并類內(nèi)協(xié)方差矩陣,是將各組協(xié)方差矩陣平均后計算的,區(qū)別于總協(xié)方差矩陣。?Within-groupscorrelatonmatrix是根據(jù)上述協(xié)方差矩陣計算的相關(guān)矩陣。?separate-groupscovariancematrix對每個類輸出一個協(xié)方差矩陣?totalcovariancematrix計算并顯示總樣本的協(xié)方差矩陣。,■Classify指定分類參數(shù)和判別結(jié)果。,?PriorProbabilities選擇先驗概率,兩者選擇其一:?Allgroupsequal選項各類先驗概率相等。?Computefromgroupssizes選項由各類的樣本量決定,各類的先驗概率與其
5、樣本量成正比。?UseCovarianceMatrix選擇分類使用的協(xié)方差矩陣。?Within-groups選項指定使用合并組內(nèi)協(xié)方差矩陣進行分析。?Separate-groups選項指定使用各組協(xié)方差矩陣進行分析。此處一般不更改,使用默認值。,,?Display選擇生成到輸出窗口的分類結(jié)果。?Casewiseresults復(fù)選框?qū)γ總€觀測變量輸出實際類、預(yù)測類(根據(jù)判別函數(shù)求得的分類結(jié)果)和后驗概率等。如果選擇此項,下邊有一個“l(fā)imitcasestofirst”按設(shè)置的記錄數(shù)輸出前n個樣本的判別結(jié)果。?summarytable復(fù)選框輸出分類小結(jié)。給出正確分類的樣本數(shù)、錯分的樣本數(shù)和錯分率。
6、?Leave-one-outclassification即交互驗證法(Cross-Validition)。在建立判別函數(shù)時去掉該樣本點,然后利用判別函數(shù)判別該樣本點的分類。,?Plots用于選擇可輸出的判別圖?Combined-groups輸出一張包括各類的散點圖。該散點圖是根據(jù)前兩個判別函數(shù)生成的,如果只有一個判別函數(shù)則生成直方圖。?Separate-groups根據(jù)前兩個判別函數(shù)對每一類生成一張散點圖,共分成幾類就生成幾張散點圖。如果只有一個判別函數(shù)則生成直方圖。?Territorialmap畫出領(lǐng)域圖(分類區(qū)域圖)。整個平面被分成幾大塊,每一塊代表一個類別,之間有清楚的界限分割。其中星號
7、代表各個類的中心,用此圖可以直接對未知樣本進行分類。,■Method,?Method用于選擇的逐步判別分析時所采用的方法。?Wilk-lambda每步使得Wilks統(tǒng)計量最小的變量進入判別方程。?Unexplainedvariance:每步使得各類不可解釋的方差(隨機誤差)之和最小的變量進入判別方程。?SmallestFratio每步使得兩類之間最小的F值最大的變量進入判別方程。?Rao,V統(tǒng)計量產(chǎn)生最大增量的變量進入判別方程。,,?Criteria進入或刪除變量的臨界值設(shè)置,包含兩種方式:?UseFValue使用F值,是系統(tǒng)默認的。當加入一個變量或剔除一個變量后,對判別函數(shù)中的變量進行方差分
8、析。當F值大于指定的Entry值時,該變量保留,默認的為3.84。當F值小于指定的Removal值時,該變量從判別函數(shù)中刪除,默認的Removal值為2.71。如果是用戶自己設(shè)定應(yīng)注意Entry值>Removal值,否則產(chǎn)生函數(shù)中沒有變量的錯誤。?UseprobabilityofF使用P值。加入變量默認的P值是0.05(5%),剔除變量的P值是0.1(10%),應(yīng)注意Removal值>Entry值。,?Display選擇要顯示的統(tǒng)計量?Summaryofsteps要求在逐步選擇變量過程中的每一步之后顯示每個變量的統(tǒng)計量。?Fforpairwisedistances要求顯示兩類之間的F值矩陣。,
9、下表為樣本缺失值報告:,下表給出的是原始數(shù)據(jù)描述性統(tǒng)計量。這是Statistics中要求輸出的結(jié)果。,上表為單變量方差分析的結(jié)果。檢驗各類中同一變量均值是否相等,原假設(shè)是均值相等,由上表可以看出拒絕原假設(shè),說明各類在各個變量上的均值不相等,因此才有分類的意義。,下表給出的是合并類內(nèi)協(xié)方差矩陣和相關(guān)矩陣,陣中各元素是各類協(xié)方差矩陣和相關(guān)矩陣中對應(yīng)元素的均值。,,下表給出了各類的協(xié)方差矩陣和總的協(xié)方差矩陣在:,下表給出了逐步判別法中變量的進入和剔除情況:,,下表給出的是變量的剔除過程:,上表給出了判別函數(shù)所對應(yīng)的特征值、方差貢獻及典型相關(guān)系數(shù)。特征根的個數(shù)為變量數(shù)和類別數(shù)減1中的較小值。,上表為典
10、型判別函數(shù)的有效性,可以看出判別函數(shù)的判別能力是顯著的。,給出了標準化以后典型判別函數(shù)的系數(shù)。兩個標準化的判別函數(shù)為:,上表給出了結(jié)構(gòu)矩陣,即原始變量與標準化后的典型判別函數(shù)值之間的相關(guān)關(guān)系。如果一些分類變量與某個判別函數(shù)之間有很大的結(jié)構(gòu)系數(shù),就可以用這些區(qū)別變量的名字來命名此判別函數(shù)。,上表給出了未標準化的典型判別函數(shù)的系數(shù)。,,給出了各類均值(重心)未標準化的典型判別函數(shù)的分值。,上表給出的是各個類先驗概率的情況。,給出了貝葉斯判別的線性判別函數(shù),有幾個類就有幾個函數(shù),將樣本帶入函數(shù)計算其在各個類上的得分,比較不同類的判別分值,哪個大就判給哪個類。,上表給出的是樣本判別分類統(tǒng)計表。上半部分
11、給出了各個樣本的實際類別,最大可能所屬的預(yù)測類別和次最大可能所屬的預(yù)測類別,Discriminantscores是兩個典型判別方程的得分。下半部分是交互驗證建立判別方程的結(jié)果。,上圖是第一組(OECD國家)判別函數(shù)得分的散點圖。,上表給出的是判別分類結(jié)果的統(tǒng)計評價,從表中可以看出三組的錯判率分別為6.2%,41.7%和12.5%。,將菲律賓的數(shù)據(jù)帶入兩個判別函數(shù)得到兩個值為:(1.64844,-2.23792),落入第二個區(qū)域,因此判為是亞太國家。如果帶到貝葉斯線性判別函數(shù)里邊得到三個組的的分值分別為:2.14972,4.59068,4.2374。應(yīng)該判給得分最高的,所以也應(yīng)判給第二組。,例2
12、:對全國30個省市自治區(qū)1994年影響各地區(qū)經(jīng)濟增長差異的制度變量:x1–經(jīng)濟增長率(%);x2—非國有化水平(%);x3—開放度(%);x4—市場化程度(%)。作判別分析。訓(xùn)練樣本來自兩個組,根據(jù)所給樣本建立判別函數(shù),判別江蘇、安徽和陜西所屬的類別。,標準化的典型判別函數(shù)系數(shù):,給出了未標準化的典型判別函數(shù)的系數(shù),典型判別函數(shù)為:,兩類重心判別函數(shù)得分值:,將三個省的四個變量的數(shù)據(jù)帶入線性判別函數(shù),計算得:江蘇:安徽:陜西:,因此將江蘇、安徽判歸第一類,陜西判歸第二類。,將三個省四個變量的值帶入典型判別函數(shù):,計算得:江蘇:u(x)=1.22634安徽:u(x)=0.40216陜西:u(x)=-1.24201,