多元統(tǒng)計之判別分析
《多元統(tǒng)計之判別分析》由會員分享,可在線閱讀,更多相關(guān)《多元統(tǒng)計之判別分析(109頁珍藏版)》請在裝配圖網(wǎng)上搜索。
1、2020/9/24,中國人民大學(xué)六西格瑪質(zhì)量管理研究中心,1,多元統(tǒng)計分析,何曉群,中國人民大學(xué)出版社,2020/9/24,中國人民大學(xué)六西格瑪質(zhì)量管理研究中心,2,4.1 判別分析的基本理論 4.2 距離判別 4.3 Bayes判別 4.4 Fisher判別 4.5 逐步判別 4.6 判別分析方法步驟及框圖 4.7 判別分析的上機實現(xiàn) 4.8 判別分析應(yīng)用的幾個例子,第四章 判別分析,2020/9/24,中國人民大學(xué)六西格瑪質(zhì)量管理研究中心,3,目錄 上頁 下頁 返回 結(jié)束,第四章 判別分析,回歸模型普及性的基礎(chǔ)在于用它去預(yù)測和解釋度量(metric)變量。但是對于非度量(nonmetr
2、ic)變量,多元回歸不適合解決此類問題。本章介紹的判別分析來解決被解釋變量是非度量變量的情形。在這種情況下,人們對于預(yù)測和解釋影響一個對象所屬類別的關(guān)系感興趣,比如為什么某人是或者不是消費者,一家公司成功還是破產(chǎn)等。 判別分析在主要目的是識別一個個體所屬類別的情況下有著廣泛的應(yīng)用。潛在的應(yīng)用包括預(yù)測新產(chǎn)品的成功或失敗、決定一個學(xué)生是否被錄取、按職業(yè)興趣對學(xué)生分組、確定某人信用風(fēng)險的種類、或者預(yù)測一個公司是否成功。在每種情況下,將對象進(jìn)行分組,并且要求使用這兩種方法中的一種可以通過人們選擇的解釋變量來預(yù)測或者解釋每個對象的所屬類別。,2020/9/24,中國人民大學(xué)六西格瑪質(zhì)量管理研究中心,4,
3、目錄 上頁 下頁 返回 結(jié)束,4.1 判別分析的基本理論,有時會遇到包含屬性被解釋變量和幾個度量解釋變量的問題,這時需要選擇一種合適的分析方法。比如,我們希望區(qū)分好和差的信用風(fēng)險。如果有信用風(fēng)險的度量指標(biāo),就可以使用多元回歸。但我們可能僅能判斷某人是在好的或者差的一類,這就不是多元回歸分析所要求的度量類型。 當(dāng)被解釋變量是屬性變量而解釋變量是度量變量時,判別分析是合適的統(tǒng)計分析方法。 判別分析能夠解決兩組或者更多組的情況。 當(dāng)包含兩組時,稱作兩組判別分析。當(dāng)包含三組或者三組以上時,稱作多組判別分析(Multiple discriminant analysis)。 判別分析的假設(shè)條件 判別分析最
4、基本的要求是,分組類型在兩組以上;在第一階段工作是每組案例的規(guī)模必須至少在一個以上。解釋變量必須是可測量的,才能夠計算其平均值和方差,使其能合理地應(yīng)用于統(tǒng)計函數(shù)。,2020/9/24,中國人民大學(xué)六西格瑪質(zhì)量管理研究中心,5,目錄 上頁 下頁 返回 結(jié)束,4.1 判別分析的基本理論,判別分析的假設(shè)之一,是每一個判別變量(解釋變量)不能是其他判別變量的線性組合。即不存在多重共線性問題。 判別分析的假設(shè)之二,是各組變量的協(xié)方差矩陣相等。判別分析最簡單和最常用的形式是采用線性判別函數(shù),它們是判別變量的簡單線性組合。在各組協(xié)方差矩陣相等的假設(shè)條件下,可以使用很簡單的公式來計算判別函數(shù)和進(jìn)行顯著性檢驗。
5、 判別分析的假設(shè)之三,是各判別變量之間具有多元正態(tài)分布,即每個變量對于所有其他變量的固定值有正態(tài)分布。在這種條件下可以精確計算顯著性檢驗值和分組歸屬的概率。當(dāng)違背該假設(shè)時,計算的概率將非常不準(zhǔn)確。,2020/9/24,中國人民大學(xué)六西格瑪質(zhì)量管理研究中心,6,4.2 距離判別,目錄 上頁 下頁 返回 結(jié)束,4.2.1 兩總體情況,2020/9/24,中國人民大學(xué)六西格瑪質(zhì)量管理研究中心,7,4.2 距離判別,目錄 上頁 下頁 返回 結(jié)束,2020/9/24,中國人民大學(xué)六西格瑪質(zhì)量管理研究中心,8,4.2 距離判別,目錄 上頁 下頁 返回 結(jié)束,2020/9/24,中國人民大學(xué)六西格瑪質(zhì)量管理
6、研究中心,9,4.2 距離判別,目錄 上頁 下頁 返回 結(jié)束,2020/9/24,中國人民大學(xué)六西格瑪質(zhì)量管理研究中心,10,4.2 距離判別,目錄 上頁 下頁 返回 結(jié)束,2020/9/24,中國人民大學(xué)六西格瑪質(zhì)量管理研究中心,11,4.2 距離判別,目錄 上頁 下頁 返回 結(jié)束,4.2.2 多總體情況 1. 協(xié)差陣相同。,2020/9/24,中國人民大學(xué)六西格瑪質(zhì)量管理研究中心,12,4.2 距離判別,目錄 上頁 下頁 返回 結(jié)束,2. 協(xié)差陣不相同。,2020/9/24,中國人民大學(xué)六西格瑪質(zhì)量管理研究中心,13,4.2 距離判別,目錄 上頁 下頁 返回 結(jié)束,2020/9/24,中國
7、人民大學(xué)六西格瑪質(zhì)量管理研究中心,14,4.2 距離判別,目錄 上頁 下頁 返回 結(jié)束,2020/9/24,中國人民大學(xué)六西格瑪質(zhì)量管理研究中心,15,4.3 Bayes判別,目錄 上頁 下頁 返回 結(jié)束,,,貝葉斯(Bayes)統(tǒng)計的思想是:假定對研究的對象已有一定的認(rèn)識,常用先驗概率分布來描述這種認(rèn)識,然后我們?nèi)〉靡粋€樣本,用樣本來修正已有的認(rèn)識(先驗概率分布),得到后驗概率分布,各種統(tǒng)計推斷都通過后驗概率分布來進(jìn)行。將貝葉斯思想用于判別分析,就得到貝葉斯判別。,2020/9/24,中國人民大學(xué)六西格瑪質(zhì)量管理研究中心,16,4.3 Bayes判別,目錄 上頁 下頁 返回 結(jié)束,2020/
8、9/24,中國人民大學(xué)六西格瑪質(zhì)量管理研究中心,17,4.4 Fisher判別,目錄 上頁 下頁 返回 結(jié)束,2020/9/24,中國人民大學(xué)六西格瑪質(zhì)量管理研究中心,18,4.4 Fisher判別,目錄 上頁 下頁 返回 結(jié)束,2020/9/24,中國人民大學(xué)六西格瑪質(zhì)量管理研究中心,19,4.4 Fisher判別,目錄 上頁 下頁 返回 結(jié)束,2020/9/24,中國人民大學(xué)六西格瑪質(zhì)量管理研究中心,20,4.4 Fisher判別,目錄 上頁 下頁 返回 結(jié)束,2020/9/24,中國人民大學(xué)六西格瑪質(zhì)量管理研究中心,21,4.4 Fisher判別,目錄 上頁 下頁 返回 結(jié)束,2020/
9、9/24,中國人民大學(xué)六西格瑪質(zhì)量管理研究中心,22,4.5 逐步判別,目錄 上頁 下頁 返回 結(jié)束,在多元回歸中熟知,變量選擇的好壞直接影響回歸的效果,而在判別分析中也有類似的問題。如果在某個判別問題中,將其中最主要的指標(biāo)忽略了,由此建立的判別函數(shù)其效果一定不好。但是在許多問題中,事先并不十分清楚哪些指標(biāo)是主要的,這時,是否將有關(guān)的指標(biāo)盡量收集加入計算才好呢?理論和實踐證明,指標(biāo)太多了,不僅帶來大量的計算,同時許多對判別無作用的指標(biāo)反而會干擾了我們的視線。因此適當(dāng)篩選變量的問題就成為一個很重要的事情。 凡具有篩選變量能力的判別方法統(tǒng)稱為逐步判別法。和通常的判別分析一樣,逐步判別也有許多不同的
10、原則,從而產(chǎn)生各種方法。有關(guān)逐步判別法的理論基礎(chǔ)詳見1所討論指標(biāo)的附加信息檢驗。,2020/9/24,中國人民大學(xué)六西格瑪質(zhì)量管理研究中心,23,4.5 逐步判別,目錄 上頁 下頁 返回 結(jié)束,逐步判別的原則,2020/9/24,中國人民大學(xué)六西格瑪質(zhì)量管理研究中心,24,4.5 逐步判別,目錄 上頁 下頁 返回 結(jié)束,2020/9/24,中國人民大學(xué)六西格瑪質(zhì)量管理研究中心,25,4.5 逐步判別,目錄 上頁 下頁 返回 結(jié)束,()這時既不能選進(jìn)新變量,又不能剔除已選進(jìn)的變量,將已選中的變量建立判別函數(shù)。,2020/9/24,中國人民大學(xué)六西格瑪質(zhì)量管理研究中心,26,4.6 判別分析方法步
11、驟及框圖,目錄 上頁 下頁 返回 結(jié)束,使用判別分析可以看作是下面6個步驟的過程: 第1步:判別分析的對象 判別分析的研究目的: 1. 確定在兩個或者更多事先定義的組上的一組變量的平均得分剖面是否存在顯著性差異。 2. 確定哪些變量在兩個或更多組的平均得分剖面的差異中解釋最多。 3. 在一組變量得分的基礎(chǔ)上,建立將對象(個體、公司、產(chǎn)品等等)分類的步驟。 4. 建立由這組變量形成的組與組之間判別函數(shù)的數(shù)目及構(gòu)成。,2020/9/24,中國人民大學(xué)六西格瑪質(zhì)量管理研究中心,27,4.6 判別分析方法步驟及框圖,目錄 上頁 下頁 返回 結(jié)束,第2步:判別分析的研究設(shè)計 判別分析的成功應(yīng)用需要考慮到
12、幾個要點。這些要點包括解釋變量和被解釋變量的選擇、估計判別函數(shù)所需的樣本量和為了驗證目的對樣本的分割。 (一)解釋變量和被解釋變量的選擇 要應(yīng)用判別分析,研究者必須首先指定解釋變量與被解釋變量。這里,解釋變量為定量變量,而被解釋變量為定性變量。,2020/9/24,中國人民大學(xué)六西格瑪質(zhì)量管理研究中心,28,4.6 判別分析方法步驟及框圖,目錄 上頁 下頁 返回 結(jié)束,研究者首先應(yīng)該關(guān)注被解釋變量。被解釋變量的組數(shù)可以是兩個或更多,但這些組必須具有相互排斥性和完全性。被解釋變量有時確實是定性的變量。然而也有一些情況,即使被解釋變量不是真的定性變量,判別分析也是適用的。我們可能有一個被解釋變量是
13、順序或者間隔尺度的變量,而要作為定性變量使用。這種情況下我們可以創(chuàng)建一個定性變量。 當(dāng)確定了被解釋變量后,研究者必須確定分析中應(yīng)包括的解釋變量。解釋變量的選擇通常有兩種方法。第一種是從以前的研究中或者從該研究問題根本的理論模型中確定變量。第二種方法是直覺運用研究者的知識,直觀地選擇沒有以前研究或理論存在但是邏輯上與預(yù)測解釋變量的組相關(guān)的變量。,2020/9/24,中國人民大學(xué)六西格瑪質(zhì)量管理研究中心,29,4.6 判別分析方法步驟及框圖,目錄 上頁 下頁 返回 結(jié)束,(二)樣本容量 判別分析對樣本量與預(yù)測變量個數(shù)的比率很敏感。許多研究建議比率為每個預(yù)測變量20個觀測。盡管這個比率在實際中難以保
14、持,但研究者應(yīng)注意,當(dāng)樣本量相對于解釋變量個數(shù)在減少時,結(jié)果是不穩(wěn)定的。建議最小的樣本量是每個變量有5個觀測。 除總的樣本量以外,研究者還必須考慮每組的樣本容量。至少,最小的組的大小必須超過解釋變量的個數(shù)。作為實際的指導(dǎo),每組應(yīng)至少有20個觀測。但即使所有的組大小都超過了20,研究者還應(yīng)注意組的相對大小。如果組的大小相差很大,這可能影響到判別函數(shù)的估計和觀測的分類。在分類階段,大的組有不相稱的高的分類機會。,2020/9/24,中國人民大學(xué)六西格瑪質(zhì)量管理研究中心,30,4.6 判別分析方法步驟及框圖,目錄 上頁 下頁 返回 結(jié)束,(三)樣本的分割 很多時候樣本需要分割為兩個子樣本,一個用于估
15、計判別函數(shù),另一個用于驗證。每個子樣本都有適當(dāng)?shù)拇笮碇С纸Y(jié)論是很重要的。 分割樣本有很多種方法,最常用的一種是通過一個子樣本來估計判別函數(shù),而用另一個子樣本來驗證。常用的過程是將整個樣本隨機地分為兩組。其中的一組,分析樣本是用來估計判別函數(shù)的。另一組保留樣本,是用來驗證結(jié)論的。這種驗證方法稱為分割樣本或者交叉驗證方法。,2020/9/24,中國人民大學(xué)六西格瑪質(zhì)量管理研究中心,31,4.6 判別分析方法步驟及框圖,目錄 上頁 下頁 返回 結(jié)束,如果劃分分析樣本和保留樣本沒有固定的原則。最常用的程序是分為兩半。 當(dāng)選擇分析組和保留組的個體時,通常遵循比例分層抽樣。也就是分析組和保留組的各組大小
16、比率應(yīng)與整個樣本的各組大小比率相同。 如果研究者要劃分樣本,這個樣本應(yīng)該充分的大。一般來講,研究者需要整個樣本至少為100,將它分為兩組。,2020/9/24,中國人民大學(xué)六西格瑪質(zhì)量管理研究中心,32,4.6 判別分析方法步驟及框圖,目錄 上頁 下頁 返回 結(jié)束,第3步:判別分析的假定 推導(dǎo)判別函數(shù)的關(guān)鍵假定是解釋變量的多元正態(tài)性和由被解釋變量定義的各組的未知但相等的協(xié)方差結(jié)構(gòu)。不滿足多元正態(tài)性假定在估計判別方程時可能會出現(xiàn)問題。因此,如果可能的話,建議使用Logistic回歸作為一種替代方法。 不等的協(xié)方差矩陣可能會負(fù)面影響分類過程。如果樣本量小而協(xié)方差陣不等,那么估計過程的統(tǒng)計顯著性會受
17、到負(fù)面影響。最可能的情況是在適當(dāng)?shù)臉颖玖康慕M之間存在不等的協(xié)方差陣,那么觀測會被“過度歸類”到大的協(xié)方差陣的組中。可以通過增加樣本量和使用各組特定的協(xié)方差陣減小這種影響。,2020/9/24,中國人民大學(xué)六西格瑪質(zhì)量管理研究中心,33,4.6 判別分析方法步驟及框圖,目錄 上頁 下頁 返回 結(jié)束,最后,如果組間的協(xié)方差陣存在大的差異,沒有方法可以減小這種影響時,在許多統(tǒng)計問題中可以使用二次判別技術(shù)。 另一個可能影響結(jié)果的是解釋變量的多重共線性。當(dāng)使用逐步判別時這種考慮尤為重要。研究者在解釋判別方程時必須注意多重共線性的程度和它對哪些變量進(jìn)入逐步解的影響。,2020/9/24,中國人民大學(xué)六西格
18、瑪質(zhì)量管理研究中心,34,4.6 判別分析方法步驟及框圖,目錄 上頁 下頁 返回 結(jié)束,第4步:估計判別模型和評估整體擬合 為了推導(dǎo)判別函數(shù),研究者必須確定估計的方法,然后確定保留的函數(shù)個數(shù)。隨著估計的函數(shù),可以用多種方法來評估模型擬合。首先,判別Z得分,可以為每一個觀測計算。基于Z得分的各組均值的比較提供了組與組之間判別的一種測量。通過分到正確類中的觀測來測量預(yù)測精度。一系列準(zhǔn)則可以用來評價判別過程是否達(dá)到了實際的或者統(tǒng)計的顯著性。最后,個體診斷可以分析每個觀測的分類精度和它對于整個模型估計的相對影響。,2020/9/24,中國人民大學(xué)六西格瑪質(zhì)量管理研究中心,35,4.6 判別分析方法步驟
19、及框圖,目錄 上頁 下頁 返回 結(jié)束,(一)計算方法 推導(dǎo)判別函數(shù)時可以使用兩種計算方法:聯(lián)立(直接)法和逐步法。聯(lián)立估計在計算判別函數(shù)時同時考慮所有的解釋變量。這樣,判別函數(shù)是基于解釋變量的整個集合來計算的,而不管每個解釋變量的判別力。 逐步估計是另一種估計方法。它以解釋變量的判別力為基礎(chǔ),每次進(jìn)入一個變量到判別函數(shù)中。逐步估計開始是選取一個最有判別力的變量。然后這個變量與其他的解釋變量一一配對,那么與第一個變量一起最能夠提高判別力的變量被選中。第三個及以后的用類似的方式選取。增加新的變量時,如果一些前面選中的變量所包含的關(guān)于組差異信息可由后面選中的變量所包含,它們將被剔除。最后,既不能選進(jìn)
20、新的變量,又不能剔除已有變量。,2020/9/24,中國人民大學(xué)六西格瑪質(zhì)量管理研究中心,36,4.6 判別分析方法步驟及框圖,目錄 上頁 下頁 返回 結(jié)束,(二)評估整體擬合 一旦判別方程通過了顯著性檢驗,注意力轉(zhuǎn)向確定保留的判別函數(shù)的整體擬合。這個評估包括三個任務(wù):計算每個觀測的判別Z得分,檢驗各組在判別Z得分上的差異和評估組的關(guān)系的預(yù)測精度。 1.計算判別Z得分,2020/9/24,中國人民大學(xué)六西格瑪質(zhì)量管理研究中心,37,4.6 判別分析方法步驟及框圖,目錄 上頁 下頁 返回 結(jié)束,這個得分是定量變量,提供了在每個函數(shù)上比較對象的直接手段。有類似的Z得分的觀測被認(rèn)為在構(gòu)成函數(shù)的變量上
21、比得分懸殊的觀測更相似。判別函數(shù)既有用標(biāo)準(zhǔn)化的權(quán)重和值,也有用非標(biāo)準(zhǔn)化的權(quán)重和值。標(biāo)準(zhǔn)化形式更易于解釋,而非標(biāo)準(zhǔn)化形式更易于計算判別Z得分。,2020/9/24,中國人民大學(xué)六西格瑪質(zhì)量管理研究中心,38,4.6 判別分析方法步驟及框圖,目錄 上頁 下頁 返回 結(jié)束,應(yīng)當(dāng)注意判別函數(shù)不同于分類函數(shù),也稱為費歇線性判別函數(shù)。分類函數(shù),可用于對觀測進(jìn)行分類。在這種分類方法中,一個觀測的解釋變量的值代入分類函數(shù)中,這個觀測針對每組可以計算一個分類得分。然后這個觀測被分到分類得分最高的組中。我們使用判別函數(shù)作為分類手段,是因為它提供了每個判別函數(shù)的一個簡潔表示,簡化了解釋過程和對解釋變量貢獻(xiàn)的評估。,
22、2020/9/24,中國人民大學(xué)六西格瑪質(zhì)量管理研究中心,39,4.6 判別分析方法步驟及框圖,目錄 上頁 下頁 返回 結(jié)束,2. 檢驗組的差異 一種評估整體擬合的方法是根據(jù)判別Z得分,確定各組個體的差異大小。組差異的一種綜合測量是比較組的重心,即組中所有個體的平均判別Z得分。 重心的差異是用馬氏距離來測量的,這樣檢驗可用來確定差異是否在統(tǒng)計上顯著。研究者應(yīng)保證即使有顯著的判別函數(shù),組間應(yīng)存在顯著的差異。 在每個判別函數(shù)上組的重心可以從球面的角度來繪圖顯示結(jié)果。通常用前兩個或者三個判別函數(shù)來作圖。每組的值顯示了它在降維的空間中的值(并非畫出所有的函數(shù))。,2020/9/24,中國人民大學(xué)六西格
23、瑪質(zhì)量管理研究中心,40,4.6 判別分析方法步驟及框圖,目錄 上頁 下頁 返回 結(jié)束,3. 評價組關(guān)系預(yù)測的精度 判別分析中每個觀測是通過它是否被正確歸類來評價的。要這樣做,應(yīng)當(dāng)解決一些主要的考慮:利用分類矩陣的統(tǒng)計和實際的基本原理、分割點的確定、分類矩陣的構(gòu)造和評價分類精度的標(biāo)準(zhǔn)。 判別函數(shù)的顯著性檢驗并沒有說明函數(shù)擬合有多好。比如,假定兩個組在0.01的水平上有顯著性差異,如果樣本量足夠大,組的均值(重心)可能實際上相等。因此顯著性水平可能并不是反映判別函數(shù)判別能力的很好的指標(biāo)。為了確定一個判別函數(shù)的預(yù)測能力,研究者必須構(gòu)造分類矩陣。,2020/9/24,中國人民大學(xué)六西格瑪質(zhì)量管理研究
24、中心,41,4.6 判別分析方法步驟及框圖,目錄 上頁 下頁 返回 結(jié)束,如果統(tǒng)計檢驗顯示判別函數(shù)顯著,通常構(gòu)造分類矩陣來提供函數(shù)的判別效力的更精確的估計。然而,在分類矩陣構(gòu)造之前,研究者必須確定臨界得分。每個觀測的判別得分與臨界得分比較來確定個體應(yīng)分到哪一類中。 在構(gòu)造分類矩陣時,研究者希望確定最優(yōu)臨界得分(也稱臨界Z值)。最優(yōu)臨界得分會因各組大小是否相等而不同。如果兩組是相同的大小,最優(yōu)臨界得分是兩組重心的中點。,2020/9/24,中國人民大學(xué)六西格瑪質(zhì)量管理研究中心,42,4.6 判別分析方法步驟及框圖,目錄 上頁 下頁 返回 結(jié)束,2020/9/24,中國人民大學(xué)六西格瑪質(zhì)量管理研究
25、中心,43,4.6 判別分析方法步驟及框圖,目錄 上頁 下頁 返回 結(jié)束,所有計算最優(yōu)臨界得分的公式都假定正態(tài)分布和已知組的協(xié)方差結(jié)構(gòu)。 為了用分類矩陣來驗證判別分析的結(jié)果,樣本必須隨機地分割為分析樣本和保留樣本。保留樣本的每個觀測的判別得分可與臨界得分相比較,進(jìn)行分類。分類的結(jié)果用矩陣的形式表示出來。,2020/9/24,中國人民大學(xué)六西格瑪質(zhì)量管理研究中心,44,4.6 判別分析方法步驟及框圖,目錄 上頁 下頁 返回 結(jié)束,2020/9/24,中國人民大學(xué)六西格瑪質(zhì)量管理研究中心,45,4.6 判別分析方法步驟及框圖,目錄 上頁 下頁 返回 結(jié)束,評估模型擬合的最后一個方法就是在每個觀測的
26、基礎(chǔ)上研究預(yù)測結(jié)果。與回歸分析的殘差分析相似,目的是為了理解被錯判的觀測和不是該組代表的觀測。研究者可以通過馬氏距離來評估一個觀測與該組其他個體的相似性。靠近重心的觀測被認(rèn)為比遠(yuǎn)離重心的觀測更加代表該組。 用圖形的方式表示觀測是研究觀測特征的另一種方法。尤其是錯判的觀測。一種常用的方法是將觀測點根據(jù)判別Z得分繪圖,并且畫出各組重疊部分和錯判的觀測。如果保留了兩個或兩個以上的判別函數(shù),可以用區(qū)域圖來表示各組所對應(yīng)的區(qū)域和最優(yōu)臨界點。將每個觀測與組的重心畫在一起,不僅可以用組的重心反映一般特征,還可以反映組中成員的變動。,2020/9/24,中國人民大學(xué)六西格瑪質(zhì)量管理研究中心,46,4.6 判別
27、分析方法步驟及框圖,目錄 上頁 下頁 返回 結(jié)束,第5步:結(jié)果的解釋,2020/9/24,中國人民大學(xué)六西格瑪質(zhì)量管理研究中心,47,4.6 判別分析方法步驟及框圖,目錄 上頁 下頁 返回 結(jié)束,解釋判別函數(shù)傳統(tǒng)的方法是觀察計算判別函數(shù)時賦予每個變量的標(biāo)準(zhǔn)化判別權(quán)重(有時也稱為判別系數(shù))的符號和大小。忽略符號時,較大權(quán)重的解釋變量意味著對判別函數(shù)的判別力貢獻(xiàn)更多。符號只是代表那個變量有正的還是負(fù)的貢獻(xiàn)。對判別權(quán)重的解釋也有一些批評。比如解釋變量存在多重共線性情況時,判別權(quán)重可能會出現(xiàn)問題。另一個問題是判別權(quán)重被認(rèn)為不穩(wěn)定。 近年來,由于判別權(quán)重的缺陷,判別載荷逐漸作為解釋的基礎(chǔ)。判別載荷,有時
28、也稱為結(jié)構(gòu)相關(guān)系數(shù),是每個解釋變量與判別函數(shù)的簡單相關(guān)系數(shù)。判別載荷反映的是每個解釋變量對判別函數(shù)的相對貢獻(xiàn)。判別載荷也可能存在不穩(wěn)定性。,2020/9/24,中國人民大學(xué)六西格瑪質(zhì)量管理研究中心,48,4.6 判別分析方法步驟及框圖,目錄 上頁 下頁 返回 結(jié)束,當(dāng)存在兩個或以上的判別函數(shù)的時候,我們面臨著其他的解釋問題。首先,我們能簡化判別權(quán)重或載荷以利于刻畫判別函數(shù)嗎?再者,我們?nèi)绾伪硎窘忉屪兞繉ε袆e函數(shù)的影響?我們介紹函數(shù)旋轉(zhuǎn)和能力指數(shù)的概念來解決這兩個問題。,2020/9/24,中國人民大學(xué)六西格瑪質(zhì)量管理研究中心,49,4.6 判別分析方法步驟及框圖,目錄 上頁 下頁 返回 結(jié)束,
29、在推導(dǎo)出判別函數(shù)以后,它們可以旋轉(zhuǎn)來重新分配方差。旋轉(zhuǎn)保持了原始結(jié)構(gòu)和判別解的穩(wěn)定性,而且使方程更易于解釋。 當(dāng)保留兩個或兩個以上的判別函數(shù)時,需要一個綜合的量來描述一個變量對所有顯著函數(shù)的貢獻(xiàn)。 能力指數(shù)(potency index)是反映每個變量判別能力的相對指標(biāo)。它既包含一個變量對判別函數(shù)的貢獻(xiàn)(判別載荷),又包含一個方程對整個解的相對貢獻(xiàn)(對方程特征值的相對測量)。,2020/9/24,中國人民大學(xué)六西格瑪質(zhì)量管理研究中心,50,4.6 判別分析方法步驟及框圖,目錄 上頁 下頁 返回 結(jié)束,綜合指數(shù)只是在所有顯著的判別函數(shù)上的個體能力指數(shù)之和。綜合指數(shù)僅當(dāng)描述每個變量的相對重要性時是有
30、用的,其絕對數(shù)值沒有實際意義。能力指數(shù)通過兩步計算:,2020/9/24,中國人民大學(xué)六西格瑪質(zhì)量管理研究中心,51,4.6 判別分析方法步驟及框圖,目錄 上頁 下頁 返回 結(jié)束,(2):計算在所有顯著的函數(shù)上的綜合能力指數(shù)。當(dāng)每個函數(shù)都計算了能力值后,綜合指數(shù)為每個顯著的判別函數(shù)上的能力值之和。這個能力指數(shù)表示該變量在所有顯著的判別函數(shù)上的全部判別效果。 第6步:結(jié)果的驗證 判別分析的最后一個階段就是驗證判別分析的結(jié)果,通常采用分割樣本或者交叉驗證法。兩種廣泛使用的方法是法和小刀法。這兩種方法都是以“留一個觀測在外”的原則為基礎(chǔ)。(“留一個觀測在外”的原則是指在交叉驗證時,某個觀測不參與估計
31、判別函數(shù),但是根據(jù)除這個觀測以外的其他觀測估計的判別函數(shù)來預(yù)測該觀測的所屬類,從而使每個觀測得到驗證。)進(jìn)行兩者的主要區(qū)別在于法主要關(guān)注分類精度,而小刀法強調(diào)判別系數(shù)的穩(wěn)定性。兩種方法都對小樣本量非常敏感。,2020/9/24,中國人民大學(xué)六西格瑪質(zhì)量管理研究中心,52,4.6 判別分析方法步驟及框圖,目錄 上頁 下頁 返回 結(jié)束,判別分析的邏輯框圖如下:,2020/9/24,中國人民大學(xué)六西格瑪質(zhì)量管理研究中心,53,4.6 判別分析方法步驟及框圖,目錄 上頁 下頁 返回 結(jié)束,圖4.1 判別分析步驟框圖,2020/9/24,中國人民大學(xué)六西格瑪質(zhì)量管理研究中心,54,4.7 判別分析的上機
32、實現(xiàn),目錄 上頁 下頁 返回 結(jié)束,這里舉兩個例子,一個例子是分兩組的情況,一個是分多組的情況。我們分別用SPSS軟件中的Discriminant模塊來實現(xiàn)判別分析。,2020/9/24,中國人民大學(xué)六西格瑪質(zhì)量管理研究中心,55,4.7 判別分析的上機實現(xiàn),目錄 上頁 下頁 返回 結(jié)束,2020/9/24,中國人民大學(xué)六西格瑪質(zhì)量管理研究中心,56,4.7 判別分析的上機實現(xiàn),目錄 上頁 下頁 返回 結(jié)束,(一)二元變量的判別分析計算,2020/9/24,中國人民大學(xué)六西格瑪質(zhì)量管理研究中心,57,4.7 判別分析的上機實現(xiàn),目錄 上頁 下頁 返回 結(jié)束,另外,如果需要更深入的分析,可以選擇
33、其他項。統(tǒng)計量(Statistics)選項中可以選擇描述統(tǒng)計量Mean,ANVOA,BoxM ,函數(shù)可以選擇Fisher和非標(biāo)準(zhǔn)化函數(shù),同時還可以使用哪種矩陣。由于只有兩個自變量,我們不需要使用逐步判別法。分類(Classify)選項中可以選擇先驗概率(所有組相等或根據(jù)組的大小計算概率),子選項顯示(display)中可以選擇每個個體的結(jié)果(Casewise results),綜合表(Summery Table)和“留一個在外”的驗證原則,還可以選擇使用哪種協(xié)方差矩陣以及作圖。保存(Save)選項中可以選擇預(yù)測的分類、判別得分以及所屬類別的概率。如果采用逐步判別法,我們還可以選擇判別的方法(M
34、ethod)。得到分析結(jié)果如下:,2020/9/24,中國人民大學(xué)六西格瑪質(zhì)量管理研究中心,58,4.7 判別分析的上機實現(xiàn),目錄 上頁 下頁 返回 結(jié)束,2020/9/24,中國人民大學(xué)六西格瑪質(zhì)量管理研究中心,59,4.7 判別分析的上機實現(xiàn),目錄 上頁 下頁 返回 結(jié)束,2020/9/24,中國人民大學(xué)六西格瑪質(zhì)量管理研究中心,60,4.7 判別分析的上機實現(xiàn),目錄 上頁 下頁 返回 結(jié)束,2020/9/24,中國人民大學(xué)六西格瑪質(zhì)量管理研究中心,61,4.7 判別分析的上機實現(xiàn),目錄 上頁 下頁 返回 結(jié)束,2020/9/24,中國人民大學(xué)六西格瑪質(zhì)量管理研究中心,62,4.7 判別分
35、析的上機實現(xiàn),目錄 上頁 下頁 返回 結(jié)束,輸出結(jié)果4.3分析的是典型判別函數(shù)。第1張表反映判別函數(shù)的特征值、解釋方差的比例和典型相關(guān)系數(shù)。(注意我們僅選取了兩個解釋變量,所以判別函數(shù)解釋了全部的方差)第2張表是對第一個判別函數(shù)的顯著性檢驗。由Wilks Lambda檢驗,認(rèn)為判別函數(shù)在0.01的顯著性水平上是極顯著的。,2020/9/24,中國人民大學(xué)六西格瑪質(zhì)量管理研究中心,63,4.7 判別分析的上機實現(xiàn),目錄 上頁 下頁 返回 結(jié)束,輸出結(jié)果4.4顯示的是判別函數(shù)、判別載荷和各組的重心。,2020/9/24,中國人民大學(xué)六西格瑪質(zhì)量管理研究中心,64,4.7 判別分析的上機實現(xiàn),目錄
36、上頁 下頁 返回 結(jié)束,第2張表是結(jié)構(gòu)矩陣,即判別載荷。由判別權(quán)重和判別載荷可以看出兩個解釋變量對判別函數(shù)的貢獻(xiàn)較大。,2020/9/24,中國人民大學(xué)六西格瑪質(zhì)量管理研究中心,65,4.7 判別分析的上機實現(xiàn),目錄 上頁 下頁 返回 結(jié)束,2020/9/24,中國人民大學(xué)六西格瑪質(zhì)量管理研究中心,66,4.7 判別分析的上機實現(xiàn),目錄 上頁 下頁 返回 結(jié)束,2020/9/24,中國人民大學(xué)六西格瑪質(zhì)量管理研究中心,67,4.7 判別分析的上機實現(xiàn),目錄 上頁 下頁 返回 結(jié)束,輸出結(jié)果4.5是分類的統(tǒng)計結(jié)果。 第1張表概括了分類過程,說明24個觀測都參與分類。第2張表說明各組的先驗概率,我
37、們在Classify選項中選擇的是所有組的先驗概率相等。 第3張表是每組的分類函數(shù)(區(qū)別于判別函數(shù)),也稱費歇線性判別函數(shù),,2020/9/24,中國人民大學(xué)六西格瑪質(zhì)量管理研究中心,68,4.7 判別分析的上機實現(xiàn),目錄 上頁 下頁 返回 結(jié)束,第4張表是分類矩陣表。Predicted Group Membership表示預(yù)測的所屬組關(guān)系,Original表示原始數(shù)據(jù)的所屬組關(guān)系,Cross-validated表示交叉驗證的所屬組關(guān)系,這里交叉驗證是采用“留一個在外”的原則,即每個觀測是通過除了這個觀測以外的其他觀測推導(dǎo)出來的判別函數(shù)來分類的。,2020/9/24,中國人民大學(xué)六西格瑪質(zhì)量管
38、理研究中心,69,4.7 判別分析的上機實現(xiàn),目錄 上頁 下頁 返回 結(jié)束,,我們還可以通過保存(Save)選項選擇預(yù)測的類別關(guān)系和判別得分等,對觀測進(jìn)行診斷。 下面我們看一個三總體判別的例子。 【例4.2】研究者希望能夠根據(jù)氣候、經(jīng)濟(jì)因素、人口等信息來判斷某國家或地區(qū)屬于哪一類型。這里國家country(因變量)有3種類別,OECD表示經(jīng)合組織的國家(包括美國、加拿大和西歐等發(fā)達(dá)國家),Pacific/Asia表示亞太地區(qū)的國家,Africa表示非洲地區(qū)的國家。考慮了以下幾個自變量,climate(氣候因素,包括沙漠氣候、干旱氣候、地中海氣候、海洋氣候、溫帶氣候和極地氣候等),urban(城
39、市居民的比例),population(人口數(shù)),gdp_cap(人均GDP)。數(shù)據(jù)集來自SPSS10.0自帶的數(shù)據(jù)集World95.sav。,2020/9/24,中國人民大學(xué)六西格瑪質(zhì)量管理研究中心,70,4.7 判別分析的上機實現(xiàn),目錄 上頁 下頁 返回 結(jié)束,,進(jìn)入判別分析對話框以后,我們使用逐步判別分析,Method選擇馬氏距離。得到如下輸出結(jié)果: 首先顯示有類的輸出結(jié)果4.1的3張表,第1張表是分析的樣本及其缺失情況。第2張表是各組變量的描述統(tǒng)計分析。第3張表是各組變量均值是否相等的統(tǒng)計檢驗,結(jié)果說明四個自變量各組的均值在0.05的顯著性水平上是不相等的。此處從略。,2020/9/24
40、,中國人民大學(xué)六西格瑪質(zhì)量管理研究中心,71,4.7 判別分析的上機實現(xiàn),目錄 上頁 下頁 返回 結(jié)束,輸出結(jié)果4.6是對協(xié)方差陣是否相等的檢驗。由第2張表可以看出,原假設(shè)被拒絕,即認(rèn)為各組的協(xié)方差陣不等。(注意這里違反了原假設(shè)),2020/9/24,中國人民大學(xué)六西格瑪質(zhì)量管理研究中心,72,4.7 判別分析的上機實現(xiàn),目錄 上頁 下頁 返回 結(jié)束,2020/9/24,中國人民大學(xué)六西格瑪質(zhì)量管理研究中心,73,4.7 判別分析的上機實現(xiàn),目錄 上頁 下頁 返回 結(jié)束,2020/9/24,中國人民大學(xué)六西格瑪質(zhì)量管理研究中心,74,4.7 判別分析的上機實現(xiàn),目錄 上頁 下頁 返回 結(jié)束,輸
41、出結(jié)果4.7是說明逐步回歸的結(jié)果。第1,2張表說明變量進(jìn)入判別函數(shù)的情況。第3張表說明不在判別函數(shù)的變量,結(jié)果反映城市居民的比例(urban)對判別函數(shù)的貢獻(xiàn)不顯著,其他三個自變量被選入判別方程。第4張表說明判別函數(shù)的顯著性,由Step3的結(jié)果說明判別函數(shù)在0.05的顯著性水平上是顯著的,模型擬合較好。,2020/9/24,中國人民大學(xué)六西格瑪質(zhì)量管理研究中心,75,4.7 判別分析的上機實現(xiàn),目錄 上頁 下頁 返回 結(jié)束,2020/9/24,中國人民大學(xué)六西格瑪質(zhì)量管理研究中心,76,4.7 判別分析的上機實現(xiàn),目錄 上頁 下頁 返回 結(jié)束,輸出結(jié)果4.8分析的是典型判別函數(shù)。第1張表說明選
42、取了兩個典型判別函數(shù),它們可以解釋全部的方差。第2張表是對兩個判別函數(shù)的Wilks Lamada檢驗,檢驗結(jié)果說明兩個判別函數(shù)在0.05的顯著性水平上是顯著的。第3張表是標(biāo)準(zhǔn)化判別函數(shù),第4張表是結(jié)構(gòu)矩陣(即判別載荷矩陣),第5張表是非標(biāo)準(zhǔn)化判別函數(shù),由這幾張表可以說明,第一判別函數(shù)主要反映一國的氣候和經(jīng)濟(jì)因素,第二判別函數(shù)主要反映人口因素。第6張表反映各組的重心,我們由此可以計算出臨界點,從而根據(jù)判別函數(shù)計算出判別Z得分,對各個觀測進(jìn)行歸類。,2020/9/24,中國人民大學(xué)六西格瑪質(zhì)量管理研究中心,77,4.7 判別分析的上機實現(xiàn),目錄 上頁 下頁 返回 結(jié)束,2020/9/24,中國人民
43、大學(xué)六西格瑪質(zhì)量管理研究中心,78,4.7 判別分析的上機實現(xiàn),目錄 上頁 下頁 返回 結(jié)束,輸出結(jié)果4-9的第1張表是對觀測分類的總體概括,有一個觀測至少有1個自變量缺失。第2張表是各組的先驗概率,由于我們選擇先驗概率按各組大小計算,所以各組的先驗概率是與各組大小成比例的。第3張表說明分類函數(shù),也就是費歇線性判別函數(shù),我們可以根據(jù)這三組的函數(shù)計算每個觀測在各組的分類得分,然后將該觀測歸到得分最高的組中。 第4張圖是根據(jù)典型判別函數(shù)作的所有組的散點圖,比較直觀地反映了各組觀測的分類情況和各組的重心。,2020/9/24,中國人民大學(xué)六西格瑪質(zhì)量管理研究中心,79,4.7 判別分析的上機實現(xiàn),目
44、錄 上頁 下頁 返回 結(jié)束,第5張表是分類結(jié)果的矩陣,這里我們也使用了“留一個在外”的原則進(jìn)行交叉驗證,驗證的結(jié)果還是可以接受的,表明模型擬合還是不錯的。由分類矩陣可以看出,OECD國家和非洲國家的個體誤判概率很小,而亞太國家誤判概率很大。這說明了OECD國家經(jīng)濟(jì)比較發(fā)達(dá),城市化水平較高,而且各成員國發(fā)展水平相差不大;非洲國家經(jīng)濟(jì)水平較低,城市化水平也較低,其成員國發(fā)展水平相差也不大;因此這兩類國家比較容易判別,而亞太國家和地區(qū)發(fā)展水平不均衡,沒有太多的共同點,導(dǎo)致其成員國不易判別。(根據(jù)輸出結(jié)果4.8第2張表的均值和協(xié)差陣可以說明)我們還可以在對話框中選擇ClassifyDisplayCas
45、ewise results,對每個觀測進(jìn)行診斷分析。,2020/9/24,中國人民大學(xué)六西格瑪質(zhì)量管理研究中心,80,4.8 判別分析應(yīng)用的幾個例子,目錄 上頁 下頁 返回 結(jié)束,下面用SPSS軟件中的Discriminant模塊來實現(xiàn)判別分析。 例4.3 為了研究2005年全國各地區(qū)農(nóng)村居民家庭人均消費支出情況,按標(biāo)準(zhǔn)化歐氏平方距離、離差平方和聚類方法將29個省、市、自治區(qū)(除廣東和西藏以外)分為三種類型,設(shè)置group變量取值分別為1、2、3。試建立判別函數(shù),判定廣東、西藏分別屬于哪個消費水平類型。判別指標(biāo)及原始數(shù)據(jù)見表42。,2020/9/24,中國人民大學(xué)六西格瑪質(zhì)量管理研究中心,81
46、,4.8 判別分析應(yīng)用的幾個例子,目錄 上頁 下頁 返回 結(jié)束,2020/9/24,中國人民大學(xué)六西格瑪質(zhì)量管理研究中心,82,4.8 判別分析應(yīng)用的幾個例子,目錄 上頁 下頁 返回 結(jié)束,2020/9/24,中國人民大學(xué)六西格瑪質(zhì)量管理研究中心,83,4.8 判別分析應(yīng)用的幾個例子,目錄 上頁 下頁 返回 結(jié)束,將原29個樣品的回報結(jié)果列于表43,兩個待判樣品的判別結(jié)果列于表44。廣東省應(yīng)判歸第二類消費水平,西藏自治區(qū)歸入第三類消費水平為宜。本例的回報準(zhǔn)確率高,說明各地區(qū)農(nóng)村居民的消費水平劃分為三種類型是合適的。由于SPSS中的判別分析沒有距離判別這一方法,因此距離判別法無法在SPSS中直接
47、實現(xiàn),但可以通過Excel等軟件來進(jìn)行手工計算。,2020/9/24,中國人民大學(xué)六西格瑪質(zhì)量管理研究中心,84,4.8 判別分析應(yīng)用的幾個例子,目錄 上頁 下頁 返回 結(jié)束,這里順便指出,回報的誤判率并不是“誤判概率”,而且前者通常要小些,回判情況僅供使用時參考。,2020/9/24,中國人民大學(xué)六西格瑪質(zhì)量管理研究中心,85,4.8 判別分析應(yīng)用的幾個例子,目錄 上頁 下頁 返回 結(jié)束,例4.4 為了研究2005年全國各地區(qū)國有及國有控股工業(yè)企業(yè)的經(jīng)營狀況,按標(biāo)準(zhǔn)化歐氏平方距離、離差平方和聚類方法將29個省、市、自治區(qū)(除廣東和西藏以外)分為三種類型,設(shè)置group變量取值分別為1、2、3
48、。試建立判別函數(shù),判定廣東、西藏分別屬于哪個發(fā)展類型。判別指標(biāo)及原始數(shù)據(jù)見表45。,2020/9/24,中國人民大學(xué)六西格瑪質(zhì)量管理研究中心,86,4.8 判別分析應(yīng)用的幾個例子,目錄 上頁 下頁 返回 結(jié)束,2020/9/24,中國人民大學(xué)六西格瑪質(zhì)量管理研究中心,87,4.8 判別分析應(yīng)用的幾個例子,目錄 上頁 下頁 返回 結(jié)束,2020/9/24,中國人民大學(xué)六西格瑪質(zhì)量管理研究中心,88,4.8 判別分析應(yīng)用的幾個例子,目錄 上頁 下頁 返回 結(jié)束,將原29個樣品的回報結(jié)果列于表46,兩個待判樣品的判別結(jié)果列于表47。廣東省應(yīng)判歸第一類,西藏自治區(qū)歸入第三類為宜。本例的回報準(zhǔn)確率高,說
49、明各地區(qū)國有及控股工業(yè)企業(yè)經(jīng)濟(jì)效益劃分為三種類型是合適的。這也可看成聚類分析與判別分析的結(jié)合應(yīng)用。,2020/9/24,中國人民大學(xué)六西格瑪質(zhì)量管理研究中心,89,4.8 判別分析應(yīng)用的幾個例子,目錄 上頁 下頁 返回 結(jié)束,例4.5 2005年全國城鎮(zhèn)居民月平均消費狀況可劃分為兩類,分類后的數(shù)據(jù)見表48。試建立費歇爾線性判別函數(shù),并將廣東、西藏兩個待判省區(qū)歸類。,2020/9/24,中國人民大學(xué)六西格瑪質(zhì)量管理研究中心,90,4.8 判別分析應(yīng)用的幾個例子,目錄 上頁 下頁 返回 結(jié)束,2020/9/24,中國人民大學(xué)六西格瑪質(zhì)量管理研究中心,91,4.8 判別分析應(yīng)用的幾個例子,目錄 上頁
50、 下頁 返回 結(jié)束,2020/9/24,中國人民大學(xué)六西格瑪質(zhì)量管理研究中心,92,4.8 判別分析應(yīng)用的幾個例子,目錄 上頁 下頁 返回 結(jié)束,2020/9/24,中國人民大學(xué)六西格瑪質(zhì)量管理研究中心,93,4.8 判別分析應(yīng)用的幾個例子,目錄 上頁 下頁 返回 結(jié)束,6回判及待判樣品的歸類。,2020/9/24,中國人民大學(xué)六西格瑪質(zhì)量管理研究中心,94,4.8 判別分析應(yīng)用的幾個例子,目錄 上頁 下頁 返回 結(jié)束,2020/9/24,中國人民大學(xué)六西格瑪質(zhì)量管理研究中心,95,4.8 判別分析應(yīng)用的幾個例子,目錄 上頁 下頁 返回 結(jié)束,2020/9/24,中國人民大學(xué)六西格瑪質(zhì)量管理研
51、究中心,96,4.8 判別分析應(yīng)用的幾個例子,目錄 上頁 下頁 返回 結(jié)束,SPSS中進(jìn)行費歇爾判別分析是十分快捷的。首先按照表416把數(shù)據(jù)輸入SPSS數(shù)據(jù)表中,然后依次點擊“Analyze”“Classify” “Discriminant”,打開Discriminant Analysis對話框,將對話框左側(cè)變量列表中的group選入 Grouping Variable框,并點擊“Define Range”鈕,在彈出的Discriminant Analysis:Define Range對話框中,定義判別原始數(shù)據(jù)的類別區(qū)間,本例為兩類,故在Minimum處輸入1、在Maximum處輸入2,點擊C
52、ontinue鈕返回Discriminant Analysis對話框。,2020/9/24,中國人民大學(xué)六西格瑪質(zhì)量管理研究中心,97,4.8 判別分析應(yīng)用的幾個例子,目錄 上頁 下頁 返回 結(jié)束,再從對話框左側(cè)的變量列表中選將八個變量選Independents框,作為判別分析的基礎(chǔ)數(shù)據(jù)變量。點擊“Statistics”鈕,彈出Discriminant Analysis: Statistics對話框,在Descriptive欄中選Means項,要求對各組的各變量作均數(shù)與標(biāo)準(zhǔn)差的描述;在Function Coefficients欄中選Unstandardized項(注意,不是Fishers項!)
53、,要求顯示費歇爾判別法建立的非標(biāo)準(zhǔn)化系數(shù)。,2020/9/24,中國人民大學(xué)六西格瑪質(zhì)量管理研究中心,98,4.8 判別分析應(yīng)用的幾個例子,目錄 上頁 下頁 返回 結(jié)束,之后,點擊“Continue”鈕返回Discriminant Analysis對話框。點擊“Save”鈕,彈出Discriminant Analysis: Save New Variables對話框,選Predicted group membership項要求將回判的結(jié)果存入原始數(shù)據(jù)庫中。點擊“Continue”鈕返回Discriminant Analysis對話框,其他項目不變,點擊“OK”鈕即完成分析。在輸出結(jié)果中可以看到
54、各組均值、標(biāo)準(zhǔn)差、協(xié)方差陣等描述統(tǒng)計結(jié)果以及判別函數(shù),返回數(shù)據(jù)表中,可以看到判別結(jié)果已經(jīng)作為一個新的變量被保存,廣東和西藏均被劃分到第二大類,篇幅所限,各輸出結(jié)果在此不再列示。,2020/9/24,中國人民大學(xué)六西格瑪質(zhì)量管理研究中心,99,4.8 判別分析應(yīng)用的幾個例子,目錄 上頁 下頁 返回 結(jié)束,例4.6 2005年全國各地區(qū)農(nóng)村居民家庭人均消費情況可劃分為三種類型,分類后的數(shù)據(jù)見表42。試用SPSS軟件建立Bayes判別函數(shù),并將待判樣品歸類。,2020/9/24,中國人民大學(xué)六西格瑪質(zhì)量管理研究中心,100,4.8 判別分析應(yīng)用的幾個例子,目錄 上頁 下頁 返回 結(jié)束,2020/9/
55、24,中國人民大學(xué)六西格瑪質(zhì)量管理研究中心,101,4.8 判別分析應(yīng)用的幾個例子,目錄 上頁 下頁 返回 結(jié)束,2020/9/24,中國人民大學(xué)六西格瑪質(zhì)量管理研究中心,102,4.8 判別分析應(yīng)用的幾個例子,目錄 上頁 下頁 返回 結(jié)束,根據(jù)判別函數(shù),就可以對原各組樣品以及待判樣品進(jìn)行回判和判別,此時在SPSS中返回原數(shù)據(jù)表,可以看到一個新的變量名為Dis_1,其對應(yīng)的各值就是對各地區(qū)的回判和判別結(jié)果,可知廣東被劃分到第二類消費水平地區(qū),西藏被劃分到第三類消費水平地區(qū),并且原各組樣品的回報誤判率為零。以上判別結(jié)果綜合整理列于表410。,2020/9/24,中國人民大學(xué)六西格瑪質(zhì)量管理研究中
56、心,103,4.8 判別分析應(yīng)用的幾個例子,目錄 上頁 下頁 返回 結(jié)束,2020/9/24,中國人民大學(xué)六西格瑪質(zhì)量管理研究中心,104,4.8 判別分析應(yīng)用的幾個例子,目錄 上頁 下頁 返回 結(jié)束,在例4.5和4.6中,我們是將事先確定的所有八個指標(biāo)變量都選入來進(jìn)行判別分析,在實際應(yīng)用中,我們也大多是設(shè)計盡可能多的相關(guān)指標(biāo)來進(jìn)行聚類和判別分析,然而事實是,指標(biāo)太多不僅增大了計算量,而且那些對判別無用的指標(biāo)也會干擾我們的視線。因此對眾多指標(biāo)進(jìn)行篩選,找出對判別函數(shù)貢獻(xiàn)比較突出,具有較強判別能力的指標(biāo)成為一個很重要的事情。凡是具有篩選變量能力的判別方法統(tǒng)稱為逐步判別法,有關(guān)這些方法的具體論述可
57、見參考文獻(xiàn)2。,2020/9/24,中國人民大學(xué)六西格瑪質(zhì)量管理研究中心,105,4.8 判別分析應(yīng)用的幾個例子,目錄 上頁 下頁 返回 結(jié)束,在此我們以例4.6為例介紹逐步判別法在SPSS中的實現(xiàn)。操作步驟仍與例4.5類似,不同之處在于點擊“Analyze”“Classify” “Discriminant”,打開Discriminant Analysis對話框后,將Independents欄下的“Enter independents together”項改選為“Use stepwise method”,此時窗口最下面一行的“Method”按鈕被激活,點擊后進(jìn)入Discriminant Ana
58、lysis:stepwise method對話框,在method欄中選中Mahalanobis distance項,即采用馬氏距離,其他選項保持不變,返回主對話框后,其他操作仍按例4.5進(jìn)行,點擊“OK”得到輸出結(jié)果,部分列舉如下:,2020/9/24,中國人民大學(xué)六西格瑪質(zhì)量管理研究中心,106,4.8 判別分析應(yīng)用的幾個例子,目錄 上頁 下頁 返回 結(jié)束,2020/9/24,中國人民大學(xué)六西格瑪質(zhì)量管理研究中心,107,4.8 判別分析應(yīng)用的幾個例子,目錄 上頁 下頁 返回 結(jié)束,2020/9/24,中國人民大學(xué)六西格瑪質(zhì)量管理研究中心,108,4.8 判別分析應(yīng)用的幾個例子,目錄 上頁 下頁 返回 結(jié)束,The end! Thanks!,2020/9/24,中國人民大學(xué)六西格瑪質(zhì)量管理研究中心,109,
- 溫馨提示:
1: 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2: 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3.本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 裝配圖網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。