廈門大學《應用多元統(tǒng)計分析》第04章判別分析.ppt
《廈門大學《應用多元統(tǒng)計分析》第04章判別分析.ppt》由會員分享,可在線閱讀,更多相關《廈門大學《應用多元統(tǒng)計分析》第04章判別分析.ppt(62頁珍藏版)》請在裝配圖網(wǎng)上搜索。
第四章判別分析,第一節(jié)引言,第二節(jié)距離判別法,第三節(jié)貝葉斯(Bayes)判別法,第四節(jié)費歇(Fisher)判別法,第五節(jié)實例分析與計算機實現(xiàn),第一節(jié)引言,在我們的日常生活和工作實踐中,常常會遇到判別分析問題,即根據(jù)歷史上劃分類別的有關資料和某種最優(yōu)準則,確定一種判別方法,判定一個新的樣本歸屬哪一類。例如,某醫(yī)院有部分患有肺炎、肝炎、冠心病、糖尿病等病人的資料,記錄了每個患者若干項癥狀指標數(shù)據(jù)?,F(xiàn)在想利用現(xiàn)有的這些資料找出一種方法,使得對于一個新的病人,當測得這些癥狀指標數(shù)據(jù)時,能夠判定其患有哪種病。又如,在天氣預報中,我們有一段較長時間關于某地區(qū)每天氣象的記錄資料(晴陰雨、氣溫、氣壓、濕度等),現(xiàn)在想建立一種用連續(xù)五天的氣象資料來預報第六天是什么天氣的方法。這些問題都可以應用判別分析方法予以解決。,,把這類問題用數(shù)學語言來表達,可以敘述如下:設有n個樣本,對每個樣本測得p項指標(變量)的數(shù)據(jù),已知每個樣本屬于k個類別(或總體)G1,G2,…,Gk中的某一類,且它們的分布函數(shù)分別為F1(x),F(xiàn)2(x),…,F(xiàn)k(x)。我們希望利用這些數(shù)據(jù),找出一種判別函數(shù),使得這一函數(shù)具有某種最優(yōu)性質(zhì),能把屬于不同類別的樣本點盡可能地區(qū)別開來,并對測得同樣p項指標(變量)數(shù)據(jù)的一個新樣本,能判定這個樣本歸屬于哪一類。,,判別分析內(nèi)容很豐富,方法很多。判斷分析按判別的總體數(shù)來區(qū)分,有兩個總體判別分析和多總體判別分析;按區(qū)分不同總體所用的數(shù)學模型來分,有線性判別和非線性判別;按判別時所處理的變量方法不同,有逐步判別和序貫判別等。判別分析可以從不同角度提出問題,因此有不同的判別準則,如馬氏距離最小準則、Fisher準則、平均損失最小準則、最小平方準則、最大似然準則、最大概率準則等等,按判別準則的不同又提出多種判別方法。本章僅介紹常用的幾種判別分析方法:距離判別法、Fisher判別法、Bayes判別法和逐步判別法。,第二節(jié)距離判別法,一馬氏距離的概念,二距離判別的思想及方法,三判別分析的實質(zhì),一、馬氏距離的概念,,,,圖4.1,,,為此,我們引入一種由印度著名統(tǒng)計學家馬哈拉諾比斯(Mahalanobis,1936)提出的“馬氏距離”的概念。,二、距離判別的思想及方法,1、兩個總體的距離判別問題問題:設有協(xié)方差矩陣∑相等的兩個總體G1和G2,其均值分別是?1和?2,對于一個新的樣品X,要判斷它來自哪個總體。一般的想法是計算新樣品X到兩個總體的馬氏距離D2(X,G1)和D2(X,G2),并按照如下的判別規(guī)則進行判斷這個判別規(guī)則的等價描述為:求新樣品X到G1的距離與到G2的距離之差,如果其值為正,X屬于G2;否則X屬于G1。,,我們考慮,,,,,,這里我們應該注意到:,,,2、多個總體的距離判別問題,,,,,三、判別分析的實質(zhì),我們知道,判別分析就是希望利用已經(jīng)測得的變量數(shù)據(jù),找出一種判別函數(shù),使得這一函數(shù)具有某種最優(yōu)性質(zhì),能把屬于不同類別的樣本點盡可能地區(qū)別開來。為了更清楚的認識判別分析的實質(zhì),以便能靈活的應用判別分析方法解決實際問題,我們有必要了解“劃分”這樣概念。設R1,R2,…,Rk是p維空間Rp的k個子集,如果它們互不相交,且它們的和集為Rp,則稱R1,R2,…,Rk為Rp的一個劃分。,,這樣我們將會發(fā)現(xiàn),判別分析問題實質(zhì)上就是在某種意義上,以最優(yōu)的性質(zhì)對p維空間Rp構造一個“劃分”,這個“劃分”就構成了一個判別規(guī)則。這一思想將在后面的各節(jié)中體現(xiàn)的更加清楚。,第三節(jié)貝葉斯(Bayes)判別法,一Bayes判別的基本思想,二Bayes判別的基本方法,,從上節(jié)看距離判別法雖然簡單,便于使用。但是該方法也有它明顯的不足之處。第一,判別方法與總體各自出現(xiàn)的概率的大小無關;第二,判別方法與錯判之后所造成的損失無關。Bayes判別法就是為了解決這些問題而提出的一種判別方法。,一、Bayes判別的基本思想,,,,,,,,二、Bayes判別的基本方法,如果已知樣品X來自總體Gi的先驗概率為qi,,則在規(guī)則R下,由(4.12)式知,誤判的總平均損失為,,,,,,,,,,第四節(jié)費歇(Fisher)判別法,一Fisher判別的基本思想,二Fisher判別函數(shù)的構造,三線性判別函數(shù)的求法,,Fisher判別法是1936年提出來的,該方法的主要思想是通過將多維數(shù)據(jù)投影到某個方向上,投影的原則是將總體與總體之間盡可能的放開,然后再選擇合適的判別規(guī)則,將新的樣品進行分類判別。,一、Fisher判別的基本思想,,二、Fisher判別函數(shù)的構造,1、針對兩個總體的情形,,2、針對多個總體的情形,,,三、線性判別函數(shù)的求法,,,,,,,這里值得注意的是,本書有幾處利用極值原理求極值時,只給出了不要條件的數(shù)學推導,而有關充分條件的論證省略了,因為在實際問題中,往往根據(jù)問題本身的性質(zhì)就能肯定有最大值(或最小值),如果所求的駐點只有一個,這時就不需要根據(jù)極值存在的充分條件判定它是極大還是極小而就能肯定這唯一的駐點就是所求的最大值(或最小值)。為了避免用較多的數(shù)學知識或數(shù)學上的推導,這里不追求數(shù)學上的完整性。,,第五節(jié)實例分析與計算機實現(xiàn),這一節(jié)我們利用SPSS對Fisher判別法和Bayes判別法進行計算機實現(xiàn)。為研究某地區(qū)人口死亡狀況,已按某種方法將15個已知地區(qū)樣品分為3類,指標含義及原始數(shù)據(jù)如下。試建立判別函數(shù),并判定另外4個待判地區(qū)屬于哪類?,,表4.1各地區(qū)死亡概率表,,(一)操作步驟1.在SPSS窗口中選擇Analyze→Classify→Discriminate,調(diào)出判別分析主界面,將左邊的變量列表中的“group”變量選入分組變量中,將—變量選入自變量中,并選擇Enterindependentstogether單選按鈕,即使用所有自變量進行判別分析。,圖4.2判別分析主界面,,2.點擊DefineRange按鈕,定義分組變量的取值范圍。本例中分類變量的范圍為1到3,所以在最小值和最大值中分別輸入1和3。單擊Continue按鈕,返回主界面。3.單擊Statistics…按鈕,指定輸出的描述統(tǒng)計量和判別函數(shù)系數(shù)。選中FunctionCoefficients欄中的Fisher’s和Unstandardized。這兩個選項的含義如下:Fisher’s:給出Bayes判別函數(shù)的系數(shù)。(注意:這個選項不是要給出Fisher判別函數(shù)的系數(shù)。這個復選框的名字之所以為Fisher’s,是因為按判別函數(shù)值最大的一組進行歸類這種思想是由Fisher提出來的。這里極易混淆,請讀者注意辨別。)Unstandardized:給出未標準化的Fisher判別函數(shù)(即典型判別函數(shù))的系數(shù)(SPSS默認給出標準化的Fisher判別函數(shù)系數(shù))。,,單擊Continue按鈕,返回主界面。,圖4.3Statistics子對話框,,4.單擊Classify…按鈕,定義判別分組參數(shù)和選擇輸出結果。選擇Display欄中的Casewiseresults,輸出一個判別結果表,包括每個樣品的判別分數(shù)、后驗概率、實際組和預測組編號等。其余的均保留系統(tǒng)默認選項。單擊Continue按鈕。,圖4.4Classify…子對話框,,5.單擊Save按鈕,指定在數(shù)據(jù)文件中生成代表判別分組結果和判別得分的新變量,生成的新變量的含義分別為:Predictedgroupmembership:存放判別樣品所屬組別的值;Discriminantscores:存放Fisher判別得分的值,有幾個典型判別函數(shù)就有幾個判別得分變量;Probabilitiesofgroupmembership:存放樣品屬于各組的Bayes后驗概率值。將對話框中的三個復選框均選中,單擊Continue按鈕返回。,,6.返回判別分析主界面,單擊OK按鈕,運行判別分析過程。,圖4.5Save子對話框,,(二)主要運行結果解釋1.StandardizedCanonicalDiscriminantFunctionCoefficients(給出標準化的典型判別函數(shù)系數(shù))標準化的典型判別函數(shù)是由標準化的自變量通過Fisher判別法得到的,所以要得到標準化的典型判別得分,代入該函數(shù)的自變量必須是經(jīng)過標準化的。2.CanonicalDiscriminantFunctionCoefficients(給出未標準化的典型判別函數(shù)系數(shù))未標準化的典型判別函數(shù)系數(shù)由于可以將實測的樣品觀測值直接代入求出判別得分,所以該系數(shù)使用起來比標準化的系數(shù)要方便一些。見表4.2(a)。,,由此表可知,兩個Fisher判別函數(shù)分別為:實際上兩個函數(shù)式計算的是各觀測值在各個維度上的坐標,這樣就可以通過這兩個函數(shù)式計算出各樣品觀測值的具體空間位置。,,表4.2(a)未標準化的典型判別函數(shù)系數(shù),,3.FunctionsatGroupCentroids(給出組重心處的Fisher判別函數(shù)值)如表4.2(b)所示,實際上為各類別重心在空間中的坐標位置。這樣,只要在前面計算出各觀測值的具體坐標位置后,再計算出它們分別離各重心的距離,就可以得知它們的分類了。,表4.2(b)組重心處的Fisher判別函數(shù)值,,4.ClassificationFunctionCoefficients(給出Bayes判別函數(shù)系數(shù))如表4.3所示,GROUP欄中的每一列表示樣品判入相應列的Bayes判別函數(shù)系數(shù)。在本例中,各類的Bayes判別函數(shù)如下:第一組:第二組:第三組:,,將各樣品的自變量值代入上述三個Bayes判別函數(shù),得到三個函數(shù)值。比較這三個函數(shù)值,哪個函數(shù)值比較大就可以判斷該樣品判入哪一類。例如,將第一個待判樣品的自變量值分別代入函數(shù),得到:F1=3793.77,F(xiàn)2=3528.32,F(xiàn)3=3882.48比較三個值,可以看出最大,據(jù)此得出第一個待判樣品應該屬于第三組。,,表4.3Bayes判別法的輸出結果,,5.CasewiseStatistics(給出個案觀察結果)在CasewiseStatistics輸出表針對每個樣品給出了了大部分的判別結果,其中包括:實際類(ActualGroup)、預測類(PredictedGroup)、Bayes判別法的后驗概率、與組重心的馬氏距離(SquaredMahalanobisDistancetoCentroid)以及Fisher判別法的每個典型判別函數(shù)的判別得分(DiscriminantScores)。出于排版要求,這里給出結果表的是經(jīng)過加工的,隱藏了其中的一些項目,如表4.4所示。從表中可以看出四個待判樣本依次被判別為第三組、第一組、第二組和第三組。,,表4.4個案觀察結果表,,6.由于我們在Save子對話框中選擇了生成表示判別結果的新變量,所以在數(shù)據(jù)編輯窗口中,可以觀察到產(chǎn)生的新變量。其中,變量dis-1存放判別樣品所屬組別的值,變量dis1-1和dis2-1分別代表將樣品各變量值代入第一個和第二個判別函數(shù)所得的判別分數(shù),變量dis1-2、dis2-2和dis3-2分別代表樣品分別屬于第1組、第2組和第3組的Bayes后驗概率值。,,本章結束,- 配套講稿:
如PPT文件的首頁顯示word圖標,表示該PPT已包含配套word講稿。雙擊word圖標可打開word文檔。
- 特殊限制:
部分文檔作品中含有的國旗、國徽等圖片,僅作為作品整體效果示例展示,禁止商用。設計者僅對作品中獨創(chuàng)性部分享有著作權。
- 關 鍵 詞:
- 應用多元統(tǒng)計分析 廈門大學 應用 多元 統(tǒng)計分析 04 判別分析
裝配圖網(wǎng)所有資源均是用戶自行上傳分享,僅供網(wǎng)友學習交流,未經(jīng)上傳用戶書面授權,請勿作他用。
相關資源
更多
正為您匹配相似的精品文檔
相關搜索
鏈接地址:http://www.szxfmmzy.com/p-12714627.html