《《判別分析》PPT課件.ppt》由會員分享,可在線閱讀,更多相關(guān)《《判別分析》PPT課件.ppt(55頁珍藏版)》請在裝配圖網(wǎng)上搜索。
1、第四章 判別分析,內(nèi)容和要求,內(nèi)容: 判別分析簡介、基本原理、判別分析方法 要求: 1、熟悉判別分析基本原理。 2、掌握常用的判別分析準(zhǔn)則。 3、能熟練使用軟件進行判別分析,并能對判別結(jié)果作深入討論。,第一節(jié) 判別分析簡介,關(guān)于判別分析基本概念和基本原理,一、什么是判別分析?,判別分析是在已知分類情況的條件下根據(jù)一定的指標(biāo)對未知類別的數(shù)據(jù)進行歸類的方法。判別分析在生物學(xué)、醫(yī)學(xué)、地質(zhì)學(xué)、石油、氣象等領(lǐng)域得到較為廣泛的應(yīng)用,在經(jīng)濟分析和市場研究中也是我們認知事物的重要方法。 舉例,例 中小企業(yè)的破產(chǎn)模型 為了研究中小企業(yè)的破產(chǎn)模型,選定4個經(jīng)濟指標(biāo): X1總負債率(現(xiàn)金收益/總負債) X2收益性
2、指標(biāo)(純收入/總財產(chǎn)) X3短期支付能力(流動資產(chǎn)/流動負債) X4生產(chǎn)效率性指標(biāo)(流動資產(chǎn)/純銷售額) 對17個破產(chǎn)企業(yè)(1類)和21個正常運行企業(yè)(2類)進行了調(diào)查,得如下資料:,判別分析利用已知類別的樣本培訓(xùn)模型,為未知樣本判類的一種統(tǒng)計方法。 它產(chǎn)生于本世紀(jì)30年代。近年來,在自然科學(xué)、社會學(xué)及經(jīng)濟管理學(xué)科中都有廣泛的應(yīng)用。 判別分析的特點是根據(jù)已掌握的、歷史上每個類別的若干樣本的數(shù)據(jù)信息,總結(jié)出客觀事物分類的規(guī)律性,建立判別公式和判別準(zhǔn)則。然后,當(dāng)遇到新的樣本點時,只要根據(jù)總結(jié)出來的判別公式和判別準(zhǔn)則,就能判別該樣本點所屬的類別。,二、判別分析原理,原理: 判別分析是利用原有的
3、分類信息,得到體現(xiàn)這種分類的函數(shù)關(guān)系式(即判別函數(shù),一般是與分類相關(guān)的若干個指標(biāo)的線性關(guān)系式),然后利用該函數(shù)去判斷未知樣品屬于哪一類 要點: 1、判別分析需要明確所研究樣本共有幾個類別 2、判別分析需要從現(xiàn)有已知類別的樣本數(shù)據(jù)中提練出一個判別函數(shù),三、常用判別方法,距離判別法 Fisher判別法 貝葉斯判別法 典型判別與逐步判別法,第二節(jié) 距離判別法,一、基本思想,由訓(xùn)練樣本得出每個分類的重心(中心)坐標(biāo),然后對新樣品求出它們離各個類別重心的距離遠近,從而歸入離得最近的分類。最常用的距離是馬氏距離。,(一)馬氏距離,距離判別的最直觀的想法是計算樣品到第i類總體的平均數(shù)的距離,哪個距離最小就
4、將它判歸哪個總體,所以,我們首先考慮的是是否能夠構(gòu)造一個恰當(dāng)?shù)木嚯x函數(shù),通過樣本與某類別之間距離的大小,判別其所屬類別。,設(shè) 是從期望= 和方差陣= 的總體G抽得的兩個觀測值,則稱 為X與Y之間的Mahalanobis距離,樣本X和Gi類之間的馬氏距離定義為X與Gi類重心間的距離:,,(二)兩個總體距離判別法,先考慮兩個總體的情況,設(shè)有兩個協(xié)差陣相同的p維正態(tài)總體和,對給定的樣本Y,判別一個樣本Y到底是來自哪一個總體,一個最直觀的想法是計算Y到兩個總體的距離。故我們用馬氏距離來指定判別規(guī)則,有:,,1、方差相等,,,,則前面的判別法則表示為
5、,當(dāng) 和已知時, 是一個已知的p維向量,W(y)是y的線性函數(shù),稱為線性判別函數(shù)。稱為判別系數(shù)。用線性判別函數(shù)進行判別分析非常直觀,使用起來最方便,在實際中的應(yīng)用也最廣泛。,,常數(shù)項,例 4.1 在企業(yè)的考核中,可以根據(jù)企業(yè)的生產(chǎn)經(jīng)營情況把企業(yè)分為優(yōu)秀企業(yè)和一般企業(yè)??己似髽I(yè)經(jīng)營狀況的指標(biāo)有: 資金利潤率=利潤總額/資金占用總額 勞動生產(chǎn)率=總產(chǎn)值/職工平均人數(shù) 產(chǎn)品凈值率=凈產(chǎn)值/總產(chǎn)值 三個指標(biāo)的均值向量和協(xié)方差矩陣如下?,F(xiàn)有二個企業(yè),觀測值分別為 (7.8,39.1,9.6)和(8.1,34.2,6.9),問這兩個企業(yè)應(yīng)該屬于哪一類?,,線性判別函數(shù):,
6、由此可以判斷第一個企業(yè)屬于優(yōu)秀企業(yè),第二個企業(yè)屬于一般企業(yè),2、當(dāng)總體的協(xié)方差已知,且不相等,,當(dāng)總體的方差未知時,應(yīng)該用樣本的協(xié)方差矩陣代替。步驟如下(假如兩個總體): (1)分別計算各組的離差矩陣S1和S2; (2)計算 (3)計算類的均值 (4)計算 (5)計算 從而計算 (6)生成判別函數(shù),將檢驗樣本代入,得分,判類。,隨著計算機計算能力的增強和計算機的普及,距離判別法的判別函數(shù)也在逐步改進,一種等價的距離判別為: 設(shè)有個K總體,分別有均值向量i(i=1,2,,k)和協(xié)方差陣i= ,各總體出現(xiàn)的先驗概率相等。又設(shè)Y是一個待判樣品。則距離為(即判別函數(shù)),
7、(三) 多總體的距離判別法,,,上式中的第一項Y -1Y與i無關(guān),則舍去,得一個等價的函數(shù),,將上式中提-2,得,,,則距離判別法的判別函數(shù)為: 判別規(guī)則為,注:這與前面所提出的距離判別是等價的.,(三)、判別分析效果檢驗,良好的判別效果即是指所建立的判別函數(shù)具有相當(dāng)?shù)姆€(wěn)定性和準(zhǔn)確性,優(yōu)良的判別函數(shù)應(yīng)該是:一理論基礎(chǔ)穩(wěn)固,具有準(zhǔn)確判別的能力;二回代錯判率低;三具有良好的外部數(shù)據(jù)應(yīng)用性質(zhì)。 由于判別分析是假設(shè)兩組或多組樣品取自不同總體,因此要求樣本各類型的均值向量在統(tǒng)計上具有顯著差異,如能反映出顯著差異,則判別函數(shù)顯著,有能力將不同的類型區(qū)別開來。,所以對判別效果的檢驗即是對多元正態(tài)總體的均值向
8、量是否相等進行檢驗,利用Hotelling T2統(tǒng)計量進行檢驗。 回代是指將訓(xùn)練樣本依次代入判別函數(shù),檢查錯判情況,回代錯判率低即是指依訓(xùn)練樣本建立的判別函數(shù)偏差小,建立方法可靠。 良好的外部應(yīng)用性質(zhì)是指該判別函數(shù)具有相當(dāng)程度的穩(wěn)定性,不僅適用于本訓(xùn)練樣本,而且在大多數(shù)情況下具有普遍應(yīng)用能力,這也正是我們建立判別函數(shù)想要達到的目的。,為檢驗外部性,可采用的方法有:,1.外部數(shù)據(jù)驗證法: 即判別函數(shù)建立完成后,重新再收集一部分數(shù)據(jù),用判別函數(shù)進行判別,看錯判是否嚴重。這種驗證方法從理論上說較好,但再收集樣本數(shù)據(jù)不能用來建立判別函數(shù)有些浪費,而且很難保證兩個樣本具有同質(zhì)性。 2.樣本二分法: 是外
9、部數(shù)據(jù)法的改進,采用隨機函數(shù)將所用樣本分為兩部分,一般是按2:1的比例拆分,多的部分用于建立判別函數(shù),剩下的用于驗證。這種做法可以保證驗證樣本和訓(xùn)練樣本的同質(zhì)性是最為理想的,但它要求樣本量較大,否則建立的判別函數(shù)不穩(wěn)定,白白浪費信息。,3.交互驗證: 這是近年來逐漸發(fā)展起來的一種非常重要的判別效果驗證技術(shù)。它在樣本二分法的基礎(chǔ)上又大大前進了一步,具體來說,就是在建立判別函數(shù)時依次去掉一例,然后用建立起來的判別函數(shù)對該例進行判別,用這種方法可以非常有效地避免強影響點的干擾。在SPSS中已經(jīng)提供了交互驗證功能,可直接使用對話框操作。,第三節(jié) 費歇爾(Fisher)判別法,該方法是Fisher,R.
10、A等人在1936年提出的最優(yōu)判別準(zhǔn)則以及判別函數(shù)的求解法。 最佳的判別函數(shù)應(yīng)該具有準(zhǔn)確區(qū)分不同類別的能力,根據(jù)方差分析的基本原理構(gòu)造判別函數(shù),該函數(shù)的確定可以使組內(nèi)的方差達到最小,而使組間的方差達到最大,由此構(gòu)造出求解條件,從而確定判別函數(shù)。根據(jù)該判別函數(shù)對待判樣本計算判別值,根據(jù)判別值與判別臨界值的相對位置進行判別,一、兩組Fisher判別法,基本思想: 從兩個總體中抽取具有P個指標(biāo)的樣品觀測數(shù)據(jù),借助方差分析的思想構(gòu)造一個線性判別函數(shù)或判別式,其中各系數(shù)的確定原則是使兩組間的區(qū)別最大,而使每個組內(nèi)部的離差最小。依據(jù)該判別式,求出新樣本的判別值并與臨界值相比較判別其類型。,判別函數(shù)的導(dǎo)出。
11、判別函數(shù)的一般形式: 要確定該判別函數(shù)就是要確定各個 系數(shù)ci的值。 對于p元總體而言,線性判別函數(shù)一般是 要確定該判別函數(shù)就是要確定各個系數(shù)ci的值。,,函數(shù)的導(dǎo)出:,Fisher兩組判別的步驟:,判別準(zhǔn)則,例4.2 利用例4.1數(shù)據(jù)對上例兩企業(yè)作兩組Fisher判別,寫出Fisher判別函數(shù),求出判別臨界值對待判樣品進行判別,對訓(xùn)練樣本進行回代判斷,對判別效果進行評價。,,二、多個總體的Fisher判別法,(一) 判別函數(shù),Fisher判別法實際上是致力于尋找一個最能反映組和組之間差異的投影方向,即尋找線性判別函數(shù) ,設(shè)有 個總體 ,分別有均值向量 , ,, 和協(xié)方
12、差陣 , 分別各總體中得到樣品:,,,第i個總體的樣本均值向量,,綜合的樣本均值向量,,第i個總體樣本組內(nèi)離差平方和,,綜合的組內(nèi)離差平方和,組間離差平方和,,,,,,如果判別分析是有效的,則所有的樣品的線性組合 滿足組內(nèi)離差平方和小,而組間離差平方和大。則,,,而 所對應(yīng)的特征向量即 。,Fisher樣品判別函數(shù)是,然而,如果組數(shù)k太大,討論的指標(biāo)太多,則一個判別函數(shù)是不夠的,這時需要尋找第二個,甚至第三個線性判別函數(shù) 其特征向量構(gòu)成第二個判別函數(shù)的系數(shù)。 類推得到m(m
13、 為B相對于E得特征根,則,以m個線性判別函數(shù)得到的函數(shù)值為新的變量,再進行距離判別。 判別規(guī)則:,設(shè)Yi(X)為第i個線性判別函數(shù), ,,則,辦公室新來了一個雇員小王,小王是好人還是壞人大家都在猜測。按人們主觀意識,一個人是好人或壞人的概率均為0.5。壞人總是要做壞事,好人總是做好事,偶爾也會做一件壞事,一般好人做好事的概率為0.9,壞人做好事的概率為0.2,一天,小王做了一件好事,小王是好人的概率有多大,你現(xiàn)在把小王判為何種人?,第四節(jié) 貝葉斯判別法,一 、標(biāo)準(zhǔn)的Bayes判別,距離判別簡單直觀,很實用,但是距離判別的方法把 總體等同看待,沒有考慮到總體會以不同的概率(先驗
14、概率)出現(xiàn),也沒有考慮誤判之后所造成的損失的差異。 一個好的判別方法,既要考慮到各個總體出現(xiàn)的先驗概 率,又要考慮到錯判造成的損失,Bayes判別就具有這 些優(yōu)點,其判別效果更加理想,應(yīng)用也更廣泛。,貝葉斯公式是一個我們熟知的公式,,設(shè)有總體 , 具有概率密度函 數(shù) 。并且根據(jù)以往的統(tǒng)計分析,知道 出現(xiàn)的概率為 。即當(dāng)樣本 發(fā)生時,求他屬于某類的概率。由貝葉斯公式計算后驗概率,有:,,則 判給 。在正態(tài)的假定下, 為正態(tài)分布的 密度函數(shù)。,二、 考慮錯判損失的Bayes判別分析,設(shè)有總體 , 具有概率密度函 數(shù) 。并且根據(jù)以往的統(tǒng)計分析,知道 出現(xiàn)的概率為
15、 。,,又D1,D2,,Dk是R(p)的一個分劃,判別法則為: 當(dāng)樣品X落入Di 時,則判,,,別的關(guān)鍵的問題是尋找D1,D2,,Dk分劃, 這個分劃應(yīng)該使平均錯判率最小。,【定義】(平均錯判損失),用P(j/i)表示將來自總體Gi的樣品錯判到總體Gj的條件概率。,,,C(j/i)表示相應(yīng)錯判所造成的損失。,則平均錯判損失為:,使ECM最小的分劃,是Bayes判別分析的解。,【定理】,若總體G1,G2,,Gk的先驗概率為 且相應(yīng)的密度函數(shù)為 ,損失為 時, 則劃分的Bayes解為 其中,含義是:當(dāng)抽取了一個未知總體的樣品值x,要判別它屬于那個總體,只要先計算出k個按先驗概率加權(quán)的誤判平均損失 然后比較其大小,選取其中最小的,則判定樣 品屬于該總體。,實驗練習(xí)根據(jù)相應(yīng)的人文發(fā)展指標(biāo),從1995年世界各國中選擇高發(fā)展水平、中等發(fā)展水平的國家各5個作為樣品,另選4個國家作為待判樣品,要求: 1用fisher判別準(zhǔn)則進行判別分析; 2用貝葉斯判別準(zhǔn)則進行判別分析,