《判別分析-貝葉斯判別.ppt》由會員分享,可在線閱讀,更多相關(guān)《判別分析-貝葉斯判別.ppt(29頁珍藏版)》請在裝配圖網(wǎng)上搜索。
1、第五章判別分析,判別分析是多元統(tǒng)計中用于判別樣品所屬類型的一種統(tǒng)計分析方法。是一種在一些已知研究對象用某種方法已經(jīng)分成若干類的情況下,確定新的樣品的觀測數(shù)據(jù)屬于那一類的統(tǒng)計分析方法。,判別準(zhǔn)則: 用于衡量新樣品與各已知組別接近程度的思路原則。,判別函數(shù): 基于一定的判別準(zhǔn)則計算出的用于衡量新樣品與各已知組別接近程度的描述指標(biāo)。,按照判別準(zhǔn)則來分有 距離判別、費希爾判別與貝葉斯判別。,距離判別法,判別準(zhǔn)則:對于任給一次觀測值,若它與第 類的重心距離最近,就認(rèn)為它來自于第 類。,馬氏距離,,,1、協(xié)方差相等,兩總體的距離判別,先考慮兩個總體的情況,設(shè)有兩個協(xié)差陣相同的p維正態(tài)總體 和 ,對給定
2、的樣本Y,判別一個樣本Y到底是來自哪一個總體,一個最直觀的想法是計算Y到兩個總體的距離。我們用馬氏距離來指定判別規(guī)則,有:,,,,因此有,判別函數(shù):,2、當(dāng)總體的協(xié)方差已知,但不相等,,3、當(dāng)總體的協(xié)方差未知時,用樣本的離差陣代替, 步驟如下: (1)分別計算各組的離差矩陣 和 ; (2)計算 (3)計算類的均值 (4)計算 (5)計算 (6)生成判別函數(shù),將檢驗樣本代入,判類。,多總體的距離判別法,,,,則,設(shè)有 個 元總體 ,分別有均值向量 和協(xié)方差陣 ,對任給的 元樣品 ,判斷它來自哪個總體,計算 到 個總體的馬氏距離,比較后,把 判歸給距離最小的那
3、個總體,若,錯判概率,,,,由上面的分析可以看出,馬氏距離判別法是合理的,但是這并不意謂著不會發(fā)生誤判。,設(shè)兩總體 , 分別服從 其線性判別函數(shù)為:,不妨設(shè) ,則當(dāng) 時,,當(dāng)兩總體靠得比較近時,即兩總體的均值差異較小時,無論用何種判別方法,判錯的概率都比較大,這時的判別分析也是沒有意義的,因此只有當(dāng)兩總體的均值有明顯差異時,進(jìn)行判別分析才有意義,為此,要對兩總體的均值差異性進(jìn)行檢驗.,練習(xí):P211:5-1,辦公室新來了一個雇員小王,小王是好人還是壞人大家都在猜測。按人們主觀意識,一個人是好人或壞人的概率均為0.5。壞人總是要做壞事,好人總是做好事,偶爾也會做一件壞事,一般好人做好事
4、的概率為0.9,壞人做好事的概率為0.2,一天,小王做了一件好事,小王是好人的概率有多大,你現(xiàn)在把小王判為何種人。,貝葉斯判別法,一 、標(biāo)準(zhǔn)的Bayes判別,一個好的判別方法,既要考慮到各個總體出現(xiàn)的先驗概率,又要考慮到錯判造成的損失,貝葉斯(Bayes)判別就具有這些優(yōu)點,其判別效果更加理想,應(yīng)用也更廣泛。,貝葉斯公式是一個我們熟知的公式,,距離判別簡單直觀,很實用,但是距離判別的方法把總體等同看待,沒有考慮到總體會以不同的概率(先驗概率)出現(xiàn),也沒有考慮誤判之后所造成的損失的差異。,則 判給 ,在正態(tài)的假定下, 為正態(tài)分布的 密度函數(shù)。,設(shè)有總體 , 具有概率密度函 數(shù) 。并且
5、根據(jù)以往的統(tǒng)計分析,知道 出現(xiàn)的概率為 。即當(dāng)樣本 發(fā)生時,求 屬于某類的概率。由貝葉斯公式計算后驗概率,有:,判別規(guī)則,則 判給 。,,上式兩邊取對數(shù),,,下面討論總體服從正態(tài)分布的情形,問題轉(zhuǎn)化為若 ,則判 。,當(dāng)協(xié)方差陣相等時,去掉與i無關(guān)的項,等價的判別函數(shù)為:,判別函數(shù)退化為,,,,,,令,問題轉(zhuǎn)化為若 ,則判 。,令,,,完全成為距離判別法 。,令,有,問題轉(zhuǎn)化為若 ,則判 。,當(dāng)先驗概率相等,即 時,二、 考慮錯判損失的Bayes判別分析,,設(shè)有總體 , 具有概率密度函 數(shù) 。并且根據(jù)以往的統(tǒng)計分析,知
6、道 出現(xiàn)的概率為 , 。,D1,D2, ,Dk是R(p)的一個分劃,判別法則為:,關(guān)鍵的問題是尋找D1,D2, ,Dk分劃,這個分劃應(yīng)該使平均錯判率最小。,當(dāng)樣品X落入Di時,判,【定義】(平均錯判損失),,,C(j/i)表示相應(yīng)錯判所造成的損失。,則平均錯判損失為:,使ECM最小的分劃,是Bayes判別分析的解。,用 表示將來自總體Gi的樣品錯判到總體Gj的條件概率。,【定理】,且相應(yīng)的密度函數(shù)為 ,損失為 時, 劃分的貝葉斯解為,若總體G1,G2,,Gk的先驗概率為,其中,含義是:當(dāng)抽取了一個未知總體的樣品值x,要判別它屬于哪個總體,只要先計算出k個按先驗概率加權(quán)的誤判平均損失 然后比較其大小,選取其中最小的,則判定樣品屬于該總體。,下面在k=2的情形下,計算作為例子,我們討論。,,,,,由此可見,被積函數(shù)在D1是負(fù)數(shù)時,可使ECM最小,則有分劃,,,,Bayes判別準(zhǔn)則為:,令,特別地,若,則 判給 。與標(biāo)準(zhǔn)Bayes判別等價,當(dāng)錯判概率,廣義平方距離法,,,其中,定義樣品X到總體Gi的廣義平方距離為:,判別準(zhǔn)則:,練習(xí):設(shè)三個總體 的分布分別為 按廣義平方距離準(zhǔn)則判斷樣品 應(yīng)判歸哪一類.,,,,