判別分析的基本原理
《判別分析的基本原理》由會(huì)員分享,可在線閱讀,更多相關(guān)《判別分析的基本原理(17頁(yè)珍藏版)》請(qǐng)?jiān)谘b配圖網(wǎng)上搜索。
1、判別分析的基本原理和模型 一、判別分析概述 (一)什么是判別分析 判別分析是多元統(tǒng)計(jì)中用于判別樣品所屬類型的一種統(tǒng)計(jì)分析方法,是一種在已知研究對(duì)象用某種方法已經(jīng)分成若干類的情況下,確定新的樣品屬于哪一類的多元統(tǒng)計(jì)分析方法。 判別分析方法處理問(wèn)題時(shí),通常要給出用來(lái)衡量新樣品與各已知組別的接近程度的指標(biāo),即判別函數(shù),同時(shí)也指定一種判別準(zhǔn)則,借以判定新樣品的歸屬。所謂判別準(zhǔn)則是用于衡量新樣品與各已知組別接近程度的理論依據(jù)和方法準(zhǔn)則。常用的有,距離準(zhǔn)則、Fisher準(zhǔn)則、貝葉斯準(zhǔn)則等。判別準(zhǔn)則可以是統(tǒng)計(jì)性的,如決定新樣品所屬類別時(shí)用到數(shù)理統(tǒng)計(jì)的顯著性檢驗(yàn),也可以是確定性的,如決定樣品歸屬時(shí)
2、,只考慮判別函數(shù)值的大小。判別函數(shù)是指基于一定的判別準(zhǔn)則計(jì)算出的用于衡量新樣品與各已知組別接近程度的函數(shù)式或描述指標(biāo)。 (二)判別分析的種類 按照判別組數(shù)劃分有兩組判別分析和多組判別分析;按照區(qū)分不同總體的所用數(shù)學(xué)模型來(lái)分有線性判別分析和非線性判別分析;按照處理變量的方法不同有逐步判別、序貫判別等;按照判別準(zhǔn)則來(lái)分有距離準(zhǔn)則、費(fèi)舍準(zhǔn)則與貝葉斯判別準(zhǔn)則。 二、判別分析方法 (一)距離判別法 1.基本思想:首先根據(jù)已知分類的數(shù)據(jù),分別計(jì)算各類的重心,即分組(類)均值,距離判別準(zhǔn)則是對(duì)于任給一新樣品的觀測(cè)值,若它與第類的重心距離最近,就認(rèn)為它來(lái)自第類。因此,距離判別法又稱為最鄰近方法(ne
3、arest neighbor method)。距離判別法對(duì)各類總體的分布沒(méi)有特定的要求,適用于任意分布的資料。 2.兩組距離判別 兩組距離判別的基本原理。設(shè)有兩組總體,相應(yīng)抽出樣品個(gè)數(shù)為,,每個(gè)樣品觀測(cè)個(gè)指標(biāo)得觀測(cè)數(shù)據(jù)如下, 總體的樣本數(shù)據(jù)為: 該總體的樣本指標(biāo)平均值為: 總體的樣本數(shù)據(jù)為: 該總體的樣本指標(biāo)平均值為: 現(xiàn)任取一個(gè)新樣品,實(shí)測(cè)指標(biāo)數(shù)值為=(),要求判斷屬于哪一類? 首先計(jì)算樣品與、兩類的距離,分別記為、,然后按照距離最近準(zhǔn)則判別歸類,即樣品距離哪一類最近就判為哪一類;如果樣品距離兩類的距離相同,則暫不歸類。判別準(zhǔn)則寫(xiě)為: ,如果
4、, ,如果, 待判,如果。 其中,距離的定義很多,根據(jù)不同情況區(qū)別選用。如果樣品的各個(gè)變量之間互不相關(guān)或相關(guān)很小時(shí),可選用歐氏距離。采用歐氏距離時(shí), = = 然后比較和的大小,按照距離最近準(zhǔn)則判別歸類。 但實(shí)際應(yīng)用中,考慮到判別分析常涉及到多個(gè)變量,且變量之間可能相關(guān),故多用馬氏距離。馬氏距離公式為: 其中、、、分別是、的均值和協(xié)方差陣。 這時(shí)的判別準(zhǔn)則分兩種情況給出: (1)當(dāng)==時(shí) = = 令,同時(shí)記 則 所以判別準(zhǔn)則寫(xiě)成: ,如果, ,如果, 待判,如果。 該規(guī)則取決于的值,因此被稱為判別函數(shù),也可以寫(xiě)成: ,其中。被稱為線性判
5、別函數(shù)。 作為特例,當(dāng)時(shí),兩個(gè)總體的分布分別是和,判別函數(shù)為 或 (使用樣本資料代替總體參數(shù)時(shí)) 不妨設(shè),這時(shí)的符號(hào)取決于或。時(shí),判;時(shí),判。 兩組距離判別法,簡(jiǎn)單容易理解,判別準(zhǔn)則也是合理的,但是有時(shí)也會(huì)出現(xiàn)錯(cuò)判。如下圖6.1,如果來(lái)自,但卻落入,被錯(cuò)判為組,錯(cuò)判的概率為圖中陰影的面積,記為,類似有,顯然==。 圖6.1 當(dāng)兩總體靠的比較近時(shí),即兩總體的均值差異較小的時(shí)候,無(wú)論用何種判別方法,錯(cuò)判的概率都比較大,這時(shí)的判別分析也是沒(méi)有意義的。因此只有當(dāng)兩總體的均值有顯著差異時(shí),進(jìn)行判別分析才有意義,為此,要對(duì)兩總體的均值差異性進(jìn)行檢驗(yàn),對(duì)此在下文中敘述。 (2)當(dāng)時(shí)
6、 按照距離最近準(zhǔn)則,類似地有: ,如果, ,如果, 待判,如果。 仍然用 作為判別函數(shù),此時(shí)的判別函數(shù)是的二次函數(shù)。 (3)關(guān)于兩組判別分析的檢驗(yàn) 由于判別分析是假設(shè)兩組樣品是取自不同總體,如果兩個(gè)總體的均值向量在統(tǒng)計(jì)上差異不顯著,則進(jìn)行判別分析意義不大。所以,兩組判別分析的檢驗(yàn),實(shí)際就是要經(jīng)驗(yàn)兩個(gè)正態(tài)總體的均值向量是否相等,為此,檢驗(yàn)的統(tǒng)計(jì)量為: 其中: 給定檢驗(yàn)水平,查分布表使,可得出,再由樣本值計(jì)算,若,則否定原假設(shè),認(rèn)為兩個(gè)總體的均值向量在統(tǒng)計(jì)上差異顯著,否則兩個(gè)總體的均值向量在統(tǒng)計(jì)上差異不顯著。 3、多個(gè)總體的距離判別
7、法 類似兩個(gè)總體的討論推廣到多個(gè)總體。 設(shè)有個(gè)總體,相應(yīng)抽出樣品個(gè)數(shù)為,每個(gè)樣品觀測(cè)個(gè)指標(biāo)得觀測(cè)數(shù)據(jù)如下, 總體的樣本數(shù)據(jù)為: 該總體的樣本指標(biāo)平均值為: 總體的樣本數(shù)據(jù)為: 該總體的樣本指標(biāo)平均值為: 它們的樣本均值和協(xié)方差陣分別為: 、。一般的,記總體的樣本指標(biāo)平均值為:(),。 (1)當(dāng)時(shí) 此時(shí), 判別函數(shù)為 , 相應(yīng)的判別準(zhǔn)則為: , 當(dāng)時(shí),對(duì)于一切 待判, 若有一個(gè) (2)當(dāng)不相等時(shí) 此時(shí)判別函數(shù)為 相應(yīng)的判別準(zhǔn)則為:
8、 , 當(dāng)時(shí),對(duì)于一切 待判, 若有一個(gè) (二)費(fèi)舍判別法 費(fèi)舍判別法是1936年提出來(lái)的,該方法對(duì)總體分布未提出什么特定的要求。 1.基本思想 費(fèi)舍判別法是基于統(tǒng)計(jì)上的費(fèi)舍準(zhǔn)則,即判別的結(jié)果應(yīng)該使兩組間區(qū)別最大,使每組內(nèi)部離散性最小。在費(fèi)舍準(zhǔn)則意義下,確定線性判別函數(shù): 其中為待求的判別函數(shù)的系數(shù)。判別函數(shù)的系數(shù)的確定原則是使兩組間區(qū)別最大,使每組內(nèi)部離散性最小。有了判別函數(shù)后,對(duì)于一個(gè)新的樣品,將個(gè)指標(biāo)的具體數(shù)值代入判別式中求出值,然后與判別臨界值進(jìn)行比較,并判別其應(yīng)屬于哪一組。 2.兩組判別分析 (1)方法原理 設(shè)有兩組
9、總體,相應(yīng)抽出樣品個(gè)數(shù)為,每個(gè)樣品觀測(cè)個(gè)指標(biāo)得觀測(cè)數(shù)據(jù)如下, 總體的樣本數(shù)據(jù)為: 第1個(gè)總體的樣本指標(biāo)平均值為: 總體的樣本數(shù)據(jù)為: 第2個(gè)總體的樣本指標(biāo)平均值為: 根據(jù)判別函數(shù),用表示組樣品的重心,以表示組樣品的重心。則兩組之間的離差用來(lái)表示,、內(nèi)部的離差程度分別用和來(lái)表示,其中;。 根據(jù)費(fèi)舍準(zhǔn)則,要使判別的結(jié)果滿足兩組間區(qū)別最大,每組內(nèi)部離散性最小。則判別函數(shù)的系數(shù)應(yīng)該能夠使: 取得最大值。 (2)判別系數(shù)的導(dǎo)出 令 + 根據(jù)數(shù)學(xué)分析求極值的原理,對(duì)上式兩邊取對(duì)數(shù): 令 則
10、 即 而 = 令 有 則有 而 + = = = + = +] 令 =+ 有 則有 于是有 令 是一個(gè)常數(shù)因子,不依賴,它對(duì)方程組的解只起到共同擴(kuò)大倍的作用,不影響它的解之間的比例關(guān)系,因此也不會(huì)影響判別函數(shù),
11、所以,取,得方程組: 即 解此方程即得,進(jìn)而得判別函數(shù): (3)判別準(zhǔn)則 由判別函數(shù),可得兩組總體各自樣品的重心: 對(duì)它們進(jìn)行根據(jù)樣本的容量進(jìn)行加權(quán)得: 稱為兩組判別的綜合指標(biāo)。據(jù)此可得判別準(zhǔn)則為: ①如果,則對(duì)于給定的新樣品,若有 則將該樣品判屬于組,若,則判其屬于組; ②如果,則對(duì)于給定的新樣品,若有 則將該樣品判屬于組,若,則判其屬于組。 (4)兩組判別分析的檢驗(yàn) 由于判別分析是假設(shè)兩組樣品是取自不同總體,如果兩個(gè)總體的均值向量在統(tǒng)計(jì)上差異不顯著,則進(jìn)行判別分析意義不大。所以,兩組判別分析的檢驗(yàn),實(shí)際就
12、是要檢驗(yàn)兩個(gè)正態(tài)總體的均值向量是否相等,為此,檢驗(yàn)的統(tǒng)計(jì)量為: 其中: , 給定檢驗(yàn)水平,查分布表使,可得出,再由樣本值計(jì)算,若,則否定原假設(shè),認(rèn)為兩個(gè)總體的均值向量在統(tǒng)計(jì)上差異顯著,判別函數(shù)有效,可用;否則兩個(gè)總體的均值向量在統(tǒng)計(jì)上差異不顯著,判別函數(shù)無(wú)效不可用。 3、多組費(fèi)舍判別分析 (1)方法原理 類似兩總體的費(fèi)舍判別法,下面給出多總體的費(fèi)舍判別法。設(shè)有個(gè)總體抽取樣品數(shù)分別為令。為第個(gè)總體的第個(gè)樣品的觀測(cè)向量。 假定所建立的判別函數(shù)為 其中 記和分別是總體內(nèi)的樣本均值向量和樣
13、本協(xié)差陣,根據(jù)求隨機(jī)變量線性組合的均值和方差的性質(zhì)可知,在上的樣本均值和樣本方差為 記為總的均值向量,則 在多總體情況下,F(xiàn)isher準(zhǔn)則就是要選取系數(shù)向量,使 達(dá)到最大,其中是人為的正的加權(quán)系數(shù),它可以取為先驗(yàn)概率。如果取 ,并將 ,代入上式可化為: 其中為組內(nèi)離差陣,為總體之間樣本的協(xié)差陣,即 (2)判別函數(shù) 判別系數(shù)(矩陣關(guān)于矩陣的廣義特征向量)的導(dǎo)出。為求的最大值,根據(jù)極值存在的必要條件,令=0,利用對(duì)向量求導(dǎo)的公式: 因此 這說(shuō)明了及恰好是矩陣關(guān)于矩陣的廣義特征根及其對(duì)應(yīng)的特征向量(因?yàn)楦鶕?jù)定義有,設(shè)為階對(duì)稱矩
14、陣,為階正定矩陣,若有或,則稱為關(guān)于矩陣的廣義特征根,是對(duì)應(yīng)的特征向量)。由于一般都要求加權(quán)協(xié)差陣是正定的,因此由代數(shù)知識(shí)可知,上式非零特征根個(gè)數(shù)不超過(guò),又因?yàn)闉榉秦?fù)定的,所以非零特征根必定為正根,記為 于是可構(gòu)造個(gè)判別函數(shù): 判別函數(shù)的判別能力與判別函數(shù)的個(gè)數(shù)。由上述知,由于非零特征根有個(gè),由此對(duì)應(yīng)有個(gè)特征向量,即個(gè)判別函數(shù),為了選取有效的判別函數(shù),對(duì)于每個(gè)判別函數(shù)必須給出一個(gè)用以衡量判別能力的指標(biāo),衡量判別函數(shù)判別能力的指標(biāo)定義為: 個(gè)判別函數(shù)的判別能力定義為 如果達(dá)到某個(gè)人定的值(比如85%)則就認(rèn)為個(gè)判別函數(shù)就夠了
15、。 (3)判別準(zhǔn)則 有了判別函數(shù)之后,如何對(duì)待判的樣品進(jìn)行分類?Fisher判別法本身并未給出最合適的分類法,在實(shí)際工作中可以選用下列分類法之一進(jìn)行分類。 第一方法,當(dāng)取=1時(shí)(即只取一個(gè)判別函數(shù)),此時(shí)有兩種可供選用的方法 ①不加權(quán)法 若 則判 ②加權(quán)法 將按大小次序排列,記為,相應(yīng)的判別函數(shù)的標(biāo)準(zhǔn)差排為。 令 則可作為與之間的分界點(diǎn)。如果使得,則判。 第二種方法,當(dāng)取時(shí)(即取多個(gè)判別函數(shù)),也有類似兩種供選用的方法 ①不加權(quán)法 記 對(duì)待判樣品,計(jì)算 若,則判 ②加權(quán)法 考慮到每個(gè)判別函數(shù)的判別能力不同
16、,記 其中是由求出的特征根。若,則判。 (三)貝葉斯判別法 1.基本思想 設(shè)有個(gè)總體,,它們的先驗(yàn)概率分別為,密度函數(shù)為(在離散情形是概率函數(shù)),在觀測(cè)到一個(gè)樣品的情況下,可用貝葉斯公式計(jì)算它來(lái)自第g個(gè)總體的后驗(yàn)概率: 并且當(dāng) 時(shí),判定來(lái)自第個(gè)總體。 另外,有時(shí)為了合理考慮錯(cuò)判所帶來(lái)的損失,還使用錯(cuò)判損失最小的概念確定判別函數(shù),這時(shí),把錯(cuò)判給第個(gè)總體的平均損失定義為: 其中稱為損失函數(shù)。它表示本來(lái)是第個(gè)總體的樣品錯(cuò)判為第個(gè)總體的損失。于是建立判別準(zhǔn)則為,如果 則,判定來(lái)自第個(gè)總體。 顯然考慮損失函數(shù)更為合理,但是由于實(shí)際應(yīng)用中,由于不容易確定,經(jīng)
17、常在數(shù)學(xué)模型中假定各種錯(cuò)判的損失皆相等,這樣,尋找使后驗(yàn)概率最大實(shí)際上等價(jià)于使錯(cuò)判損失最小。 根據(jù)上述思想,在假定協(xié)方差矩陣相等的條件下,即可以導(dǎo)出判別函數(shù)。 2.多元正態(tài)總體的Bayes判別法 在實(shí)際問(wèn)題中遇到的許多總體往往服從正態(tài)分布,下面給出元正態(tài)總體的Bayes判別法,以及判別函數(shù)的導(dǎo)出。 (1)待判樣品的先驗(yàn)概率和密度函數(shù) 使用Bayes準(zhǔn)則進(jìn)行分析,首先需要知道待判總體的先驗(yàn)概率和密度函數(shù) (如果是離散情形則是概率函數(shù))。 對(duì)于先驗(yàn)概率,一般可用樣品頻率來(lái)代替,即令,其中為用于建立判別函數(shù)的已知分類數(shù)據(jù)中來(lái)自第總體樣品的數(shù)目,且,或者干脆令先驗(yàn)概率相等,
18、即,這時(shí)可以認(rèn)為先驗(yàn)概率不起作用。 對(duì)于第g總體的密度函數(shù),設(shè)元正態(tài)分布密度函數(shù)為: 式中和分別是第g總體的均值向量(維)和協(xié)差陣(階)。 把代入的表達(dá)式中,因?yàn)槲覀冎魂P(guān)心尋找使最大的,而分式中的分母不論為何值都是常數(shù),故可改令 對(duì)取對(duì)數(shù)并去掉與無(wú)關(guān)的項(xiàng),記為, 則問(wèn)題可化為 (2)假設(shè)各組協(xié)方差陣相等,導(dǎo)出判別函數(shù) 中含有個(gè)總體的協(xié)方差陣(逆陣及行列式值),而且對(duì)于還是二次函數(shù),實(shí)際計(jì)算時(shí)工作量很大。如果進(jìn)一步假定個(gè)總體協(xié)方差陣相同,即,這時(shí)中和兩項(xiàng)與無(wú)關(guān),求最大時(shí)可以去掉,最終得到如下形式的判別函數(shù)與判別準(zhǔn)則(如果協(xié)方差陣不等,則有非線形判別函數(shù));
19、 上式判別函數(shù)也可以寫(xiě)成多項(xiàng)式形式: 其中,用樣本資料這里為, , 總樣本總協(xié)差為總協(xié)差陣的估計(jì), 為總協(xié)差陣的逆矩陣。 (3)計(jì)算后驗(yàn)概率 進(jìn)行計(jì)算分類時(shí),主要根據(jù)判別式的大小,而它不是后驗(yàn)概率,但是有了之后,就可以根據(jù)下式算出后驗(yàn)概率: 因?yàn)? 其中是中與無(wú)關(guān)的部分。所以 由上式知使為最大的,其必為最大,因此我們只須把樣品代入判別式中:分別計(jì)算,。 若 ,則把樣品歸為第總體。 (4)輔助性檢驗(yàn) 為了檢驗(yàn)個(gè)變量是否有能力區(qū)分這個(gè)組,還需要用廣義的馬哈拉諾比斯統(tǒng)計(jì)量來(lái)進(jìn)行檢驗(yàn)。馬氏統(tǒng)計(jì)量為: 統(tǒng)計(jì)量在正態(tài)分布各組均值、協(xié)方差陣全部相同的假定下,服從個(gè)自由度的分布。所以,當(dāng)統(tǒng)計(jì)量值大于查表得的臨界值時(shí),可以斷定個(gè)變量有能力區(qū)分這個(gè)組。 貝葉斯方法一般多用于多組判別分析,貝葉斯判別方法的數(shù)學(xué)模型所要求的條件嚴(yán)格,它要求各組變量必須服從多元正態(tài)分布,各組的協(xié)方差矩陣相等,各組的均值向量有顯著差異。而費(fèi)舍判別法主要要求各組均值向量有顯著差異即可。
- 溫馨提示:
1: 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2: 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3.本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 裝配圖網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 運(yùn)煤設(shè)備的運(yùn)行和檢修
- 各種煤礦安全考試試題-8
- 窯主、副操作員考試試題(附答案)
- 煤礦安全基礎(chǔ)知識(shí)問(wèn)答題含解析-3
- 井巷掘進(jìn)常見(jiàn)事故及預(yù)防措施總結(jié)
- 某礦業(yè)公司高處作業(yè)安全管理制度
- 非煤礦山現(xiàn)場(chǎng)安全管理
- 常見(jiàn)礦物的簡(jiǎn)易鑒定特征表
- 井下作業(yè)英語(yǔ)100句含中文翻譯
- 瓦斯安全治理理念二十條
- 煤礦電氣設(shè)備失爆原因與預(yù)防措施分析
- 煤礦煤礦運(yùn)料工安全操作規(guī)程
- 煤礦安全培訓(xùn)考試試題之簡(jiǎn)答題含答案
- 煤礦常見(jiàn)疾病預(yù)防與救治
- 煤礦綜采維修電工操作規(guī)程