《數(shù)學實驗06判別分析.ppt》由會員分享,可在線閱讀,更多相關《數(shù)學實驗06判別分析.ppt(31頁珍藏版)》請在裝配圖網(wǎng)上搜索。
1、判別分析,3.1 判別分析(discriminant analysis),某些昆蟲的性別只有通過解剖才能夠判別 但雄性和雌性昆蟲在若干體表度量上有些綜合的差異。人們就根據(jù)已知雌雄的昆蟲體表度量(這些用作度量的變量亦稱為預測變量)得到一個標準,并以此標準來判別其他未知性別的昆蟲。 這樣雖非100%準確的判別至少大部分是對的,而且用不著殺生。此即判別分析。,判別分析(discriminant analysis),判別分析和聚類分析有何異同? 判別分析和聚類分析都是分類. 但判別分析是在已知對象有若干類型和一批已知樣品的觀測數(shù)據(jù)(訓練樣本)后的基礎上根據(jù)某些準則建立判別式.在聚類分析中,人們一般事先
2、并不知道應該分成幾類及哪幾類,全根據(jù)數(shù)據(jù)確定。 可以先聚類以得知類型,再進行判別.,判別分析例子,數(shù)據(jù)disc.txt:企圖用一套打分體系來描繪企業(yè)的狀況。該體系對每個企業(yè)的一些指標(變量)進行評分。 指標有:企業(yè)規(guī)模(is)、服務(se)、雇員工資比例(sa)、利潤增長(prr)、市場份額(ms)、市場份額增長(msr)、流動資金比例(cp)、資金周轉(zhuǎn)速度(cs)等. 另外,有一些企業(yè)已經(jīng)被某雜志劃分為上升企業(yè)、穩(wěn)定企業(yè)和下降企業(yè)。,希望根據(jù)這些企業(yè)的上述變量的打分及其已知的類別(三個類別之一:group-1代表上升,group-2代表穩(wěn)定,group-3代表下降)找出一個分類標準,以對尚未
3、被分類的企業(yè)進行分類。 該數(shù)據(jù)有90個企業(yè)(90個觀測值),其中30個屬于上升型,30個屬于穩(wěn)定型,30個屬于下降型。這個數(shù)據(jù)就是一個“訓練樣本”。,判別分析例子,Disc.sav數(shù)據(jù),1. 根據(jù)距離判別的思想,Disc.txt數(shù)據(jù)有8個用來建立判別標準(或判別函數(shù))的(預測)變量,另一個(group)是類別 每一個企業(yè)的打分在這8個變量所構成的8維空間中是一個點。這個數(shù)據(jù)在8維空間有90個點, 由于已知所有點的類別,可以求得每個類型的中心。這樣只要定義了距離,就可以得到任何給定的點(企業(yè))到這三個中心的三個距離。,最簡單的辦法就是:某點離哪個中心距離最近,就屬于哪一類。 一個常用距離是Mah
4、alanobis距離。 用來比較到各個中心距離的數(shù)學函數(shù)稱為判別函數(shù)(discriminant function). 這種根據(jù)遠近判別的思想,原理簡單,直觀易懂。為判別分析的基礎,1. 根據(jù)距離判別的思想,距離判別法,假設有兩個總體G1和G2, 如果能夠定義點x到它們的距離D(x,G1)和D(x,G2), 則 如果D(x,G1) < D(x,G2)則 xG1 如果D(x,G2) < D(x,G1)則 xG2 如果D(x,G1) = D(x,G2)則待判,1. 根據(jù)距離判別的思想,Mahalanobis距離,假設m(1), m(2), S(1), S(2)分別為G1和G2的均值向量和協(xié)差陣,則點
5、x到Gi的馬氏距離定義為 D2(x,Gi)=(x- m(i))(S(i))-1(x- m(i)) 其他一些距離為馬氏距離的特殊情況,因此我們著重討論馬氏距離.馬氏距離的好處是可以克服變量之間的相關性干擾,并且消除各變量量綱的影響.,線性判別函數(shù):當S(1)=S(2)=S時,記,如果W(x)0即D(x,G1)D(x,G2)則 xG2 如果W(x)=0即D(x,G1)=D(x,G2)則待判,當m(1), m(2), S 已知時, 令a= S-1(m(1)- m(2) ) (a1,, ap),則,顯然W(x)為x1,, xp的線性函數(shù), 稱為線性判別函數(shù); a稱為判別系數(shù).,當m(1), m(2),
6、 S 未知時, 可通過樣本來估計:,判別函數(shù)為,為來自Gi的樣本為(i=1,2),非線性判別函數(shù):當S(1) S(2)時,這是x的一個二次函數(shù), 按照距離最近原則,判別準則仍然為 如果W(x)0即D(x,G1)D(x,G2)則 xG2 如果W(x)=0即D(x,G1)=D(x,G2)則待判,多總體時的線性判別函數(shù):當S(1)==S(k)=S時,記,相應的準則為: 如果對一切ji, Wij(x)<0, 則 xGi 如果有某一個Wij(x)=0, 則待判,非線性判別函數(shù):當S(1) ,, S(k) 不等時,相應的準則為: 如果對一切ji, Wij(x)0, 則 xGi 如果有某一個Wij(x)=0
7、, 則待判. 當m(i), S(i) 未知時, 可通過樣本來估計,2. Fisher判別法(先進行投影),Fisher判別法是一種先投影的方法。 考慮只有兩個(預測)變量的判別問題。 假定只有兩類。數(shù)據(jù)中的每個觀測值是二維空間的一個點。見下頁圖。 這里只有兩種已知類型的訓練樣本。一類有38個點(用“o”表示),另一類有44個點(用“*”表示)。按原來變量(橫坐標和縱坐標),很難將這兩種點分開。,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,-4,-2,0,2,4,6,,,,,,,,,-4,-3,-2,-1,0,1,2,3,,,,,,,,,,,,,,,,,
8、,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,于是就尋找一個方向,下頁圖上的虛線方向,沿該方向朝和這個虛線垂直的一條直線進行投影會使得這兩類分得最清楚??梢钥闯?,如果向其他方向投影,判別效果不會比這個好。 有了投影之后,再用前面講到的距離遠近的方法得到判別準則。這種先投影的判別方法就是Fisher判別法。,2. Fisher判
9、別法(先進行投影),Fisher判別法的數(shù)學,練習: 中小企業(yè)的破產(chǎn)問題研究 為了研究中小企業(yè)的破產(chǎn)模型,選定4個經(jīng)濟指標: X1總負債率(現(xiàn)金收益/總負債) X2收益性指標(純收入/總財產(chǎn)) X3短期支付能力(流動資產(chǎn)/流動負債) X4生產(chǎn)效率性指標(流動資產(chǎn)/純銷售額) 對17個破產(chǎn)企業(yè)(1類)和21個正常運行企業(yè)(2類)進行了調(diào)查,得如下資料:,3.2 判別分析要注意的問題,訓練樣本中必須包含所有要判別的類型,分類必須清楚,不能有混雜。 要選擇好可能用于判別的預測變量。這是最重要的。當然,在應用中,選擇余地不見得有多大。 判別分析是為了正確地分類,但同時也要注意對未知樣本的判定不一定總會
10、得到正確的結果。所以我們需要對錯判率進行進一步的思考和研究。,判別分析的Matlab命令:calssify,附錄,費歇(Fisher)判別法,并未要求總體分布類型 工作原理就是對原數(shù)據(jù)系統(tǒng)進行坐標變換,尋求能夠?qū)⒖傮w盡可能分開的方向. 點x在以a為法方向的投影為ax 各組數(shù)據(jù)的投影為,將Gm組中數(shù)據(jù)投影的均值記為 有,記k組數(shù)據(jù)投影的總均值為 有,組間離差平方和為:,這里,組內(nèi)離差平方和為:,這里,希望尋找a使得SSG盡可能大而SSE盡可能小,即,記方程|B-lE|=0的全部特征根為l1 lr0, 相應的特征向量為v1,,vr. D(a)的大小可以估計判別函數(shù)yi(x)=vix (= ax)的效果. 記pi為判別能力(效率), 有,最大的值為方程|B-lE|=0的最大特征根l1.,使,m個判別函數(shù)的判別能力定義為,據(jù)此來確定選擇多少判別函數(shù)。,