多元統(tǒng)計(jì)分析-判別分析.ppt

上傳人：sh****n 文檔編號(hào)：16540279 上傳時(shí)間：2020-10-10 格式：PPT 頁(yè)數(shù)：46 大小：1.67MB

收藏版權(quán)申訴舉報(bào) 下載

第1頁(yè) / 共46頁(yè)

第2頁(yè) / 共46頁(yè)

第3頁(yè) / 共46頁(yè)

下載文檔到電腦，查找使用更方便

9.9 積分

下載資源

還剩頁(yè)未讀，繼續(xù)閱讀

資源描述：

《多元統(tǒng)計(jì)分析-判別分析.ppt》由會(huì)員分享，可在線閱讀，更多相關(guān)《多元統(tǒng)計(jì)分析-判別分析.ppt（46頁(yè)珍藏版）》請(qǐng)?jiān)谘b配圖網(wǎng)上搜索。

1、數(shù) 學(xué) 建模培訓(xùn) 第十章多元統(tǒng)計(jì)分析第十章多元統(tǒng)計(jì)分析主講：孫中奎 1 問題引入 2思路點(diǎn) 撥 3判別分析方法 4 DNA序列分類問題的求解 5. 參考文獻(xiàn) 目錄首先，我們來考慮一下 2000年“ 網(wǎng) 易杯” 全國(guó) 大學(xué) 生數(shù)學(xué) 建模競(jìng)賽的 A題是關(guān) 于“ DNA 序列分類 ”的問題 1 問題引入人類基因組中的 DNA全序列是由 4個(gè)堿基 A， T， C， G按一定順序排成的長(zhǎng)約 30億的序列，毫無疑問，這是一本記錄著人

2、類自身生老病死及遺傳進(jìn)化的全部信息的 “天書”。但是，除了這四種堿基外，人們對(duì)它所包含的內(nèi)容知之甚少，如何破譯這部“天書”是二十一世紀(jì)最重要的任務(wù) 之一。在這個(gè)目標(biāo)中，研究 DNA全序列具有什么結(jié)構(gòu)，由這 4個(gè)字符排成的看似隨機(jī) 的序列中隱藏著什么規(guī)律，又是解讀這部天書的基礎(chǔ)，是生物信息學(xué) （ Bioinformatics）最重要的課題之一。雖然人類對(duì)這部“天書”知之甚少，但也發(fā)現(xiàn)了 DNA序列中的一些規(guī)律性和結(jié)構(gòu)。例如，在全序列中有一些是用于編碼蛋白質(zhì)的序列片段，即由這 4個(gè)字符組成的 64種不同的 3字符串，其中大多數(shù)用于編碼構(gòu)成蛋白質(zhì)的 20種氨基酸。又例如，在不

3、用于編碼蛋白質(zhì)的序列片段中， A和 T的含量特別多些，于是以某些堿基特別豐富作為特征去研究 DNA序列的結(jié)構(gòu)也取得了一些結(jié) 果。此外，利用統(tǒng)計(jì)的方法還發(fā)現(xiàn)序列的某些片段之間具有相關(guān)性，等等。這些發(fā) 現(xiàn)讓人們相信， DNA序列中存在著局部的和全局性的結(jié)構(gòu)，充分發(fā)掘序列的結(jié)構(gòu)對(duì) 理解 DNA全序列是十分有意義的。作為研究 DNA序列的結(jié)構(gòu)的嘗試，試對(duì)以下序列進(jìn)行分類：問題一：下面有 20個(gè)已知類別的人工制造的序列（見附件 1），其中序列標(biāo)號(hào) 110 為 A類， 11-20 為 B類。請(qǐng)從中提取特征，構(gòu)造分類方法，并用這些已知類別的序列，衡量你的方法是否足夠好。然后用你認(rèn)為

4、滿意的方法，對(duì)另外 20個(gè)未標(biāo)明類別的人工序列（標(biāo)號(hào) 2140）進(jìn)行分類，把結(jié)果用序號(hào)（按從小到大的順序）標(biāo)明它們的類別（無法分類的不寫入）： A類； B類。問題二：請(qǐng)對(duì) 182個(gè)自然 DNA序列（ 00/problems.htm）進(jìn)行分類。它們都較長(zhǎng)。用你的分類方法對(duì) 它們進(jìn)行分類，并給出分類結(jié)果。看了這道題，我們應(yīng)當(dāng)從何處入手呢，我們應(yīng)該怎樣進(jìn)行分析呢 2 思路點(diǎn)撥細(xì)讀全題對(duì)未知事物進(jìn)行分類問題的本質(zhì) 對(duì)另外 20個(gè)未標(biāo)明類別的 DNA序列進(jìn)行分類根

5、據(jù) 所給的 20 個(gè)已知類別的 DNA 序列所提供的信息對(duì) 182個(gè)自然 DNA序列進(jìn)行分類如果將每一個(gè) DNA序列都看作樣本，那么該問題就進(jìn)一步提煉成一個(gè)純粹的數(shù)學(xué) 問題：設(shè)有兩個(gè)總體（類）和，其分布特征（來自各個(gè)總體的樣本）已知，對(duì)給定的新品，我們需要判斷其屬于哪個(gè)總體（類）。對(duì)于上面的數(shù)學(xué)問題，可以用很多成熟的方法來解決，例如：（ 1） BP神經(jīng)網(wǎng)絡(luò)；（ 2）聚類分析；（ 3）判別分析；等等。 1G 2G X 如何選取方法是建模過程中需要解決的另外一個(gè) 問題： BP神經(jīng)網(wǎng)絡(luò)是人工神經(jīng)網(wǎng)絡(luò)的一種

6、，它通過對(duì) 訓(xùn)練樣本的學(xué)習(xí)，提取樣本的隱含信息，進(jìn)而對(duì)新樣本的類別進(jìn)行預(yù)測(cè)。 BP神經(jīng)網(wǎng)絡(luò)可以用以解決上面的 DNA序列分類問題，但是，如何提取特征、如何提高網(wǎng)絡(luò)的訓(xùn)練效率、如何提高網(wǎng)絡(luò)的容錯(cuò)能力、如何建立網(wǎng)絡(luò)結(jié)構(gòu)是能否成功解決 DNA序列分類問題的關(guān)鍵所在；聚類分析和判別分析都是多元統(tǒng)計(jì)分析中的經(jīng) 典方法，都可以用來將對(duì)象（或觀測(cè)值）分成不同的集合或類別，但是，聚類分析更側(cè)重于 “ 探索 ” 對(duì)象（或觀測(cè)值）的自然分組方式，而判別分析則側(cè)重于將未知類別的對(duì)象（或觀測(cè)值） “ 歸結(jié) ” （或者說，分配）到已知類別中。顯然，判別分析更適合用來解決上面的 DNA序列分類問題。

7、3判別分析方法判別分析是用于判別樣品所屬類別的一種多元統(tǒng)計(jì)分析方法。判別分析問題都可以這樣描述：設(shè)有個(gè) 維的總體，其分布特征已知（如已知分布函數(shù)分別為或者已知來自各個(gè)總體的樣本），對(duì)給定的一個(gè)新樣品，我們需要判斷其屬于哪個(gè)總體。一般來說，根據(jù)判別規(guī)則的不同，可以得到不同的判別方法，例如，距離判別、貝葉斯（ Bayes）判別、費(fèi)希爾（ Fisher）判別、逐步判別、序貫判別等。這里，我們簡(jiǎn)單介紹三個(gè) 常用的判別方法：距離判別、貝葉斯（ Bayes）判別和費(fèi)希爾（ Fisher）判別。 k m 12,

8、 , , kG G G 12( ) , ( ) , , ( )kF x F x F x X 判別分析方法 1.距離判別 2.貝葉斯（ Bayes）判別 3.費(fèi) 希爾（ Fisher）判別 4.判別分析模型的顯著性檢驗(yàn) 3.1 距離判別距離判別的基本思想：樣品 X 離哪個(gè)總體的距離最近，就判斷 X 屬于哪個(gè)總體。這里的 “ 距離 ” 是通常意義下的距離（歐幾里得距離：在 m 維歐幾里得空間 R 中，兩點(diǎn) 與的歐幾里得距離，也就是通常我們所說的距離為

9、）嗎？帶著這個(gè)疑問，我們來考慮這樣一個(gè)問題： TmxxxX ),,,( 21 TmyyyY ),,,( 21 22222112 )()()(),( mm YXYXYXYXd 21 , GG ),( 21 NX )6,( 22 NY 設(shè)有兩個(gè)正態(tài)總體，和，現(xiàn)在有一個(gè)新的樣品位于 A 處（參見圖 1） 1d2 d 從圖中不難看出：，是否 A 處的樣品屬于總體呢？ 21dd 1G 圖 1 顯然不是，因?yàn)閺母怕实慕嵌葋砜矗?總體的樣本比較分散，而總體的樣本則非常集中，

10、因此處的樣品屬于總體的概率明顯大于屬于總體的概率，也就是說，處的樣品屬于總體的“可能性”明顯大于屬于總體的“可能性”！這也說明了用歐幾里得距離來度量樣品到總體距離的局限性。因此，需要引入新的距離概念這就是下面給出的馬氏距離。 2G 1G 2G 1G A 1G 2G A 2G 定義 1（馬氏距離）：設(shè)總體 G 為 m 維總體（ m 個(gè)因素或指標(biāo)），其均值向量為（這里 T 表示轉(zhuǎn)置），協(xié)方差陣為，則樣品到總體 G 的馬氏距離定義為 Tm ),,,( 21 mmij )( TmxxxX

11、 ),,,( 21 )()(),( 12 XXGXd T 3.1.1 兩總體的距離判別先考慮兩個(gè)總體（）的情況。設(shè) 有兩個(gè)總體和 , 和分別是和的協(xié)方差陣，和分別是和的均值。對(duì) 于新的樣品，需要判斷它來自那個(gè)總體。設(shè)來自（）的訓(xùn)練樣本為其中表示來自哪個(gè)總體，表示來自總體的樣本量。 2k 1G 2G 1 2 1G 2G 1 2 1 G 2G X iG 2,1i Ti jm i j i j i j xxxX ),,,( 21 2,1i inj ,,2,1 iG 要判斷新樣品來自哪個(gè)

12、總體，一般的想法是分別計(jì)算新樣品到兩個(gè)總體的馬氏距離和：如果則判定；反之，如果則判定：即（ 1） A. 時(shí)的判別方法 21 X ),( 12 GXd ),( 22 GXd ),(),( 2212 GXdGXd 1GX ),(),( 2212 GXdGXd 2GX 22 1 1 2 22 2 1 2 , ( , ) ( , ) , ( , ) ( , ) X G d X G d X G X G d X G d X G if: if

13、: 其中，，記為了得到更簡(jiǎn)單的判別規(guī)則，我們下面計(jì)算新樣品到兩個(gè)總體的馬氏距離和的差 22 12 11 1 1 2 2 1 1 1 2 1 1 1 2 2 112 21 ( , ) ( , ) ( ) ( ) ( ) ( ) 2 ( ) 2( ) ( ) 2 2 ( ) TT T T T T T d X G d X G X X X X X X X ),( 12 GXd ),( 22 GXd )(21 21 )

14、( 211 )()( XXW T 顯然，判別規(guī)則（ 1）式等價(jià)于（ 2）通常，稱為判別系數(shù)向量稱為線性判別函數(shù)。注意判別準(zhǔn)則（ 1）式或者（ 2）式將維空間劃分成兩部分：和也即。距離判別的實(shí)質(zhì)就是：給出空間的一個(gè)劃分和，如果樣品落入之中，則判定；如果樣品落入之中，則判定。 1 2 , ( ) 0 , ( ) 0 X G W X X G W X if: if: )(XW m mR 0)(|1 XWXD 0)(|2 XWXD

15、 21 DDR m mR 1D 2D X 1D 1GX X 2D 2GX 當(dāng) 時(shí)，根據(jù)判別準(zhǔn)則（ 1）式，我們同樣的給出判別函數(shù) 為相應(yīng)的判別規(guī)則為（ 3） B. 時(shí)的判別方法 21 21 )(XW )()()()()( 21221111 XXXXXW TT 1 2 , ( ) 0 , : ( ) 0 X G W X X G i f W X if: 在實(shí)際應(yīng)用中，總體的均值和協(xié)方差陣一般是未知的，我們所知道的僅僅是一組樣本或者觀測(cè)值，在這種情況下，就需要利用數(shù)理統(tǒng)計(jì)的知識(shí)，對(duì) 進(jìn)行

16、估計(jì)。利用已知樣本，易得的無偏估計(jì)分別為 C. 的估計(jì) 2121 ,,, 2121 ,,, 2121 ,,, 1 1 1 1 1 1 n j jXnX 2 1 2 2 2 1 n j jXnX 1 1 1111 1 1 ))(( 1 1 n j T jj XXXXnS 2 1 2222 2 2 ))(( 1 1 n j T jj XXXXnS 對(duì)于多個(gè)總體的情況，可以類似于兩個(gè)總體的處理過程，我們給出如下的步驟：第一步：計(jì)算樣品到每個(gè)總體的馬氏距離；第二步

17、：比較的大小，將樣品判為距離最小的那個(gè)總體。如果均值為：和協(xié)方差：未知，可以類似兩個(gè)總體的情形運(yùn)用訓(xùn)練樣本來進(jìn) 行估計(jì)。這里不再贅述。 3.1.2 多總體的距離判別 X ),,2,1)((2 kiXd i ),,2,1)((2 kiXd i X ),,2,1( kii ),,2,1( kii 3.1.3 距離判別的不足距離判別方法簡(jiǎn)單實(shí)用，容易實(shí)現(xiàn)，并且結(jié)論的意義明確。但是，距離判別沒有考慮：（ 1）各總體本身出現(xiàn)的可能性在距離判別中沒有考慮；（ 2）錯(cuò)判造成的損

18、失在距離判別中也沒有考慮。在很多情況下，不考慮上面的兩種因素是不合理的。貝葉斯（ Bayes）判別方法克服了距離判別的不足。與前面距離判別方法不同的是：所謂貝葉斯（ Bayes）判別，就是在考慮各總體的先驗(yàn)概率和錯(cuò)判損失的情況下，給出空間的一個(gè)劃分：，使得運(yùn)用此劃分來判別歸類時(shí)，所帶來的平均錯(cuò)判損失最小。 3.2 貝葉斯判別 mR ,,, 21 kDDDD 貝葉斯（ Bayes）判別問題的數(shù)學(xué)描述為：設(shè)有個(gè) 維的總體，其密度函數(shù)分別為，若已知這個(gè)總體各自出現(xiàn)

19、的概率（先驗(yàn)概率）為（，且），假設(shè)已知將本來屬于總體的樣品錯(cuò)判為總體所造成的損失為。在這樣的情形下，對(duì)于新的樣品，需要判斷它來自那個(gè)總體。為了給出貝葉斯（ Bayes）判別準(zhǔn)則，我們從下面幾個(gè)方面來討論： k m kGGG ,,, 21 )(,),(),( 21 xfxfxf k k 12, , , kq q q 0 iq 1 1 k i iq iG jG ),,2,1,)(|( kjiijL X 先驗(yàn)概率表示對(duì)各總體的先知認(rèn)識(shí)，或者說，事先對(duì)所研究的問題所具有的認(rèn)

20、識(shí)。一般來說，先驗(yàn)概率并不容易獲得，其更多的來自于長(zhǎng) 期累積的經(jīng)驗(yàn)。先驗(yàn)概率可以通過下面幾種賦值方法得到： 1.基于經(jīng)驗(yàn)或者歷史資料進(jìn)行估計(jì)； 2.利用訓(xùn)練樣本中各種樣品所占的比例作為的值。其中表示第類總體的樣品數(shù) ，是總訓(xùn)練樣本數(shù)，該方法要求訓(xùn)練樣本是通過隨機(jī)抽樣得到的； 3.假定。 nni iq in i knnnn 21 kqqq k /121 A.確定先驗(yàn)概率這里用表示將本來屬于總體的樣品錯(cuò)判為總體的概率，即誤判概率，顯然，根據(jù)概率的定義，易得：

21、（）（ 4）實(shí)際上，（ 4）式的幾何意義是很明顯的，見圖 2。 B.確定錯(cuò)判概率 )|( ijP iG jG jD i dXXfijP )()|( ij 圖 2表示的是兩個(gè)正態(tài)總體的誤判概率示意圖。誤判概率的估計(jì)方法有以下幾種：（ 1）利用訓(xùn)練樣本為檢驗(yàn)集，用判別方法對(duì)訓(xùn)練樣本進(jìn)行判斷，統(tǒng)計(jì)誤判的樣本個(gè)數(shù)，計(jì)算誤判樣本占總樣本的比例，并作為誤判概率的估計(jì)值；（ 2）當(dāng)訓(xùn)練樣本足夠大時(shí)，從訓(xùn)練樣本中預(yù)留一部分作為檢驗(yàn)集，并記錄判錯(cuò)的比率，作為誤判概率的估計(jì)值；（ 3）運(yùn)用舍一法：每次預(yù)留一個(gè)樣本來檢驗(yàn)，用剩下的樣本建立

22、判別準(zhǔn)則，循環(huán)檢驗(yàn)完所有訓(xùn)練樣本，記錄判錯(cuò)的比率，以此作為誤判概率的估計(jì)值。 1n C.確定錯(cuò)判損失錯(cuò)判必然帶來?yè)p失?，F(xiàn)實(shí)中，錯(cuò)判的損失一般來說很難定量給出。但是可以運(yùn)用賦值法來確定：（ 1）根據(jù)經(jīng)驗(yàn)或者實(shí)際問題的特征人為確定；（ 2）假設(shè)各種誤判損失都相等。基于前面的討論，運(yùn)用概率知識(shí)：判別法將本來屬于總體的樣本錯(cuò)判給其它總體的平均損失為那么，關(guān)于先驗(yàn)概率的平均錯(cuò)判損失為（ 5）如果能找到使得平均損失達(dá)到最小，那么就稱為貝葉斯（ Bayes）判

23、別的解。 D iG k j i ijLijPDr 1 )|()|()( )(Dg k j k i ii k i i ijLijPqDrqDg 111 )|()|()()( *D )( *Dg *D D.確定平均損失定理 1：設(shè)有個(gè)總體：，已知的聯(lián)合密度函數(shù)為，先驗(yàn)概率為，錯(cuò)判損失為，則貝葉斯（ Bayes）判別的解為其中（ 6）下面給出貝葉斯（ Bayes）判別的解的主要結(jié)論： k kGGG ,,, 21 iG )(Xfi ),,2,1(

24、kiq i )|( ijL ,,, **2*1* kDDDD ),,2,1(,,2,1,),()(|* kikjijXhXhXD jii k i iij XfijLqXh 1 )()|()( 3.3 費(fèi)希爾判別費(fèi)希爾判別的基本思想：借助于方差分析的思想，利用投影將元的數(shù)據(jù)投影到某一個(gè)方向，使得投影后組與組之間的差異盡可能的大，然后根據(jù)一定的判別規(guī)則對(duì)新樣本的類別進(jìn)行判斷。首先構(gòu)造一個(gè)線性判別函數(shù) （ 7）可見上面的函數(shù)將元的數(shù)據(jù)投影到了一個(gè)方向，系數(shù) 的確定原則是使得總體間的差異最大

25、，總體內(nèi)部的離差最小。 m mmT XaXaXaXAXU 2211)( m TmaaaA ),,,( 21 A.確定線性判別函數(shù) 設(shè)有個(gè) 元總體：，它們的均值為：；協(xié)方差為：。在的條件下，有令這里確定，使得個(gè)總體間的差異最大，總體內(nèi)部的離差最小，則應(yīng)該達(dá)到最大。 k m kGGG ,,, 21 ),,2,1( kii ),,2,1( kii iGX iTTT AXEAXAE )()( ki ,,2,1 AAAXDAXAD iTTT )()( ki ,,2,1

26、 AAAAe T k i i T 1 BAAAkAAAb T k i ii T k i T i T )( 11 2 k i ik 1 1 k i i 1 kB k i ii 1 A k AA BAA e bA T T )( 為了確保的唯一性，不妨設(shè) 。因此，問題轉(zhuǎn)化為：在條件約束下，求使得式達(dá)到最大這是大家非常熟悉的條件極值的問題。根據(jù)拉格朗日乘子法：求解得（ 8）由方程（ 8）第一式知，是的特征根，是相應(yīng)的特征向量。可以證明（的大小

27、可以衡量判別函數(shù) 的判別效果，故稱為判別效率）。設(shè) 的非零特征根為，相應(yīng)的滿足約束條件的特征向量為，顯然，取時(shí) 達(dá)到最大。 A 1AA T 1AA T A BAAT )1()( AABAAA TT 01 0)(2 AA d d AB dA d T B1 A )( A )(A )(XU )(A B1 021 r rlll ,,, 21 1lA 1)( A B.確定判別規(guī)則假設(shè)系數(shù) 已經(jīng)求出，那么線性判別函數(shù) 就完全確定下來，對(duì)

28、于一個(gè)新的樣品，可以構(gòu)造下面的判別規(guī)則：（ 9） TmaaaA ),,,( 21 )(XU X 1 , | | m in | | i T T T T ij jk XG A X A A X A if: 3.4 判別分析模型的顯著性檢驗(yàn) 建立了判別分析模型以后還需要對(duì)模型進(jìn)行評(píng) 價(jià)，這就需要對(duì)判別分析模型的顯著性進(jìn)行檢驗(yàn)，主要包括兩個(gè)方面：判別效果的檢驗(yàn)和各變量判別能力的檢驗(yàn) 1， 2。所謂判別效果的檢驗(yàn)就是檢驗(yàn) k 個(gè) 總體的均值是否有顯著的差異，反映了采用判別分析模型的有效性問題；各變量判別能力的檢驗(yàn)反映的

29、是各指標(biāo)（因素）對(duì)判別分類所起的作用時(shí)候顯著。具體的檢驗(yàn)方法因?yàn)檫^于復(fù)雜，這里不再贅述。需要說明的是，作為多元統(tǒng)計(jì)分析中的經(jīng)典方法，判別分析在許多關(guān)于多元統(tǒng)計(jì)分析的教材中均有詳細(xì)而深刻的論述。 4 DNA序列分類問題的求解關(guān)于 DNA序列分類問題的討論和分析，我們?cè)诘?1部分和第 2部分已經(jīng)作了詳細(xì)的分析和討論。這里，我們將根據(jù)多元統(tǒng)計(jì)分析的知識(shí)建立判別分析模型來求解 DNA序列的分類問題（這里只求解問題一）。首先，需要提取每條序列的所蘊(yùn)含的特征因為將序列的全部信息都作為指標(biāo)（因素）來建立判別模型是不可能的。 A.特征的提取 DNA序列中所蘊(yùn)含的

30、信息是非常豐富的，因此，如何提取特征、提取什么特征是一個(gè)非常困難的問題這個(gè)問題涉及到生物學(xué)的知識(shí)，此處將不深入展開討論。我們考慮采用序列中 4個(gè)堿基 A， T， C， G的含量百分比作為 DNA序列的特征。為了便于討論，我們用表示堿基 A在序列中所占的百分比；表示堿基 T在序列中所占的百分比；表示堿基 C在序列中所占的百分比；表示堿基 G在序列中所占的百分比。因?yàn)椋?+ + + =1，因此、、和中只有三個(gè)變量是獨(dú)立的，不失一般性，我們選取、和為指標(biāo)，以表示第個(gè) DNA序列的特征向量，換句話說， “ 完全 ” 代表第

31、個(gè) DNA序列。 ax tx c x gx ax tx cx gx a x tx cx gx ax tx cx Tctai xxxX ),,( i Tctai xxxX ),,( i 正如前面第 2部分中所分析的：在此 DNA序列分類問題中，共有兩個(gè)已知的總體（類）（ A類）和（ B類），而且，訓(xùn)練樣本共有個(gè)，其中，前 10個(gè)樣本（記為）屬于總體（類）；后 10個(gè)樣本（記為）屬于總體（類）。需要解決的問題是：對(duì)給定的新樣品，我們需要判斷其屬于哪個(gè)總體（類）。 1G 2G 20n 1021 ,,, XXX 1

32、G 201211 ,,, XXX 2G X B.建立判別模型這里分別建立距離判別和費(fèi)希爾（ Fisher）判別模型。（ 1）距離判別模型在距離判別模型中，首先需要估計(jì)總體（類）和的均值和協(xié)方差陣，運(yùn)用前面 3.1.1小節(jié)的公式，可以得到均值和協(xié)方差陣的無偏估計(jì)。然后，計(jì)算樣本到總體（類）和的馬氏距離；根據(jù)判別準(zhǔn)則（ 1），可得：若，則判定為 A類；若，則判定為 B類。 1G 2G )2,1( ii )2,1( ii )

33、2,1( ii )2,1( ii X 1G 2G )()(),( 111112 XXGXd T )()(),( 212222 XXGXd T ),(),( 2212 GXdGXd X ),(),( 2212 GXdGXd X （ 2）費(fèi)希爾判別模型首先，確定判別函數(shù) 利用費(fèi)希爾 (Fisher)判別準(zhǔn)則，可以求出確定了判別函數(shù)，就可以根據(jù)費(fèi)希爾 (Fisher)判別準(zhǔn)則（ 9）式，判斷新的 DNA 序列的類別問題了。 cta xaxaxay 321 9377.0,087.0,3365.0 321 aaa C.模型求解和

34、軟件實(shí)現(xiàn) 判別分析的計(jì)算機(jī)實(shí)現(xiàn)是非常簡(jiǎn)單的，運(yùn)用 Matlab和 SPSS等軟件都可以進(jìn)行判別分析。經(jīng)過計(jì)算，結(jié)果如下：（ 1）距離判別：運(yùn)用上面算法對(duì)已知類別的訓(xùn)練本進(jìn)行判定，結(jié)果為： A類： 1， 2， 3， 5， 6， 7， 8， 9， 10 B類： 4， 11， 12， 13， 14， 15， 16， 17， 18， 19， 20 只有第 4個(gè)樣本發(fā)生了誤判，故正確率為 95%。運(yùn)用上面算法對(duì) 21-40進(jìn)行分類，結(jié)果為 A類： 22， 23， 25， 27， 29， 30， 32， 33， 34， 35， 36， 37 B類： 21， 24， 26，

35、28， 31， 38， 39， 40 （ 2）費(fèi)希爾判別運(yùn)用上面算法對(duì)已知類別的訓(xùn)練本進(jìn)行判定，結(jié) 果為： A類： 1， 2， 3， 5， 6， 7， 8， 9， 10 B類： 4， 11， 12， 13， 14， 15， 16， 17， 18， 19， 20 只有第 4個(gè)樣本發(fā)生了誤判，故正確率為 95%。運(yùn)用上面算法對(duì) 21-40進(jìn)行分類，結(jié)果為： A類： 22， 23， 25， 27， 29， 34， 35， 36， 37 B類： 21， 24， 26， 28， 30， 31， 32， 33， 38， 39， 40 參考文獻(xiàn) 1 高惠璇，應(yīng)用多元統(tǒng)計(jì)分析，北京大學(xué)出版社， 2005。 2 張堯庭 , 方開泰，多元統(tǒng)計(jì)分析引論，科學(xué)出版社， 1982。 3 陳家鼎，孫山澤，李東風(fēng)，數(shù)理統(tǒng)計(jì)學(xué)講義，高等教育出版社， 1998。 4 梁之舜，鄧集賢，楊維權(quán)等，概率論與數(shù)理統(tǒng)計(jì)（第二版）（上），高等教育出版社， 1998。 5 朱建平，應(yīng)用多元統(tǒng)計(jì)分析，科學(xué)出版社， 2006。 6 全國(guó)大學(xué)生數(shù)學(xué)建模競(jìng)賽優(yōu)秀論文匯編（ 1999- 2000），中國(guó)物價(jià)出版社， 2002。

展開閱讀全文

溫馨提示:
1: 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2: 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3.本站RAR壓縮包中若帶圖紙，網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 裝配圖網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

點(diǎn)擊下載此資源

九九热最新网址,777奇米四色米奇影院在线播放,国产精品18久久久久久久久久,中文有码视频,亚洲一区在线免费观看,国产91精品在线,婷婷丁香六月天

多元統(tǒng)計(jì)分析-判別分析.ppt

最新文檔

相關(guān)資源

相關(guān)搜索