多元統(tǒng)計(jì)分析-判別分析.ppt
《多元統(tǒng)計(jì)分析-判別分析.ppt》由會(huì)員分享,可在線閱讀,更多相關(guān)《多元統(tǒng)計(jì)分析-判別分析.ppt(46頁(yè)珍藏版)》請(qǐng)?jiān)谘b配圖網(wǎng)上搜索。
1、數(shù) 學(xué) 建 模 培 訓(xùn) 第 十 章 多元統(tǒng)計(jì)分析 第 十 章 多元統(tǒng)計(jì)分析 主 講 : 孫 中 奎 1 問題引入 2思路點(diǎn) 撥 3判 別 分析方法 4 DNA序列分 類問題 的求解 5. 參 考文 獻(xiàn) 目 錄 首先,我 們來 考 慮 一下 2000年“ 網(wǎng) 易杯” 全 國(guó) 大 學(xué) 生 數(shù)學(xué) 建模 競(jìng)賽 的 A題 是 關(guān) 于“ DNA 序列分 類 ”的 問題 1 問題 引入 人類基因組中的 DNA全序列是由 4個(gè)堿 基 A, T, C, G按一定順序排成的長(zhǎng)約 30億 的序列,毫無疑問,這是一本記錄著人
2、類 自身生老病死及遺傳進(jìn)化的全部信息的 “天書”。但是,除了這四種堿基外,人 們對(duì)它所包含的內(nèi)容知之甚少,如何破譯 這部“天書”是二十一世紀(jì)最重要的任務(wù) 之一。在這個(gè)目標(biāo)中,研究 DNA全序列具 有什么結(jié)構(gòu),由這 4個(gè)字符排成的看似隨機(jī) 的序列中隱藏著什么規(guī)律,又是解讀這部 天書的基礎(chǔ),是生物信息學(xué) ( Bioinformatics)最重要的課題之一。 雖然人類對(duì)這部“天書”知之甚少,但也 發(fā)現(xiàn)了 DNA序列中的一些規(guī)律性和結(jié)構(gòu)。 例如,在全序列中有一些是用于編碼蛋白 質(zhì)的序列片段,即由這 4個(gè)字符組成的 64種 不同的 3字符串,其中大多數(shù)用于編碼構(gòu)成 蛋白質(zhì)的 20種氨基酸。又例如,在不
3、用于 編碼蛋白質(zhì)的序列片段中, A和 T的含量特 別多些,于是以某些堿基特別豐富作為特 征去研究 DNA序列的結(jié)構(gòu)也取得了一些結(jié) 果。此外,利用統(tǒng)計(jì)的方法還發(fā)現(xiàn)序列的 某些片段之間具有相關(guān)性,等等。這些發(fā) 現(xiàn)讓人們相信, DNA序列中存在著局部的 和全局性的結(jié)構(gòu),充分發(fā)掘序列的結(jié)構(gòu)對(duì) 理解 DNA全序列是十分有意義的。 作為研究 DNA序列的結(jié)構(gòu)的嘗試,試對(duì)以下序列 進(jìn)行分類: 問題一:下面有 20個(gè)已知類別的人工制造的序列 (見附件 1),其中序列標(biāo)號(hào) 110 為 A類, 11-20 為 B類。請(qǐng)從中提取特征,構(gòu)造分類方法,并用這 些已知類別的序列,衡量你的方法是否足夠好。 然后用你認(rèn)為
4、滿意的方法,對(duì)另外 20個(gè)未標(biāo)明類 別的人工序列(標(biāo)號(hào) 2140)進(jìn)行分類,把結(jié)果 用序號(hào)(按從小到大的順序)標(biāo)明它們的類別 (無法分類的不寫入): A類 ; B類 。 問題二:請(qǐng)對(duì) 182個(gè)自然 DNA序 列 ( 00/problems.htm)進(jìn)行分類。 它們都較長(zhǎng)。用你的分類方法對(duì) 它們進(jìn)行分類,并給出分類結(jié)果。 看了這道題,我們應(yīng)當(dāng)從何 處入手呢,我們應(yīng)該怎樣進(jìn)行分 析呢 2 思路點(diǎn)撥 細(xì)讀全題 對(duì)未知事物進(jìn)行分類 問題的 本 質(zhì) 對(duì)另外 20個(gè)未標(biāo)明類別 的 DNA序列進(jìn)行分類 根
5、據(jù) 所給 的 20 個(gè)已 知類 別的 DNA 序列 所提 供的 信息 對(duì) 182個(gè)自然 DNA序列進(jìn)行分類 如果將每一個(gè) DNA序列都看作樣本,那 么該問題就進(jìn)一步提煉成一個(gè)純粹的數(shù)學(xué) 問題:設(shè)有兩個(gè)總體(類) 和 , 其分布特征(來自各個(gè)總體的樣本)已知, 對(duì)給定的新品 ,我們需要判斷其屬 于哪個(gè)總體(類)。 對(duì)于上面的數(shù)學(xué)問題,可以用很多成熟 的方法來解決,例如: ( 1) BP神經(jīng)網(wǎng)絡(luò); ( 2)聚類分析; ( 3)判別分析;等等。 1G 2G X 如何選取方法是建模過程中需要解決的另外一個(gè) 問題: BP神經(jīng)網(wǎng)絡(luò)是人工神經(jīng)網(wǎng)絡(luò)的一種
6、,它通過對(duì) 訓(xùn)練樣本的學(xué)習(xí),提取樣本的隱含信息,進(jìn)而對(duì)新樣 本的類別進(jìn)行預(yù)測(cè)。 BP神經(jīng)網(wǎng)絡(luò)可以用以解決上面的 DNA序列分類問題,但是,如何提取特征、如何提高 網(wǎng)絡(luò)的訓(xùn)練效率、如何提高網(wǎng)絡(luò)的容錯(cuò)能力、如何建 立網(wǎng)絡(luò)結(jié)構(gòu)是能否成功解決 DNA序列分類問題的關(guān)鍵 所在;聚類分析和判別分析都是多元統(tǒng)計(jì)分析中的經(jīng) 典方法,都可以用來將對(duì)象(或觀測(cè)值)分成不同的 集合或類別,但是,聚類分析更側(cè)重于 “ 探索 ” 對(duì)象 (或觀測(cè)值)的自然分組方式,而判別分析則側(cè)重于 將未知類別的對(duì)象(或觀測(cè)值) “ 歸結(jié) ” (或者說, 分配)到已知類別中。顯然,判別分析更適合用來解 決上面的 DNA序列分類問題。
7、3判 別 分析方法 判別分析是用于判別樣品所屬類別的一種 多元統(tǒng)計(jì)分析方法。判別分析問題都可以這樣 描述:設(shè)有 個(gè) 維的總體 ,其分布 特征已知(如已知分布函數(shù)分別為 或者已知來自各個(gè)總體的樣本),對(duì)給定的一 個(gè)新樣品 ,我們需要判斷其屬于哪個(gè)總體。 一般來說,根據(jù)判別規(guī)則的不同,可以得到不 同的判別方法 ,例如,距離判別、貝葉斯 ( Bayes)判別、費(fèi)希爾( Fisher)判別、逐步 判別、序貫判別等。這里,我們簡(jiǎn)單介紹三個(gè) 常用的判別方法:距離判別、貝葉斯( Bayes) 判別和費(fèi)希爾( Fisher)判別。 k m 12,
8、 , , kG G G 12( ) , ( ) , , ( )kF x F x F x X 判 別 分 析 方 法 1.距離判 別 2.貝 葉斯( Bayes)判 別 3.費(fèi) 希爾( Fisher)判 別 4.判 別 分析模型的 顯 著性 檢驗(yàn) 3.1 距離判 別 距離判別的基本思想:樣品 X 離哪個(gè)總體的距離最近,就判斷 X 屬于哪個(gè)總體。 這里的 “ 距離 ” 是通常意義下的 距離(歐幾里得距離:在 m 維歐幾里 得空間 R 中,兩點(diǎn) 與 的歐幾里得距離,也就 是通常我們所說的距離為
9、)嗎? 帶著這個(gè)疑問,我們來考慮這樣 一個(gè)問題 : TmxxxX ),,,( 21 TmyyyY ),,,( 21 22222112 )()()(),( mm YXYXYXYXd 21 , GG ),( 21 NX )6,( 22 NY 設(shè)有兩個(gè)正態(tài)總體 , 和 , 現(xiàn)在有一個(gè)新的樣品位于 A 處(參見圖 1) 1d2 d 從圖中不難看出: ,是否 A 處 的樣品屬于總體 呢? 21dd 1G 圖 1 顯然不是,因?yàn)閺母怕实慕嵌葋砜矗?總體 的樣本比較分散,而總體 的樣 本則非常集中,
10、因此 處的樣品屬于總 體 的概率明顯大于屬于總體 的概率, 也就是說, 處的樣品屬于總體 的“可 能性”明顯大于屬于總體 的“可能 性”!這也說明了用歐幾里得距離來度 量樣品到總體距離的局限性。因此,需 要引入新的距離概念 這就是下面給 出的馬氏距離。 2G 1G 2G 1G A 1G 2G A 2G 定義 1(馬氏距離):設(shè)總體 G 為 m 維總體 ( m 個(gè)因素或指標(biāo)),其均 值向量為 (這里 T 表 示轉(zhuǎn)置),協(xié)方差陣為 ,則樣品 到總體 G 的馬氏距離定義為 Tm ),,,( 21 mmij )( TmxxxX
11、 ),,,( 21 )()(),( 12 XXGXd T 3.1.1 兩總體的距離判別 先考慮兩個(gè)總體( )的情況。設(shè) 有兩個(gè)總體 和 , 和 分別是 和 的 協(xié)方差陣, 和 分別是 和 的均值。對(duì) 于新的樣品 ,需要判斷它來自那個(gè)總體。 設(shè)來自 ( )的訓(xùn)練樣本為 其中 表示來自哪個(gè)總體, 表示來自總體 的樣本量。 2k 1G 2G 1 2 1G 2G 1 2 1 G 2G X iG 2,1i Ti jm i j i j i j xxxX ),,,( 21 2,1i inj ,,2,1 iG 要判斷新樣品 來自哪個(gè)
12、總體,一般的想法是分 別計(jì)算新樣品到兩個(gè)總體的馬氏距離 和 : 如果 則判定 ; 反之,如果 則判定 : 即 ( 1) A. 時(shí)的判別方法 21 X ),( 12 GXd ),( 22 GXd ),(),( 2212 GXdGXd 1GX ),(),( 2212 GXdGXd 2GX 22 1 1 2 22 2 1 2 , ( , ) ( , ) , ( , ) ( , ) X G d X G d X G X G d X G d X G if: if
13、: 其中 , , 記 為了得到更簡(jiǎn)單的判別規(guī)則,我們下面 計(jì)算新樣品到兩個(gè)總體的馬氏距離 和 的差 22 12 11 1 1 2 2 1 1 1 2 1 1 1 2 2 112 21 ( , ) ( , ) ( ) ( ) ( ) ( ) 2 ( ) 2( ) ( ) 2 2 ( ) TT T T T T T d X G d X G X X X X X X X ),( 12 GXd ),( 22 GXd )(21 21 )
14、( 211 )()( XXW T 顯然,判別規(guī)則( 1)式等價(jià)于 ( 2) 通常,稱 為判別系數(shù)向量稱 為線性判別函數(shù)。 注意判別準(zhǔn)則( 1)式或者( 2)式將 維空間 劃分成兩部分: 和 也即 。距離判別的實(shí)質(zhì)就是:給出 空間 的一個(gè)劃分 和 ,如果樣品 落入 之中, 則判定 ;如果樣品 落入 之中,則判定 。 1 2 , ( ) 0 , ( ) 0 X G W X X G W X if: if: )(XW m mR 0)(|1 XWXD 0)(|2 XWXD
15、 21 DDR m mR 1D 2D X 1D 1GX X 2D 2GX 當(dāng) 時(shí),根據(jù)判別準(zhǔn)則( 1)式,我們同 樣的給出判別函數(shù) 為 相應(yīng)的判別規(guī)則為 ( 3) B. 時(shí)的判別方法 21 21 )(XW )()()()()( 21221111 XXXXXW TT 1 2 , ( ) 0 , : ( ) 0 X G W X X G i f W X if: 在實(shí)際應(yīng)用中,總體的均值和協(xié)方差陣一般 是未知的,我們所知道的僅僅是一組樣本或者觀 測(cè)值,在這種情況下,就需要利用數(shù)理統(tǒng)計(jì)的知 識(shí),對(duì) 進(jìn)行
16、估計(jì)。 利用已知樣本,易得 的無偏 估計(jì)分別為 C. 的估計(jì) 2121 ,,, 2121 ,,, 2121 ,,, 1 1 1 1 1 1 n j jXnX 2 1 2 2 2 1 n j jXnX 1 1 1111 1 1 ))(( 1 1 n j T jj XXXXnS 2 1 2222 2 2 ))(( 1 1 n j T jj XXXXnS 對(duì)于多個(gè)總體的情況,可以類似于兩個(gè)總體的 處理過程,我們給出如下的步驟: 第一步:計(jì)算樣品 到每個(gè)總體的馬氏距 離 ; 第二步
17、:比較 的大小,將樣品 判為距離最小的那個(gè)總體。 如果均值為: 和協(xié)方差: 未知,可以類似兩個(gè)總體的情形運(yùn)用訓(xùn)練樣本來進(jìn) 行估計(jì)。這里不再贅述。 3.1.2 多 總 體的距離判 別 X ),,2,1)((2 kiXd i ),,2,1)((2 kiXd i X ),,2,1( kii ),,2,1( kii 3.1.3 距離判別的不足 距離判別方法簡(jiǎn)單實(shí)用,容易實(shí)現(xiàn),并且 結(jié)論的意義明確。但是,距離判別沒有考慮: ( 1)各總體本身出現(xiàn)的可能性在距離判別 中沒有考慮; ( 2)錯(cuò)判造成的損
18、失在距離判別中也沒有 考慮。 在很多情況下,不考慮上面的兩種因素是 不合理的。貝葉斯( Bayes)判別方法克服了 距離判別的不足。 與前面距離判別方法不同的是:所謂貝 葉斯( Bayes)判別,就是在考慮各總 體的先驗(yàn)概率和錯(cuò)判損失的情況下,給 出空間 的一個(gè)劃分: , 使得運(yùn)用此劃分來判別歸類時(shí),所帶來 的平均錯(cuò)判損失最小。 3.2 貝 葉斯判 別 mR ,,, 21 kDDDD 貝葉斯( Bayes)判別問題的數(shù)學(xué)描述為:設(shè)有 個(gè) 維的總體 ,其密度函數(shù)分別 為 , 若已知這 個(gè)總體各自出現(xiàn)
19、的概率(先驗(yàn)概率) 為 ( , 且 ),假設(shè)已知將本來屬于總體 的樣品錯(cuò)判為總體 所造成的損失為 。 在這樣的情形下,對(duì)于新的樣品 ,需要判 斷它來自那個(gè)總體。 為了給出貝葉斯( Bayes)判別準(zhǔn)則,我們 從下面幾個(gè)方面來討論: k m kGGG ,,, 21 )(,),(),( 21 xfxfxf k k 12, , , kq q q 0 iq 1 1 k i iq iG jG ),,2,1,)(|( kjiijL X 先驗(yàn)概率表示對(duì)各總體的先知認(rèn)識(shí),或者說, 事先對(duì)所研究的問題所具有的認(rèn)
20、識(shí)。一般來說 ,先驗(yàn)概率并不容易獲得,其更多的來自于長(zhǎng) 期累積的經(jīng)驗(yàn)。先驗(yàn)概率可以通過下面幾種賦 值方法得到: 1.基于經(jīng)驗(yàn)或者歷史資料進(jìn)行估計(jì); 2.利用訓(xùn)練樣本中各種樣品所占的比例 作為 的值。其中 表示第 類總體的樣品數(shù) , 是總訓(xùn)練樣本數(shù),該方 法要求訓(xùn)練樣本是通過隨機(jī)抽樣得到的; 3.假定 。 nni iq in i knnnn 21 kqqq k /121 A.確定先驗(yàn)概率 這里用 表示將本來屬于總體 的樣品錯(cuò)判為 總體 的概率,即誤判概率,顯然,根據(jù)概率的定義, 易得:
21、 ( ) ( 4) 實(shí)際上,( 4)式的幾何意義是很明顯的,見圖 2。 B.確定錯(cuò)判概率 )|( ijP iG jG jD i dXXfijP )()|( ij 圖 2表示的是兩個(gè)正態(tài)總體的誤判概率示意圖。 誤判概率的估計(jì)方法有以下幾種: ( 1)利用訓(xùn)練樣本為檢驗(yàn)集,用判別方法 對(duì)訓(xùn)練樣本進(jìn)行判斷,統(tǒng)計(jì)誤判的樣本個(gè)數(shù), 計(jì)算誤判樣本占總樣本的比例,并作為誤判概 率的估計(jì)值; ( 2)當(dāng)訓(xùn)練樣本足夠大時(shí),從訓(xùn)練樣本中 預(yù)留一部分作為檢驗(yàn)集,并記錄判錯(cuò)的比率, 作為誤判概率的估計(jì)值; ( 3)運(yùn)用舍一法:每次預(yù)留一個(gè)樣本來檢 驗(yàn),用剩下 的樣本建立
22、判別準(zhǔn)則,循環(huán)檢 驗(yàn)完所有訓(xùn)練樣本,記錄判錯(cuò)的比率,以此作 為誤判概率的估計(jì)值。 1n C.確定錯(cuò)判損失 錯(cuò)判必然帶來?yè)p失?,F(xiàn)實(shí)中,錯(cuò)判的損 失一般來說很難定量給出。但是可以運(yùn)用賦 值法來確定: ( 1) 根據(jù)經(jīng)驗(yàn)或者實(shí)際問題的特征人為 確定; ( 2) 假設(shè)各種誤判損失都相等。 基于前面的討論,運(yùn)用概率知識(shí):判別 法 將本來屬于總體 的樣本錯(cuò)判給其它 總體的平均損失為 那么,關(guān)于先驗(yàn)概率的平均錯(cuò)判損失 為 ( 5) 如果能找到 使得平均損失 達(dá)到最小,那么 就稱為貝葉斯( Bayes) 判
23、別的解。 D iG k j i ijLijPDr 1 )|()|()( )(Dg k j k i ii k i i ijLijPqDrqDg 111 )|()|()()( *D )( *Dg *D D.確定平均損失 定理 1:設(shè)有 個(gè)總體: ,已知 的聯(lián)合密度函數(shù)為 ,先驗(yàn)概率為 ,錯(cuò)判損失為 ,則貝 葉斯( Bayes)判別的解 為 其中 ( 6) 下面給出貝葉斯( Bayes)判別的解的主要結(jié)論 : k kGGG ,,, 21 iG )(Xfi ),,2,1(
24、kiq i )|( ijL ,,, **2*1* kDDDD ),,2,1(,,2,1,),()(|* kikjijXhXhXD jii k i iij XfijLqXh 1 )()|()( 3.3 費(fèi)希爾判別 費(fèi)希爾判別的基本思想:借助于方差分析 的思想,利用投影將 元的數(shù)據(jù)投影到某一個(gè)方 向,使得投影后組與組之間的差異盡可能的大, 然后根據(jù)一定的判別規(guī)則對(duì)新樣本的類別進(jìn)行判 斷。 首先構(gòu)造一個(gè)線性判別函數(shù) ( 7) 可見上面的函數(shù)將 元的數(shù)據(jù)投影到了一個(gè)方 向,系數(shù) 的確定原則是使 得總體間的差異最大
25、,總體內(nèi)部的離差最小。 m mmT XaXaXaXAXU 2211)( m TmaaaA ),,,( 21 A.確定線性判別函數(shù) 設(shè)有 個(gè) 元總體: ,它們的均值 為: ;協(xié)方差為: 。 在 的條件下,有 令 這里 確定 ,使得 個(gè)總體間的差異最大,總體內(nèi)部 的離差最小,則 應(yīng)該達(dá)到最大 。 k m kGGG ,,, 21 ),,2,1( kii ),,2,1( kii iGX iTTT AXEAXAE )()( ki ,,2,1 AAAXDAXAD iTTT )()( ki ,,2,1
26、 AAAAe T k i i T 1 BAAAkAAAb T k i ii T k i T i T )( 11 2 k i ik 1 1 k i i 1 kB k i ii 1 A k AA BAA e bA T T )( 為了確保 的唯一性,不妨設(shè) 。因此,問題 轉(zhuǎn)化為:在條件 約束下,求 使得 式達(dá)到最大 這是大家非常熟悉的條件極值的問題。根 據(jù)拉格朗日乘子法: 求解得 ( 8) 由方程( 8)第一式知, 是 的特征根, 是 相應(yīng)的特征向量。可以證明 ( 的大小
27、可 以衡量判別函數(shù) 的判別效果,故稱 為 判別效率)。設(shè) 的非零特征根為 , 相應(yīng)的滿足約束條件的特征向量為 ,顯然, 取 時(shí) 達(dá)到最大。 A 1AA T 1AA T A BAAT )1()( AABAAA TT 01 0)(2 AA d d AB dA d T B1 A )( A )(A )(XU )(A B1 021 r rlll ,,, 21 1lA 1)( A B.確定判別規(guī)則 假設(shè)系數(shù) 已經(jīng)求出,那 么線性判別函數(shù) 就完全確定下來,對(duì)
28、于一個(gè)新的樣品 ,可以構(gòu)造下面的判別 規(guī)則: ( 9) TmaaaA ),,,( 21 )(XU X 1 , | | m in | | i T T T T ij jk XG A X A A X A if: 3.4 判別分析模型的顯著性檢驗(yàn) 建立了判別分析模型以后還需要對(duì)模型進(jìn)行評(píng) 價(jià),這就需要對(duì)判別分析模型的顯著性進(jìn)行檢驗(yàn),主 要包括兩個(gè)方面:判別效果的檢驗(yàn)和各變量判別能力 的檢驗(yàn) 1, 2。所謂判別效果的檢驗(yàn)就是檢驗(yàn) k 個(gè) 總體的均值是否有顯著的差異,反映了采用判別分析 模型的有效性問題;各變量判別能力的檢驗(yàn)反映的
29、是 各指標(biāo)(因素)對(duì)判別分類所起的作用時(shí)候顯著。具 體的檢驗(yàn)方法因?yàn)檫^于復(fù)雜,這里不再贅述。 需要說明的是,作為多元統(tǒng)計(jì)分析中的經(jīng)典方 法,判別分析在許多關(guān)于多元統(tǒng)計(jì)分析的教材中均有 詳細(xì)而深刻的論述。 4 DNA序列分類問題的求解 關(guān)于 DNA序列分類問題的討論和分析,我們?cè)诘?1部分和第 2部分已經(jīng)作了詳細(xì)的分析和討論。這里, 我們將根據(jù)多元統(tǒng)計(jì)分析的知識(shí)建立判別分析模型來 求解 DNA序列的分類問題(這里只求解問題一)。 首先,需要提取每條序列的所蘊(yùn)含的特征 因 為將序列的全部信息都作為指標(biāo)(因素)來建立判別 模型是不可能的。 A.特征的提取 DNA序列中所蘊(yùn)含的
30、信息是非常豐富的,因此,如 何提取特征、提取什么特征是一個(gè)非常困難的問題 這個(gè)問題涉及到生物學(xué)的知識(shí),此處將不深入展開 討論。我們考慮采用序列中 4個(gè)堿基 A, T, C, G的含 量百分比作為 DNA序列的特征。 為了便于討論,我們用 表示堿基 A在序列中所占 的百分比; 表示堿基 T在序列中所占的百分比; 表 示堿基 C在序列中所占的百分比; 表示堿基 G在序列 中所占的百分比。因?yàn)椋?+ + + =1,因此 、、 和 中只有三個(gè)變量是獨(dú)立的,不失一般性,我們 選取 、 和 為指標(biāo),以 表示第 個(gè) DNA序列的特征向量,換句話說, “ 完全 ” 代表第
31、 個(gè) DNA序列。 ax tx c x gx ax tx cx gx a x tx cx gx ax tx cx Tctai xxxX ),,( i Tctai xxxX ),,( i 正如前面第 2部分中所分析的:在此 DNA序列分類 問題中,共有兩個(gè)已知的總體(類) ( A類)和 ( B類),而且,訓(xùn)練樣本共有 個(gè),其中, 前 10個(gè)樣本(記為 )屬于總體(類) ; 后 10個(gè)樣本(記為 )屬于總體 (類) 。 需要解決的問題是:對(duì)給定的新樣品 ,我們 需要判斷其屬于哪個(gè)總體(類)。 1G 2G 20n 1021 ,,, XXX 1
32、G 201211 ,,, XXX 2G X B.建立判別模型 這里分別建立距離判別和費(fèi)希爾( Fisher)判別 模型。 ( 1)距離判別模型 在距離判別模型中,首先需要估計(jì)總體(類) 和 的均值 和協(xié)方差陣 ,運(yùn)用前 面 3.1.1小節(jié)的公式,可以得到均值 和協(xié)方 差陣 的無偏估計(jì)。 然后,計(jì)算樣本 到總體(類) 和 的馬氏距離 ; 根據(jù)判別準(zhǔn)則( 1),可得: 若 ,則判定 為 A類; 若 ,則判定 為 B類。 1G 2G )2,1( ii )2,1( ii )
33、2,1( ii )2,1( ii X 1G 2G )()(),( 111112 XXGXd T )()(),( 212222 XXGXd T ),(),( 2212 GXdGXd X ),(),( 2212 GXdGXd X ( 2)費(fèi)希爾判別模型 首先,確定判別函數(shù) 利用費(fèi)希爾 (Fisher)判別準(zhǔn)則,可以 求出 確定了判別函數(shù),就可以根據(jù)費(fèi)希爾 (Fisher)判別準(zhǔn)則( 9)式,判斷新的 DNA 序列的類別問題了。 cta xaxaxay 321 9377.0,087.0,3365.0 321 aaa C.模型求解和
34、軟件實(shí)現(xiàn) 判別分析的計(jì)算機(jī)實(shí)現(xiàn)是非常簡(jiǎn)單的,運(yùn)用 Matlab和 SPSS等軟件都可以進(jìn)行判別分析。經(jīng)過計(jì)算,結(jié)果如下: ( 1)距離判別:運(yùn)用上面算法對(duì)已知類別的訓(xùn)練本進(jìn)行 判定,結(jié)果為: A類: 1, 2, 3, 5, 6, 7, 8, 9, 10 B類: 4, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20 只有第 4個(gè)樣本發(fā)生了誤判,故正確率為 95%。 運(yùn)用上面算法對(duì) 21-40進(jìn)行分類,結(jié)果為 A類: 22, 23, 25, 27, 29, 30, 32, 33, 34, 35, 36, 37 B類: 21, 24, 26,
35、28, 31, 38, 39, 40 ( 2)費(fèi)希爾判別 運(yùn)用上面算法對(duì)已知類別的訓(xùn)練本進(jìn)行判定,結(jié) 果為: A類: 1, 2, 3, 5, 6, 7, 8, 9, 10 B類: 4, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20 只有第 4個(gè)樣本發(fā)生了誤判,故正確率為 95%。 運(yùn)用上面算法對(duì) 21-40進(jìn)行分類,結(jié)果為: A類: 22, 23, 25, 27, 29, 34, 35, 36, 37 B類: 21, 24, 26, 28, 30, 31, 32, 33, 38, 39, 40 參考文獻(xiàn) 1 高惠璇,應(yīng)用多元統(tǒng)計(jì)分析,北京大學(xué)出版社, 2005。 2 張堯庭 , 方開泰,多元統(tǒng)計(jì)分析引論,科學(xué)出版社, 1982。 3 陳家鼎,孫山澤,李東風(fēng),數(shù)理統(tǒng)計(jì)學(xué)講義,高等教 育出版社, 1998。 4 梁之舜,鄧集賢,楊維權(quán)等,概率論與數(shù)理統(tǒng)計(jì)(第 二版)(上),高等教育出版社, 1998。 5 朱建平,應(yīng)用多元統(tǒng)計(jì)分析,科學(xué)出版社, 2006。 6 全國(guó)大學(xué)生數(shù)學(xué)建模競(jìng)賽優(yōu)秀論文匯編( 1999- 2000),中國(guó)物價(jià)出版社, 2002。
- 溫馨提示:
1: 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2: 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3.本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 裝配圖網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 運(yùn)煤設(shè)備的運(yùn)行和檢修
- 各種煤礦安全考試試題-8
- 窯主、副操作員考試試題(附答案)
- 煤礦安全基礎(chǔ)知識(shí)問答題含解析-3
- 井巷掘進(jìn)常見事故及預(yù)防措施總結(jié)
- 某礦業(yè)公司高處作業(yè)安全管理制度
- 非煤礦山現(xiàn)場(chǎng)安全管理
- 常見礦物的簡(jiǎn)易鑒定特征表
- 井下作業(yè)英語100句含中文翻譯
- 瓦斯安全治理理念二十條
- 煤礦電氣設(shè)備失爆原因與預(yù)防措施分析
- 煤礦煤礦運(yùn)料工安全操作規(guī)程
- 煤礦安全培訓(xùn)考試試題之簡(jiǎn)答題含答案
- 煤礦常見疾病預(yù)防與救治
- 煤礦綜采維修電工操作規(guī)程