《衛(wèi)生統(tǒng)計(jì)學(xué)判別分析.ppt》由會(huì)員分享,可在線閱讀,更多相關(guān)《衛(wèi)生統(tǒng)計(jì)學(xué)判別分析.ppt(29頁(yè)珍藏版)》請(qǐng)?jiān)谘b配圖網(wǎng)上搜索。
1、1,第十六章 觀察對(duì)象的分類(lèi)分析方法 ---------判別分析 (Discriminant Analysis),2,主要有判別分析和聚類(lèi)分析 判別分析:事物的分類(lèi)是清楚的,目的是通過(guò)已知分類(lèi)建立判別函數(shù),預(yù)測(cè)新的觀察對(duì)象所屬類(lèi)別。 聚類(lèi)分析:事物分類(lèi)不清楚,分幾類(lèi)不清楚,目的希望將事物進(jìn)行分類(lèi)(探索性研究)。,事物分類(lèi)的統(tǒng)計(jì)方法:,3,判別分析(discriminant analysis)是在已知分為哪若干類(lèi)的前提下,通過(guò)現(xiàn)有數(shù)據(jù)建立判別方程(函數(shù)),根據(jù)對(duì)象若干個(gè)指標(biāo)的觀測(cè)結(jié)果判定其應(yīng)屬于哪一類(lèi)的多元統(tǒng)計(jì)學(xué)方法。常用的判別分析的方法有Bayes判別、Fisher判別、非參數(shù)判別、最大
2、似然判別等。 當(dāng)事先并不知道觀察對(duì)象應(yīng)分為哪若干類(lèi)別時(shí),采用聚類(lèi)分析方法進(jìn)行分類(lèi)。,一、判別分析的基本概念,4,與聚類(lèi)分析有所不同的是: 判別分析法首先需要對(duì)所研究對(duì)象進(jìn)行分類(lèi),進(jìn)一步選擇若干對(duì)觀測(cè)對(duì)象能夠較全面地描述的變量,建立判別函數(shù)。對(duì)一個(gè)未確定類(lèi)別的個(gè)案只要將其代入判別函數(shù)就可以判斷它屬于哪一類(lèi)總體。,5,二、醫(yī)學(xué)中的分類(lèi)問(wèn)題:,1.疾病診斷,例:用電感耦合等離子體發(fā)射光譜法測(cè)定肺癌患者和健康人尿液中的鉻、鐵、錳、鋁、鎘、銅、鋅、鎳,用原子熒光光譜法測(cè)定硒。對(duì)肺癌患者和健康人尿液中9種微量元素進(jìn)行判別分析,為肺癌的早期診斷提供科學(xué)依據(jù)。----陳丹丹等.對(duì)肺癌患者和健康人尿液中9種
3、微量元素的判別分析.藥物分析雜志.2009, 29 (6).,6,預(yù)測(cè)病人的預(yù)后(好或差),提出早期治療方法,降低嚴(yán)重后果。,例如根據(jù)新生兒出生后1 分鐘阿氏評(píng)分(X1) 、窒息復(fù)蘇時(shí)間(X2 ) 、驚厥持續(xù)天數(shù)(X3 ) 、急性期CT 改變(X4) 及治療3 天后原始反射情況(X5)判別新生兒缺血缺氧性腦病的預(yù)后(腦性癱瘓 、嚴(yán)重智能低下、正常)。,2.疾病的預(yù)測(cè),7,用途:通過(guò)數(shù)據(jù)建立判別方程,對(duì)研究事物進(jìn)行分類(lèi)和預(yù)測(cè)。 對(duì)資料要求: 要求建立方程的觀察對(duì)象分類(lèi)(y)已經(jīng)明確(用金標(biāo)準(zhǔn)確定),收集建模對(duì)象(訓(xùn)練樣本)的m個(gè)變量(x)建立判別方程。,三、判別分析的特點(diǎn),8,根據(jù)自變量(
4、x)資料性質(zhì): 自變量(x)為定量數(shù)據(jù): Fisher判別、Bayes判別(SPSS、SAS統(tǒng)計(jì)軟件可實(shí)現(xiàn))。 自變量(x) 為定性數(shù)據(jù): 最大似然判別法、Bayes公式判別(統(tǒng)計(jì)軟件不能自動(dòng)實(shí)現(xiàn))。,四、判別分析建模的方法,9,五、判別分析方法的基本步驟,1.建立判別函數(shù)(方程) 2.規(guī)定判別(分類(lèi))準(zhǔn)則 判別新個(gè)體為某類(lèi) 3.評(píng)價(jià)判別方程的效果,10,主要用于定量數(shù)據(jù)的兩類(lèi)或多類(lèi)判別. Bayes判別的思想: 基于Bayes準(zhǔn)則,假定已知各類(lèi)出現(xiàn)的先驗(yàn)概率P(Yk),且各類(lèi)變量近似服從多元正態(tài)分布,獲得Bayes判別函數(shù)。計(jì)算各個(gè)體出現(xiàn)的后驗(yàn)概率進(jìn)行判別。,第一節(jié) Baye
5、s判別,11,一、分析步驟,1.篩選判別指標(biāo) 選擇其中相互獨(dú)立的部分指標(biāo)建立判別函數(shù). 在建立判別函數(shù)之前,要先進(jìn)行逐步判別分析,篩選出主要的判別指標(biāo),然后再對(duì)主要的判別指標(biāo)作判別分析 .,SAS中的STEPDISC過(guò)程用來(lái)篩選判別指標(biāo),用Wilks Lambda統(tǒng)計(jì)量及對(duì)應(yīng)P值來(lái)衡量.,12,決定某變量是否入選:,以已進(jìn)入模型的變量作為協(xié)變量,將待考察的某變量作為應(yīng)變量,以各類(lèi)別作為對(duì)比組,采用協(xié)方差分析來(lái)判斷扣除協(xié)變量的影響后,待考察的變量在各類(lèi)別間有無(wú)差別。如果有差別,待考察的變量可進(jìn)入方程;反之,則不能入選。,13,協(xié)方差分析:將對(duì)應(yīng)變量Y有線性影響但未加控制或難以控制的定量變量X
6、看做協(xié)變量,把X化為相等后比較各組Y的修正均數(shù),是線性回歸與方差分析結(jié)合起來(lái)的一種統(tǒng)計(jì)分析方法。模型中無(wú)任何變量時(shí)即為方差分析。,14,2.建立Bayes判別函數(shù),已知判別對(duì)象分為g類(lèi),有m個(gè)判別指標(biāo)Xj(j=1,2,,m),要求各類(lèi)的m個(gè)判別指標(biāo)均近似服從多元正態(tài)分布。當(dāng)各類(lèi)的協(xié)方差矩陣相等時(shí),計(jì)算合并協(xié)方差矩陣,表示判別指標(biāo)Xi、Xj的合并協(xié)方差,按公式(16-1)計(jì)算。,15,,表示第k類(lèi)中變量Xi、Xj的均數(shù);nk為第k類(lèi)的例數(shù),16,,求解 (k=1,2,,g),,由,17,,計(jì)算,,,為第k類(lèi)(k=1,2,, g)出現(xiàn)的先驗(yàn)概率,當(dāng)不知道各類(lèi)的先驗(yàn)概率時(shí),一般取等概率1/g,也
7、可取頻率 (當(dāng)樣本較大且無(wú)選擇性偏倚)。,18,建立線性Bayes判別函數(shù):,,,(j=0,1 2,,m; k=1,2, ,g)為需要估計(jì)的參數(shù),用SAS的 DISCRIM過(guò)程可得到這些參數(shù)的估計(jì)值。,19,當(dāng)各類(lèi)的協(xié)方差陣不等時(shí),應(yīng)計(jì)算非線性二次型Bayes判別函數(shù),在SAS的DISCRIM過(guò)程名后加選項(xiàng)POOL=TEST, SAS先經(jīng)過(guò)檢驗(yàn),若各類(lèi)的協(xié)方差陣滿(mǎn)足齊性,則合并且給出線性Bayes判別函數(shù);若各類(lèi)的協(xié)方差陣不滿(mǎn)足齊性,則不合并,且自動(dòng)用非線性二次型Bayes判別函數(shù)取代線性Bayes判別函數(shù)。,3.確定判別規(guī)則,(1)按判別函數(shù)值判別:對(duì)每一個(gè)判別對(duì)象,將其m個(gè)判別指標(biāo)的取值
8、分別代入g個(gè)判別函數(shù),計(jì)算判別函數(shù)值,將判別對(duì)象判為函數(shù)值最大的哪一類(lèi)。 (2)按后驗(yàn)概率判別:按公式計(jì)算每一個(gè)判別對(duì)象屬于第k類(lèi)的后驗(yàn)概率, 將該判別對(duì)象判為后驗(yàn)概率值最大的那一類(lèi)。,,其中,,21,二、應(yīng) 用 實(shí) 例,例161 腦中風(fēng)是急診醫(yī)學(xué)中較為常見(jiàn)的嚴(yán)重疾病,一般分為腦出血和腦缺血兩類(lèi),對(duì)中風(fēng)類(lèi)型的早期正確診斷具有十分重要的臨床意義。目前,醫(yī)生臨床分類(lèi)診斷的正確率只有70左右;以頭顱CT和核磁共振檢查診斷較為可靠,但其價(jià)格昂貴;且因CT和核磁共振檢查需搬動(dòng)病人,易加重病情;尤其是CT和核磁共振檢查對(duì)早期腦缺血常出現(xiàn)假陰性。我們收集了某醫(yī)院近年78例腦中風(fēng)病人的數(shù)據(jù)見(jiàn)表162, 判別
9、指標(biāo)與分類(lèi)變量(以頭顱CT和核磁共振檢查診斷為依據(jù))見(jiàn)表161。,表161腦中風(fēng)病人判別指標(biāo)與分類(lèi)變量,23,表16-2某醫(yī)院近年78例腦中風(fēng)病人判別指標(biāo)與分類(lèi)變量數(shù)據(jù),24,表16-2 橫向續(xù)表,三、SAS程序及結(jié)果解釋,1.逐步判別分析SAS程序,datastepdiscli16_1; input X1X23 g; cards; 1 72 20 10 2 1 1 2 1 1 2 1 2 2 1 2 2 2 5.671 9.493 1.875 42 32 1 2 70 20 12 1 3 1 2 1 1 2 1 2 2 1 1 2 2 6.040 8.056 2.000 40 35 1 ;
10、proc stepdisc /*調(diào)用逐步判別分析過(guò)程stepdisc*/ sle=0.2 sls=0.2; /*選入、剔除變量的概率臨界值均定為0.2*/ class g; var X1-X23;run;,data discrimli16_1; input X1-X23 g; cards; 1 72 20 10 2 1 1 2 1 1 2 1 2 2 1 2 2 2 5.671 9.493 1.875 42 32 1 2 70 20 12 1 3 1 2 1 1 2 1 2 2 1 1 2 2 6.040 8.056 2.000 40 35 1 ; proc discrim /*調(diào)用SAS判
11、別分析過(guò)程discrim*/ distance /*計(jì)算兩類(lèi)別平方距離*/ manova /*對(duì)判別效能作假設(shè)檢驗(yàn)*/ listerr; /*列出判錯(cuò)的樣本信息*/ class g; var x9 x6 x17 x16 x21 x13 x10 x4 x7 x15 x12 x5 x3; run;,2.Bayes判別分析SAS程序,27,第二節(jié) 非參數(shù)判別分析,當(dāng)各類(lèi)的m個(gè)判別指標(biāo)不服從多元正態(tài)分布時(shí),應(yīng)采用非參數(shù)判別分析 .,28,一、SAS程序,非參數(shù)判別分析SAS程序在過(guò)程discrim后加入選項(xiàng)method=npar,采用k個(gè)最近鄰法,k的個(gè)數(shù)需經(jīng)多次調(diào)試方可獲得最好的判別效果 .,data li16_1; input x1-x23 g; cards; 1 72 20 10 2 1 1 2 1 1 2 1 2 2 1 2 2 2 5.671 9.493 1.875 42 32 1 2 70 20 12 1 3 1 2 1 1 2 1 2 2 1 1 2 2 6.040 8.056 2.000 40 35 1 ; proc discrim method=npar /*采用非參數(shù)判別分 析方法*/ k=4 /*采用4個(gè)最近鄰法*/ corsslisterr; /*交叉驗(yàn)證*/ class g;,