判別分析DiscriminantAnalysi
《判別分析DiscriminantAnalysi》由會員分享,可在線閱讀,更多相關(guān)《判別分析DiscriminantAnalysi(46頁珍藏版)》請在裝配圖網(wǎng)上搜索。
1、第十四章 判別分析(Discriminant Analysis),上海第二醫(yī)科大學 生物統(tǒng)計教研室,第一節(jié) 判別分析的基本概念,1.什么是判別分析 判別分析是根據(jù)觀測到的某些指標對所研究的對象進行分類的一種多元統(tǒng)計分析方法。在醫(yī)學研究中經(jīng)常遇到這類問題;例如, 臨床上常需根據(jù)就診者的各項癥狀、 體征、實驗室檢查、病理學檢查及醫(yī)學影像學資料等對其作出是否有某種疾病的診斷或?qū)追N可能患有的疾病進行鑒別診斷,有時已初步診斷為某種疾病,還需進一步作出屬該類疾病中哪一種或哪一型的判斷。,(1)有無某種疾病 例:計算機用于胃癌普查,用于中風預報。 (2)疾病的鑒別診斷 例:計算機用于對肺癌,肺結(jié)核和肺炎
2、進行鑒別診斷。 (3)患有某疾病中的哪一種或哪一型 例:鑒別診斷單純性或絞窄性腸梗阻。 鑒別診斷闌尾炎中的卡他性,蜂窩織炎, 壞疽性和腹膜炎。,用一個實例來說明判別分析的基本思想,2. 判別分析步驟 欲用顯微分光光度計對病人細胞進行檢查以判斷病人是否患有癌癥。 (1)根據(jù)研究目的確定研究對象(樣本)及所用指標 例:110例癌癥病人和190例正常人。 指標:X1,X2和X3。 X1: 三倍體的得分,X2: 八倍體的得分,X3: 不整倍體的得分。(0-10分),(2)收集數(shù)據(jù),得到訓練樣本 對于若干已明確診斷為癌癥的110個病人和無癌癥的190個正常人均用顯微分光
3、光度計對細胞進行檢測,得到X1,X2和X3的值。這就是訓練樣本。 例號 X1 X2 X3 Y(類別) 1 1 2 2 0 2 2 5 6 1 。。。。。。 300 3 3 3 0,(3)用判別分析方法得到判別函數(shù) 根據(jù)實測資料(訓練樣本)用判別分析方法可建立判別函數(shù),本例用Fisher判別分析方法得到: Y=X1+10X2+10X3 并確定判別準則為: 如有某病人的X1,X2,X3實測值,代入上述判別函數(shù)可得Y值,Y100則判斷為癌癥,Y<100則判斷為非癌癥。,(4)考核 該
4、判別函數(shù)是否有實用價值還需要進行考核;如考核的結(jié)果,其診斷符合率達到臨床要求則可應(yīng)用于實踐。 回顧性考核(組內(nèi)考核) 前瞻性考核(組外考核) 得到總符合率,特異性,敏感性,假陽性率和假陰性率。,(5)實際應(yīng)用 未知類別樣品的判別歸類。 如有某病人,用顯微分光光度計對其細胞進行檢測,得到X1,X2和X3的值。將X1,X2,X3值,代入判別函數(shù) Y=X1+10X2+10X3; 可得Y值,Y100則判斷為癌癥,Y<100則判斷為非癌癥。,判別分析的一般步驟,判別分析通常都要建立一個判別函數(shù),然后利用此判別函數(shù)來進行判別。為了建立判別函數(shù)就必須有一個訓練樣本。判別分析的任務(wù)就是向這份
5、樣本學習, 學出判斷類別的規(guī)則, 并作多方考核。訓練樣本的質(zhì)量與數(shù)量至為重要。每一個體所屬類別必須用“金標準”予以確認; 解釋變量(簡稱為變量或指標)X1,X2,, Xp必須確實與分類有關(guān); 個體的觀察值必須準確;個體的數(shù)目必須足夠多。,訓練樣本的數(shù)據(jù)內(nèi)容與符號 解釋變量 個體號 類別變量(Y) X1 X2 Xj XP 1 X11 X12 X1j X1P y1 2 X22 X22 X2j X2P y2 i Xi1 Xi2 Xij XiP y3 n Xn
6、1 Xn2 Xnj XnP yP ,判別分析常用方法,(1)最大似然法 該法是建立在概率論中獨立事件乘法定律的基礎(chǔ)上, 適用于各指標是定性的或半定量的情況。 (2)Fisher判別分析 用于兩類或兩類以上間判別,但常用于兩類間判別,上例中應(yīng)用的就是Fisher判別分析方法。 (3)Bayes判別分析 用于兩類或兩類以上間判別,要求各類內(nèi)指標服從多元正態(tài)分布。,(4)逐步判別分析 建立在Bayes判別分析基礎(chǔ)上,它象逐步回歸分析一樣,可以在眾多指標中挑選一些有顯著作用的指標來建立一個判別函數(shù), 使方程內(nèi)的指標都有顯著的判別作用而方程外的指標作用都不顯著。 (5)logistic判別
7、 常用于兩類間判別。它不要求多元正態(tài)分布的假設(shè),故可用于各指標為兩值變量或半定量的情況。,第二節(jié) Bayes判別分析,(一). Bayes準則 設(shè)有定義明確的g個總體1,2,,g, 分別為X1,X2,,Xp的多元正態(tài)分布。對于任何一個個體, 若已知p個變量的觀察值,要求判斷該個體最可能屬于哪一個總體。 如果我們制訂了一個判別分類規(guī)則, 難免會發(fā)生錯分現(xiàn)象。把實屬第i類的個體錯分到第j類的概率記為P(ji),這種錯分造成的損失記為C(ji)。 Bayes判別準則就是平均損失最小的準則。按照這個準則去找一種判別分類的規(guī)則,就是Bayes判別。,(二). 分類函數(shù) (g個類別,p個指標) Baye
8、s準則下判別分析的分類函數(shù)形式如下: Y1=C01+C11X1+C21X2++Cp1Xp Y2=C02+C12X1+C22X2++Cp2Xp Yg=C0g+C1gX1+C2gX2++CpgXp,,即g個線性函數(shù)的聯(lián)立方程,每個線性函數(shù)對應(yīng)于某一類別。其中C0j,C1j,,Cpj,(j=1,2,,g)為需估計的參數(shù)。用SAS的DISCRIM過程可得到這些參數(shù)的估計值。判別函數(shù)建立后通常的判別準則為:如欲判斷某樣品屬于上述g類中的哪一類,可將該樣品的各Xi值代入式(17.1)中的各個方程,分別算出Y1,Y2,,Yg等值。其中如Yf
9、為最大則意味著該樣品屬第f類的概率最大,故判它屬于第f類。,事前概率(prior probability)又稱先驗概率。如在所研究的總體中任取一個樣品,該樣品屬于第f類別的概率為q(yf),則稱它為類別f的事前概率。例如, 闌尾炎病人總體中卡他性占50,蜂窩織炎占30,壞疽性占10,腹膜炎占10; 則在該總體中任取一個闌尾炎病人,該病人屬于以上四型的概率分別為0.5,0.3,0.1和0.1, 它們也分別是這四類的事前概率。,(三). 事前概率,考慮事前概率時,判別函數(shù)如下式:,Y1=C01+C11X1+C21X2++Cp1Xp+ln(q(Y1)) Y2=C02+C1
10、2X1+C22X2++Cp2Xp+ln(q(Y2)) Yg=C0g+C1gX1+C2gX2++CpgXp+ln(q(Yg)) 差別僅僅在于ln(q(Yj))項,,考慮事前概率可適當提高判別的敏感性。事前概率可據(jù)于文獻報道或以往的大樣本研究。但是困難在于事前概率往往不容易知道;如果訓練樣本是從所研究的總體中隨機抽取的,則可用訓練樣本中各類的發(fā)生頻率Q(Yj)來估計各類別的事前概率q(Yj)。如果事前概率未知,而又不可以用Q(Yj)來估計q(Yj),就只能將事前概率取為相等值,即取q(Yj)=1/g。,(四). 事后概率,事后概率(poster
11、ior probability)又稱后驗概率。如果已知某樣品各個指標Xi的觀察值為Si,則在該條件下,樣品屬于Yj類別的概率P(Yj /S1,S2,,SP)稱為事后概率。事后概率和指標的值有關(guān)。 引入事后概率后,可用事后概率來描述某樣品屬于Yj類別的概率。這就使得判別的可靠性有一個數(shù)量的指標。,例:A1,A2,A3的事后概率為0.95,0.03和0.02 判為A1類的可靠性好。 A1,A2,A3的事后概率為0.40,0.30和0.30 判為A1類的可靠性差。 如欲判別某樣品屬于哪個類別時,可據(jù)樣品各指標的取值S1,S2,,SP代入判別函數(shù),求得各類別之Y值,即Y1,Y2,,Yg。,事后
12、概率的計算公式為:,,僅憑哪一個事后概率為最大,就判為那一類別有時是不夠的。例如某樣品屬于三個類別的事后概率分別為0.95,0.03,0.02,則判為第一類的可靠性就較大。但如果三個事后概率分別為0.4,0.3,0.3。再判為第一類的可靠性就較差了。 與臨床上診斷相類似,當對某病員的診斷把握不大時,常定為可疑或待查等。SAS的Discrim過程中可以定義一個事后概率p的臨界值, 當各類別最大的事后概率大于此值時,就作出判別歸類,否則將被判為other類,相當于可疑或待查。,例 某醫(yī)院眼科研究糖尿病患者的視網(wǎng)膜病變情況, 視網(wǎng)膜病變分輕、中、重三型。研究者用年齡(age)、患糖尿病年數(shù)(time
13、)、血糖水平(glucose)、視力(vision)、視網(wǎng)膜電圖中的a波峰時(at)、a波振幅(av)、b波峰時(bt)、b波振幅(bv)、qp波峰時(qpt)及qp波振幅(qpv)等指標建立判別視網(wǎng)膜病變的分類函數(shù), 以判斷糖尿病患者的視網(wǎng)膜病變屬于輕、中、重中哪一型。,觀察131例糖尿病患者,要求其患眼無其他明顯眼前段疾患, 眼底無明顯其他視網(wǎng)膜 疾病和視神經(jīng)、葡萄膜等疾患,測定了他們的以上各指標值,并根據(jù)統(tǒng)一標準診斷其疾患類型,記分類指標名為group。見表14.2。(表中僅列出前5例)。試以此為訓練樣本, 僅取age,vision,at,bv和qpv 5項指標, 求分類函數(shù), 并根據(jù)王
14、的信息: 38歲, 視力1.0, 視網(wǎng)膜電圖at=14.25, bv=383.39, qpv=43.18判斷其視網(wǎng)膜病變屬于哪一型。,131例糖尿病患者各指標實測記錄(前5例) 例號 年齡 患病 血糖 視力 a波 a波 b波 b波 qp波 pq波 視網(wǎng)膜 年數(shù) 峰時 振幅 峰時 振幅 峰時 振幅 病變程度 1 49 2.00 191 1.5 12.25 235.40 52.50 417.57 78.5 27.43 A1 2 49 2.00 191 1.2 13.50 225.15 52.00 391.20 78.5 46.69 A1 3 63 4.00 200 1.0 14.25 31
15、8.92 53.25 616.35 77.5 35.38 A1 4 63 4.00 200 0.6 14.00 361.90 55.00 723.30 77.0 47.01 A1 5 54 10.00 137 0.6 13.75 269.59 55.50 451.27 78.0 33.70 A2 ,解 假定樣本系從總體中隨機抽取,則樣本中三種疾患類型的樣本量可近似地反映先驗概率, 利用SAS的Discrim過程可得分類函數(shù) Y1-181.447+0.473(age)+60.369(vision)+17.708(at)+0.048(bv)+0.364(qpv) Y2-165.830+0.472(
16、age)+49.782(vision)+17.658(at)+0.034(bv)+0.325(qpv) Y3-189.228+0.178(age)+43.974(vision)+20.447(at)+0.040(bv)+0.265(qpv) 以王的觀察值代入分類函數(shù), 得 Y1=-181.447+0.47338+60.3691.0+17.70814.25 +0.048383.39+0.36443.18 =183.36 同樣可算得: Y2180.58, Y3179.66 其中最大者為Y1, 故判斷為輕度病變。,由上例見, Y1, Y2, Y3的數(shù)值相差不多,單純憑分類函數(shù)值的大小作決策有時易
17、出偏差。這時, 分別估計該個體屬于各總體的概率卻能客觀地反映該個體的各種可能歸屬, 而避免武斷。令Y*=180, 從而有 P(Y1X1,X2,,X5)e(183.36-180)/(e(183.36-180)+e(180.58-180)+e(179.66-180)) e4.36/(e4.36+e1.58+e0.66)0.9202 類似地, 可得 P(Y2X1,X2,,X5)0.0571 P(Y3X1,X2,,X5)0.0227 由此可見王為輕度病變的概率為0.9202,因此把他判斷為輕度病變可靠性較大。,第三節(jié) 逐步判別分析,從逐步回歸分析中我們已知道,回歸方程中的自變量并非越
18、多越好。作用不大的變量進入方程后不但無益,反而有害。在判別分析中也有類似情況,解釋變量并非越多越好。解釋變量的特異性越強,判別能力越強,這類解釋變量當然越多越好;相反,那些判別能力不強的解釋變量如果引入分類函數(shù),同樣也是有害無益的,不但增加了搜集數(shù)據(jù)和處理數(shù)據(jù)的工作量,而且還可能削弱判別效果。因此我們希望在建立分類函數(shù)時既不要遺漏有顯著判別能力的變量, 也不要引入不必要的判別能力很弱的變量。逐步判別分析是達到上述目標的重要方法。它象逐步回歸分析一樣,可以在很多候選變量中挑選一些有重要作用的變量來建立分類函數(shù),使方程內(nèi)的變量都較重要而方程外的變量都不甚重要。分類函數(shù)內(nèi)的變量是否有重要作用可用F檢
19、驗, 檢驗的零假設(shè)是:該變量對判別的貢獻為零。若P值較小便拒絕零假設(shè),認為該變量的貢獻具有統(tǒng)計學意義。,含10個變量的分類函數(shù)中各變量的統(tǒng)計檢驗 變量 F值 P值 年齡 25.338 0.0001 病程 1.211 0.3016 血糖 1.255 0.2889 視力 45.956 0.0001 at 20.310 0.0001 av 0.219 0.8037 bt 0.950 0.3898 bv 6.012
20、 0.0033 qpt 0.971 0.3818 apv 1.989 0.1414 ,SAS中的STEPDISC過程可用于逐步判別分析的變量選擇。其基本步驟與逐步回歸極為類似。先規(guī)定選入變量及剔除變量的顯著性水平(即型錯誤的概率), 設(shè)分別為P1和P2。P1和P2可取為相等,如取0.05,0.1或0.15等。P1和P2也可取不相等,但P1必須不大于P2。一般說,P1取得越小,分類函數(shù)內(nèi)選入的變量就越少。逐步判別分析中變量選擇也是一步一步地進行的,每一步挑選一個判別能力最大且具有統(tǒng)計學意義的變量進入分類函數(shù),而且在每步選變量之前先對已選入的變
21、量逐個檢驗其重要性,如果發(fā)現(xiàn)某個變量因為新變量的進入而變得不重要就剔除這個變量,只有在不能剔除時才考慮選入新變量。這樣一步一步的進行下去,直至分類函數(shù)中包含的所有變量都重要,而分類函數(shù)外的所有變量都不重要為止。然后可用篩選出來的變量用SAS中的DISCRIM過程最終建立分類函數(shù)。,逐步判別分析剔選變量結(jié)果 判別函數(shù)內(nèi) 判別函數(shù)外 變量 F值 P值 變量 F值 p值 年齡 28.818 0.0001 病程 0.891 0.4127 視力 46.491 0.0001 血糖 0.793 0.4548 at 24.964 0.00
22、01 av 0.397 0.6730 bv 9.387 0.0002 bt 0.421 0.6572 qpv 3.829 0.0243 qpt 1.016 0.3649 ,第四節(jié) 回顧性考核和前瞻性考核,分類函數(shù)及判別準則建立后必須進行考核。考核就是將樣品逐一用所建立的判別準則進行歸類, 求出其假陽性率、假陰性率及總的錯誤率。考核可分為回顧性考核與前瞻性考核。 回顧性考核也稱回代或組內(nèi)考核(internal validation),即用原來的訓練樣本進行考核。前瞻性考核也稱組外考核,是對新的已知其分類的樣品(稱為考核樣本)進行考核。用前瞻性考核可估計總體中的假
23、陽性率、假陰性率和總的錯誤率。,除了可用前瞻性考核來估計總體中的錯誤率外,還可用刀切法(jackknife)交叉考核(cross validation)。其方法如下:設(shè)訓練樣本中共有n個個體,先擱置第一個個體,對其余n-1個個體進行判別分析求出判別函數(shù),用該函數(shù)對第一個個體進行考核;然后放回第一個個體, 擱置第二個個體,用其余n-1個個體求出判別函數(shù)并對第二個個體進行考核每次擱置一個個體,用其余的n-1個個體作出判別函數(shù)(注意,這些判別函數(shù)可能不相同),對擱置的個體進行考核,一共進行n次,遍歷每一個個體;從而求出假陽性率、假陰性率和總的錯誤率,稱為刀切法交叉考核,它們可作為前瞻性考核的輔助信息
24、。,回顧性考核結(jié)果 判別函數(shù)分類 原分類 合計 錯誤率(%) A1 A2 A3 A1 62 4 2 68 8.82 A2 1 41 1 43 4.65 A3 1 0 19 20 5.00 合計 64 45 22 131 6.87 ,刀切法考核結(jié)果 判別分類 原分類 合計 錯誤率(%) A1 A2 A3 A1 60 6 2 68 11.76 A2 2 40 1 43 6.98 A3 1 0 19
25、20 5.00 合計 63 46 22 131 9.16 ,前瞻性考核結(jié)果 判別分類 原分類 合計 錯誤率(%) A1 A2 A3 A1 14 1 0 15 6.67 A2 1 9 1 11 18.18 A3 0 0 5 5 0.00 合計 15 10 6 31 9.68 ,第五節(jié) 二類判別及其與回歸的關(guān)系,二類判別也可用回歸分析來解決 -1當某樣品屬A1類時 例如定義 y= 1當某樣品屬A2類時 再用逐步回歸分析,得到回歸方程。
26、 該回歸方程可作為判別函數(shù)用于判別分類,本例中的判別準則為y0時判為A2類。通過簡單的計算,該判別函數(shù)可與事先概率相等(或不考慮 )的逐步判別分析得到的結(jié)果化成一致。,,第六節(jié) 用于判別分析的SAS過程及其應(yīng)用實例,(一)STEPDISC過程的使用 1. 功能 STEPDISC過程用于逐步判別分析中對變量的剔選。本過程不能計算判別函數(shù)。用剔選后得到的變量再調(diào)用DISCRIM過程計算判別函數(shù)等。 2. 語句 PROC STEPDISC 選擇項; CLASS 變量; VAR 變量;,3. 語句說明 (1)PROC STEPDISC語句中主要的選擇項如下: DATA=SAS數(shù)據(jù)集名 指
27、定用于分析的SAS數(shù)據(jù)集,即訓練樣本 SLENTRY=P值,指定選入方程的顯著性水平,默認值為0.15 SLSTAY=P值, 指定剔出方程的顯著性水平,默認值為0.15 START=n值, 指定VAR語句中前n個變量先進入方程,然后 再開始剔選 INCLUDE=n值,指定VAR語句中前n個變量必須包含在方程中 SIMPLE, 打印各變量總的及每一類內(nèi)的簡單描述性統(tǒng)計量 (2)CLASS語句指定判別分析用的分類變量名,該變量可以是數(shù)字型, 也可以是字符型。 (3)VAR語句指定判別分析用的各指標的變量名。,(二)DISCRIM過程的使用 1. 功能 DISCRIM過程用于判別分析,計算
28、判別函數(shù),進行組內(nèi)和組外考核等。該過程不能剔選變量。 2. 語句 PROC DISCRIM 選擇項; CLASS 變量; VAR 變量; PRIORS 選擇項:,3. 語句說明 (1)PROC DISCRIM語句中主要的選擇項如下: DATA=SAS數(shù)據(jù)集名 指定用于訓練樣本的SAS數(shù)據(jù)集 TESTDATA= SAS數(shù)據(jù)集名 指定用于組外考核的SAS數(shù)據(jù)集 SIMPLE, 打印訓練樣本中各變量總的及每一類內(nèi)的簡單 描述性統(tǒng)計量 THRESHOLD=P值,指定判別分類時最小的可接受的事后概率P 默認值為0 CROSSVALIDATE 要求進行刀切法考核,,(2)CLASS語句指定判別分析用的分類變量名,該變量可以是數(shù)字型, 也可以是字符型。 (3)VAR語句指定判別分析用的各指標的變量名 (4)PRIORS語句指定各類事先概率值,可有如下選擇項 EQUAL 各類事先概率值相等,這是默認值 PROP 各類事先概率值取訓練樣本中各類所占比例 類別變量的輸出格式:值1=P1,值2=P2,,
- 溫馨提示:
1: 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2: 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3.本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 裝配圖網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。