《Logitboost法與累積比數(shù)Logit模型在判別分析中的應用分析》由會員分享,可在線閱讀,更多相關(guān)《Logitboost法與累積比數(shù)Logit模型在判別分析中的應用分析(2頁珍藏版)》請在裝配圖網(wǎng)上搜索。
1、Logitboost法與累積比數(shù)Logit模型在判別分析中的應用分析
目的: 探討Logitboost和累積比數(shù)Logit模型這兩種方法應用于判別分析的優(yōu)缺點。 方法: 簡要介紹Logitboost和累積比數(shù)Logit模型的原理,并采用此兩種方法分別對同一個實例進行判別分析。結(jié)果: 兩種方法的判別正確率均較高。Logitboost判別效果高于累積比數(shù)Logit模型判別。討論: 在迭代輪數(shù)適當?shù)那闆r下,Logitboost判別正確率更高,受迭代次數(shù)影響較大;而累積比數(shù)Logit模型的穩(wěn)定性較強。在對事件進行判別時,可根據(jù)數(shù)據(jù)資料的具體特點選用判別方法,也可將兩種方法結(jié)
2、合應用,取其判別效果較好者。
累積比數(shù)Logit模型 判別分析 Logitboost 睡眠質(zhì)量
Logitboost and Cumulative Odds Logit Model and Their Application in Discriminant Analysis
AbstractObjective: To compare Logitboost with Cumulative odds logit model, and discuss their characteristics when they are used in Discriminant a
3、nalysis. Methods: The ultimate principle of Logitboost and Cumulative odds logit model will be introduced in this paper, and we will use the two methods to solve the same problem. Results Logitboost’s effect is better than Cumulative odds logit model. Conclusion: The effect of Logitboost would be be
4、tter if a appropriate iteration is given, in other words, Logitboost is affected by iteration in large measure. But Cumulative odds logit model is stable. We should choose the better according the data.
Key wordscumulative odds Logit model;discriminant analysis;Logitboost; sleep quality
判別分析
5、(discriminant analysis)是判別樣品所屬類型的一類統(tǒng)計方法,其應用之廣可與回歸分析相媲美。進行判別時,通常是根據(jù)已經(jīng)掌握的一批分類明確的樣品建立判別函數(shù)。從判別準則上分為Fisher判別和Bayes判別,但由于這兩種傳統(tǒng)的判別方法各有利弊,對資料有特定要求,如Fisher判別要求資料服從多元正態(tài)分布,Bayes判別要求已知先驗概率,當不滿足條件時,判別效果往往不理想,給人們的實際工作帶來許多困難。
本研究以一個實例簡介Logitboost法和累積比數(shù)Logit模型在判別分析中的應用。
1原理
1.1累積比數(shù)Logit模型判別
累積比數(shù)Logi
6、t模型是二分類Logit模型的擴展,主要用于處理反應變量為有序分類變量的資料。該模型對資料要求不嚴,解釋變量既可以是連續(xù)型變量,也可以是無序分類變量或有序分類變量[1]。只要資料滿足比例優(yōu)勢假定條件(proportional odds assumption),即自變量的回歸系數(shù)與分割點無關(guān),且各自變量與Logit P呈線性關(guān)系,即可應用此方法。
設(shè)應變量Y為K個等級的有序變量,第k(k=1,2,…,K)個等級的概率分別為{π1,π2,…,πk},且∑ki=1πk=1。影響因素xT=(x1,x2,…,xP)為自變量,xi(i=1,2,…,p)可以是連續(xù)變量、無序或有序分類變量。則累積比數(shù)L
7、ogit模型可以表示為:logit(P(y>k|x))=ln(P(y>k|x)1-P(y>k|x))=-αk+∑pi=1βixi(k=1,2,…,K-1)等價于:P(y≤k|x)=11+e(-αk+∑pi=1βixi) 每類結(jié)果的概率:P(y=k|x)=P(y≤k|x)-P(y≤k-1|x)=11+e(-αk+∑pi=1βixi)-11+e(-αk-1+∑pi=1βixi) k=1,2, …K
式中,αk和βi為待估參數(shù)。該模型實際上是將K個等級人為地分成{1,…,k }和{k+1,…,K}兩類,在這兩類基礎(chǔ)上定義的Logit P表示屬于前k個等級的累積概率與后K-k個等級的累積概率的
8、比數(shù)之對數(shù)。故該模型稱為累積比數(shù)模型。對于K類反應變量,K-1個累積Logit模型各有一個不同的αk估計,而對于xi,K-1個模型的系數(shù)βi均相同[2]。
1.2Logitboost判別
Boosting是由Schzpire于1990年首先提出[3],后經(jīng)Freud和Schapire改進的一種機器學習方法。Frieman、Hastie、Tibshirani于2000年又進一步改進,稱為Logitboost,屬于提升算法的一種。其基本思想是:基于現(xiàn)有樣本數(shù)據(jù)集構(gòu)建一個基礎(chǔ)的“弱分類器”,反復調(diào)用該“弱分類器”,通過對每輪中錯判的樣本賦予更大的權(quán)重,使其更關(guān)注那些難判的樣本,經(jīng)過多輪循環(huán),最后采用加權(quán)的方法將各輪的“弱分類器”合成“強分類器”,從而得到較高精度的預測模型[4]。其算法如下:
首先給定一個樣本集:(xi1,…,xiN,yi),yi∈Y={-1,+1}表示不同的類。賦予每一個樣品相同的權(quán)重,選定一種基礎(chǔ)分類器,根據(jù)該權(quán)重建立預測模型,回代樣本,其中錯判的樣本的權(quán)重在下一輪將被提升。迭代T輪后得出最終分類器F(x):F(xi)=∑Tt=1F(t)(xi) 式中,t∈(1,T)為迭代輪數(shù),f(x)表示弱分類器的函數(shù)形式,可以是Logit函數(shù)、決策樹等,根據(jù)F(xi)的正負對第i個樣品進行判別歸類。