《Logitboost法與累積比數(shù)Logit模型在判別分析中的應(yīng)用分析》由會(huì)員分享,可在線(xiàn)閱讀,更多相關(guān)《Logitboost法與累積比數(shù)Logit模型在判別分析中的應(yīng)用分析(2頁(yè)珍藏版)》請(qǐng)?jiān)谘b配圖網(wǎng)上搜索。
1、Logitboost法與累積比數(shù)Logit模型在判別分析中的應(yīng)用分析
目的: 探討Logitboost和累積比數(shù)Logit模型這兩種方法應(yīng)用于判別分析的優(yōu)缺點(diǎn)。 方法: 簡(jiǎn)要介紹Logitboost和累積比數(shù)Logit模型的原理,并采用此兩種方法分別對(duì)同一個(gè)實(shí)例進(jìn)行判別分析。結(jié)果: 兩種方法的判別正確率均較高。Logitboost判別效果高于累積比數(shù)Logit模型判別。討論: 在迭代輪數(shù)適當(dāng)?shù)那闆r下,Logitboost判別正確率更高,受迭代次數(shù)影響較大;而累積比數(shù)Logit模型的穩(wěn)定性較強(qiáng)。在對(duì)事件進(jìn)行判別時(shí),可根據(jù)數(shù)據(jù)資料的具體特點(diǎn)選用判別方法,也可將兩種方法結(jié)
2、合應(yīng)用,取其判別效果較好者。
累積比數(shù)Logit模型 判別分析 Logitboost 睡眠質(zhì)量
Logitboost and Cumulative Odds Logit Model and Their Application in Discriminant Analysis
AbstractObjective: To compare Logitboost with Cumulative odds logit model, and discuss their characteristics when they are used in Discriminant a
3、nalysis. Methods: The ultimate principle of Logitboost and Cumulative odds logit model will be introduced in this paper, and we will use the two methods to solve the same problem. Results Logitboost’s effect is better than Cumulative odds logit model. Conclusion: The effect of Logitboost would be be
4、tter if a appropriate iteration is given, in other words, Logitboost is affected by iteration in large measure. But Cumulative odds logit model is stable. We should choose the better according the data.
Key wordscumulative odds Logit model;discriminant analysis;Logitboost; sleep quality
判別分析
5、(discriminant analysis)是判別樣品所屬類(lèi)型的一類(lèi)統(tǒng)計(jì)方法,其應(yīng)用之廣可與回歸分析相媲美。進(jìn)行判別時(shí),通常是根據(jù)已經(jīng)掌握的一批分類(lèi)明確的樣品建立判別函數(shù)。從判別準(zhǔn)則上分為Fisher判別和Bayes判別,但由于這兩種傳統(tǒng)的判別方法各有利弊,對(duì)資料有特定要求,如Fisher判別要求資料服從多元正態(tài)分布,Bayes判別要求已知先驗(yàn)概率,當(dāng)不滿(mǎn)足條件時(shí),判別效果往往不理想,給人們的實(shí)際工作帶來(lái)許多困難。
本研究以一個(gè)實(shí)例簡(jiǎn)介L(zhǎng)ogitboost法和累積比數(shù)Logit模型在判別分析中的應(yīng)用。
1原理
1.1累積比數(shù)Logit模型判別
累積比數(shù)Logi
6、t模型是二分類(lèi)Logit模型的擴(kuò)展,主要用于處理反應(yīng)變量為有序分類(lèi)變量的資料。該模型對(duì)資料要求不嚴(yán),解釋變量既可以是連續(xù)型變量,也可以是無(wú)序分類(lèi)變量或有序分類(lèi)變量[1]。只要資料滿(mǎn)足比例優(yōu)勢(shì)假定條件(proportional odds assumption),即自變量的回歸系數(shù)與分割點(diǎn)無(wú)關(guān),且各自變量與Logit P呈線(xiàn)性關(guān)系,即可應(yīng)用此方法。
設(shè)應(yīng)變量Y為K個(gè)等級(jí)的有序變量,第k(k=1,2,…,K)個(gè)等級(jí)的概率分別為{π1,π2,…,πk},且∑ki=1πk=1。影響因素xT=(x1,x2,…,xP)為自變量,xi(i=1,2,…,p)可以是連續(xù)變量、無(wú)序或有序分類(lèi)變量。則累積比數(shù)L
7、ogit模型可以表示為:logit(P(y>k|x))=ln(P(y>k|x)1-P(y>k|x))=-αk+∑pi=1βixi(k=1,2,…,K-1)等價(jià)于:P(y≤k|x)=11+e(-αk+∑pi=1βixi) 每類(lèi)結(jié)果的概率:P(y=k|x)=P(y≤k|x)-P(y≤k-1|x)=11+e(-αk+∑pi=1βixi)-11+e(-αk-1+∑pi=1βixi) k=1,2, …K
式中,αk和βi為待估參數(shù)。該模型實(shí)際上是將K個(gè)等級(jí)人為地分成{1,…,k }和{k+1,…,K}兩類(lèi),在這兩類(lèi)基礎(chǔ)上定義的Logit P表示屬于前k個(gè)等級(jí)的累積概率與后K-k個(gè)等級(jí)的累積概率的
8、比數(shù)之對(duì)數(shù)。故該模型稱(chēng)為累積比數(shù)模型。對(duì)于K類(lèi)反應(yīng)變量,K-1個(gè)累積Logit模型各有一個(gè)不同的αk估計(jì),而對(duì)于xi,K-1個(gè)模型的系數(shù)βi均相同[2]。
1.2Logitboost判別
Boosting是由Schzpire于1990年首先提出[3],后經(jīng)Freud和Schapire改進(jìn)的一種機(jī)器學(xué)習(xí)方法。Frieman、Hastie、Tibshirani于2000年又進(jìn)一步改進(jìn),稱(chēng)為L(zhǎng)ogitboost,屬于提升算法的一種。其基本思想是:基于現(xiàn)有樣本數(shù)據(jù)集構(gòu)建一個(gè)基礎(chǔ)的“弱分類(lèi)器”,反復(fù)調(diào)用該“弱分類(lèi)器”,通過(guò)對(duì)每輪中錯(cuò)判的樣本賦予更大的權(quán)重,使其更關(guān)注那些難判的樣本,經(jīng)過(guò)多輪循環(huán),最后采用加權(quán)的方法將各輪的“弱分類(lèi)器”合成“強(qiáng)分類(lèi)器”,從而得到較高精度的預(yù)測(cè)模型[4]。其算法如下:
首先給定一個(gè)樣本集:(xi1,…,xiN,yi),yi∈Y={-1,+1}表示不同的類(lèi)。賦予每一個(gè)樣品相同的權(quán)重,選定一種基礎(chǔ)分類(lèi)器,根據(jù)該權(quán)重建立預(yù)測(cè)模型,回代樣本,其中錯(cuò)判的樣本的權(quán)重在下一輪將被提升。迭代T輪后得出最終分類(lèi)器F(x):F(xi)=∑Tt=1F(t)(xi) 式中,t∈(1,T)為迭代輪數(shù),f(x)表示弱分類(lèi)器的函數(shù)形式,可以是Logit函數(shù)、決策樹(shù)等,根據(jù)F(xi)的正負(fù)對(duì)第i個(gè)樣品進(jìn)行判別歸類(lèi)。