聚類分析和判別分析

上傳人：san****019 文檔編號(hào)：15825533 上傳時(shí)間：2020-09-09 格式：PPT 頁數(shù)：30 大小：254.10KB

收藏版權(quán)申訴舉報(bào) 下載

第1頁 / 共30頁

第2頁 / 共30頁

第3頁 / 共30頁

下載文檔到電腦，查找使用更方便

9.9 積分

下載資源

還剩頁未讀，繼續(xù)閱讀

資源描述：

《聚類分析和判別分析》由會(huì)員分享，可在線閱讀，更多相關(guān)《聚類分析和判別分析（30頁珍藏版）》請?jiān)谘b配圖網(wǎng)上搜索。

1、第8章聚類分析和判別分析,俗話說“物以類聚，人以群分”，在現(xiàn)實(shí)生活中，為了更好的認(rèn)識(shí)事物，人們往往需要根據(jù)事物的屬性對事物進(jìn)行分類，分類是人類認(rèn)識(shí)客觀世界的一種重要方法。在社會(huì)生活的各個(gè)方面和科學(xué)研究的各個(gè)領(lǐng)域都存在著大量的分類問題。,在實(shí)際生活中經(jīng)常需要使用聚類分析對事物進(jìn)行分類，在總體類別已知時(shí)需要使用判別分析對研究對象進(jìn)行歸類。在SPSS中其菜單打開方式為：選擇“分析”“分類”命令，打開如圖所示的“分類”菜單。,8.1 聚類分析基本原理,聚類分析作為一種重要的分類方法，其實(shí)質(zhì)在于通過研究對象之間的親疏關(guān)系將相似的對象劃分為一類，不相似的對象劃分到不同的類別當(dāng)中。在本節(jié)中將介紹聚類分析的

2、概念、計(jì)算方法和聚類結(jié)果的評價(jià)等。,8.1.1 聚類分析簡介,聚類分析（Cluster Analysis）是根據(jù)事物本身的特征通過統(tǒng)計(jì)方法對事物進(jìn)行分類的多元分析方法，可以通過數(shù)據(jù)建模達(dá)到簡化數(shù)據(jù)的目的。聚類分析也稱為分類分析、數(shù)值分類或集群分析等。根據(jù)分類對象的不同，聚類分析可分為樣本聚類和變量聚類兩種。,8.1.2 聚類分析的計(jì)算,在聚類分析過程中，需要區(qū)分為不同的類，事物是怎樣劃分到不同的類別當(dāng)中的呢？判斷不同事物是否歸于一類依據(jù)的是事物之間的相似性。事物相似性的度量標(biāo)準(zhǔn)一般有兩種：距離和相似性系數(shù)，距離一般用來度量樣本之間的相似性，而相似性系數(shù)一般是用來度量變量之間的相似性。,1距離

3、距離的計(jì)算根據(jù)觀測指標(biāo)數(shù)據(jù)類型的不同可以分為兩種情況：如果觀測指標(biāo)是非連續(xù)數(shù)據(jù)，需要采用卡方分析等計(jì)算方法；如果觀測值標(biāo)是連續(xù)數(shù)據(jù)，則可以采用以下幾種算法：（1）明氏距離（2）馬氏距離（3）蘭氏距離（4）自定義距離,2相似性系數(shù) 前面提到，聚類分析不僅可以對樣本進(jìn)行聚類，而且還可以對變量進(jìn)行聚類，當(dāng)對變量進(jìn)行聚類時(shí)，考察變量之間關(guān)系的指標(biāo)一般采用相似性系數(shù)來表示。相似性系數(shù)是描述測量指標(biāo)之間相關(guān)程度的指標(biāo)，取值范圍為-1,1，相似系數(shù)越大，變量之間的相似性就越高。根據(jù)研究目的的不同，有時(shí)只需要考察相關(guān)系數(shù)絕對值的大小，有時(shí)還要考慮到相關(guān)的方向，即相關(guān)系數(shù)的正負(fù)。聚類時(shí)，相似的變量歸入一

4、類，不相似的變量歸到不同的類。相似性系數(shù)的計(jì)算方法常見的有積差相關(guān)系數(shù)和夾角余弦等。積差相關(guān)系數(shù)：,,8.1.3 聚類結(jié)果的評價(jià),聚類分析是一個(gè)探索性的過程，在使用聚類分析過程中，除了要根據(jù)不同的數(shù)據(jù)類型選擇其最適合的聚類方法外，還往往需要結(jié)合數(shù)據(jù)結(jié)構(gòu)和對聚類樣本或變量的先驗(yàn)經(jīng)驗(yàn)，并且不斷探索和嘗試才能得到比較好的聚類結(jié)果。這里簡要介紹一些判斷類別數(shù)量是否合理的標(biāo)準(zhǔn)和最終分類應(yīng)該符合的要求作為參考。 1規(guī)定一個(gè)閾值T 2查看樣本的散點(diǎn)圖 3使用統(tǒng)計(jì)量,8.2.1 二階聚類的基本原理,顧名思義，二階聚類是指聚類過程是分為兩步進(jìn)行的，故又稱為兩步聚類。二階聚類發(fā)展較晚，但由于其能同時(shí)處理連續(xù)數(shù)據(jù)

5、和離散數(shù)據(jù)，同時(shí)還可以自動(dòng)確定最佳聚類個(gè)數(shù)，加上處理速度快等優(yōu)點(diǎn)，使它從一經(jīng)提出就在多個(gè)領(lǐng)域得到推廣，并受到越來越多用戶的青睞。二階聚類主要分為以下兩個(gè)步驟：（1）預(yù)分類（2）正式聚類,8.2.2 二階聚類的操作過程,在SPSS中二階聚類的操作過程如下：（1）打開或建立數(shù)據(jù)文件。（2）選擇“分析”“分類”“兩步聚類”命令，打開“二階聚類分析”對話框，如圖所示。,（3）選擇變量（4）選擇距離度量標(biāo)準(zhǔn) （5）連續(xù)變量計(jì)數(shù) （6）設(shè)定聚類數(shù)量（7）選擇聚類準(zhǔn)則（8）選項(xiàng)設(shè)置（9）輸出設(shè)置（10）設(shè)置完成后，單擊“確定”按鈕，執(zhí)行操作，輸出結(jié)果。,8.2.3 實(shí)例分析：普通高等學(xué)校

6、（機(jī)構(gòu)）教職工隊(duì)伍構(gòu)成（1）,教師隊(duì)伍的構(gòu)成影響和制約著高等教育的質(zhì)量和發(fā)展?，F(xiàn)準(zhǔn)備根據(jù)2008年中國部分省份普通高等學(xué)校（機(jī)構(gòu)）教職工隊(duì)伍構(gòu)成情況對這些地區(qū)進(jìn)行分類。收集到的資料包括：正高級(jí)職稱人數(shù)（單位：人）、副高級(jí)職稱人數(shù)、中級(jí)職稱人數(shù)、初級(jí)職稱人數(shù)和無職稱人數(shù)。 1操作過程 2結(jié)果分析,8.3 K-均值聚類分析,K-均值聚類（K-Means-Cluster）是一種快速樣本聚類方法，在聚類個(gè)數(shù)已知的情況下，特別適合于對大樣本數(shù)據(jù)進(jìn)行分析。在本節(jié)將介紹K-均值聚類的基本原理和操作過程。,8.3.1 K-均值聚類的基本原理,K-均值聚類（K-Means-Cluster）又稱快速樣本聚類或逐步

7、樣本聚類，是先將樣本數(shù)據(jù)進(jìn)行初始分類，然后根據(jù)中心點(diǎn)逐步調(diào)整，直至得到最終分類。這種聚類方法具有計(jì)算量大、對系統(tǒng)要求低、占用內(nèi)存少、處理速度快的特點(diǎn)，因此特別適合處理大樣本數(shù)據(jù)。但是這種聚類方法只適于對樣本的聚類，而不能對變量進(jìn)行聚類。K-均值聚類分析的基本步驟如下：（1）確定聚類數(shù)量。（2）確定初始類中心坐標(biāo)。（3）根據(jù)距離最近原則進(jìn)行分類。（4）重新計(jì)算所形成的各個(gè)新類別的中心點(diǎn)坐標(biāo)，并重新歸類。（5）重復(fù)上一過程，直至達(dá)到收斂標(biāo)準(zhǔn)。,8.3.2 K-均值聚類的操作過程,前面介紹了K-均值聚類分析的基本原理和步驟，在SPSS中K-均值聚類的操作過程如下：（1）打開或建立數(shù)據(jù)文件

8、。（2）選擇“分析”“分類”“K-均值聚類”命令，打開“K-均值聚類”對話框，如圖所示。,（3）選擇變量（4）確定聚類數(shù) （5）選擇聚類方法（6）設(shè)定聚類中心的讀取與輸出（7）設(shè)定迭代次數(shù) （8）設(shè)定輸出結(jié)果（9）選擇統(tǒng)計(jì)量指標(biāo)和缺失值處理（10）單擊“確定”按鈕，執(zhí)行操作，輸出結(jié)果。,8.3.3 實(shí)例分析：不同省份三次產(chǎn)業(yè)從業(yè)人數(shù),優(yōu)化產(chǎn)業(yè)結(jié)構(gòu)，轉(zhuǎn)變經(jīng)濟(jì)增長方式對于國民經(jīng)濟(jì)平穩(wěn)較快發(fā)展有著重要的意義。為了更好的了解全國不同省份的三次產(chǎn)業(yè)結(jié)構(gòu)情況，國家統(tǒng)計(jì)局調(diào)查了全國31個(gè)省份2008的三次產(chǎn)業(yè)從業(yè)人數(shù)情況。這里摘選了其中部分省份的數(shù)據(jù)，請問如何通過這些數(shù)據(jù)對各省份三次產(chǎn)業(yè)從業(yè)人數(shù)

9、進(jìn)行聚類分析？ 1操作過程 2結(jié)果分析,8.4 層次聚類,在前面兩節(jié)的內(nèi)容中介紹了二階聚類和K-均值聚類，這兩種聚類方法聚類速度快，較適合于樣本量較大的數(shù)據(jù)，但它們也有一些不夠完善之處。首先，它們只可以對樣本進(jìn)行聚類，但是無法對變量進(jìn)行聚類；其次，由于聚類個(gè)數(shù)往往需要研究者事先指定（對于K-均值聚類必須指定聚類個(gè)數(shù)），這就需要研究者對研究對象要有一定的先驗(yàn)知識(shí)經(jīng)驗(yàn)和預(yù)期，這對新手來說會(huì)有一定的困難；最后，在輸出結(jié)果中它們對樣本之間的關(guān)系和結(jié)構(gòu)的描述也不夠詳細(xì)和直觀。而本節(jié)的層次聚類方法能很好的克服上述兩種聚類方法的缺陷。,8.4.1 層次聚類的基本原理,層次聚類又稱系統(tǒng)聚類或分層聚類，是一種常

10、用的聚類方法。在層次聚類中，它既可以對樣本進(jìn)行聚類（即Q型聚類），也可以對變量進(jìn)行聚類（即R型聚類）；聚類個(gè)數(shù)也無需事先指定（如果了解的話也可以指定或者只是指定類別數(shù)量范圍）；在聚類過程中系統(tǒng)將所有觀測指標(biāo)納入計(jì)算過程，在聚類結(jié)果中不僅可以顯示不同樣本（或變量）的距離、所屬類別，而且還可以根據(jù)分類過程繪制出樣本（或變量）的樹狀譜系關(guān)系圖，對于確定類別個(gè)數(shù)有著重要的參考價(jià)值。根據(jù)聚類過程的不同，層次聚類又可以分為凝聚法和分解法兩種方向相反的聚類方法。,8.4.2層次聚類的操作過程,在SPSS中層次聚類的操作過程如下：（1）打開或建立數(shù)據(jù)文件。（2）選擇“分析”“分類”“系統(tǒng)聚類”命令，打開

11、“系統(tǒng)聚類分析”對話框，如圖所示。,（3）選擇變量：從左邊變量列表框中選擇要進(jìn)行聚類的變量將其移入右邊“變量”列表框中，同時(shí)選擇稱名變量移入“標(biāo)注個(gè)案”文本框中。（4）選擇聚類類型：在“分群”選項(xiàng)組中可以選擇聚類對象。（5）設(shè)定輸出指標(biāo)：在“輸出”選項(xiàng)組中選擇輸出統(tǒng)計(jì)量和圖形。（6）選擇基本統(tǒng)計(jì)量（7）選擇輸出圖形（8）選擇聚類方法（9）聚類結(jié)果保存（10）設(shè)置完成后，單擊 “確定”按鈕，執(zhí)行操作，輸出結(jié)果。,8.4.3 實(shí)例分析：普通高等學(xué)校（機(jī)構(gòu)）教職工隊(duì)伍構(gòu)成（2）,在此仍采用二階聚類中使用的“普通高等學(xué)校（機(jī)構(gòu)）教職工隊(duì)伍構(gòu)成”案例。 1操作過程 2結(jié)果分析,8.5 判別

12、分析,在前面幾節(jié)中主要介紹的是聚類分析，在根據(jù)一定的指標(biāo)對一組樣本進(jìn)行分類時(shí)就可以使用聚類分析。如果已知一組樣本總體可以分為幾類，但仍有一些樣本需要明確其類別歸屬時(shí)就需要使用本節(jié)的判別分析。在實(shí)際生活中經(jīng)常會(huì)遇到各種各樣的類別歸屬的判斷問題。如醫(yī)生在給病人診斷時(shí)，就需要根據(jù)病人的各種癥狀、生化指標(biāo)、持續(xù)時(shí)間等方面對病人的疾病類型及嚴(yán)重程度進(jìn)行判斷。同樣，在生物學(xué)中對新發(fā)現(xiàn)物種的歸類，在社會(huì)學(xué)、經(jīng)濟(jì)學(xué)中對社會(huì)發(fā)展?fàn)顩r、經(jīng)濟(jì)形勢的判斷也都要涉及到本節(jié)要學(xué)習(xí)的判別分析。,8.5.1 判別分析簡介,判別分析（Discriminant Analysis）是多元統(tǒng)計(jì)分析中判斷樣品所屬類別的一種重要的統(tǒng)計(jì)

13、方法，它最早是由費(fèi)希爾 (R. A. Fisher) 1936 年在生物學(xué)的植物分類問題中提出來的，但當(dāng)初只是作為一種分類方法而缺少數(shù)學(xué)上的理論依據(jù)，后來出現(xiàn)的貝葉斯（Bayes）判別證明了費(fèi)希爾判別的合理性，因此一般將這兩種判別分析合稱為Fisher判別分析。,1判別分析的基本原理判別分析是在類別數(shù)確定的情況下，根據(jù)某一研究對象的各種特征判斷其類別歸屬的一種多變量統(tǒng)計(jì)分析方法。判別分析的方法很多，根據(jù)判別的組數(shù)來區(qū)分，有兩組判別分析和多組判別分析；根據(jù)區(qū)分不同總體所用數(shù)學(xué)模型的不同，有線性判別和非線性判別；根據(jù)判別時(shí)變量處理方法的不同，有逐步判別和序貫判別等。,2判別分析的適用條件任何一

14、種統(tǒng)計(jì)方法在滿足其適用條件的前提下才可能得到理想的結(jié)果和解釋。建立理想的判別分析模型需要滿足以下前提假設(shè)：（1）自變量服從多元正態(tài)分布且彼此之間不存在多重共線性。（2）所有自變量在各組之間方差齊性，協(xié)方差矩陣也相等。（3）因變量的取值事先是確定的且獨(dú)立。（4）自變量與因變量間關(guān)系符合線性假設(shè)。,8.5.2 判別分析的操作過程,在SPSS中判別分析的操作過程如下：（1）打開或建立數(shù)據(jù)文件。（2）選擇“分析”“分類”“判別”命令，打開“判別分析”對話框，如圖所示。,（3）選擇變量（4）選擇判別分析方法（5）選擇基本統(tǒng)計(jì)量（6）選擇判別方法（7）選擇分類（8）結(jié)果保存（9）設(shè)置完成后，單擊 “確定”按鈕，執(zhí)行操作，輸出結(jié)果。,8.4.3 實(shí)例分析：地區(qū)職工平均工資水平,不同地區(qū)工資水平會(huì)存在一定的差異，在2004年全國不同地區(qū)職工平均工資調(diào)查中選取國有單位、城鎮(zhèn)集體單位及其他單位作為指標(biāo)，通過對部分?jǐn)?shù)據(jù)進(jìn)行聚類分析總體上確立了兩個(gè)類別，分別為第一、第二組。另外有4個(gè)地區(qū)屬于待判別個(gè)案，請根據(jù)下面數(shù)據(jù)對這4個(gè)地區(qū)進(jìn)行判別分析以確定其所屬類別。 1操作過程 2結(jié)果分析,8.5 習(xí)題,

展開閱讀全文

溫馨提示:
1: 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2: 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3.本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 裝配圖網(wǎng)僅提供信息存儲(chǔ)空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

點(diǎn)擊下載此資源

九九热最新网址,777奇米四色米奇影院在线播放,国产精品18久久久久久久久久,中文有码视频,亚洲一区在线免费观看,国产91精品在线,婷婷丁香六月天

聚類分析和判別分析

最新文檔

相關(guān)資源

相關(guān)搜索