《聚類分析和判別分析》由會(huì)員分享,可在線閱讀,更多相關(guān)《聚類分析和判別分析(30頁珍藏版)》請?jiān)谘b配圖網(wǎng)上搜索。
1、第8章 聚類分析和判別分析,俗話說“物以類聚,人以群分”,在現(xiàn)實(shí)生活中,為了更好的認(rèn)識(shí)事物,人們往往需要根據(jù)事物的屬性對事物進(jìn)行分類,分類是人類認(rèn)識(shí)客觀世界的一種重要方法。在社會(huì)生活的各個(gè)方面和科學(xué)研究的各個(gè)領(lǐng)域都存在著大量的分類問題。,在實(shí)際生活中經(jīng)常需要使用聚類分析對事物進(jìn)行分類,在總體類別已知時(shí)需要使用判別分析對研究對象進(jìn)行歸類。在SPSS中其菜單打開方式為:選擇“分析”“分類”命令,打開如圖所示的“分類”菜單。,8.1 聚類分析基本原理,聚類分析作為一種重要的分類方法,其實(shí)質(zhì)在于通過研究對象之間的親疏關(guān)系將相似的對象劃分為一類,不相似的對象劃分到不同的類別當(dāng)中。在本節(jié)中將介紹聚類分析的
2、概念、計(jì)算方法和聚類結(jié)果的評價(jià)等。,8.1.1 聚類分析簡介,聚類分析(Cluster Analysis)是根據(jù)事物本身的特征通過統(tǒng)計(jì)方法對事物進(jìn)行分類的多元分析方法,可以通過數(shù)據(jù)建模達(dá)到簡化數(shù)據(jù)的目的。聚類分析也稱為分類分析、數(shù)值分類或集群分析等。根據(jù)分類對象的不同,聚類分析可分為樣本聚類和變量聚類兩種。,8.1.2 聚類分析的計(jì)算,在聚類分析過程中,需要區(qū)分為不同的類,事物是怎樣劃分到不同的類別當(dāng)中的呢?判斷不同事物是否歸于一類依據(jù)的是事物之間的相似性。事物相似性的度量標(biāo)準(zhǔn)一般有兩種:距離和相似性系數(shù),距離一般用來度量樣本之間的相似性,而相似性系數(shù)一般是用來度量變量之間的相似性。,1距離
3、距離的計(jì)算根據(jù)觀測指標(biāo)數(shù)據(jù)類型的不同可以分為兩種情況:如果觀測指標(biāo)是非連續(xù)數(shù)據(jù),需要采用卡方分析等計(jì)算方法;如果觀測值標(biāo)是連續(xù)數(shù)據(jù),則可以采用以下幾種算法: (1)明氏距離 (2)馬氏距離 (3)蘭氏距離 (4)自定義距離,2相似性系數(shù) 前面提到,聚類分析不僅可以對樣本進(jìn)行聚類,而且還可以對變量進(jìn)行聚類,當(dāng)對變量進(jìn)行聚類時(shí),考察變量之間關(guān)系的指標(biāo)一般采用相似性系數(shù)來表示。相似性系數(shù)是描述測量指標(biāo)之間相關(guān)程度的指標(biāo),取值范圍為-1,1,相似系數(shù)越大,變量之間的相似性就越高。根據(jù)研究目的的不同,有時(shí)只需要考察相關(guān)系數(shù)絕對值的大小,有時(shí)還要考慮到相關(guān)的方向,即相關(guān)系數(shù)的正負(fù)。聚類時(shí),相似的變量歸入一
4、類,不相似的變量歸到不同的類。相似性系數(shù)的計(jì)算方法常見的有積差相關(guān)系數(shù)和夾角余弦等。 積差相關(guān)系數(shù):,,8.1.3 聚類結(jié)果的評價(jià),聚類分析是一個(gè)探索性的過程,在使用聚類分析過程中,除了要根據(jù)不同的數(shù)據(jù)類型選擇其最適合的聚類方法外,還往往需要結(jié)合數(shù)據(jù)結(jié)構(gòu)和對聚類樣本或變量的先驗(yàn)經(jīng)驗(yàn),并且不斷探索和嘗試才能得到比較好的聚類結(jié)果。這里簡要介紹一些判斷類別數(shù)量是否合理的標(biāo)準(zhǔn)和最終分類應(yīng)該符合的要求作為參考。 1規(guī)定一個(gè)閾值T 2查看樣本的散點(diǎn)圖 3使用統(tǒng)計(jì)量,8.2.1 二階聚類的基本原理,顧名思義,二階聚類是指聚類過程是分為兩步進(jìn)行的,故又稱為兩步聚類。二階聚類發(fā)展較晚,但由于其能同時(shí)處理連續(xù)數(shù)據(jù)
5、和離散數(shù)據(jù),同時(shí)還可以自動(dòng)確定最佳聚類個(gè)數(shù),加上處理速度快等優(yōu)點(diǎn),使它從一經(jīng)提出就在多個(gè)領(lǐng)域得到推廣,并受到越來越多用戶的青睞。 二階聚類主要分為以下兩個(gè)步驟: (1)預(yù)分類 (2)正式聚類,8.2.2 二階聚類的操作過程,在SPSS中二階聚類的操作過程如下: (1)打開或建立數(shù)據(jù)文件。 (2)選擇“分析”“分類”“兩步聚類”命令,打開“二階聚類分析”對話框,如圖所示。,(3)選擇變量 (4)選擇距離度量標(biāo)準(zhǔn) (5)連續(xù)變量計(jì)數(shù) (6)設(shè)定聚類數(shù)量 (7)選擇聚類準(zhǔn)則 (8)選項(xiàng)設(shè)置 (9)輸出設(shè)置 (10)設(shè)置完成后,單擊“確定”按鈕,執(zhí)行操作,輸出結(jié)果。,8.2.3 實(shí)例分析:普通高等學(xué)校
6、(機(jī)構(gòu))教職工隊(duì)伍構(gòu)成(1),教師隊(duì)伍的構(gòu)成影響和制約著高等教育的質(zhì)量和發(fā)展?,F(xiàn)準(zhǔn)備根據(jù)2008年中國部分省份普通高等學(xué)校(機(jī)構(gòu))教職工隊(duì)伍構(gòu)成情況對這些地區(qū)進(jìn)行分類。收集到的資料包括:正高級(jí)職稱人數(shù)(單位:人)、副高級(jí)職稱人數(shù)、中級(jí)職稱人數(shù)、初級(jí)職稱人數(shù)和無職稱人數(shù)。 1操作過程 2結(jié)果分析,8.3 K-均值聚類分析,K-均值聚類(K-Means-Cluster)是一種快速樣本聚類方法,在聚類個(gè)數(shù)已知的情況下,特別適合于對大樣本數(shù)據(jù)進(jìn)行分析。在本節(jié)將介紹K-均值聚類的基本原理和操作過程。,8.3.1 K-均值聚類的基本原理,K-均值聚類(K-Means-Cluster)又稱快速樣本聚類或逐步
7、樣本聚類,是先將樣本數(shù)據(jù)進(jìn)行初始分類,然后根據(jù)中心點(diǎn)逐步調(diào)整,直至得到最終分類。這種聚類方法具有計(jì)算量大、對系統(tǒng)要求低、占用內(nèi)存少、處理速度快的特點(diǎn),因此特別適合處理大樣本數(shù)據(jù)。但是這種聚類方法只適于對樣本的聚類,而不能對變量進(jìn)行聚類。K-均值聚類分析的基本步驟如下: (1)確定聚類數(shù)量。 (2)確定初始類中心坐標(biāo)。 (3)根據(jù)距離最近原則進(jìn)行分類。 (4)重新計(jì)算所形成的各個(gè)新類別的中心點(diǎn)坐標(biāo),并重新歸類。 (5)重復(fù)上一過程,直至達(dá)到收斂標(biāo)準(zhǔn)。,8.3.2 K-均值聚類的操作過程,前面介紹了K-均值聚類分析的基本原理和步驟,在SPSS中K-均值聚類的操作過程如下: (1)打開或建立數(shù)據(jù)文件
8、。 (2)選擇“分析”“分類”“K-均值聚類”命令,打開“K-均值聚類”對話框,如圖所示。,(3)選擇變量 (4)確定聚類數(shù) (5)選擇聚類方法 (6)設(shè)定聚類中心的讀取與輸出 (7)設(shè)定迭代次數(shù) (8)設(shè)定輸出結(jié)果 (9)選擇統(tǒng)計(jì)量指標(biāo)和缺失值處理 (10)單擊“確定”按鈕,執(zhí)行操作,輸出結(jié)果。,8.3.3 實(shí)例分析:不同省份三次產(chǎn)業(yè)從業(yè)人數(shù),優(yōu)化產(chǎn)業(yè)結(jié)構(gòu),轉(zhuǎn)變經(jīng)濟(jì)增長方式對于國民經(jīng)濟(jì)平穩(wěn)較快發(fā)展有著重要的意義。為了更好的了解全國不同省份的三次產(chǎn)業(yè)結(jié)構(gòu)情況,國家統(tǒng)計(jì)局調(diào)查了全國31個(gè)省份2008的三次產(chǎn)業(yè)從業(yè)人數(shù)情況。這里摘選了其中部分省份的數(shù)據(jù),請問如何通過這些數(shù)據(jù)對各省份三次產(chǎn)業(yè)從業(yè)人數(shù)
9、進(jìn)行聚類分析? 1操作過程 2結(jié)果分析,8.4 層次聚類,在前面兩節(jié)的內(nèi)容中介紹了二階聚類和K-均值聚類,這兩種聚類方法聚類速度快,較適合于樣本量較大的數(shù)據(jù),但它們也有一些不夠完善之處。首先,它們只可以對樣本進(jìn)行聚類,但是無法對變量進(jìn)行聚類;其次,由于聚類個(gè)數(shù)往往需要研究者事先指定(對于K-均值聚類必須指定聚類個(gè)數(shù)),這就需要研究者對研究對象要有一定的先驗(yàn)知識(shí)經(jīng)驗(yàn)和預(yù)期,這對新手來說會(huì)有一定的困難;最后,在輸出結(jié)果中它們對樣本之間的關(guān)系和結(jié)構(gòu)的描述也不夠詳細(xì)和直觀。而本節(jié)的層次聚類方法能很好的克服上述兩種聚類方法的缺陷。,8.4.1 層次聚類的基本原理,層次聚類又稱系統(tǒng)聚類或分層聚類,是一種常
10、用的聚類方法。在層次聚類中,它既可以對樣本進(jìn)行聚類(即Q型聚類),也可以對變量進(jìn)行聚類(即R型聚類);聚類個(gè)數(shù)也無需事先指定(如果了解的話也可以指定或者只是指定類別數(shù)量范圍);在聚類過程中系統(tǒng)將所有觀測指標(biāo)納入計(jì)算過程,在聚類結(jié)果中不僅可以顯示不同樣本(或變量)的距離、所屬類別,而且還可以根據(jù)分類過程繪制出樣本(或變量)的樹狀譜系關(guān)系圖,對于確定類別個(gè)數(shù)有著重要的參考價(jià)值。 根據(jù)聚類過程的不同,層次聚類又可以分為凝聚法和分解法兩種方向相反的聚類方法。,8.4.2層次聚類的操作過程,在SPSS中層次聚類的操作過程如下: (1)打開或建立數(shù)據(jù)文件。 (2)選擇“分析”“分類”“系統(tǒng)聚類”命令,打開
11、“系統(tǒng)聚類分析”對話框,如圖所示。,(3)選擇變量:從左邊變量列表框中選擇要進(jìn)行聚類的變量將其移入右邊“變量”列表框中,同時(shí)選擇稱名變量移入“標(biāo)注個(gè)案”文本框中。 (4)選擇聚類類型:在“分群”選項(xiàng)組中可以選擇聚類對象。 (5)設(shè)定輸出指標(biāo):在“輸出”選項(xiàng)組中選擇輸出統(tǒng)計(jì)量和圖形。 (6)選擇基本統(tǒng)計(jì)量 (7)選擇輸出圖形 (8)選擇聚類方法 (9)聚類結(jié)果保存 (10)設(shè)置完成后,單擊 “確定”按鈕,執(zhí)行操作,輸出結(jié)果。,8.4.3 實(shí)例分析:普通高等學(xué)校(機(jī)構(gòu))教職工隊(duì)伍構(gòu)成(2),在此仍采用二階聚類中使用的“普通高等學(xué)校(機(jī)構(gòu))教職工隊(duì)伍構(gòu)成”案例。 1操作過程 2結(jié)果分析,8.5 判別
12、分析,在前面幾節(jié)中主要介紹的是聚類分析,在根據(jù)一定的指標(biāo)對一組樣本進(jìn)行分類時(shí)就可以使用聚類分析。如果已知一組樣本總體可以分為幾類,但仍有一些樣本需要明確其類別歸屬時(shí)就需要使用本節(jié)的判別分析。 在實(shí)際生活中經(jīng)常會(huì)遇到各種各樣的類別歸屬的判斷問題。如醫(yī)生在給病人診斷時(shí),就需要根據(jù)病人的各種癥狀、生化指標(biāo)、持續(xù)時(shí)間等方面對病人的疾病類型及嚴(yán)重程度進(jìn)行判斷。同樣,在生物學(xué)中對新發(fā)現(xiàn)物種的歸類,在社會(huì)學(xué)、經(jīng)濟(jì)學(xué)中對社會(huì)發(fā)展?fàn)顩r、經(jīng)濟(jì)形勢的判斷也都要涉及到本節(jié)要學(xué)習(xí)的判別分析。,8.5.1 判別分析簡介,判別分析(Discriminant Analysis)是多元統(tǒng)計(jì)分析中判斷樣品所屬類別的一種重要的統(tǒng)計(jì)
13、方法,它最早是由費(fèi)希爾 (R. A. Fisher) 1936 年在生物學(xué)的植物分類問題中提出來的,但當(dāng)初只是作為一種分類方法而缺少數(shù)學(xué)上的理論依據(jù),后來出現(xiàn)的貝葉斯(Bayes)判別證明了費(fèi)希爾判別的合理性,因此一般將這兩種判別分析合稱為Fisher判別分析。,1判別分析的基本原理 判別分析是在類別數(shù)確定的情況下,根據(jù)某一研究對象的各種特征判斷其類別歸屬的一種多變量統(tǒng)計(jì)分析方法。判別分析的方法很多,根據(jù)判別的組數(shù)來區(qū)分,有兩組判別分析和多組判別分析;根據(jù)區(qū)分不同總體所用數(shù)學(xué)模型的不同,有線性判別和非線性判別;根據(jù)判別時(shí)變量處理方法的不同,有逐步判別和序貫判別等。,2判別分析的適用條件 任何一
14、種統(tǒng)計(jì)方法在滿足其適用條件的前提下才可能得到理想的結(jié)果和解釋。建立理想的判別分析模型需要滿足以下前提假設(shè): (1)自變量服從多元正態(tài)分布且彼此之間不存在多重共線性。 (2)所有自變量在各組之間方差齊性,協(xié)方差矩陣也相等。 (3)因變量的取值事先是確定的且獨(dú)立。 (4)自變量與因變量間關(guān)系符合線性假設(shè)。,8.5.2 判別分析的操作過程,在SPSS中判別分析的操作過程如下: (1)打開或建立數(shù)據(jù)文件。 (2)選擇“分析”“分類”“判別”命令,打開“判別分析”對話框,如圖所示。,(3)選擇變量 (4)選擇判別分析方法 (5)選擇基本統(tǒng)計(jì)量 (6)選擇判別方法 (7)選擇分類 (8)結(jié)果保存 (9)設(shè)置完成后,單擊 “確定”按鈕,執(zhí)行操作,輸出結(jié)果。,8.4.3 實(shí)例分析:地區(qū)職工平均工資水平,不同地區(qū)工資水平會(huì)存在一定的差異,在2004年全國不同地區(qū)職工平均工資調(diào)查中選取國有單位、城鎮(zhèn)集體單位及其他單位作為指標(biāo),通過對部分?jǐn)?shù)據(jù)進(jìn)行聚類分析總體上確立了兩個(gè)類別,分別為第一、第二組。另外有4個(gè)地區(qū)屬于待判別個(gè)案,請根據(jù)下面數(shù)據(jù)對這4個(gè)地區(qū)進(jìn)行判別分析以確定其所屬類別。 1操作過程 2結(jié)果分析,8.5 習(xí)題,