《聚類分析與判別分析.ppt》由會員分享,可在線閱讀,更多相關《聚類分析與判別分析.ppt(12頁珍藏版)》請在裝配圖網上搜索。
1、第10章 聚類分析與判別分析,本章重點: 聚類分析概述 層次聚類 快速聚類 判別分析,10.1 聚類分析概述,聚類分析的意義 聚類分析說明,10.1.1 聚類分析的意義,聚類分析是一種探索性的分析,在分類的過程中,人們不必事先給出一個分類的標準,聚類分析能夠從樣本數據出發(fā),自動進行分類分析,所得到的聚類數未必一致。因此,這里所說的聚類分析是一種探索性的分析方法。 對個案的聚類分析類似于判別分析,都是將一些觀察個案進行分類。聚類分析時,個案所屬的群組特點還未知。即,在聚類分析之前,研究者還不知道獨立觀察組可以分成多少個類,類的特點也無所得知。 變量的聚類分析類似于因素分析。兩者都可用于辨
2、別變量的相關組別。不同在于,因素分析在合并變量的時候,是同時考慮所有變量之間的關系;而變量的聚類分析,則采用層次式的判別方式,根據個別變量之間的親疏程度逐次進行聚類。,10.1.2 聚類分析說明,聚類分析的方法主要有兩種,一種是“快速聚類分析”;另一種是“層次聚類,分析”。如果觀察值的個數多或文件非常龐大,則宜使用快速聚類分析方法。 因為觀察值數目巨大,層次聚類分析的兩種判別圖形會過于分散,不容易解釋。 判別分析是一種有效的對個案進行分類分析的方法。和聚類分析不同的是,判別分析時,組別的特征已知。如銀行為了對貸款進行管理,需要預測哪些類型的客戶可能不會按時歸還貸款。已知過去幾年中,900個客戶
3、的貸款歸還信譽度,據此可以將各戶分成兩組:可靠客戶和不可靠客戶。再通過收集客戶的一些資料,如年齡、存款、收入等,將這些資料作為自變量,通過判別分析,建立判別函數。那么,如果有200個新的客戶提交貸款請求,就可以利用剛建好的判別函數,對新的客戶進行分析,從而判別新的客戶是屬于可靠客戶類還是不可靠客戶類。,10.2 層次聚類,層次聚類Q型聚類 層次聚類Q型聚類應用實例 層次聚類R型聚類 層次聚類R型聚類應用實例,10.2.1 層次聚類Q型聚類,層次聚類分析中的Q型聚類可使具有共同特點的樣本聚齊在一起,以便對不同類的樣本進行分析。層次聚類分析中,測量樣本之間的親疏程度,一種是樣本數據與小類,小類與小
4、類之間的親疏程度。 樣本數據之間的親疏程度主要通過樣本之間的距離、樣本間的相關系數來度量。SPSS根據變量數據類型的不同,采用不同的測定親疏程度的方法。,10.2.2 層次聚類Q型聚類應用實例,經調查得知某班8個學生入學時的語文成績和中期測試語文成績,現要求對這8名學生的語文成績進行聚類,聚類的依據是入學語文成績和第一次考試的語文成績。,10.2.4 層次聚類R型聚類,層次聚類R型聚類是對研究對象的觀察變量進行分類,它使具有共同特征的變量取在一起,以便可以從不同類中分別選出具有代表性的變量作為分析,從而減少分析變量的個數。其計算公式與Q型聚類計算公式相似,不同的是R型聚類是對變量進行距離的
5、計算,Q型聚類是對樣本間進行距離的計算。,10.2.5 層次聚類R型聚類應用實例,該例可以借用層次聚類Q型聚類的實例,分析某班級中語文成績、數學成績、化學成績和外語成績四門,哪些課程屬于同一個類。,,10.3 快速聚類,快速聚類分析的概念 快速聚類分析的計算過程及公式 快速聚類分析應用實例,快速聚類分析的計算過程如下:,10.3.1 快速聚類分析的概念,快速聚類分析是由用戶指定類別數的大樣本資料的逐步聚類分析。它先對數據進行初始分類,然后逐步調整,得到最終分類??焖倬垲惙治龅膶嵸|是K-Mean聚類。 和層次聚類分析一致,快速聚類分析也以距離為樣本間親疏程度的標志。但兩者的不同在于:層次聚類
6、可以對不同的聚類類數產生一系列的聚類解,而快速聚類只能產生固定類數的聚類解,類數需要用戶事先指定。 另外,在快速聚類分析中,用戶可以自己指定初始的類中心點。如果用戶的經驗比較豐富可以指定比較合理的初始類點,否則,需要增加迭代的次數,以保證最終聚類結果的準確性。,10.3.2 快速聚類分析的計算過程及公式,在SPSS中確定 個類的初始類中心點。SPSS會根據樣本數據的實際情況,選擇 個由代表性的樣本數據作為初始類中心。初始類中心也可以由用戶自行指定,需要指定 組樣本數據作為初始類中心點。,1.指定聚類的類數,2. 確定中心點,接著,SPSS重新確定 個類的中心點。SPSS計算每個變量的變量值
7、均值,并以均值點作的類中心點;最后重復上面的兩步計算過程,直到達到指定的迭代次數或終止迭代的判斷要求為止。,10.3.3 快速聚類分析應用實例,本實例調查了全國10個學校的校風、校紀、領導角色和教師態(tài)度4個指標,希望使用快速聚類分析將這10個學校按照其各自的特點分成4種類型。,10.4 判別分析,判別分析的概念 判別分析應用實例,判別分析先根據已知類別的事物的性質建立函數式,然后對未知類別的新事物進行判斷以將之歸入已知的類別中。 在判別分析中有如下假定: 預測變量服從正態(tài)分布。 預測變量之間沒有顯著的相關。 觀測變量的平均值和方差不相關。 預測變量之間的相關性在不同類中是一樣的。,10.4.1 判別分析的概念,10.4.2 判別分析實例,本例對全國10所學校的校園文化、領導角色和教師態(tài)度三個指標進行調查,試用判別分析研究這三個指標是否能有效地區(qū)別學校對教師的吸引力,其正確率如何。,