聚類和判別分析ppt課件
《聚類和判別分析ppt課件》由會(huì)員分享,可在線閱讀,更多相關(guān)《聚類和判別分析ppt課件(47頁珍藏版)》請(qǐng)?jiān)谘b配圖網(wǎng)上搜索。
第九章,聚類和判別分析,主要內(nèi)容,9.1 聚類和判別分析簡介 9.2 二階聚類 9.3 K-均值聚類 9.4 系統(tǒng)聚類 9.5 判別分析,,9.1 聚類和判別分析簡介,9.1.1 基本概念 (1) 聚類分析 聚類分析的基本思想是找出一些能夠度量樣本或指標(biāo)之間相似程度的統(tǒng)計(jì)量,以這些統(tǒng)計(jì)量為劃分類型的依據(jù),把一些相似程度較大的樣本(或指標(biāo))聚合為一類,把另外一些彼此之間相似程度較大的樣本又聚合為一類。根據(jù)分類對(duì)象的不同,聚類分析可分為對(duì)樣本的聚類和對(duì)變量的聚類兩種。 (2) 判別分析 判別分析是判別樣本所屬類型的一種統(tǒng)計(jì)方法。,9.1 聚類和判別分析簡介,9.1.1 基本概念 (3) 二者區(qū)別 不同之處在于,判別分析是在已知研究對(duì)象分為若干類型(或組別)并已取得各種類型的一批已知樣本的觀測量數(shù)據(jù)的基礎(chǔ)上,根據(jù)某些準(zhǔn)則建立判別式,然后對(duì)未知類型的樣本進(jìn)行差別分析。,9.1.2 樣本間親疏關(guān)系的度量 (1)連續(xù)變量的樣本間距離常用度量 主要方法有歐氏距離(Euclidean Distance)、歐氏平方距離(Squared Euclidean Distance)、切比雪夫距離(Chebychev Distance)、明可斯基距離(Minkowski Distance)、用戶自定義距離(Customize Distance)、Pearson相關(guān)系數(shù)、夾角余弦(Cosine)等。(公式見教材表7.9) (2)順序變量的樣本間距離常用度量 常用的有 統(tǒng)計(jì)量(Chi-square measure)和 統(tǒng)計(jì)量(Phi-square measure)。具體計(jì)算公式參見7.4節(jié)表7.10。,9.1 聚類和判別分析簡介,主要內(nèi)容,9.1 聚類和判別分析簡介 9.2 二階聚類 9.3 K-均值聚類 9.4 系統(tǒng)聚類 9.5 判別分析,,9.2 二階聚類,9.2.1 基本概念及統(tǒng)計(jì)原理 (1)基本概念 二階聚類(TwoStep Cluster)(也稱為兩步聚類)是一個(gè)探索性的分析工具(),為揭示自然的分類或分組而設(shè)計(jì),是數(shù)據(jù)集內(nèi)部的而不是外觀上的分類。它是一種新型的分層聚類算法(Hierarchical Algorithms),目前主要應(yīng)用到數(shù)據(jù)挖掘(Data Mining)和多元數(shù)據(jù)統(tǒng)計(jì)的交叉領(lǐng)域——模式分類中。該過程主要有以下幾個(gè)特點(diǎn): 分類變量和連續(xù)變量均可以參與二階聚類分析; 該過程可以自動(dòng)確定分類數(shù); 可以高效率地分析大數(shù)據(jù)集; 用戶可以自己定制用于運(yùn)算的內(nèi)存容量。,9.2 二階聚類,9.2.1 基本概念及統(tǒng)計(jì)原理 (2) 統(tǒng)計(jì)原理 兩步法的功能非常強(qiáng)大,而原理又較為復(fù)雜。他在聚類過程中除了使用傳統(tǒng)的歐氏距離外,為了處理分類變量和連續(xù)變量,它用似然距離測度,它要求模型中的變量是獨(dú)立的,分類變量是多項(xiàng)式分布,連續(xù)變量是正態(tài)分布的。分類變量和連續(xù)變量均可以參與兩步聚類分析。,9.2 二階聚類,9.2.1 基本概念及統(tǒng)計(jì)原理 (3)分析步驟 第1步 構(gòu)建聚類特征樹:對(duì)每個(gè)觀測變量考察一遍,確定類中心。根據(jù)相近者為同一類的原則,計(jì)算距離并把與類中心距離最小的觀測量分到相應(yīng)的各類中去。這個(gè)過程稱為構(gòu)建一個(gè)分類的特征樹(CF)。 第2步對(duì)聚類特征樹的節(jié)點(diǎn)進(jìn)行分組:為確定最好的類數(shù),對(duì)每一個(gè)聚類結(jié)果使用Akaik判據(jù)(AIC)或貝葉斯判據(jù)(BIC)作為標(biāo)準(zhǔn)進(jìn)行比較,得出最后的聚類結(jié)果。,9.2 二階聚類,9.2.2 SPSS實(shí)例分析 【例9-1】 某機(jī)構(gòu)為了調(diào)查學(xué)生性別和所學(xué)專業(yè)與畢業(yè)后初始工資的情況,調(diào)查抽取了60個(gè)學(xué)生的數(shù)據(jù),如表9.1所示(其中“性別”1代表男性,0代表女性;“學(xué)科”1代表農(nóng)學(xué),2代表建筑,3代表地質(zhì),4代表商務(wù),5代表林學(xué),6代表教育,7代表工程,8代表藝術(shù)),試根據(jù)樣本指標(biāo)進(jìn)行聚類分析。 (數(shù)據(jù)參見教材P202) 第1步 分析:由于自變量中不僅有連續(xù)屬性,也有分類變量,故采用二階聚類進(jìn)行分析。 第2步 數(shù)據(jù)組織:按表所示定義變量,輸入數(shù)據(jù)并保存。,9.2 二階聚類,第3步 二階聚類設(shè)置:按“分析→分類→兩步聚類”順序打開“二階聚類分析”對(duì)話框,并按下圖進(jìn)行設(shè)置。,9.2 二階聚類,第4步 主要結(jié)果及分析: 二階聚類的模型概要和聚類質(zhì)量情況,從中可以看出,此算法采用的是兩步(二階)聚類,共輸入3個(gè)變量,將所有個(gè)案聚成3類。聚類的平均輪廓值為0.6(其范圍值為-1.0~1.0,值越大越好),說明聚類質(zhì)量較好。,聚類個(gè)案情況圖,可以看出各類所占的比例情況,9.2 二階聚類,第4步 主要結(jié)果及分析: 各個(gè)案所屬的分類號(hào)情況,主要內(nèi)容,9.1 聚類和判別分析簡介 9.2 二階聚類 9.3 K-均值聚類 9.4 系統(tǒng)聚類 9.5 判別分析,,9.3 K-均值聚類,9.3.1 基本概念及統(tǒng)計(jì)原理 (1)基本概念 K-均值聚(也稱快速聚類)是由用戶指定類別數(shù)的大樣本資料的逐步聚類分析。它先對(duì)數(shù)據(jù)進(jìn)行初始分類,然后逐步調(diào)整,得到最終分類數(shù)。分類變量和連續(xù)變量均可以參與兩步聚類分析。 (2)統(tǒng)計(jì)原理 如果選擇了n個(gè)數(shù)值型變量參與聚類分析,最后要求聚類數(shù)為k。 由系統(tǒng)首先選擇k個(gè)觀測量(也可以是用戶指定)作為聚類的目標(biāo),n個(gè)變量組成n維空間。每個(gè)觀測量在n維空間中是一個(gè)點(diǎn)。K個(gè)事先選定的觀測量就是k個(gè)聚類中心,也稱為初始類中心。 按照距這幾個(gè)類中心的距離最小的原則把觀測量分派到各類中心所在的類中去;形成第一次迭代形成的k類。,9.3 K-均值聚類,根據(jù)組成每一類的觀測量計(jì)算每個(gè)變量的均值,每一類中的n個(gè)均值在n維空間中又形成k個(gè)點(diǎn),這就是第二次迭代的類中心。 按照這種方法迭代下去,直到達(dá)到指定 的迭代次數(shù)或達(dá)到中止迭代的判據(jù)要求時(shí),迭代就停止了,聚類過程也就結(jié)束了。 (3)分析步驟 第1步 指定聚類數(shù)目k; 第2步 確定k個(gè)初始類中心; 第3步 根據(jù)距離最近原則進(jìn)行分類; 第4步 重新確定k個(gè)類中心; 第5步 迭代計(jì)算。,9.3 K-均值聚類,9.3.2 SPSS實(shí)例分析 【例9-2】測量12名大學(xué)生對(duì)《高等數(shù)學(xué)》的心理狀況和學(xué)習(xí)效果,主要包括四個(gè)因素:學(xué)習(xí)動(dòng)機(jī)、學(xué)習(xí)態(tài)度、自我感覺、學(xué)習(xí)效果,具體數(shù)據(jù)如下表所示。試將該12名學(xué)生分成3類以分析不同心理狀況下學(xué)生的學(xué)習(xí)效果。,9.3 K-均值聚類,第1步 分析:由于已知分成3類,故可采用K-均值聚類法。 第2步 數(shù)據(jù)組織:按如上表的表頭所示建立變量,將“編號(hào)”變量的數(shù)據(jù)類型設(shè)為字符型(作為標(biāo)識(shí)變量)。 第3步 快速聚類設(shè)置,按“分析→分類→K-均值聚類”順序打開“K-均值聚類分析”對(duì)話框,將“學(xué)習(xí)動(dòng)機(jī)”、“學(xué)習(xí)態(tài)度”、“自我感覺”、“學(xué)習(xí)效果”四個(gè)變量選入“變量”列表框。將“編號(hào)”變量移入“個(gè)案標(biāo)記依據(jù)”框中;將“聚類數(shù)”設(shè)為3。 其余“迭代”、“保存” 和“選項(xiàng)”設(shè)置參見教材。,9.3 K-均值聚類,第4步 主要結(jié)果及分析:,初始聚類中心表,由于沒有指定初始聚類中心,列出了由系統(tǒng)指定的類中心。與原數(shù)據(jù)比較,發(fā)現(xiàn)它們分別是第1、第6和第7號(hào)個(gè)案。,9.3 K-均值聚類,第4步 主要結(jié)果及分析:,迭代歷史表,由表可知,第一次迭代后,3個(gè)類的中心點(diǎn)分別變化了8.193,9.889和13.472。一共進(jìn)行了10次迭代,達(dá)到聚類結(jié)果的要求(達(dá)到最大迭代次數(shù)),聚類分析結(jié)束。,9.3 K-均值聚類,最終聚類中心表,如第1類的學(xué)習(xí)動(dòng)機(jī)值為39,學(xué)習(xí)態(tài)度值為77,自我感覺值為55,學(xué)習(xí)效果值為45。,樣本數(shù)情況,可看出第1,2,3類中分別含有2,4,6個(gè)樣本,9.3 K-均值聚類,分類保存情況,查看數(shù)據(jù)文件,可看到多出兩個(gè)變量,分別表示每個(gè)個(gè)案的具體分類歸屬和與類中心的距離。,主要內(nèi)容,9.1 聚類和判別分析簡介 9.2 二階聚類 9.3 K-均值聚類 9.4 系統(tǒng)聚類 9.5 判別分析,,9.4 系統(tǒng)聚類,9.4.1 基本概念與統(tǒng)計(jì)原理 (1)基本概念 系統(tǒng)聚類是效果最好且經(jīng)常使用的方法之一,國內(nèi)外對(duì)它進(jìn)行了深入的研究,系統(tǒng)聚類在聚類過程中是按一定層次進(jìn)行的。具體分成兩種,分別是Q型聚類和R型聚類,Q型聚類是對(duì)樣本(個(gè)案)進(jìn)行的分類,它將具有共同特點(diǎn)的個(gè)案聚集在一起,以便對(duì)不同類的樣本進(jìn)行分析;R型聚類是對(duì)變量進(jìn)行的聚類,它使具有共同特征的變量聚在一起,以便對(duì)不同類的變量進(jìn)行分析。,9.4 系統(tǒng)聚類,9.4.1 基本概念與統(tǒng)計(jì)原理 (2) 統(tǒng)計(jì)原理 系統(tǒng)聚類是根據(jù)個(gè)案或變量之間的親疏程度,將最相似的對(duì)象聚集在一起。根據(jù)系統(tǒng)聚類過程的不同,又分為凝聚法和分解法兩種。凝聚法的原理是將參與聚類的每個(gè)個(gè)案(或變量)視為一類,根據(jù)兩類之間的距離或相似性,逐步合并直到合并為一個(gè)大類為止;分解法的原理是將所有個(gè)案(或變量)都視為一類,然后根據(jù)距離和相似性逐層分解,直到參與聚類的每個(gè)個(gè)案(或變量)自成一類為止。 在層次聚類中,度量數(shù)據(jù)之間的親疏程度是極為關(guān)鍵的。在衡量樣本與樣本之間的距離時(shí),一般使用的距離有Eulcidean Distance、Squared Euclidean Distance、切比雪夫距離、Block距離、明可斯基距離(Minkowshi)、夾角余弦(Cosine)等。,9.4 系統(tǒng)聚類,9.4.1 基本概念與統(tǒng)計(jì)原理 (2) 統(tǒng)計(jì)原理 衡量樣本數(shù)據(jù)與小類、小類與小類之間親疏程度的度量方法主要有以下7種: 最短距離法(Nearest Neighbor) ; 最長距離法(Furthest Neighbor) ; 類間平均鏈鎖法(Between-groups Linkage); 類內(nèi)平均鏈鎖法(Within-groups Linkage) ; 重心法(Centriod Clustering) ; 中間距離法(Median Clustering); 離差平方和(Ward’s Method)。,9.4 系統(tǒng)聚類,9.4.2 SPSS實(shí)現(xiàn)舉例 【例9-3】已知29例兒童的血中血紅蛋白、鈣、鎂、鐵、錳、銅的含量如下表,試對(duì)數(shù)據(jù)進(jìn)行變量聚類分析。,9.4 系統(tǒng)聚類,第1步 分析:根據(jù)題目要求,需進(jìn)行變量聚類分析(即R型聚類),故采用系統(tǒng)聚類分析中的R型聚類進(jìn)行處理。 第2步 數(shù)據(jù)組織:如上表定義七個(gè)變量:“order”(編號(hào))、“ca”(鈣)、“mg”(鎂)、“fe”(鐵)、“mn”(錳)、“cu”(銅)和“hemogl”(血紅蛋白),其中“order”為字符串型,其余變量為數(shù)值型。 第3步 進(jìn)行按變量聚類的設(shè)置: 按“分析→分類→系統(tǒng)聚類”打開“系統(tǒng)聚類分析”對(duì)話框,將“ca”(鈣)、“mg”(鎂)、“fe”(鐵)、“mn”(錳)、“cu”(銅)和“hemogl”(血紅蛋白)幾個(gè)變量選入“變量”列表框。設(shè)置按“變量”分類,并選擇輸出“統(tǒng)計(jì)量”和“圖”,以激活“統(tǒng)計(jì)量(S)…”和“繪制(T)…“兩個(gè)按鈕。 具體如下面圖所示。,9.4 系統(tǒng)聚類,9.4 系統(tǒng)聚類,第4步 主要結(jié)果及分析:,凝聚順序表,第1步是第4個(gè)變量和第5個(gè)變量進(jìn)行聚類,變量間的距離系數(shù)為6.028,這個(gè)結(jié)果將在第2步中用到;第2步是經(jīng)過第1步聚類后的變量4和變量5與變量6進(jìn)行聚類,變量間的距離系數(shù)為54.938,這個(gè)結(jié)果將在第4步中用到。以此類推,這6個(gè)變量經(jīng)過5步聚類最終聚成一個(gè)大類。,9.4 系統(tǒng)聚類,第4步 主要結(jié)果及分析:,系統(tǒng)聚類的冰柱圖,圖的縱坐標(biāo)表示聚類的數(shù)目,我們從圖的最下方看起,從5類,逐漸到4類、3類、2類,最后聚成一個(gè)大類。首先是“銅”和“錳”聚成一類,其余每個(gè)變量各為一類。第2步再將“血紅蛋白”聚到“銅”和“錳”一類中,原先的6個(gè)變量就變成了4類。以此類推,經(jīng)過5步聚類,最后將所有變量聚成了一個(gè)大類。,9.4 系統(tǒng)聚類,第4步 主要結(jié)果及分析:,系統(tǒng)聚類的樹狀圖,第1步將“cu(銅)”和“mn(錳)”聚成一類,第2步將“hemogl(血紅蛋白)”聚到“cu(銅)”和“mn(錳)”類中,第3步將“ca(鈣)”和“mg(鎂)”聚成一類。以此類推,最后聚成一個(gè)大類。這與聚類順序表和聚類冰柱圖的分析結(jié)果是一致的。,主要內(nèi)容,9.1 聚類和判別分析簡介 9.2 二階聚類 9.3 K-均值聚類 9.4 系統(tǒng)聚類 9.5 判別分析,,9.5 判別分析,9.5.1 基本概念與統(tǒng)計(jì)原理 (1)基本概念 判別分析(Discriminant Analysis)是多元統(tǒng)計(jì)分析中用于判別樣本所屬類型的一種統(tǒng)計(jì)方法。它要解決的問題是在一些已知研究對(duì)象用某種方法已分成若干類的情況下,確定新的觀察數(shù)據(jù)屬于已知類別中的哪一類。判別分析是應(yīng)用很強(qiáng)的一種多元統(tǒng)計(jì)分析方法。 (2) 統(tǒng)計(jì)原理 判別分析按判別組數(shù)來分,有兩組判別分析和多組判別分析,按區(qū)分不同總體所用的數(shù)學(xué)模型來分,有線性差別和非線性判別。判別分析可以從不同的角度提出問題,因此有不同的判別準(zhǔn)則,如費(fèi)歇爾(Fisher)準(zhǔn)則和貝葉斯(Bayes)準(zhǔn)則。,判別函數(shù)的一般形式是,9.5 判別分析,分析步驟 第1步 計(jì)算特征值:計(jì)算需要用到的一些反映樣本的特征值,比如均值、協(xié)方差矩陣等。 第2步 建立判別函數(shù):判別函數(shù)的一般形式如式10.1建立判別函數(shù)就是要確定這些系數(shù)。 第3步 確定判別準(zhǔn)則:如費(fèi)歇爾(Fisher)準(zhǔn)則和貝葉斯(Bayes)準(zhǔn)則。 第4步 檢驗(yàn)判別效果:驗(yàn)證判別函數(shù)用來進(jìn)行判別時(shí)的準(zhǔn)確度。 第5步 分類:根據(jù)所建立的判別函數(shù)對(duì)待判樣本進(jìn)行分類。,9.5 判別分析,9.5.2 SPSS實(shí)例分析 【例9-4】 下表是健康人(c = 1)、硬化癥患者(c = 2)和冠心病患者(c = 3)三種人群的心電圖的5個(gè)指標(biāo)(x1~x5)數(shù)據(jù),其中有19個(gè)樣本是確定的分類,另又測出4個(gè)人的相關(guān)指標(biāo),試根據(jù)確定分類的樣本對(duì)這未確定的樣本進(jìn)行分類。,9.5 判別分析,第1步 分析:由于部分樣本已經(jīng)有分類標(biāo)記,還有幾個(gè)待分類樣本。這顯然屬于根據(jù)已知分類樣本的信息對(duì)未分類樣本進(jìn)行分類的情況,用判別分析進(jìn)行處理。 第2步 數(shù)據(jù)組織:建立7個(gè)變量。分別是“序號(hào)”、“x1”、“x2”、“x3”、“x4”、“x5”和“c”,均為數(shù)值型變量。輸入數(shù)據(jù),對(duì)第20條~23條的類別“c”變量,不填數(shù)據(jù),作為缺失值處理,存盤并保存。 第3步 判別分析設(shè)置: 按如下圖示進(jìn)行設(shè)置,9.5 判別分析,9.5 判別分析,第4步 主要結(jié)果及分析:,分析案例處理摘要表,表明共23條記錄,已分好類的19條,有4條需進(jìn)行分類。,匯聚的變量之間相關(guān)矩陣表,給出了這五個(gè)自變量之間的相關(guān)系數(shù),如變量“x1”與變量“x2”之間的相關(guān)系數(shù)為0.059。,9.5 判別分析,特征值表,判別函數(shù)的顯著性檢驗(yàn)結(jié)果表,由于本例中預(yù)測變量為5個(gè),類別數(shù)為3,因此判別函數(shù)的個(gè)數(shù)為2(即min(3-1,5)=2)。判別函數(shù)的特征值越大,表明該函數(shù)越具有區(qū)別力。第一個(gè)判別函數(shù)的特征值為1.386,第二個(gè)為0.408。,其中“1到2”表示兩個(gè)判別函數(shù)的平均數(shù)在3個(gè)級(jí)別間的差異情況?!?”表示在排除第一個(gè)判別函數(shù)后,第二個(gè)函數(shù)在3個(gè)級(jí)別間的差異情況。從最后的顯著性概率Sig.來看,其兩個(gè)判別函數(shù)的效果并不十分顯著,9.5 判別分析,判別系數(shù)表,9.5 判別分析,分類結(jié)果概述表,從表中可以看出,有23條個(gè)案被成功分類。,9.5 判別分析,分類函數(shù)系數(shù)表,9.5 判別分析,各類區(qū)域圖及分類標(biāo)記情況圖,這是以根據(jù)每個(gè)個(gè)案計(jì)算出的判別分?jǐn)?shù)為坐標(biāo),以典則判別函數(shù)1為橫軸,以典則判別函數(shù)2為縱軸,所繪出的散點(diǎn)圖??梢钥闯?,在圖中分出了1,2,3三個(gè)區(qū)域,在圖中也標(biāo)出了各類的中心(其中心用“*”表示)。,9.5 判別分析,分類結(jié)果矩陣,對(duì)角線顯示的為準(zhǔn)確預(yù)測的個(gè)數(shù),其余為錯(cuò)誤預(yù)測的個(gè)數(shù)。從該表可以看出,已經(jīng)分的19個(gè)個(gè)案正確分類17個(gè),錯(cuò)誤分類2個(gè)。正確率還是比較高的。根據(jù)這19個(gè)個(gè)案為先驗(yàn)數(shù)據(jù),將待分類的4個(gè)個(gè)案分別分入1,2,3類的分別有1,1,2個(gè)。,9.5 判別分析,分類保存結(jié)果圖,,The End,- 1.請(qǐng)仔細(xì)閱讀文檔,確保文檔完整性,對(duì)于不預(yù)覽、不比對(duì)內(nèi)容而直接下載帶來的問題本站不予受理。
- 2.下載的文檔,不會(huì)出現(xiàn)我們的網(wǎng)址水印。
- 3、該文檔所得收入(下載+內(nèi)容+預(yù)覽)歸上傳者、原創(chuàng)作者;如果您是本文檔原作者,請(qǐng)點(diǎn)此認(rèn)領(lǐng)!既往收益都?xì)w您。
下載文檔到電腦,查找使用更方便
20 積分
下載 |
- 配套講稿:
如PPT文件的首頁顯示word圖標(biāo),表示該P(yáng)PT已包含配套word講稿。雙擊word圖標(biāo)可打開word文檔。
- 特殊限制:
部分文檔作品中含有的國旗、國徽等圖片,僅作為作品整體效果示例展示,禁止商用。設(shè)計(jì)者僅對(duì)作品中獨(dú)創(chuàng)性部分享有著作權(quán)。
- 關(guān) 鍵 詞:
- 判別分析 ppt 課件
鏈接地址:http://www.szxfmmzy.com/p-1309911.html