九九热最新网址,777奇米四色米奇影院在线播放,国产精品18久久久久久久久久,中文有码视频,亚洲一区在线免费观看,国产91精品在线,婷婷丁香六月天

數據挖掘技術 分類挖掘及其應用PPT課件

上傳人:可**** 文檔編號:94070676 上傳時間:2022-05-21 格式:PPTX 頁數:22 大?。?84.37KB
收藏 版權申訴 舉報 下載
數據挖掘技術 分類挖掘及其應用PPT課件_第1頁
第1頁 / 共22頁
數據挖掘技術 分類挖掘及其應用PPT課件_第2頁
第2頁 / 共22頁
數據挖掘技術 分類挖掘及其應用PPT課件_第3頁
第3頁 / 共22頁

下載文檔到電腦,查找使用更方便

20 積分

下載資源

還剩頁未讀,繼續(xù)閱讀

資源描述:

《數據挖掘技術 分類挖掘及其應用PPT課件》由會員分享,可在線閱讀,更多相關《數據挖掘技術 分類挖掘及其應用PPT課件(22頁珍藏版)》請在裝配圖網上搜索。

1、第5章 分類挖掘及其應用5.1 分類概念分類概念 5.1.1概述概述 分類和預測是兩種數據分析形式,可以用于描述重要數據類的分類和預測是兩種數據分析形式,可以用于描述重要數據類的模型或預測未來的數據趨勢。然而模型或預測未來的數據趨勢。然而,分類是預測分類標號(或離散值分類是預測分類標號(或離散值),而預測建立連續(xù)值函數模型。而預測建立連續(xù)值函數模型。 數據分類(數據分類(data classification)是一個兩步過程)是一個兩步過程: 第一步,建立一個模型第一步,建立一個模型,描述預定的數據類集或概念集描述預定的數據類集或概念集 ; 第二步,使用模型進行分類。第二步,使用模型進行分類。

2、 如果認為模型的準確率可以接受如果認為模型的準確率可以接受,就可以用它對類標號未知的數據就可以用它對類標號未知的數據元組或對象進行分類。元組或對象進行分類。 分類具有廣泛的應用分類具有廣泛的應用,包括信譽證實、醫(yī)療診斷、性能預測和選擇包括信譽證實、醫(yī)療診斷、性能預測和選擇購物。購物。第1頁/共22頁5.1.2分類預處理分類預處理準備分類的數據準備分類的數據 可以對數據使用下面的預處理以便提高分類過程的準確性、可以對數據使用下面的預處理以便提高分類過程的準確性、有效性有效性 和可伸縮性。和可伸縮性。 1)數據清理)數據清理 2)相關性分析)相關性分析 3)數據變換)數據變換 分類方法評估分類方法

3、評估 分類方法可以根據下列標準進行比較和評估。分類方法可以根據下列標準進行比較和評估。 1)測的準確率)測的準確率 2)速度)速度 3)強壯性)強壯性 4)可伸縮性)可伸縮性 5)可解)可解釋性釋性 數據庫研究界對數據挖掘的分類的貢獻一直強調可伸縮性,數據庫研究界對數據挖掘的分類的貢獻一直強調可伸縮性,特別是特別是 對判定樹歸納。對判定樹歸納。第5章 分類挖掘及其應用第2頁/共22頁5.2 分類挖掘算分類挖掘算法法 5.2.1決策樹分類決策樹分類 決策樹學習算法包括如決策樹學習算法包括如ID3算法(算法(C4.5), SLI(supervised learning in quest)算法。)算

4、法。 5.2.2 貝葉斯分類貝葉斯分類 貝葉斯分類算法是利用概率統(tǒng)計知識進行分類的分類算法。貝葉斯分類算法是利用概率統(tǒng)計知識進行分類的分類算法。 5.2.3 基于關聯規(guī)則分類基于關聯規(guī)則分類 CBA算法(算法(classification based on association)是)是基于關聯規(guī)則的分類算法?;陉P聯規(guī)則的分類算法。 LB(Large Bayes)算法是綜合了概率統(tǒng)計和關聯規(guī)則的)算法是綜合了概率統(tǒng)計和關聯規(guī)則的知識而提出的分類算法。知識而提出的分類算法。 5.2.4 基于數據庫技術分類基于數據庫技術分類 在分類算法中,利用數據庫技術解決分類問題的算法。目前,在分類算法中,利

5、用數據庫技術解決分類問題的算法。目前,有有MIND和和GAC-RDB兩類。兩類。第5章 分類挖掘及其應用第3頁/共22頁 5.2.5 基于支持向量機分類基于支持向量機分類 支持向量機(支持向量機(SVM)分類算法是在有較堅實數學理論基礎的)分類算法是在有較堅實數學理論基礎的統(tǒng)計學理論及優(yōu)化技術之上發(fā)展起來的機器學習方法。統(tǒng)計學理論及優(yōu)化技術之上發(fā)展起來的機器學習方法。 One-class是標準是標準SVM分類算法的改進,該算法(無監(jiān)督)分類算法的改進,該算法(無監(jiān)督)僅僅需要使用正例作為輸入數據,通過從正例中識別出孤立點作僅僅需要使用正例作為輸入數據,通過從正例中識別出孤立點作為反例,然后再使

6、用基于為反例,然后再使用基于SVM的標準分類技術來完成分類的標準分類技術來完成分類 。 其他分類算法還包括神經網絡方法,其他分類算法還包括神經網絡方法,k_最鄰近分類,粗糙集合最鄰近分類,粗糙集合方法,模糊集方法等。方法,模糊集方法等。 5.2.6 基于基于AIS模型分類算法模型分類算法 這種分類算法主要用來找尋樣本集合中主要類別的分類規(guī)則,這種分類算法主要用來找尋樣本集合中主要類別的分類規(guī)則,用于劃分主類和其他類。對于其他類,同樣可以看做一個樣本集用于劃分主類和其他類。對于其他類,同樣可以看做一個樣本集合,再次利用該分類算法進行分類。合,再次利用該分類算法進行分類。 第5章 分類挖掘及其應用

7、第4頁/共22頁5.3人工免疫算法及其在故障診斷中的應人工免疫算法及其在故障診斷中的應用用 5.3.1人工免疫算法人工免疫算法5.3.1.1引言引言 本節(jié)闡明了不同免疫算法或免疫理論的原理,同時也提出了常用本節(jié)闡明了不同免疫算法或免疫理論的原理,同時也提出了常用的人工免疫系統(tǒng)的一般模型框架。這些技術己經被成功的用于模式識別的人工免疫系統(tǒng)的一般模型框架。這些技術己經被成功的用于模式識別和數據挖掘、故障檢測與診斷、計算機安全及其它各種應用。和數據挖掘、故障檢測與診斷、計算機安全及其它各種應用。5.3.1.2典型的人工免疫算法典型的人工免疫算法(1)克隆選擇算法;)克隆選擇算法;(2)否定選擇算法;

8、)否定選擇算法;(3)免疫網絡算法)免疫網絡算法 ;(4)基于信息嫡的免疫算法;)基于信息嫡的免疫算法;(5)免疫進化算法;)免疫進化算法;(6)其它學習算法:免疫目標算法、免疫)其它學習算法:免疫目標算法、免疫Agent算法、免疫算法、免疫DNA算法、算法、基于人工免疫系統(tǒng)的無監(jiān)督學習策略?;谌斯っ庖呦到y(tǒng)的無監(jiān)督學習策略。第5章 分類挖掘及其應用第5頁/共22頁5.3.2基于否定選擇算法的故障診斷方基于否定選擇算法的故障診斷方法法 在現階段的故障診斷領域,常用的診斷方法包括模在現階段的故障診斷領域,常用的診斷方法包括模糊診斷、專家系統(tǒng)、人工神經網絡等,主要思想是將人糊診斷、專家系統(tǒng)、人工神

9、經網絡等,主要思想是將人們掌握的有關故障的知識加工成智能診斷系統(tǒng)所能接受們掌握的有關故障的知識加工成智能診斷系統(tǒng)所能接受的語言或語法,并將其存儲記錄下來,診斷過程的實質的語言或語法,并將其存儲記錄下來,診斷過程的實質是待診樣本與系統(tǒng)所記憶的故障知識的匹配過程。是待診樣本與系統(tǒng)所記憶的故障知識的匹配過程。第5章 分類挖掘及其應用第6頁/共22頁5.3.2.1基于基于aiNet故障樣本約減研究故障樣本約減研究免疫網絡模型免疫網絡模型 )網絡定義與描述網絡定義與描述 【定義定義】aiNet是一個邊界加權圖,無需全部連接,是一個邊界加權圖,無需全部連接,又稱為又稱為細胞的節(jié)點集合組成,節(jié)點對集合稱為邊

10、界。細胞的節(jié)點集合組成,節(jié)點對集合稱為邊界。 2)網絡算法約減過程網絡算法約減過程(如下圖)(如下圖)第5章 分類挖掘及其應用第7頁/共22頁 圖圖5-1 aiNet算法流程圖算法流程圖 第5章 分類挖掘及其應用第8頁/共22頁 3)實驗結果分析)實驗結果分析 綜上分析表明綜上分析表明aiNet網絡具有較好的數據約網絡具有較好的數據約減能力,在樣本壓縮率減能力,在樣本壓縮率較高的情況下,仍能保較高的情況下,仍能保持原有的數據結構和聚持原有的數據結構和聚類特性類特性.第5章 分類挖掘及其應用免疫網絡模型第9頁/共22頁5.3.2.2基于否定選擇算法的變壓器故障診斷基于否定選擇算法的變壓器故障診斷

11、方法方法 傳統(tǒng)變壓器故障診斷方法傳統(tǒng)變壓器故障診斷方法-三比值法簡介三比值法簡介 三比值法是三比值法是IEC推薦的一種方法推薦的一種方法,是羅杰斯比值法的是羅杰斯比值法的一種改進一種改進。該方法是通過計該方法是通過計C2H2/C2H4,CH4/H2,C2H4/C2H6三種比值三種比值,根據根據已知的編碼規(guī)則和故障類別已知的編碼規(guī)則和故障類別,查表確定故障類別。查表確定故障類別。 基于否定選擇算法故障診斷方法基于否定選擇算法故障診斷方法 1)數據處理及編碼)數據處理及編碼 2)匹配原則)匹配原則 3)生成檢測器)生成檢測器 4)仿真實驗)仿真實驗 第5章 分類挖掘及其應用第10頁/共22頁5.3

12、.2.3免疫算法診斷結果和傳統(tǒng)免疫算法診斷結果和傳統(tǒng)“三比值三比值”診斷結果的的比診斷結果的的比較較 從實例分析的結果來看,基于人工免疫的否定選擇算法的故從實例分析的結果來看,基于人工免疫的否定選擇算法的故障診斷準確率要高于障診斷準確率要高于IEC三比值法三比值法。 (1)檢測器的個數檢測器的個數 一般情況下,檢測器的個數越多,對非我空間的覆蓋越好,一般情況下,檢測器的個數越多,對非我空間的覆蓋越好,但生成檢測器的時間也越長。而如果檢測器數量太少,則會導致對但生成檢測器的時間也越長。而如果檢測器數量太少,則會導致對非我空間的覆蓋過小而造成漏診。非我空間的覆蓋過小而造成漏診。 (2)正常樣本的個

13、數正常樣本的個數 否定選擇算法是通過對正常樣本的學習來生成檢測器的,所以否定選擇算法是通過對正常樣本的學習來生成檢測器的,所以正常樣本越多,則對自我空間的描述越完全,但由于生成檢測器時,正常樣本越多,則對自我空間的描述越完全,但由于生成檢測器時,候選檢測器要與每個自我集合的元素匹配,這樣自我集合的元素越候選檢測器要與每個自我集合的元素匹配,這樣自我集合的元素越多,生成檢測器的時間也就越長,而如果正常樣本少,則會導致誤多,生成檢測器的時間也就越長,而如果正常樣本少,則會導致誤診現象診現象。第5章 分類挖掘及其應用第11頁/共22頁(3)自我集合的半徑自我集合的半徑 自我集合的半徑選取非常重要,取

14、得大會造成漏診,較自我集合的半徑選取非常重要,取得大會造成漏診,較小。則會造成誤診,通過反復試驗選取自我集合半徑為小。則會造成誤診,通過反復試驗選取自我集合半徑為0.01時效果最好。時效果最好。 (4)窗寬及窗口移動步長窗寬及窗口移動步長 窗寬越小對原始數據描述得越好,同時也增加了算法的復窗寬越小對原始數據描述得越好,同時也增加了算法的復雜度。通過對窗口移動步長雜度。通過對窗口移動步長winstep選取不同的值選取不同的值1,2,3,4,5進行試驗,發(fā)現當窗口移動步長進行試驗,發(fā)現當窗口移動步長winstep=1時時效果最好,因為移動步長越小,數據段之間的交迭越大,效果最好,因為移動步長越小,

15、數據段之間的交迭越大,這樣便能夠更好地刻畫原始數據的特征。這樣便能夠更好地刻畫原始數據的特征。第5章 分類挖掘及其應用第12頁/共22頁5.3.3基于克隆變異機理的故障診斷方法研基于克隆變異機理的故障診斷方法研究究5.3.3.1引言引言 在本書中,借鑒免疫系統(tǒng)的克隆變異機理及已有人在本書中,借鑒免疫系統(tǒng)的克隆變異機理及已有人工免疫系統(tǒng)成果,結合故障診斷的實際應用,研究具有工免疫系統(tǒng)成果,結合故障診斷的實際應用,研究具有故障診斷能力,同時又具有對故障樣本的連續(xù)學習功能故障診斷能力,同時又具有對故障樣本的連續(xù)學習功能的自適應故障診斷方法。最后通過對標準樣本的分類識的自適應故障診斷方法。最后通過對標

16、準樣本的分類識別及實際的故障診斷實例驗證了本書提出方法的有效性。別及實際的故障診斷實例驗證了本書提出方法的有效性。第5章 分類挖掘及其應用第13頁/共22頁5.3.3.2免疫克隆變異機理與克隆選擇免疫克隆變異機理與克隆選擇算法算法 當非己抗原模式被當非己抗原模式被B細胞識別時免疫系統(tǒng)將會把與細胞識別時免疫系統(tǒng)將會把與抗原具有高親和力的抗原具有高親和力的B細胞進行克隆變異形成大量抗體,細胞進行克隆變異形成大量抗體,即克隆選擇原理。即克隆選擇原理。De Castro博士依據此原理提出了博士依據此原理提出了克隆選擇算法。這是一種模擬免疫系統(tǒng)學習過程的進化克隆選擇算法。這是一種模擬免疫系統(tǒng)學習過程的進

17、化算法算法。 第5章 分類挖掘及其應用第14頁/共22頁5.3.3.3故障診斷方法研究故障診斷方法研究(1)初始化)初始化 初始化可采用這種方法進行:用已知抗原進行初始化初始化可采用這種方法進行:用已知抗原進行初始化。 (2)記憶細胞辨識和人工辨識球的產生)記憶細胞辨識和人工辨識球的產生 在完成初始化后,對于給定抗原,首先將其與記憶細胞集進在完成初始化后,對于給定抗原,首先將其與記憶細胞集進行匹配,在記憶細胞集中,找出與抗原同類且激勵水平最高的記行匹配,在記憶細胞集中,找出與抗原同類且激勵水平最高的記憶細胞,并將該細胞命名為憶細胞,并將該細胞命名為 。如果在記憶細胞集中相同。如果在記憶細胞集中

18、相同于抗原類的記憶細胞為空,則將該抗原加入記憶細胞,并令其于抗原類的記憶細胞為空,則將該抗原加入記憶細胞,并令其為為 。一旦被確定,該細胞將被加入到人工辨識球集合,然。一旦被確定,該細胞將被加入到人工辨識球集合,然后對后對 進行克隆變異,以便產生新的人工辨識球。這一過進行克隆變異,以便產生新的人工辨識球。這一過程模擬了免疫系統(tǒng)克隆變異的自適應進化機理。程模擬了免疫系統(tǒng)克隆變異的自適應進化機理。matchmcmatchmcmatchmc第5章 分類挖掘及其應用第15頁/共22頁 (3)候選記憶細胞)候選記憶細胞 經過資源的競爭后,每類中都刪除了一些低辨識水平的人工經過資源的競爭后,每類中都刪除了

19、一些低辨識水平的人工辨識球,是整個辨識水平得到了提高。當進化條件滿足后,選擇辨識球,是整個辨識水平得到了提高。當進化條件滿足后,選擇與訓練抗原具有相同類且激勵水平最高的人工辨識球作為候選記與訓練抗原具有相同類且激勵水平最高的人工辨識球作為候選記憶細胞,將該細胞定為。憶細胞,將該細胞定為。 (4)記憶細胞矩陣的形成)記憶細胞矩陣的形成 首先計算候選記憶細胞首先計算候選記憶細胞 , 兩個細胞與給兩個細胞與給定抗原的激勵值,當滿足式(定抗原的激勵值,當滿足式(5-22)和式()和式(5-23)兩個條件時,)兩個條件時,可將可將 取代取代 ,如果只滿足式(,如果只滿足式(5-22),直接將),直接將

20、加入記憶細胞矩陣。加入記憶細胞矩陣。candidateMCmatchmccandidateMCcandidateMCmatchmccandidateMC(,)(,)stim mccandidate agstim mcmatch ag(,) affi mccandidate mcmatchATS AT(5-22)(5-23)第5章 分類挖掘及其應用第16頁/共22頁(5)故障診斷過程)故障診斷過程圖圖5-2 基于克隆變異機理的故障診斷框圖基于克隆變異機理的故障診斷框圖(6)實驗仿真)實驗仿真第5章 分類挖掘及其應用第17頁/共22頁 本章闡述了分類概念,論述了決策樹分類、貝葉斯分類、本章闡述了分

21、類概念,論述了決策樹分類、貝葉斯分類、基于關聯規(guī)則分類、基于數據庫技術分類、基于支持向量機基于關聯規(guī)則分類、基于數據庫技術分類、基于支持向量機的分類、基于的分類、基于AIS模型分類算法等分類算法。對課題人工免模型分類算法等分類算法。對課題人工免疫算法及其在故障診斷中的應用進行了詳細的討論,以此說疫算法及其在故障診斷中的應用進行了詳細的討論,以此說明分類挖掘在解決復雜工程問題中的應用情況。明分類挖掘在解決復雜工程問題中的應用情況。 本章以人工免疫算法的理論和應用為研究內容做了一些本章以人工免疫算法的理論和應用為研究內容做了一些工作。除了在理論上對人工免疫系統(tǒng)及其算法的基礎原理和工作。除了在理論上

22、對人工免疫系統(tǒng)及其算法的基礎原理和各種類型的免疫算法做了研究和分析外,最主要的是通過對各種類型的免疫算法做了研究和分析外,最主要的是通過對人工免疫算法的研究分析,提出了新的改進算法,開拓了免人工免疫算法的研究分析,提出了新的改進算法,開拓了免疫算法的應用領域疫算法的應用領域。第5章 分類挖掘及其應用第18頁/共22頁習習 題題 51簡述判定樹分類的主要步驟。簡述判定樹分類的主要步驟。2在判定樹歸納中,為什么樹剪枝是有用的?用一個單獨的樣在判定樹歸納中,為什么樹剪枝是有用的?用一個單獨的樣 本集計值剪枝的缺點是什么?本集計值剪枝的缺點是什么?3給定判定樹,你有兩種可能的選擇。給定判定樹,你有兩種

23、可能的選擇。 (1)將判定樹轉換成規(guī)則)將判定樹轉換成規(guī)則,然后對結果規(guī)則剪枝。然后對結果規(guī)則剪枝。 (2)對判定樹剪枝)對判定樹剪枝,然后將剪枝后的樹轉換成規(guī)然后將剪枝后的樹轉換成規(guī)則則。相對于(相對于(2),(),(1)的優(yōu)點是什么?)的優(yōu)點是什么?4為什么樸素貝葉斯分類稱為為什么樸素貝葉斯分類稱為“樸素樸素”的?簡述樸素貝葉斯分類的主要思想。的?簡述樸素貝葉斯分類的主要思想。5比較急切分類(如判定樹、貝葉斯、神經網絡)相對于懶散分類(如,比較急切分類(如判定樹、貝葉斯、神經網絡)相對于懶散分類(如,K-最臨近、基于案例的推理)的優(yōu)缺點。最臨近、基于案例的推理)的優(yōu)缺點。第5章 分類挖掘及

24、其應用第19頁/共22頁習習 題題 56下表由雇員數據庫的訓練數據組成。數據已概化。對于給定的行,下表由雇員數據庫的訓練數據組成。數據已概化。對于給定的行,count表示表示department,status,age和和salary在該行上具有給定值的元組數。設在該行上具有給定值的元組數。設salary是類標號屬性。是類標號屬性。 (1)你將如何修改你將如何修改ID3算法,以便考慮每個概化數據元組(即每一行)算法,以便考慮每個概化數據元組(即每一行) 的的count? (2)使用你修改過的使用你修改過的ID3算法,構造給定數據的判定樹。算法,構造給定數據的判定樹。 (3)給定一個數據樣本,它在

25、屬性)給定一個數據樣本,它在屬性department,status和和age上的值分上的值分別為別為“systems”、“junior”和和“2024”。該樣本的。該樣本的salary的樸素貝葉斯的樸素貝葉斯分類是什么?分類是什么? (4)為給定的數據設計一個多層前饋神經網絡。標記輸入和輸出層節(jié)點。)為給定的數據設計一個多層前饋神經網絡。標記輸入和輸出層節(jié)點。 (5)使用上面得到的多層前饋神經網絡,給定訓練實例)使用上面得到的多層前饋神經網絡,給定訓練實例“(sales, senior, 3135, 46K50K)”,給出后向傳播算法一次迭代后的權值。指出你使用的,給出后向傳播算法一次迭代后的

26、權值。指出你使用的初始權值和偏置以及學習率。初始權值和偏置以及學習率。第5章 分類挖掘及其應用第20頁/共22頁departmentstatus age salary count salessenior 3135 46K50K 30 Salesjunior 2630 26K30K 40 Salesjunior 3135 31K35K 40 systemsjunior 2125 46K50K 20 systemssenior 3135 66K70K 5 systemsjunior 2630 46K50K 3 systemssenior 4145 66K70K 3 marketing senior 3640 46K50K 10 marketing junior 3135 41K45K 4secretary senior 4650 36K40K 4secretary junior 2630 26K30K 67給定和描述每個樣本的屬性數,寫一個給定和描述每個樣本的屬性數,寫一個K-最臨近分類算法。最臨近分類算法。第5章 分類挖掘及其應用習 題 5第21頁/共22頁感謝您的觀看。第22頁/共22頁

展開閱讀全文
溫馨提示:
1: 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2: 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
3.本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
5. 裝配圖網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

相關資源

更多
正為您匹配相似的精品文檔
關于我們 - 網站聲明 - 網站地圖 - 資源地圖 - 友情鏈接 - 網站客服 - 聯系我們

copyright@ 2023-2025  zhuangpeitu.com 裝配圖網版權所有   聯系電話:18123376007

備案號:ICP2024067431-1 川公網安備51140202000466號


本站為文檔C2C交易模式,即用戶上傳的文檔直接被用戶下載,本站只是中間服務平臺,本站所有文檔下載所得的收益歸上傳人(含作者)所有。裝配圖網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對上載內容本身不做任何修改或編輯。若文檔所含內容侵犯了您的版權或隱私,請立即通知裝配圖網,我們立即給予刪除!