九九热最新网址,777奇米四色米奇影院在线播放,国产精品18久久久久久久久久,中文有码视频,亚洲一区在线免费观看,国产91精品在线,婷婷丁香六月天

《數(shù)據(jù)挖掘技術(shù)》PPT課件.ppt

上傳人:san****019 文檔編號(hào):15717122 上傳時(shí)間:2020-09-01 格式:PPT 頁(yè)數(shù):176 大?。?.50MB
收藏 版權(quán)申訴 舉報(bào) 下載
《數(shù)據(jù)挖掘技術(shù)》PPT課件.ppt_第1頁(yè)
第1頁(yè) / 共176頁(yè)
《數(shù)據(jù)挖掘技術(shù)》PPT課件.ppt_第2頁(yè)
第2頁(yè) / 共176頁(yè)
《數(shù)據(jù)挖掘技術(shù)》PPT課件.ppt_第3頁(yè)
第3頁(yè) / 共176頁(yè)

下載文檔到電腦,查找使用更方便

14.9 積分

下載資源

還剩頁(yè)未讀,繼續(xù)閱讀

資源描述:

《《數(shù)據(jù)挖掘技術(shù)》PPT課件.ppt》由會(huì)員分享,可在線閱讀,更多相關(guān)《《數(shù)據(jù)挖掘技術(shù)》PPT課件.ppt(176頁(yè)珍藏版)》請(qǐng)?jiān)谘b配圖網(wǎng)上搜索。

1、于 金 霞 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,信息管理與信息系統(tǒng)專業(yè)課程,第三講 數(shù)據(jù)挖掘技術(shù),主要內(nèi)容,一、數(shù)據(jù)挖掘概述 二、數(shù)據(jù)預(yù)處理 三、數(shù)據(jù)挖掘算法分類與預(yù)測(cè) 四、數(shù)據(jù)挖掘算法聚類 五、數(shù)據(jù)挖掘算法關(guān)聯(lián)分析 六、序列模式挖掘 七、數(shù)據(jù)挖掘軟件 八、數(shù)據(jù)挖掘應(yīng)用,一、數(shù)據(jù)挖掘概述,數(shù)據(jù)挖掘概念,數(shù)據(jù)挖掘-從大量數(shù)據(jù)中尋找其規(guī)律的技術(shù),是統(tǒng)計(jì)學(xué)、數(shù)據(jù)庫(kù)技術(shù)和人工智能技術(shù)的綜合。 數(shù)據(jù)挖掘是從數(shù)據(jù)中自動(dòng)地抽取模式、關(guān)聯(lián)、變化、異常和有意義的結(jié)構(gòu); 數(shù)據(jù)挖掘大部分的價(jià)值在于利用數(shù)據(jù)挖掘技術(shù)改善預(yù)測(cè)模型。,數(shù)據(jù)挖掘與KDD,數(shù)據(jù)挖掘與KDD,知識(shí)發(fā)現(xiàn)(KD) 輸出的是規(guī)則 數(shù)據(jù)挖掘(DM) 輸出的是模型 共

2、同點(diǎn) 兩種方法輸入的都是學(xué)習(xí)集(learning sets) 目的都是盡可能多的自動(dòng)化數(shù)據(jù)挖掘過(guò)程 數(shù)據(jù)挖掘過(guò)程并不能完全自動(dòng)化,只能半自動(dòng)化,數(shù)據(jù)挖掘的社會(huì)需求,國(guó)民經(jīng)濟(jì)和社會(huì)的信息化,社會(huì)信息化后,社會(huì)的運(yùn)轉(zhuǎn)是軟件的運(yùn)轉(zhuǎn) 社會(huì)信息化后,社會(huì)的歷史是數(shù)據(jù)的歷史,數(shù)據(jù)挖掘的社會(huì)需求,有價(jià)值的知識(shí),可怕的數(shù)據(jù),數(shù)據(jù)挖掘的社會(huì)需求,數(shù)據(jù)爆炸,知識(shí)貧乏,數(shù)據(jù)挖掘的發(fā)展,1989 IJCAI會(huì)議: 數(shù)據(jù)庫(kù)中的知識(shí)發(fā)現(xiàn)討論專題 Knowledge Discovery in Databases (G. Piatetsky-Shapiro and W. Frawley, 1991) 1991-1994 KD

3、D討論專題 Advances in Knowledge Discovery and Data Mining (U. Fayyad, G. Piatetsky-Shapiro, P. Smyth, and R. Uthurusamy, 1996) 1995-1998 KDD國(guó)際會(huì)議 (KDD95-98) Journal of Data Mining and Knowledge Discovery (1997) 1998 ACM SIGKDD, SIGKDD1999-2002 會(huì)議,以及SIGKDD Explorations 數(shù)據(jù)挖掘方面更多的國(guó)際會(huì)議 PAKDD, PKDD, SIAM-Data

4、 Mining, (IEEE) ICDM, DaWaK, SPIE-DM, etc.,數(shù)據(jù)挖掘技術(shù),技術(shù)分類 預(yù)言(Predication):用歷史預(yù)測(cè)未來(lái) 描述(Description):了解數(shù)據(jù)中潛在的規(guī)律 數(shù)據(jù)挖掘技術(shù) 關(guān)聯(lián)分析 序列模式 分類(預(yù)言) 聚集 異常檢測(cè),異常檢測(cè),異常檢測(cè)是數(shù)據(jù)挖掘中一個(gè)重要方面,用來(lái)發(fā)現(xiàn)”小的模式”(相對(duì)于聚類),即數(shù)據(jù)集中間顯著不同于其它數(shù)據(jù)的對(duì)象。 異常探測(cè)應(yīng)用 電信和信用卡欺騙 貸款審批 藥物研究 氣象預(yù)報(bào) 金融領(lǐng)域 客戶分類 網(wǎng)絡(luò)入侵檢測(cè) 故障檢測(cè)與診斷等,什么是異常(outlier)?,Hawkins(1980)給出了異常的本質(zhì)性的定義:異常是

5、在數(shù)據(jù)集中與眾不同的數(shù)據(jù),使人懷疑這些數(shù)據(jù)并非隨機(jī)偏差,而是產(chǎn)生于完全不同的機(jī)制。 聚類算法對(duì)異常的定義:異常是聚類嵌于其中的背景噪聲。 異常檢測(cè)算法對(duì)異常的定義:異常是既不屬于聚類也不屬于背景噪聲的點(diǎn)。他們的行為與正常的行為有很大不同。,異常檢測(cè)方法的分類,基于統(tǒng)計(jì)(statistical-based)的方法 基于距離 (distance-based)的方法 基于偏差(deviation-based)的方法 基于密度(density-based)的方法 高維數(shù)據(jù)的異常探測(cè),數(shù)據(jù)挖掘系統(tǒng)的特征,數(shù)據(jù)的特征 知識(shí)的特征 算法的特征,礦山(數(shù)據(jù)),挖掘工具(算法),金子(知識(shí)),數(shù)據(jù)的特征,大容量

6、 POS數(shù)據(jù)(某個(gè)超市每天要處理高達(dá)2000萬(wàn)筆交易) 衛(wèi)星圖象(NASA的地球觀測(cè)衛(wèi)星以每小時(shí)50GB的速度發(fā)回?cái)?shù)據(jù)) 互聯(lián)網(wǎng)數(shù)據(jù) 含噪音(不完全、不正確) 異質(zhì)數(shù)據(jù)(多種數(shù)據(jù)類型混合的數(shù)據(jù)源,來(lái)自互聯(lián)網(wǎng)的數(shù)據(jù)是典型的例子),系統(tǒng)的特征,知識(shí)發(fā)現(xiàn)系統(tǒng)需要一個(gè)前處理過(guò)程 數(shù)據(jù)抽取 數(shù)據(jù)清洗 數(shù)據(jù)選擇 數(shù)據(jù)轉(zhuǎn)換 知識(shí)發(fā)現(xiàn)系統(tǒng)是一個(gè)自動(dòng)/半自動(dòng)過(guò)程 知識(shí)發(fā)現(xiàn)系統(tǒng)要有很好的性能,知識(shí)(模式)的特征,知識(shí)發(fā)現(xiàn)系統(tǒng)能夠發(fā)現(xiàn)什么知識(shí)? 計(jì)算學(xué)習(xí)理論COLT(Computational Learning Theory) 以FOL為基礎(chǔ)的以發(fā)現(xiàn)關(guān)系為目的的歸納邏輯程序設(shè)計(jì) 現(xiàn)行的知識(shí)發(fā)現(xiàn)系統(tǒng)只能發(fā)現(xiàn)特定模式的

7、知識(shí) 規(guī)則 分類 關(guān)聯(lián),知識(shí)表示:規(guī)則,IF 條件 THEN 結(jié)論 條件和結(jié)論的粒度(抽象度)可以有多種 單值 區(qū)間 模糊值 規(guī)則可以有確信度 精確規(guī)則 概率規(guī)則,知識(shí)表示:分類樹,分類條件1,分類條件2,分類條件3,類1,類2,類3,類4,數(shù)據(jù)挖掘算法的特征,構(gòu)成數(shù)據(jù)挖掘算法的三要素 模式記述語(yǔ)言:反映了算法可以發(fā)現(xiàn)什么樣的知識(shí) 模式評(píng)價(jià):反映了什么樣的模式可以稱為知識(shí) 模式探索:包括針對(duì)某一特定模式對(duì)參數(shù)空間的探索和對(duì)模式空間的探索,數(shù)據(jù)挖掘的主要方法,分類(Classification) 聚類(Clustering) 相關(guān)規(guī)則(Association Rule) 回歸(Regressio

8、n) 其他,數(shù)據(jù)挖掘系統(tǒng),數(shù)據(jù)挖掘系統(tǒng),第一代數(shù)據(jù)挖掘系統(tǒng) 支持一個(gè)或少數(shù)幾個(gè)數(shù)據(jù)挖掘算法,這些算法設(shè)計(jì)用來(lái)挖掘向量數(shù)據(jù)(vector-valued data),這些數(shù)據(jù)模型在挖掘時(shí)候,一般一次性調(diào)進(jìn)內(nèi)存進(jìn)行處理。許多這樣的系統(tǒng)已經(jīng)商業(yè)化。 第二代數(shù)據(jù)挖掘系統(tǒng) 目前的研究,是改善第一代數(shù)據(jù)挖掘系統(tǒng),開發(fā)第二代數(shù)據(jù)挖掘系統(tǒng)。第二代數(shù)據(jù)挖掘系統(tǒng)支持?jǐn)?shù)據(jù)庫(kù)和數(shù)據(jù)倉(cāng)庫(kù),和它們具有高性能的接口,具有高的可擴(kuò)展性。例如,第二代系統(tǒng)能夠挖掘大數(shù)據(jù)集、更復(fù)雜的數(shù)據(jù)集、以及高維數(shù)據(jù)。這一代系統(tǒng)通過(guò)支持?jǐn)?shù)據(jù)挖掘模式(data mining schema)和數(shù)據(jù)挖掘查詢語(yǔ)言(DMQL)增加系統(tǒng)的靈活性。,數(shù)據(jù)挖掘系

9、統(tǒng),第三代數(shù)據(jù)挖掘系統(tǒng) 第三代的特征是能夠挖掘Internet/Extranet的分布式和高度異質(zhì)的數(shù)據(jù),并且能夠有效地和操作型系統(tǒng)集成。這一代數(shù)據(jù)挖掘系統(tǒng)關(guān)鍵的技術(shù)之一是提供對(duì)建立在異質(zhì)系統(tǒng)上的多個(gè)預(yù)言模型以及管理這些預(yù)言模型的元數(shù)據(jù)提供第一級(jí)別(first class)的支持。 第四代數(shù)據(jù)挖掘系統(tǒng) 第四代數(shù)據(jù)挖掘系統(tǒng)能夠挖掘嵌入式系統(tǒng)、移動(dòng)系統(tǒng)、和普遍存在(ubiquitous)計(jì)算設(shè)備產(chǎn)生的各種類型的數(shù)據(jù) 。,二、數(shù)據(jù)預(yù)處理,為什么需要預(yù)處理,數(shù)據(jù) 不完整 含觀測(cè)噪聲 不一致 包含其它不希望的成分 數(shù)據(jù)清理通過(guò)填寫空缺值,平滑噪聲數(shù)據(jù),識(shí)別刪除孤立點(diǎn),并解決不一致來(lái)清理數(shù)據(jù)。,污染數(shù)據(jù)形

10、成的原因,濫用縮寫詞 數(shù)據(jù)輸入錯(cuò)誤 數(shù)據(jù)中的內(nèi)嵌控制信息 不同的慣用語(yǔ) 重復(fù)記錄 丟失值 拼寫變化 不同的計(jì)量單位 過(guò)時(shí)的編碼 含有各種噪聲,數(shù)據(jù)清理的重要性,污染數(shù)據(jù)的普遍存在,使得在大型數(shù)據(jù)庫(kù)中維護(hù)數(shù)據(jù)的正確性和一致性成為一個(gè)及其困難的任務(wù)。 垃圾進(jìn)、垃圾出,數(shù)據(jù)清理處理內(nèi)容,格式標(biāo)準(zhǔn)化 異常數(shù)據(jù)清除 錯(cuò)誤糾正 重復(fù)數(shù)據(jù)的清除,數(shù)據(jù)規(guī)約,數(shù)據(jù)集的壓縮表示,但是能和原始數(shù)據(jù)集達(dá)到相同或基本相同的分析結(jié)果 主要策略: 數(shù)據(jù)聚集 維規(guī)約 數(shù)據(jù)壓縮 數(shù)值規(guī)約,空缺值,忽略元組 人工填寫空缺值 使用固定值 使用屬性平均值 使用最有可能值,噪聲數(shù)據(jù),如何平滑數(shù)據(jù),去掉噪聲 數(shù)據(jù)平滑技術(shù) 分箱 聚類 計(jì)

11、算機(jī)和人工檢查相結(jié)合 回歸,分箱,箱的深度:表示不同的箱里有相同個(gè)數(shù)的數(shù)據(jù)。 箱的寬度:每個(gè)箱值的取值區(qū)間是個(gè)常數(shù)。 平滑方法: 按箱平均值平滑 按箱中值平滑 按箱邊界值平滑,聚類,每個(gè)簇中的數(shù)據(jù)用其中心值代替 忽略孤立點(diǎn) 先通過(guò)聚類等方法找出孤立點(diǎn)。這些孤立點(diǎn)可能包含有用的信息。 人工再審查這些孤立點(diǎn),回歸,通過(guò)構(gòu)造函數(shù)來(lái)符合數(shù)據(jù)變化的趨勢(shì),這樣可以用一個(gè)變量預(yù)測(cè)另一個(gè)變量。 線性回歸 多線性回歸,數(shù)據(jù)集成,將多個(gè)數(shù)據(jù)源中的數(shù)據(jù)結(jié)合起來(lái)存放在一個(gè)一直得數(shù)據(jù)存貯中。 實(shí)體識(shí)別 實(shí)體和模式的匹配 冗余:某個(gè)屬性可以由別的屬性推出。 相關(guān)分析 相關(guān)性rA,B . rA,B0,正相關(guān)。A隨B的值得增

12、大而增大 rA,B0,正相關(guān)。AB無(wú)關(guān) rA,B0,正相關(guān)。A隨B的值得增大而減少 重復(fù) 同一數(shù)據(jù)存儲(chǔ)多次 數(shù)據(jù)值沖突的檢測(cè)和處理,數(shù)據(jù)變換,平滑 聚集 數(shù)據(jù)概化 規(guī)范化 屬性構(gòu)造(特征構(gòu)造),最小 最大規(guī)范化 小數(shù)定標(biāo)規(guī)范化 屬性構(gòu)造 由給定的屬性構(gòu)造和添加新的屬性,以幫助提高精度和對(duì)高維數(shù)據(jù)結(jié)構(gòu)的理解,規(guī)范化,數(shù)據(jù)立方體聚集,尋找感興趣的維度進(jìn)行再聚集,維規(guī)約,刪除不相關(guān)的屬性(維)來(lái)減少數(shù)據(jù)量。 屬性子集選擇 找出最小屬性集合,使得數(shù)據(jù)類的概率分布盡可能地接近使用所有屬性的原分布 如何選取? 貪心算法 逐步向前選擇 逐步后向刪除 向前選擇和后向刪除相結(jié)合 判定樹歸納,數(shù)據(jù)壓縮,有損,無(wú)損

13、 小波變換 將數(shù)據(jù)向量D轉(zhuǎn)換成為數(shù)值上不同的小波系數(shù)的向量D. 對(duì)D進(jìn)行剪裁,保留小波系數(shù)最強(qiáng)的部分。,主要成分分析,數(shù)值規(guī)約,回歸和對(duì)數(shù)線形模型 線形回歸 對(duì)數(shù)線形模型 直方圖 等寬 等深 V-最優(yōu) maxDiff,數(shù)值規(guī)約,聚類 多維索引樹 : 對(duì)于給定的數(shù)據(jù)集合,索引樹動(dòng)態(tài)的劃分多維空間。 選樣 簡(jiǎn)單選擇n個(gè)樣本,不放回 簡(jiǎn)單選擇n個(gè)樣本,放回 聚類選樣 分層選樣,離散化和概念分層,離散化技術(shù)用來(lái)減少給定連續(xù)屬性的個(gè)數(shù) 通常是遞歸的。 大量時(shí)間花在排序上。 對(duì)于給定的數(shù)值屬性,概念分層定義了該屬性的一個(gè)離散化的值。 分箱 直方圖分析,數(shù)值數(shù)據(jù)離散化,聚類分析 基于熵的離散化 通過(guò)自然劃分

14、分段 3-4-5規(guī)則 如果一個(gè)區(qū)間最高有效位上包括3 6 9 個(gè)不同的值,劃分為3個(gè)等寬區(qū)間。 7個(gè)不同值,按2-3-3劃分為3個(gè)區(qū)間 最高位包含2,4,8個(gè)不同值,劃分為4個(gè)等寬區(qū)間 最高位包含1 ,5,10個(gè)不同值,劃分為5個(gè)等寬區(qū)間 最高分層一般在第5個(gè)百分位到第95個(gè)百分位上進(jìn)行,分類數(shù)據(jù)的概念分層生成,分類數(shù)據(jù)是離散數(shù)據(jù)。一個(gè)分類屬性可能有有限個(gè)不同的值。 方法 由用戶和專家在模式級(jí)顯式的說(shuō)明屬性的部分序 通過(guò)顯式的數(shù)據(jù)分組說(shuō)明分層結(jié)構(gòu)的一部分 說(shuō)明屬性集,但不說(shuō)明他們的偏序 只說(shuō)明部分的屬性集,三、數(shù)據(jù)挖掘算法分類與預(yù)測(cè),分類 VS. 預(yù)測(cè),分類: 預(yù)測(cè)分類標(biāo)號(hào)(或離散值) 根據(jù)訓(xùn)

15、練數(shù)據(jù)集和類標(biāo)號(hào)屬性,構(gòu)建模型來(lái)分類現(xiàn)有數(shù)據(jù),并用來(lái)分類新數(shù)據(jù) 預(yù)測(cè): 建立連續(xù)函數(shù)值模型,比如預(yù)測(cè)空缺值 典型應(yīng)用 信譽(yù)證實(shí) 目標(biāo)市場(chǎng) 醫(yī)療診斷 性能預(yù)測(cè),數(shù)據(jù)分類:兩步過(guò)程,第一步,建立一個(gè)模型,描述預(yù)定數(shù)據(jù)類集和概念集 假定每個(gè)元組屬于一個(gè)預(yù)定義的類,由一個(gè)類標(biāo)號(hào)屬性確定 基本概念 訓(xùn)練數(shù)據(jù)集:由為建立模型而被分析的數(shù)據(jù)元組形成 訓(xùn)練樣本:訓(xùn)練數(shù)據(jù)集中的單個(gè)樣本(元組) 學(xué)習(xí)模型可以用分類規(guī)則、判定樹或數(shù)學(xué)公式的形式提供 第二步,使用模型,對(duì)將來(lái)的或未知的對(duì)象進(jìn)行分類 首先評(píng)估模型的預(yù)測(cè)準(zhǔn)確率 對(duì)每個(gè)測(cè)試樣本,將已知的類標(biāo)號(hào)和該樣本的學(xué)習(xí)模型類預(yù)測(cè)比較 模型在給定測(cè)試集上的準(zhǔn)確率是正確被

16、模型分類的測(cè)試樣本的百分比 測(cè)試集要獨(dú)立于訓(xùn)練樣本集,否則會(huì)出現(xiàn)“過(guò)分適應(yīng)數(shù)據(jù)”的情況,第一步:建立模型,訓(xùn)練數(shù) 據(jù)集,分類算法,IF rank = professor OR years 6 THEN tenured = yes,分類規(guī)則,第二步:用模型進(jìn)行分類,分類規(guī)則,測(cè)試集,未知數(shù)據(jù),(Jeff, Professor, 4),Tenured?,準(zhǔn)備分類和預(yù)測(cè)的數(shù)據(jù),通過(guò)對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,可以提高分類和預(yù)測(cè)過(guò)程的準(zhǔn)確性、有效性和可伸縮性 數(shù)據(jù)清理 消除或減少噪聲,處理空缺值,從而減少學(xué)習(xí)時(shí)的混亂 相關(guān)性分析 數(shù)據(jù)中的有些屬性可能與當(dāng)前任務(wù)不相關(guān);也有些屬性可能是冗余的;刪除這些屬性可以加快

17、學(xué)習(xí)步驟,使學(xué)習(xí)結(jié)果更精確 數(shù)據(jù)變換 可以將數(shù)據(jù)概化到較高層概念,或?qū)?shù)據(jù)進(jìn)行規(guī)范化,比較分類方法,使用下列標(biāo)準(zhǔn)比較分類和預(yù)測(cè)方法 預(yù)測(cè)的準(zhǔn)確率:模型正確預(yù)測(cè)新數(shù)據(jù)的類編號(hào)的能力 速度:產(chǎn)生和使用模型的計(jì)算花銷 魯棒性:給定噪聲數(shù)據(jù)或有空缺值的數(shù)據(jù),模型正確預(yù)測(cè)的能力 可伸縮性:對(duì)大量數(shù)據(jù),有效的構(gòu)建模型的能力 可解釋性:學(xué)習(xí)模型提供的理解和洞察的層次,用判定樹歸納分類,什么是判定樹? 類似于流程圖的樹結(jié)構(gòu) 每個(gè)內(nèi)部節(jié)點(diǎn)表示在一個(gè)屬性上的測(cè)試 每個(gè)分枝代表一個(gè)測(cè)試輸出 每個(gè)樹葉節(jié)點(diǎn)代表類或類分布 判定樹的生成由兩個(gè)階段組成 判定樹構(gòu)建 開始時(shí),所有的訓(xùn)練樣本都在根節(jié)點(diǎn) 遞歸的通過(guò)選定的屬性,來(lái)

18、劃分樣本 (必須是離散值) 樹剪枝 許多分枝反映的是訓(xùn)練數(shù)據(jù)中的噪聲和孤立點(diǎn),樹剪枝試圖檢測(cè)和剪去這種分枝 判定樹的使用:對(duì)未知樣本進(jìn)行分類 通過(guò)將樣本的屬性值與判定樹相比較,判定歸納樹算法,判定歸納樹算法(一個(gè)貪心算法) 自頂向下的分治方式構(gòu)造判定樹 樹以代表訓(xùn)練樣本的單個(gè)根節(jié)點(diǎn)開始 使用分類屬性(如果是量化屬性,則需先進(jìn)行離散化) 遞歸的通過(guò)選擇相應(yīng)的測(cè)試屬性,來(lái)劃分樣本,一旦一個(gè)屬性出現(xiàn)在一個(gè)節(jié)點(diǎn)上,就不在該節(jié)點(diǎn)的任何后代上出現(xiàn) 測(cè)試屬性是根據(jù)某種啟發(fā)信息或者是統(tǒng)計(jì)信息來(lái)進(jìn)行選擇(如:信息增益) 遞歸劃分步驟停止的條件 給定節(jié)點(diǎn)的所有樣本屬于同一類 沒(méi)有剩余屬性可以用來(lái)進(jìn)一步劃分樣本使用

19、多數(shù)表決 沒(méi)有剩余的樣本,詳細(xì)算法見(jiàn)P189,貝葉斯分類,貝葉斯分類利用統(tǒng)計(jì)學(xué)中的貝葉斯定理,來(lái)預(yù)測(cè)類成員的概率,即給定一個(gè)樣本,計(jì)算該樣本屬于一個(gè)特定的類的概率。 樸素貝葉斯分類:假設(shè)每個(gè)屬性之間都是相互獨(dú)立的,并且每個(gè)屬性對(duì)非類問(wèn)題產(chǎn)生的影響都是一樣的。,后向傳播分類,后向傳播是一種神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)算法;神經(jīng)網(wǎng)絡(luò)是一組連接的輸入/輸出單元,每個(gè)連接都與一個(gè)權(quán)相連。在學(xué)習(xí)階段,通過(guò)調(diào)整神經(jīng)網(wǎng)絡(luò)的權(quán),使得能夠預(yù)測(cè)輸入樣本的正確標(biāo)號(hào)來(lái)學(xué)習(xí)。 優(yōu)點(diǎn) 預(yù)測(cè)精度總的來(lái)說(shuō)較高 健壯性好,訓(xùn)練樣本中包含錯(cuò)誤時(shí)也可正常工作 輸出可能是離散值、連續(xù)值或者是離散或量化屬性的向量值 對(duì)目標(biāo)進(jìn)行分類較快 缺點(diǎn) 訓(xùn)練(學(xué)

20、習(xí))時(shí)間長(zhǎng) 蘊(yùn)涵在學(xué)習(xí)的權(quán)中的符號(hào)含義很難理解 很難根專業(yè)領(lǐng)域知識(shí)相整合,其他分類方法,k-最臨近分類 給定一個(gè)未知樣本,k-最臨近分類法搜索模式空間,找出最接近未知樣本的k個(gè)訓(xùn)練樣本;然后使用k個(gè)最臨近者中最公共的類來(lái)預(yù)測(cè)當(dāng)前樣本的類標(biāo)號(hào) 基于案例的推理 樣本或案例使用復(fù)雜的符號(hào)表示,對(duì)于新案例,先檢測(cè)是否存在同樣的訓(xùn)練案例;如果找不到,則搜索類似的訓(xùn)練案例 遺傳算法 結(jié)合生物進(jìn)化思想的算法 粗糙集方法 模糊集方法 允許在分類規(guī)則中定義“模糊的”臨界值或邊界,什么是預(yù)測(cè)?,預(yù)測(cè)是構(gòu)造和使用模型評(píng)估無(wú)樣本類,或評(píng)估給定樣本可能具有的屬性或值空間。 預(yù)測(cè)和分類的異同 相同點(diǎn) 兩者都需要構(gòu)建模型

21、都用模型來(lái)估計(jì)未知值 預(yù)測(cè)當(dāng)中主要的估計(jì)方法是回歸分析 線性回歸和多元回歸 非線性回歸 不同點(diǎn) 分類法主要是用來(lái)預(yù)測(cè)類標(biāo)號(hào)(分類屬性值) 預(yù)測(cè)法主要是用來(lái)估計(jì)連續(xù)值(量化屬性值),回歸方法,線性回歸:Y = + X 其中和是回歸系數(shù),可以根據(jù)給定的數(shù)據(jù)點(diǎn),通過(guò)最小二乘法來(lái)求得 多元回歸:Y = + 1X1 + 2 X2 線性回歸的擴(kuò)展,設(shè)計(jì)多個(gè)預(yù)測(cè)變量,可以用最小二乘法求得上式中的,1 和2 非線性回歸:Y = + 1X1 + 2 X22+ 3 X33 對(duì)不呈線性依賴的數(shù)據(jù)建模 使用多項(xiàng)式回歸建模方法,然后進(jìn)行變量變換,將非線性模型轉(zhuǎn)換為線性模型,然后用最小二乘法求解,評(píng)估分類法的準(zhǔn)確性,導(dǎo)出

22、分類法后,再使用訓(xùn)練數(shù)據(jù)評(píng)估分類法,可能錯(cuò)誤的導(dǎo)致樂(lè)觀的估計(jì) 保持方法 給定數(shù)據(jù)隨機(jī)劃分為兩個(gè)集合:訓(xùn)練集(2/3)和測(cè)試集(1/3) 訓(xùn)練集導(dǎo)出分類法,測(cè)試集對(duì)其準(zhǔn)確性進(jìn)行評(píng)估 隨機(jī)子選樣:保持方法的一個(gè)變形,將保持方法重復(fù)k次,然后取準(zhǔn)確率的平均值 k-折交叉確認(rèn) 初始數(shù)據(jù)被劃分為k個(gè)不相交的,大小大致相同的子集S1,S2Sk 進(jìn)行k次訓(xùn)練和測(cè)試,第i次時(shí),以Si做測(cè)試集,其他做訓(xùn)練集 準(zhǔn)確率為k次迭代正確分類數(shù)除以初始數(shù)據(jù)集樣本總數(shù),提高分類法的準(zhǔn)確性,Bagging技術(shù)和boosting技術(shù)都通過(guò)將T個(gè)學(xué)習(xí)得到的分類法C1,C2CT組合起來(lái),從而創(chuàng)造一個(gè)改進(jìn)的分類法C* Bagging

23、技術(shù) 對(duì)訓(xùn)練集S進(jìn)行T次迭代,每次通過(guò)放回取樣選取樣本集St,通過(guò)學(xué)習(xí)St得到分類法Ct 對(duì)于未知樣本X,每個(gè)分類法返回其類預(yù)測(cè),作為一票 C*統(tǒng)計(jì)得票,并將得票最高的預(yù)測(cè)賦予X Boosting技術(shù) 每個(gè)訓(xùn)練樣本賦予一個(gè)權(quán)值 Ct的權(quán)值取決于其錯(cuò)誤率,四、數(shù)據(jù)挖掘算法聚類,聚類分析,什么是聚類分析? 聚類分析中的數(shù)據(jù)類型 主要聚類分析方法分類 劃分方法(Partitioning Methods) 分層方法 基于密度的方法 基于表格的方法 基于模型(Model-Based)的聚類方法 異常分析 總結(jié),什么是聚類分析?,簇(Cluster):一個(gè)數(shù)據(jù)對(duì)象的集合 在同一個(gè)類中,對(duì)象之間0具有相似性

24、; 不同類的對(duì)象之間是相異的。 聚類分析 把一個(gè)給定的數(shù)據(jù)對(duì)象集合分成不同的簇; 聚類是一種無(wú)監(jiān)督分類法: 沒(méi)有預(yù)先指定的類別; 典型的應(yīng)用 作為一個(gè)獨(dú)立的分析工具,用于了解數(shù)據(jù)的分布; 作為其它算法的一個(gè)數(shù)據(jù)預(yù)處理步驟;,聚類的常規(guī)應(yīng)用,模式識(shí)別 空間數(shù)據(jù)分析 在GIS中,通過(guò)聚類發(fā)現(xiàn)特征空間來(lái)建立主題索引; 在空間數(shù)據(jù)挖掘中,檢測(cè)并解釋空間中的簇; 圖象處理 經(jīng)濟(jì)學(xué) (尤其是市場(chǎng)研究方面) WWW 文檔分類 分析WEB日志數(shù)據(jù)來(lái)發(fā)現(xiàn)相似的訪問(wèn)模式,應(yīng)用聚類分析的例子,市場(chǎng)銷售: 幫助市場(chǎng)人員發(fā)現(xiàn)客戶中的不同群體,然后用這些知識(shí)來(lái)開展一個(gè)目標(biāo)明確的市場(chǎng)計(jì)劃; 土地使用: 在一個(gè)陸地觀察數(shù)據(jù)庫(kù)

25、中標(biāo)識(shí)那些土地使用相似的地區(qū); 保險(xiǎn): 對(duì)購(gòu)買了汽車保險(xiǎn)的客戶,標(biāo)識(shí)那些有較高平均賠償成本的客戶; 城市規(guī)劃: 根據(jù)類型、價(jià)格、地理位置等來(lái)劃分不同類型的住宅; 地震研究: 根據(jù)地質(zhì)斷層的特點(diǎn)把已觀察到的地震中心分成不同的類;,聚類方法性能評(píng)價(jià),一個(gè)好的聚類方法要能產(chǎn)生高質(zhì)量的聚類結(jié)果簇,這些簇要具備以下兩個(gè)特點(diǎn): 高的簇內(nèi)相似性 低的簇間相似性 聚類結(jié)果的好壞取決于該聚類方法采用的相似性評(píng)估方法以及該方法的具體實(shí)現(xiàn); 聚類方法的好壞還取決與該方法是能發(fā)現(xiàn)某些還是所有的隱含模式;,聚類方法性能評(píng)價(jià),可伸縮性 能夠處理不同類型的屬性 能發(fā)現(xiàn)任意形狀的簇 在決定輸入?yún)?shù)的時(shí)候,盡量不需要特定的領(lǐng)域

26、知識(shí); 能夠處理噪聲和異常 對(duì)輸入數(shù)據(jù)對(duì)象的順序不敏感 能處理高維數(shù)據(jù) 能產(chǎn)生一個(gè)好的、能滿足用戶指定約束的聚類結(jié)果 結(jié)果是可解釋的、可理解的和可用的,兩種數(shù)據(jù)結(jié)構(gòu),數(shù)據(jù)矩陣 (two modes) 差異度矩陣 (one mode),評(píng)價(jià)聚類質(zhì)量,差異度/相似度矩陣: 相似度通常用距離函數(shù)來(lái)表示; 有一個(gè)單獨(dú)的質(zhì)量評(píng)估函數(shù)來(lái)評(píng)判一個(gè)簇的好壞; 對(duì)不同類型的變量,距離函數(shù)的定義通常是不同的,這在下面有詳細(xì)討論; 根據(jù)實(shí)際的應(yīng)用和數(shù)據(jù)的語(yǔ)義,在計(jì)算距離的時(shí)候,不同的變量有不同的權(quán)值相聯(lián)系; 很難定義“足夠相似了”或者“足夠好了” 只能憑主觀確定;,聚類分析中的數(shù)據(jù)類型,區(qū)間標(biāo)度變量(Interva

27、l-scaled variables): 二元變量(Binary variables): 標(biāo)稱型,序數(shù)型和比例型變量(Nominal, ordinal, and ratio variables): 混合類型變量(Variables of mixed types):,區(qū)間標(biāo)度變量,數(shù)據(jù)標(biāo)準(zhǔn)化 計(jì)算絕對(duì)偏差的平均值: 其中 計(jì)算標(biāo)準(zhǔn)度量值 (z-score) 使用絕對(duì)偏差的平均值比使用標(biāo)準(zhǔn)偏差更健壯(robust),計(jì)算對(duì)象之間的相異度,通常使用距離來(lái)衡量?jī)蓚€(gè)對(duì)象之間的相異度。 常用的距離度量方法有: 明考斯基距離( Minkowski distance): 其中 i = (xi1, xi2, ,

28、 xip) 和 j = (xj1, xj2, , xjp) 是兩個(gè)p維的數(shù)據(jù)對(duì)象, q是一個(gè)正整數(shù)。 當(dāng)q = 1時(shí), d 稱為曼哈坦距離( Manhattan distance),計(jì)算對(duì)象之間的相異度,當(dāng)q=2時(shí), d 就成為歐幾里德距離: 距離函數(shù)有如下特性: d(i,j) 0 d(i,i) = 0 d(i,j) = d(j,i) d(i,j) d(i,k) + d(k,j) 可以根據(jù)每個(gè)變量的重要性賦予一個(gè)權(quán)重,序數(shù)型變量,一個(gè)序數(shù)型變量可以是離散的也可以是連續(xù)的 離散的序數(shù)型變量類似于標(biāo)稱變量,除了它的M個(gè)狀態(tài)是以有意義的序列排序的,比如職稱 連續(xù)的序數(shù)型變量類似于區(qū)間標(biāo)度變量,但是它

29、沒(méi)有單位,值的相對(duì)順序是必要的,而其實(shí)際大小并不重要。,序數(shù)型變量,相異度的計(jì)算 與區(qū)間標(biāo)度變量的計(jì)算方法相類似 將xif 用它對(duì)應(yīng)的秩代替 將每個(gè)變量的值域映射到0.0,1.0上,使得每個(gè)變量都有相同的權(quán)重。這通過(guò)用zif來(lái)替代rif來(lái)實(shí)現(xiàn) 用前面所述的區(qū)間標(biāo)度變量的任一種距離計(jì)算方法來(lái)計(jì)算,比例標(biāo)度型變量,比例標(biāo)度型變量(Ratio-scaled variable) : 總是取正的度量值,有一個(gè)非線性的標(biāo)度,近似的遵循指數(shù)標(biāo)度,比如 AeBt or Ae-Bt 計(jì)算相異度的方法: 采用與處理區(qū)間標(biāo)度變量相同的方法 不是一個(gè)好的選擇 進(jìn)行對(duì)數(shù)變換,對(duì)變換得到的值在采用與處理區(qū)間標(biāo)度變量相同的

30、方法 yif = log(xif) 將其作為連續(xù)的序數(shù)型數(shù)據(jù),將其秩作為區(qū)間標(biāo)度的值來(lái)對(duì)待。,混合類型的變量,一個(gè)數(shù)據(jù)庫(kù)可能包含了所有這6中類型的變量 用以下公式計(jì)算對(duì)象i,j之間的相異度. 其中,p為對(duì)象中的變量個(gè)數(shù) 如果xif或xjf 缺失(即對(duì)象i或?qū)ο骿沒(méi)有變量f的值),或者xif = xjf =0,且變量f是不對(duì)稱的二元變量,則指示項(xiàng)ij(f)=0;否則ij(f)=1,混合類型的變量,f 是二元變量或標(biāo)稱變量: if xif = xjf dij(f) = 0, else dij(f) = 1 f 是區(qū)間標(biāo)度變量: dij(f) = | xif-xjf |/maxhxhf-minhxh

31、f 其中h遍取變量f的所有非空缺對(duì)象 f 是序數(shù)型或比例標(biāo)度型 計(jì)算秩 rif 計(jì)算 zif并將其作為區(qū)間標(biāo)度變量值對(duì)待,主要聚類方法,Partitioning algorithms: Construct various partitions and then evaluate them by some criterion Hierarchy algorithms: Create a hierarchical decomposition of the set of data (or objects) using some criterion Density-based: based on co

32、nnectivity and density functions Grid-based: based on a multiple-level granularity structure Model-based: A model is hypothesized for each of the clusters and the idea is to find the best fit of that model to each other,五、數(shù)據(jù)挖掘算法關(guān)聯(lián),什么是關(guān)聯(lián)挖掘?,關(guān)聯(lián)規(guī)則挖掘: 在交易數(shù)據(jù)、關(guān)系數(shù)據(jù)或其他信息載體中,查找存在于項(xiàng)目集合或?qū)ο蠹现g的頻繁模式、關(guān)聯(lián)、相關(guān)性、或因果結(jié)

33、構(gòu)。 應(yīng)用: 購(gòu)物籃分析、交叉銷售、產(chǎn)品目錄設(shè)計(jì)、 loss-leader analysis、聚集、分類等。 舉例: 規(guī)則形式: “Body Head support, confidence”. buys(x, “diapers”) buys(x, “beers”) 0.5%, 60% major(x, “CS”) takes(x, “DB”) grade(x, “A”) 1%, 75%,關(guān)聯(lián)規(guī)則:基本概念,給定: (1)交易數(shù)據(jù)庫(kù) (2)每筆交易是:一個(gè)項(xiàng)目列表 (消費(fèi)者一次購(gòu)買活動(dòng)中購(gòu)買的商品) 查找: 所有描述一個(gè)項(xiàng)目集合與其他項(xiàng)目集合相關(guān)性的規(guī)則 E.g., 98% of people

34、 who purchase tires and auto accessories also get automotive services done 應(yīng)用 * 護(hù)理用品 (商店應(yīng)該怎樣提高護(hù)理用品的銷售?) 家用電器 * (其他商品的庫(kù)存有什么影響?) 在產(chǎn)品直銷中使用附加郵寄 Detecting “ping-pong”ing of patients, faulty “collisions”,規(guī)則度量:支持度與可信度,查找所有的規(guī)則 X & Y Z 具有最小支持度和可信度 支持度, s, 一次交易中包含X 、 Y 、 Z的可能性 可信度, c, 包含X 、 Y的交易中也包含Z的條件概率,設(shè)最小

35、支持度為50%, 最小可信度為 50%, 則可得到 A C (50%, 66.6%) C A (50%, 100%),買尿布的客戶,二者都買的客戶,買啤酒的客戶,關(guān)聯(lián)規(guī)則挖掘:路線圖,布爾 vs. 定量 關(guān)聯(lián) (基于 處理數(shù)據(jù)的類型) buys(x, “SQLServer”) buys(x, “DMBook”) buys(x, “DBMiner”) 0.2%, 60% age(x, “30.39”) income(x, “42.48K”) buys(x, “PC”) 1%, 75% 單維 vs. 多維 關(guān)聯(lián) (例子同上) 單層 vs. 多層 分析 那個(gè)品種牌子的啤酒與那個(gè)牌子的尿布有關(guān)系? 各

36、種擴(kuò)展 相關(guān)性、因果分析 關(guān)聯(lián)并不一定意味著相關(guān)或因果 最大模式和閉合相集 添加約束 如, 哪些“小東西”的銷售促發(fā)了“大家伙”的買賣?,關(guān)聯(lián)規(guī)則挖掘一個(gè)例子,對(duì)于 A C: support = support(A 、C) = 50% confidence = support(A 、C)/support(A) = 66.6% Apriori的基本思想: 頻繁項(xiàng)集的任何子集也一定是頻繁的,最小值尺度 50% 最小可信度 50%,關(guān)鍵步驟:挖掘頻繁集,頻繁集:是指滿足最小支持度的項(xiàng)目集合 頻繁集的子集也一定是頻繁的 如, 如果AB 是頻繁集,則 A B 也一定是頻繁集 從1到k(k-頻繁集)遞歸查

37、找頻繁集 用得到的頻繁集生成關(guān)聯(lián)規(guī)則,多層關(guān)聯(lián)規(guī)則,項(xiàng)通常具有層次 底層的項(xiàng)通常支持度也低 某些特定層的規(guī)則可能更有意義 交易數(shù)據(jù)庫(kù)可以按照維或?qū)泳幋a 可以進(jìn)行共享的多維挖掘,挖掘多層關(guān)聯(lián)規(guī)則,自上而下,深度優(yōu)先的方法: 先找高層的“強(qiáng)”規(guī)則: 牛奶 面包 20%, 60%. 再找他們底層的“弱”規(guī)則: 酸奶 黃面包 6%, 50%. 多層關(guān)聯(lián)規(guī)則的變種 層次交叉的關(guān)聯(lián)規(guī)則: 酸奶 面包房 黃面包 不同種分層方法間的關(guān)聯(lián)規(guī)則: 酸奶 面包房面包,多層關(guān)聯(lián)規(guī)則,支持度不變: 在各層之間使用統(tǒng)一的支持度 + 一個(gè)最小支持度閾值. 如果一個(gè)項(xiàng)集的父項(xiàng)集不具有最小支持度,那他本身也不可能滿足最小支持度

38、。 底層項(xiàng)不會(huì)成為頻繁集,如果支持度 太高 丟失底層關(guān)聯(lián)規(guī)則 太低 生成太多的高層關(guān)聯(lián)規(guī)則 支持度遞減: 隨著層次的降低支持度遞減 4種搜索策略: 層與層獨(dú)立 用k-項(xiàng)集跨層過(guò)濾 用項(xiàng)跨層過(guò)濾 用項(xiàng)進(jìn)行可控跨層過(guò)濾,支持度不變,支持度不變多層挖掘,牛奶 support = 10%,酸奶 support = 6%,脫脂奶 support = 4%,層 1 min_sup = 5%,層 2 min_sup = 5%,支持度遞減,支持度遞減多層挖掘,酸奶 support = 6%,脫脂奶 support = 4%,層 1 min_sup = 5%,層 2 min_sup = 3%,牛奶 suppor

39、t = 10%,多層關(guān)聯(lián):冗余過(guò)濾,由于“祖先”關(guān)系的原因,有些規(guī)則可能是多余的。 例子 牛奶 白面包 support = 8%, confidence = 70% 酸奶 白面包 support = 2%, confidence = 72% 我們稱第一個(gè)規(guī)則是第二個(gè)規(guī)則的祖先 參考規(guī)則的祖先,如果他的支持度與我們“預(yù)期”的支持度近似的話,我們就說(shuō)這條規(guī)則是冗余的。,多層挖掘:深度優(yōu)先,自頂向下,深度優(yōu)先的方法: 先挖掘高層頻繁項(xiàng): 牛奶 (15%), 面包 (10%) 再挖掘他們底層的相對(duì)較弱的頻繁項(xiàng): 酸奶 (5%), 白面包 (4%) 跨層時(shí)對(duì)支持度的不同處理方法,對(duì)應(yīng)了不同的算法: 層之

40、間支持度不變: 如果t的祖先是非頻繁的,則不用考慮t 支持度隨層遞減: 則只考慮那些其祖先是頻繁的/不可忽略的項(xiàng),數(shù)據(jù)挖掘查詢的逐步精化,為什么要逐步精化 挖掘操作的代價(jià)可能高或低,結(jié)果可能細(xì)致或粗糙 在速度和質(zhì)量之間折衷:逐步精化 超集覆蓋特征: 預(yù)存儲(chǔ)所有正面答案允許進(jìn)一步正確性驗(yàn)證,而不必驗(yàn)證已經(jīng)錯(cuò)誤的 2或多步挖掘: 先執(zhí)行粗糙的、容易的操作 (超集覆蓋) 然后在減少后的候選集上進(jìn)行計(jì)算量大的算法 (Koperski & Han, SSD95).,逐步求精空間關(guān)聯(lián)規(guī)則挖掘,空間關(guān)系的層次: “g_close_to”: 鄰近, 接觸, 交叉, 包含 先搜索粗糙的關(guān)系然后再精化,逐步求精空

41、間關(guān)聯(lián)規(guī)則挖掘,空間關(guān)聯(lián)規(guī)則的兩步算法: 步驟 1: 粗糙空間計(jì)算 (用于過(guò)濾) 用 MBR 或 R-tree 做粗糙估計(jì) 步驟 2: 細(xì)致空間算法 (用于精化) 只計(jì)算已經(jīng)通過(guò)空間計(jì)算的對(duì)象,多維關(guān)聯(lián)規(guī)則:概念,單維規(guī)則: buys(X, “milk”) buys(X, “bread”) 多維規(guī)則: 2個(gè)以上維/謂詞 維間關(guān)聯(lián)規(guī)則 (維詞不重復(fù)) age(X,”19-25”) occupation(X,“student”) buys(X,“coke”) 混合維關(guān)聯(lián)規(guī)則 (維詞重復(fù)) age(X,”19-25”) buys(X, “popcorn”) buys(X, “coke”) 類別屬性

42、有限個(gè)值, 值之間無(wú)順序關(guān)系 數(shù)量屬性 數(shù)字的,值之間隱含了順序關(guān)系,挖掘多維關(guān)聯(lián)的技術(shù),搜索頻繁k-維詞集合: 如: age, occupation, buys 是一個(gè)3-維詞集合。 按照對(duì) age 處理方式的不同,分為: 1. 用靜態(tài)方法把數(shù)值屬性離散化 數(shù)值屬性可用預(yù)定義的概念層次加以離散化。 2. 帶數(shù)量的關(guān)聯(lián)規(guī)則 根據(jù)數(shù)據(jù)的分布動(dòng)態(tài)的把數(shù)值屬性離散化到不同的“箱”。 3. 基于距離的關(guān)聯(lián)規(guī)則 用數(shù)據(jù)點(diǎn)之間的距離動(dòng)態(tài)的離散化,數(shù)值屬性的靜態(tài)離散化,在挖掘之前用概念層次先離散化 數(shù)值被替換為區(qū)間范圍 關(guān)系數(shù)據(jù)庫(kù)中,要找到所有頻繁k-維詞需要k或k+1次表掃描。 適宜使用數(shù)據(jù)立方體 N維立

43、方體的每個(gè)單元 對(duì)應(yīng)一個(gè)維詞集合 使用數(shù)據(jù)立方體速度更快,帶數(shù)量的關(guān)聯(lián)規(guī)則,age(X,”30-34”) income(X,”24K - 48K”) buys(X,”high resolution TV”),動(dòng)態(tài) 離散化數(shù)值屬性 Such that the confidence or compactness of the rules mined is maximized. 2-維數(shù)量關(guān)聯(lián)規(guī)則: Aquan1 Aquan2 Acat 用2-維表格把“鄰近”的關(guān)聯(lián)規(guī)則組合起來(lái) 例子,ARCS (關(guān)聯(lián)規(guī)則聚集系統(tǒng)),ARCS 流程 1. 分箱 2. 查找頻繁維詞 集合 3. 聚集 4. 優(yōu)化,ARC

44、S的局限性,數(shù)值屬性只能出現(xiàn)在規(guī)則的左側(cè) 左側(cè)只能有兩個(gè)屬性 (2維) ARCS 的改進(jìn) 不用基于柵格的方法 等深分箱 基于局部完整性 測(cè)度的聚集 “Mining Quantitative Association Rules in Large Relational Tables” by R. Srikant and R. Agrawal.,基于距離的關(guān)聯(lián)規(guī)則挖掘,分箱的方法沒(méi)有體現(xiàn)數(shù)據(jù)間隔的語(yǔ)義 基于距離的分割是更有“意義”的離散化方法,考慮: 區(qū)間內(nèi)密度或點(diǎn)的個(gè)數(shù) 區(qū)間內(nèi)點(diǎn)的“緊密程度,記SX 為 N 個(gè)元組 t1, t2, , tN 在 屬性集 X 上的投影 則 SX 的直徑: distx

45、:距離量度,如 歐幾里德距離或 Manhattan,聚集和距離度量,用直徑 d 評(píng)估聚集 CX 的密度,其中 查找聚集和基于距離的規(guī)則 用密度閾值 d0代替支持度 采用修改過(guò)的 BIRCH 聚集算法,聚集和距離度量,關(guān)聯(lián)規(guī)則可視化Using Plane Graph,關(guān)聯(lián)規(guī)則可視化Using Rule Graph,六、序列模式挖掘,序列模式概念,序列模式的概念最早是由Agrawal和Srikant 提出的 序列模式定義:給定一個(gè)由不同序列組成的集合,其中,每個(gè)序列由不同的元素按順序有序排列,每個(gè)元素由不同項(xiàng)目組成,同時(shí)給定一個(gè)用戶指定的最小支持度閾值,序列模式挖掘就是找出所有的頻繁子序列,即該子

46、序列在序列集中的出現(xiàn)頻率不低于用戶指定的最小支持度閾值,序列模式實(shí)例,例1:在兩年前購(gòu)買了Ford 牌轎車的顧客,很有可能在今年采取貼舊換新的購(gòu)車行動(dòng) 例2:在購(gòu)買了自行車和購(gòu)物籃的所有客戶中,有70%的客戶會(huì)在兩個(gè)月后購(gòu)買打氣筒 例3:工業(yè)過(guò)程控制領(lǐng)域:過(guò)程變量采樣值時(shí)時(shí)間序列;變量之間的關(guān)系是動(dòng)態(tài)的;系統(tǒng)故障模式;等等,序列模式應(yīng)用領(lǐng)域,應(yīng)用領(lǐng)域: 客戶購(gòu)買行為模式預(yù)測(cè) Web訪問(wèn)模式預(yù)測(cè) 疾病診斷 自然災(zāi)害預(yù)測(cè) DNA序列分析 工業(yè)控制,序列模式表示,符號(hào)化表示: 項(xiàng)目集(Itemset)是各種項(xiàng)目組成的集合 序列(Sequence)是不同項(xiàng)目集(ItemSet)的有序排列,序列s可以表

47、示為s = ,sj(1 = j = l)為項(xiàng)目集(Itemset),也稱為序列s的元素 序列的元素(Element)可表示為(x1x2xm), xk(1 = k = m)為不同的項(xiàng)目,如果一個(gè)序列只有一個(gè)項(xiàng)目,則括號(hào)可以省略 一個(gè)序列包含的所有項(xiàng)目的個(gè)數(shù)稱為序列的長(zhǎng)度。長(zhǎng)度為l的序列記為l-序列,序列模式表示,符號(hào)化表示: 設(shè) = , = ,如果存在整數(shù)1 = j1 j2 jn = m,使得a1 bj1,a2 bj2, an bjn,則稱序列為序列的子序列,又稱序列包含序列,記為 序列在序列數(shù)據(jù)庫(kù)S中的支持?jǐn)?shù)為序列數(shù)據(jù)庫(kù)S中包含序列的序列個(gè)數(shù),記為Support() 給定支持度閾值,如果序列在

48、序列數(shù)據(jù)庫(kù)中的支持?jǐn)?shù)不低于,則稱序列為序列模式 長(zhǎng)度為l的序列模式記為l-模式,序列模式表示,例子:設(shè)序列數(shù)據(jù)庫(kù)如下圖所示,并設(shè)用戶指定的最小支持度min-support = 2。,序列是序列的子序列 序列是長(zhǎng)度為3的序列模式,序列模式挖掘,問(wèn)題描述:給定序列數(shù)據(jù)庫(kù)和最小支持度閾值,序列模式挖掘就是要找出序列數(shù)據(jù)庫(kù)中所有的序列模式 系統(tǒng)規(guī)定:由于同一個(gè)元素中的項(xiàng)目之間排列沒(méi)有順序,為了表達(dá)的唯一性,我們將同一個(gè)元素內(nèi)部的不同項(xiàng)目按照字典順序排列,序列模式挖掘算法,序列模式挖掘的主要算法 GSP(Generalized Sequential Patterns)算法:類似于Apriori算法 Pr

49、efixSpan(Prefix-project Sequential Pattern mining)算法:采用分治的思想,不斷產(chǎn)生序列數(shù)據(jù)庫(kù)的多個(gè)更小的投影數(shù)據(jù)庫(kù),然后在各個(gè)投影數(shù)據(jù)庫(kù)上進(jìn)行序列模式挖掘,序列模式挖掘算法,上述算法存在的主要問(wèn)題: 缺少時(shí)間限制:用戶可能需要指定序列模式的相鄰元素之間的時(shí)間間隔。例如,一個(gè)序列模式可能會(huì)發(fā)現(xiàn)客戶在購(gòu)買了物品A后的第三年購(gòu)買物品B。我們需要的卻是給定時(shí)間間隔內(nèi)用戶的購(gòu)買意向 事務(wù)的定義過(guò)于嚴(yán)格:一個(gè)事務(wù)中包含在客戶的一次購(gòu)買行為中所購(gòu)買的所有物品??赡苄枰付ㄒ粋€(gè)滑動(dòng)時(shí)間窗口,客戶在滑動(dòng)時(shí)間窗口的時(shí)間段內(nèi)的所有的購(gòu)買行為均作為一個(gè)事務(wù) 缺少分類層次

50、:只能在項(xiàng)目的原始級(jí)別上進(jìn)行挖掘,七、數(shù)據(jù)挖掘軟件,數(shù)據(jù)挖掘軟件的發(fā)展,數(shù)據(jù)挖掘軟件的發(fā)展,第一代數(shù)據(jù)挖掘軟件,特點(diǎn) 支持一個(gè)或少數(shù)幾個(gè)數(shù)據(jù)挖掘算法 挖掘向量數(shù)據(jù)(vector-valued data) 數(shù)據(jù)一般一次性調(diào)進(jìn)內(nèi)存進(jìn)行處理 典型的系統(tǒng)如Salford Systems公司早期的CART系統(tǒng)(www.salford-) 缺陷 如果數(shù)據(jù)足夠大,并且頻繁的變化,這就需要利用數(shù)據(jù)庫(kù)或者數(shù)據(jù)倉(cāng)庫(kù)技術(shù)進(jìn)行管理,第一代系統(tǒng)顯然不能滿足需求。,數(shù)據(jù)挖掘軟件的發(fā)展,第一代數(shù)據(jù)挖掘軟件 CBA,新加坡國(guó)立大學(xué)?;陉P(guān)聯(lián)規(guī)則的分類算法,能從關(guān)系數(shù)據(jù)或者交易數(shù)據(jù)中挖掘關(guān)聯(lián)規(guī)則,使用關(guān)聯(lián)規(guī)則進(jìn)行分類和預(yù)測(cè),二

51、、數(shù)據(jù)挖掘軟件的發(fā)展,第二代數(shù)據(jù)挖掘軟件,特點(diǎn) 與數(shù)據(jù)庫(kù)管理系統(tǒng)(DBMS)集成 支持?jǐn)?shù)據(jù)庫(kù)和數(shù)據(jù)倉(cāng)庫(kù),和它們具有高性能的接口,具有高的可擴(kuò)展性 能夠挖掘大數(shù)據(jù)集、以及更復(fù)雜的數(shù)據(jù)集 通過(guò)支持?jǐn)?shù)據(jù)挖掘模式(data mining schema)和數(shù)據(jù)挖掘查詢語(yǔ)言增加系統(tǒng)的靈活性 典型的系統(tǒng)如DBMiner,能通過(guò)DMQL挖掘語(yǔ)言進(jìn)行挖掘操作 缺陷 只注重模型的生成,如何和預(yù)言模型系統(tǒng)集成導(dǎo)致了第三代數(shù)據(jù)挖掘系統(tǒng)的開發(fā),數(shù)據(jù)挖掘軟件的發(fā)展,第二代數(shù)據(jù)挖掘軟件 DBMiner,數(shù)據(jù)挖掘軟件的發(fā)展,第二代軟件 SAS Enterprise Miner,數(shù)據(jù)挖掘軟件的發(fā)展,第三代數(shù)據(jù)挖掘軟件,特點(diǎn) 和

52、預(yù)言模型系統(tǒng)之間能夠無(wú)縫的集成,使得由數(shù)據(jù)挖掘軟件產(chǎn)生的模型的變化能夠及時(shí)反映到預(yù)言模型系統(tǒng)中 由數(shù)據(jù)挖掘軟件產(chǎn)生的預(yù)言模型能夠自動(dòng)地被操作型系統(tǒng)吸收,從而與操作型系統(tǒng)中的預(yù)言模型相聯(lián)合提供決策支持的功能 能夠挖掘網(wǎng)絡(luò)環(huán)境下(Internet/Extranet)的分布式和高度異質(zhì)的數(shù)據(jù),并且能夠有效地和操作型系統(tǒng)集成 缺陷 不能支持移動(dòng)環(huán)境,數(shù)據(jù)挖掘軟件的發(fā)展,第三代軟件 SPSS Clementine,以PMML的格式提供與預(yù)言模型系統(tǒng)的接口,數(shù)據(jù)挖掘軟件的發(fā)展,第四代數(shù)據(jù)挖掘軟件,特點(diǎn) 目前移動(dòng)計(jì)算越發(fā)顯得重要,將數(shù)據(jù)挖掘和移動(dòng)計(jì)算相結(jié)合是當(dāng)前的一個(gè)研究領(lǐng)域。 第四代軟件能夠挖掘嵌入式系統(tǒng)

53、、移動(dòng)系統(tǒng)、和普遍存在(ubiquitous)計(jì)算設(shè)備產(chǎn)生的各種類型的數(shù)據(jù) 第四代數(shù)據(jù)挖掘原型或商業(yè)系統(tǒng)尚未見(jiàn)報(bào)導(dǎo),PKDD2001上Kargupta發(fā)表了一篇在移動(dòng)環(huán)境下挖掘決策樹的論文,Kargupta是馬里蘭巴爾的摩州立大學(xué)(University of Maryland Baltimore County)正在研制的CAREER數(shù)據(jù)挖掘項(xiàng)目的負(fù)責(zé)人,該項(xiàng)目研究期限是2001年4月到2006年4月,目的是開發(fā)挖掘分布式和異質(zhì)數(shù)據(jù)(Ubiquitous設(shè)備)的第四代數(shù)據(jù)挖掘系統(tǒng)。,數(shù)據(jù)挖掘軟件的發(fā)展,第一代系統(tǒng)與第二代相比因?yàn)椴痪哂泻蛿?shù)據(jù)管理系統(tǒng)之間有效的接口,所以在數(shù)據(jù)預(yù)處理方面有一定缺陷

54、第三、四代系統(tǒng)強(qiáng)調(diào)預(yù)測(cè)模型的使用和操作型環(huán)境的部署 第二代系統(tǒng)提供數(shù)據(jù)管理系統(tǒng)和數(shù)據(jù)挖掘系統(tǒng)之間的有效接口 第三代系統(tǒng)另外還提供數(shù)據(jù)挖掘系統(tǒng)和預(yù)言模型系統(tǒng)之間的有效的接口 目前,隨著新的挖掘算法的研究和開發(fā),第一代數(shù)據(jù)挖掘系統(tǒng)仍然會(huì)出現(xiàn),第二代系統(tǒng)是商業(yè)軟件的主流,部分第二代系統(tǒng)開發(fā)商開始研制相應(yīng)的第三代數(shù)據(jù)挖掘系統(tǒng),比如 IBM Intelligent Score Service。第四代數(shù)據(jù)挖掘原型或商業(yè)系統(tǒng)尚未見(jiàn)報(bào)導(dǎo),數(shù)據(jù)挖掘軟件的發(fā)展,數(shù)據(jù)挖掘軟件發(fā)展的三個(gè)階段 獨(dú)立的數(shù)據(jù)挖掘軟件 橫向的數(shù)據(jù)挖掘工具集 縱向的數(shù)據(jù)挖掘解決方案,數(shù)據(jù)挖掘軟件的發(fā)展,獨(dú)立的數(shù)據(jù)挖掘軟件(95年以前),特點(diǎn)

55、獨(dú)立的數(shù)據(jù)挖掘軟件對(duì)應(yīng)第一代系統(tǒng),出現(xiàn)在數(shù)據(jù)挖掘技術(shù)發(fā)展早期,研究人員開發(fā)出一種新型的數(shù)據(jù)挖掘算法,就形成一個(gè)軟件。 這類軟件要求用戶對(duì)具體的算法和數(shù)據(jù)挖掘技術(shù)有相當(dāng)?shù)牧私?,還要負(fù)責(zé)大量的數(shù)據(jù)預(yù)處理工作。比如C4.5決策樹,平行坐標(biāo)可視化(parallel-coordinate visualization)。,數(shù)據(jù)挖掘軟件的發(fā)展,橫向的數(shù)據(jù)挖掘工具集(95年開始),發(fā)展原因 隨著數(shù)據(jù)挖掘應(yīng)用的發(fā)展,人們逐漸認(rèn)識(shí)到數(shù)據(jù)挖掘軟件需要和以下三個(gè)方面緊密結(jié)合:1)數(shù)據(jù)庫(kù)和數(shù)據(jù)倉(cāng)庫(kù);2)多種類型的數(shù)據(jù)挖掘算法;3)數(shù)據(jù)清洗、轉(zhuǎn)換等預(yù)處理工作。 隨著數(shù)據(jù)量的增加,需要利用數(shù)據(jù)庫(kù)或者數(shù)據(jù)倉(cāng)庫(kù)技術(shù)進(jìn)行管理,所

56、以數(shù)據(jù)挖掘系統(tǒng)與數(shù)據(jù)庫(kù)和數(shù)據(jù)倉(cāng)庫(kù)結(jié)合是自然的發(fā)展。 現(xiàn)實(shí)領(lǐng)域的問(wèn)題是多種多樣的,一種或少數(shù)數(shù)據(jù)挖掘算法難以解決 挖掘的數(shù)據(jù)通常不符合算法的要求,需要有數(shù)據(jù)清洗、轉(zhuǎn)換等數(shù)據(jù)預(yù)處理的配合,才能得出有價(jià)值的模型,數(shù)據(jù)挖掘軟件的發(fā)展,橫向的數(shù)據(jù)挖掘工具集(95年開始),發(fā)展過(guò)程 隨著這些需求的出現(xiàn),1995年左右軟件開發(fā)商開始提供稱之為“工具集”的數(shù)據(jù)挖掘軟件 特點(diǎn) 此類工具集的特點(diǎn)是提供多種數(shù)據(jù)挖掘算法 包括數(shù)據(jù)的轉(zhuǎn)換和可視化 由于此類工具并非面向特定的應(yīng)用,是通用的算法集合,可以稱之為橫向的數(shù)據(jù)挖掘工具(Horizontal Data Mining Tools) 由于此類工具并非面向特定的應(yīng)用,是

57、通用的算法集合,所以稱之為橫向的數(shù)據(jù)挖掘工具 典型的橫向工具有IBM Intelligent Miner、SPSS的Clementine、SAS的Enterprise Miner、SGI的MineSet、Oracle Darwin等,數(shù)據(jù)挖掘軟件的發(fā)展,橫向的數(shù)據(jù)挖掘工具集(95年開始),IBM Intelligent Miner SPSS的Clementine SAS的Enterprise Miner SGI的MineSet Oracle Darwin,數(shù)據(jù)挖掘軟件的發(fā)展,縱向的數(shù)據(jù)挖掘解決方案(99年開始),發(fā)展原因 隨著橫向的數(shù)據(jù)挖掘工具的使用日漸廣泛,人們也發(fā)現(xiàn)這類工具只有精通數(shù)數(shù)據(jù)挖

58、掘算法的專家才能熟練使用,如果對(duì)算法不了解,難以得出好的模型 從1999年開始,大量的數(shù)據(jù)挖掘工具研制者開始提供縱向的數(shù)據(jù)挖掘解決方案(Vertical Solution),即針對(duì)特定的應(yīng)用提供完整的數(shù)據(jù)挖掘方案 對(duì)于縱向的解決方案,數(shù)據(jù)挖掘技術(shù)的應(yīng)用多數(shù)還是為了解決某些特定的難題,而嵌入在應(yīng)用系統(tǒng)中,數(shù)據(jù)挖掘軟件的發(fā)展,縱向的數(shù)據(jù)挖掘解決方案(99年開始),在證券系統(tǒng)中嵌入神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)功能 在欺詐檢測(cè)系統(tǒng)中嵌入欺詐行為的分類/識(shí)別模型 在客戶關(guān)系管理系統(tǒng)中嵌入客戶成簇/分類功能或客戶行為分析功能 在機(jī)器維護(hù)系統(tǒng)中嵌入監(jiān)/檢測(cè)或識(shí)別難以定性的設(shè)備故障功能 在數(shù)據(jù)庫(kù)營(yíng)銷中嵌入選擇最可能購(gòu)買產(chǎn)品的

59、客戶功能 在機(jī)場(chǎng)管理系統(tǒng)中嵌入旅客人數(shù)預(yù)測(cè)、貨運(yùn)優(yōu)化功能 在基因分析系統(tǒng)中嵌入DNA識(shí)別功能 在制造/生產(chǎn)系統(tǒng)中嵌入質(zhì)量控制功能等,數(shù)據(jù)挖掘軟件的發(fā)展,縱向的數(shù)據(jù)挖掘解決方案(99年開始),KD1(主要用于零售業(yè)) Options&Choice(主要用于保險(xiǎn)業(yè)) HNC(欺詐行為偵測(cè)) Unica Model 1(主要用于市場(chǎng)營(yíng)銷),數(shù)據(jù)挖掘軟件的發(fā)展,數(shù)據(jù)挖掘軟件的現(xiàn)狀,情況概覽 2002年9月,Amazon上關(guān)于數(shù)據(jù)挖掘的書有251本() 目前有數(shù)百個(gè)數(shù)據(jù)挖掘軟件產(chǎn)品() 數(shù)據(jù)挖掘應(yīng)用相對(duì)廣泛,數(shù)據(jù)挖掘軟件的現(xiàn)狀,國(guó)內(nèi)大部分處于科研階段 各大學(xué)和科研機(jī)構(gòu)從事數(shù)據(jù)挖掘算法的研究 國(guó)內(nèi)著作的數(shù)

60、據(jù)挖掘方面的書較少(翻譯的有) 數(shù)據(jù)挖掘討論組() 有一些公司在國(guó)外產(chǎn)品基礎(chǔ)上開發(fā)的特定的應(yīng)用 IBM Intelligent Miner SAS Enterprise Miner 自主知識(shí)產(chǎn)權(quán)的數(shù)據(jù)挖掘軟件 復(fù)旦德門()等,八、數(shù)據(jù)挖掘應(yīng)用,數(shù)據(jù)挖掘應(yīng)用,數(shù)據(jù)挖掘應(yīng)用,銀行 美國(guó)銀行家協(xié)會(huì)(ABA)預(yù)測(cè)數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)挖掘技術(shù)在美國(guó)商業(yè)銀行的應(yīng)用增長(zhǎng)率是14.9。 分析客戶使用分銷渠道的情況和分銷渠道的容量 ;建立利潤(rùn)評(píng)測(cè)模型;客戶關(guān)系優(yōu)化;風(fēng)險(xiǎn)控制等 電子商務(wù) 網(wǎng)上商品推薦;個(gè)性化網(wǎng)頁(yè);自適應(yīng)網(wǎng)站 生物制藥、基因研究 DNA序列查詢和匹配;識(shí)別基因序列的共發(fā)生性 電信 欺詐甄別;客戶流失 保

61、險(xiǎn)、零售。,數(shù)據(jù)挖掘應(yīng)用,數(shù)據(jù)挖掘,保險(xiǎn)客戶,證券客戶,銀行客戶,電信客戶,零售客戶,人類基因,植物基因,動(dòng)物基因,特殊群體基因,基因序列 基因表達(dá)譜 基因功能 基因制藥 .,數(shù)據(jù)挖掘應(yīng)用,為什么沒(méi)有廣泛使用?,數(shù)據(jù)挖掘正在快速的發(fā)展 技術(shù)的研究和開發(fā)已經(jīng)走在很前沿的地方 數(shù)據(jù)挖掘應(yīng)用面已經(jīng)擴(kuò)充了很多 但是仍然沒(méi)有希望的高,為什么? 希望在多少年內(nèi)達(dá)到數(shù)十億元的盈利? 是一種增值服務(wù)(Not bread-and-butter) 不能認(rèn)為高不可攀,所以不去過(guò)問(wèn) 是一門年輕的技術(shù),需要和實(shí)際結(jié)合,解決現(xiàn)實(shí)問(wèn)題,數(shù)據(jù)挖掘應(yīng)用,國(guó)內(nèi)應(yīng)用存在的問(wèn)題,數(shù)據(jù)積累不充分、不全面 業(yè)務(wù)模型構(gòu)建困難 缺少有經(jīng)驗(yàn)的

62、實(shí)施者,數(shù)據(jù)挖掘應(yīng)用,神經(jīng)網(wǎng)絡(luò) Neural Networks,聚類分析 Clustering,Open Accnt,Add New Product,Decrease Usage,?,Time,序列分析 Sequence Analysis,決策樹 Decision Trees,傾向性分析,客戶保留 客戶生命周期管理 目標(biāo)市場(chǎng) 價(jià)格彈性分析,客戶細(xì)分 市場(chǎng)細(xì)分,傾向性分析 客戶保留 目標(biāo)市場(chǎng) 欺詐檢測(cè),關(guān)聯(lián)分析 Association,市場(chǎng)組合分析 套裝產(chǎn)品分析 目錄設(shè)計(jì) 交叉銷售,數(shù)據(jù)挖掘應(yīng)用,聚集(Cluster) 聚集是把整個(gè)數(shù)據(jù)庫(kù)分成不同的群組。它的目的是要群與群之間差別很明顯,而同一個(gè)

63、群之間的數(shù)據(jù)盡量相似。 常用技術(shù):神經(jīng)元網(wǎng)絡(luò)、K均值、最近鄰,數(shù)據(jù)挖掘應(yīng)用,異常檢測(cè) 及時(shí)發(fā)現(xiàn)有欺詐嫌疑的異常行為,正確進(jìn)行欺詐問(wèn)題的評(píng)估,對(duì)欺詐者實(shí)施控制和強(qiáng)制措施。 技術(shù):決策樹,神經(jīng)元網(wǎng)絡(luò),異常因子LOF檢測(cè),客戶消費(fèi)異常行為分析模型,數(shù)據(jù)挖掘應(yīng)用,客戶分析業(yè)務(wù)模型 交叉銷售 客戶響應(yīng) 客戶流失 客戶利潤(rùn) 信用卡分析業(yè)務(wù)模型 客戶信用等級(jí)評(píng)估 客戶透支分析 客戶利潤(rùn)分析 客戶消費(fèi)行為分析 客戶消費(fèi)異常行為分析,數(shù)據(jù)挖掘應(yīng)用,數(shù)據(jù)挖掘應(yīng)用,客戶響應(yīng)模型基本概念,響應(yīng)率分析: 分析客戶對(duì)某種新服務(wù)或者新產(chǎn)品的感興趣情況. 為什么要進(jìn)行響應(yīng)率分析: 通過(guò)響應(yīng)率分析能夠有效的降低市場(chǎng)推廣的費(fèi)用,

64、同時(shí)能夠更加有針對(duì)性的面對(duì)目標(biāo)市場(chǎng).達(dá)到以最小的投入獲得最佳效果的目的,數(shù)據(jù)挖掘應(yīng)用,用哪一種數(shù)據(jù)挖掘技術(shù)實(shí)現(xiàn)?,響應(yīng)率分析是為了對(duì)某項(xiàng)市場(chǎng)營(yíng)銷(新產(chǎn)品銷售)活動(dòng)找到最合適的響應(yīng)客戶,需要預(yù)測(cè)哪些客戶能夠響應(yīng),以及響應(yīng)的可能性是多少。 因此,需要構(gòu)建預(yù)言模型 分類是預(yù)言模型的一種技術(shù),可以利用分類技術(shù)構(gòu)建客戶響應(yīng)率模型 決策樹 神經(jīng)網(wǎng)絡(luò) 貝葉斯分類 ,數(shù)據(jù)挖掘未來(lái)發(fā)展,與數(shù)據(jù)庫(kù)數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)集成 與預(yù)言模型系統(tǒng)集成 挖掘各種復(fù)雜類型的數(shù)據(jù) 與應(yīng)用相結(jié)合 研制和開發(fā)數(shù)據(jù)挖掘標(biāo)準(zhǔn) 支持移動(dòng)環(huán)境,數(shù)據(jù)挖掘應(yīng)用時(shí)間序列模式挖掘,工業(yè)過(guò)程變量時(shí)間序列,生產(chǎn)過(guò)程的類型 連續(xù)過(guò)程:工藝參數(shù)(設(shè)定值)均為常量。

65、 批量過(guò)程:工藝參數(shù)(設(shè)定值)通常為變量。 工藝參數(shù)的數(shù)據(jù)類型 數(shù)值型、邏輯型、枚舉型 產(chǎn)品質(zhì)量的數(shù)據(jù)類型 邏輯型:只判斷產(chǎn)品的好壞 數(shù)值型:給出產(chǎn)品質(zhì)量好壞的程度,批量型生產(chǎn)過(guò)程,質(zhì)量檢驗(yàn)!,預(yù)熱階段,加熱階段,均熱階段,連續(xù)型生產(chǎn)過(guò)程,數(shù)據(jù)挖掘?qū)ο蟮幕緲?gòu)成,樣本的抽?。ㄅ可a(chǎn)過(guò)程),t,t,x1(t),y1,y2,y3,x2(t),x3(t),X,Y,連續(xù)生產(chǎn)過(guò)程的樣本抽取,連續(xù)過(guò)程 批量過(guò)程,T1,T2,T3,v,x1,x2,x3,質(zhì)量檢驗(yàn)!,0,t1,t2,t3,如何“組裝”時(shí)間序列?,關(guān)于生產(chǎn)質(zhì)量改變的模式假設(shè),生產(chǎn)質(zhì)量不良的原因是工藝參數(shù)設(shè)計(jì)或控制有問(wèn)題: 設(shè)計(jì)階段:工藝參數(shù)設(shè)

66、計(jì)有錯(cuò)誤; 控制階段:工藝參數(shù)未能控制在設(shè)計(jì)值; 上述因素都可通過(guò)生產(chǎn)過(guò)程中工藝參數(shù)的時(shí)間序列實(shí)測(cè)樣本反映出來(lái)。 工藝參數(shù)的時(shí)間序列中某些特征的改變,引起生產(chǎn)質(zhì)量從量變到質(zhì)變。 時(shí)間序列的特征,可以用模式來(lái)描述。 時(shí)間序列的模式改變,是生產(chǎn)質(zhì)量不良的原因。 數(shù)據(jù)挖掘的目的,就是要尋找引起生產(chǎn)質(zhì)量不良的工藝參數(shù)模式。,時(shí)間序列的模式抽取,目的: 將時(shí)間序列樣本集合轉(zhuǎn)換為特征模式樣本集合,每一種模式(或若干種模式的一種組合)用一個(gè)整數(shù)來(lái)編碼,從而將數(shù)據(jù)挖掘的對(duì)象從時(shí)間序列空間轉(zhuǎn)換為整數(shù)空間。 其中,mi 為 xi (t) 所包含的特征模式的集合。注意: mi 不再是時(shí)間序列 mi 可能是多元素的集合,即 xi(t)

展開閱讀全文
溫馨提示:
1: 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2: 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3.本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 裝配圖網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

相關(guān)資源

更多
正為您匹配相似的精品文檔
關(guān)于我們 - 網(wǎng)站聲明 - 網(wǎng)站地圖 - 資源地圖 - 友情鏈接 - 網(wǎng)站客服 - 聯(lián)系我們

copyright@ 2023-2025  zhuangpeitu.com 裝配圖網(wǎng)版權(quán)所有   聯(lián)系電話:18123376007

備案號(hào):ICP2024067431號(hào)-1 川公網(wǎng)安備51140202000466號(hào)


本站為文檔C2C交易模式,即用戶上傳的文檔直接被用戶下載,本站只是中間服務(wù)平臺(tái),本站所有文檔下載所得的收益歸上傳人(含作者)所有。裝配圖網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)上載內(nèi)容本身不做任何修改或編輯。若文檔所含內(nèi)容侵犯了您的版權(quán)或隱私,請(qǐng)立即通知裝配圖網(wǎng),我們立即給予刪除!