數據倉庫數據挖掘與信息管理ppt課件
《數據倉庫數據挖掘與信息管理ppt課件》由會員分享,可在線閱讀,更多相關《數據倉庫數據挖掘與信息管理ppt課件(37頁珍藏版)》請在裝配圖網上搜索。
數據挖掘技術,1,前言,學習目的和方向 數據倉庫-新型的信息管理手段 數據挖掘-新型的信息分析技術 基于數據倉庫的數據挖掘更加有效,2,教材 數據倉庫和數據挖掘 蘇新寧、楊建林等編著,清華大學出版社,2006 參考書 數據挖掘:概念與技術,加韓家煒 坎伯(Kamber,M.)著 范明等譯 微軟公司核心技術書庫 SQL Server 2000數據挖掘技術指南,美希德曼(Seidman,C.)著 劉藝 等譯 數據挖掘原理, 英漢德(Hand,D.)著 張銀奎等譯,前言,3,參考書 數據倉庫原理與實踐,林宇等編著 數據倉庫中的決策支持,瑞 Gray 沃森 Watson Oracle9i數據倉庫分析、構建實用指南,飛思科技產品研發(fā)中心編著 數據挖掘討論組,前言,4,主要內容,第1章 數據倉庫、數據挖掘與信息管理 第2章 數據挖掘的功能、過程與方法 第3章 數據庫挖掘 第4章 文本挖掘 第5章 Web挖掘 第6章 數據挖掘應用 第7章 數據挖掘軟件發(fā)展分析,5,第1章 數據倉庫、數據挖掘與信息管理,6,數據倉庫的起源,數據庫與數據倉庫是信息資源管理的兩種手段 企業(yè)用戶信息的需求有了新的變化,傳統的數據庫很難勝任這方面的要求 數據倉庫可以很好地滿足這方面的要求,7,1.1 企業(yè)信息用戶關心的新問題,一般來說,用戶關心下列問題: 可訪問性 即用戶能否得到他所需要的信息(例,教室占用率); 及時性 即用戶得到信息需要等多長時間(例,地質模擬,算最佳注水溫度、礦物濃度); 格式 即用戶能否用電子表格、圖形、地圖或其他分析工具來操縱他所得到數據、能否得到報表形式的數據; 完整性 即用戶得到的數據是否可信(從不完整的數據中得出的結論可能不準確)。,8,1.1 企業(yè)信息用戶關心的新問題,傳統數據庫技術的局限性 傳統的數據庫技術以數據庫為中心進行從事務處理到決策分析等各種類型的數據處理工作,不適宜決策支持應用,9,1.1 企業(yè)信息用戶關心的新問題,事務處理環(huán)境不適宜決策支持應用的主要原因 事務處理和分析處理的性能特性不同 數據集成問題 歷史數據問題 數據綜合問題,10,1.2 解決問題的關鍵技術-數據倉庫,構建數據倉庫,把分析型數據從事務處理環(huán)境中提取出來,按照決策支持處理的需要進行重新組織,建立單獨的分析處理環(huán)境,11,1.2 解決問題的關鍵技術-數據倉庫,數據倉庫 Inmon把數據倉庫描述為一個“面向主題的、完整的、非易失的、不同時間的、用于支持決策管理的數據集合” 通常有兩種數據源的數據聚居在數據倉庫中 在大多數情況下,來自于事務處理系統周期性遷移的數據被移入數據倉庫 另一種數據源常常是購買過來的可以與內部數據相連通的外部數據庫,如收入清單、人口統計信息等,12,1.3數據倉庫的商業(yè)應用,典型應用:客戶關系管理 有了數據倉庫,就可以了解客戶是誰,他要什么,怎樣提供更好的服務給他,并以此創(chuàng)造更多利潤 零售業(yè) 電信行業(yè) 證券行業(yè),13,1.4 數據倉庫與信息管理,數據倉庫在信息管理方面的作用 信息資源管理 信息分析 信息服務 基于數據倉庫為用戶提供信息服務,可以使用戶能夠從多種視角觀察數據,從而能夠更深入地理解數據,從中獲得決策支持信息 數據倉庫提供給用戶的信息或知識可以是利用從數據倉庫抽取出的數據組織成的報表或繪制成的直觀圖形,14,1.5 信息管理新問題催生數據挖掘,人們被“淹沒”在數據“海洋”之中 如何不被堆積如山的信息所淹沒? 如何能夠迅速地從海量信息中獲取有用信息? 在這種背景下,數據挖掘(Data Mining)技術應運而生,15,1.5 信息管理新問題催生數據挖掘,數據挖掘是指從大型數據集中提取人們感興趣的知識,這些知識是隱含的、具有一定可信度的、對用戶而言是新穎的且有潛在價值的知識,提取的知識表示為概念、規(guī)則、模式等多種形式,16,1.5 信息管理新問題催生數據挖掘,下面將通過一個案例研究來介紹各個數據分析階段中所涉及的概念 三個階段: 報表查詢 聯機分析 數據挖掘,17,1.5 信息管理新問題催生數據挖掘,案例之報表查詢,18,1.5 信息管理新問題催生數據挖掘,案例之報表查詢,19,1.5 信息管理新問題催生數據挖掘,案例之聯機分析 1. 1月份,頭盔在什么地區(qū)銷售最好? 2. 1月份,哪個國家的頭盔銷售在該暢銷地區(qū)處于領先地位? 3. 在領先的國家中,哪個城市的頭盔收入最高?,20,1.5 信息管理新問題催生數據挖掘,案例之數據挖掘 問題; 對購買山地車的客戶來說,什么是最可能會同時購買的商品? Intelligent Miner for data該問題做出如下答案:頭盔,可能性為92:手套,可能性為62:新款鈴鐺,可能性為23;速度計,可能性為13。 關聯算法發(fā)現了產品之間的聯系。根據上面的答案,它會給銷售人員一個目錄,列出在銷售某一具體產品時所建議的前3名關聯產品。例如,如果銷售山地車,銷售人員可建議購買頭盔、手套和新款鈴鐺。,21,1.5 信息管理新問題催生數據挖掘,案例之數據挖掘 3個月后,公司有了如下結果: 季度的營業(yè)額上升34,收入上漲32; 每輛山地車交易的平均銷售收入增加了29; 山地車與頭盔一塊購買成了時尚(每個銷售地點的頭盔成交量都上升了); 手套的銷售上升15; 山地車附件上升51;,22,1.6 數據倉庫與數據挖掘的關系,構建在數據倉庫平臺上的數據挖掘效率會更高 一般來說,數據挖掘的對象可以是普通的數據庫、文件系統,也可以是數據倉庫,但,數據倉庫完成了知識發(fā)現過程中大部分的數據預處理工作 數據挖掘庫中的內容可以是數據倉庫數據的一個邏輯上的子集 數據挖掘是一個相對獨立的系統,它可以獨立于數據倉庫系統而存在,23,1.7數據倉庫與數據庫長期共存,首先,企業(yè)在建立用于決策的數據倉庫系統時,不能一味否定傳統的數據庫系統,還應該在企業(yè)內部保留數據庫系統,用于日常的事務處理 其次,數據庫是數據倉庫的基礎 第三,在技術實現方面,數據庫與數據倉庫差別不大,數據倉庫并不是純粹的技術科學,它強調的是數據組織的一種理念 第四,不要脫離企業(yè)的實際,盲目地、片面地、甚至是趕時髦地去引進與實施數據倉庫技術,24,在何種數據上進行數據挖掘,關系數據庫 數據倉庫 事務數據庫 高級數據庫系統和信息庫 空間數據庫 時間數據庫和時間序列數據庫 流數據 多媒體數據庫 面向對象數據庫和對象-關系數據庫 異種數據庫和歷史(legacy)數據庫 文本數據庫和萬維網(WWW) 知識庫,25,空間數據庫,空間數據庫是指在關系型數據庫(DBMS)內部對地理信息進行物理存儲??臻g數據庫中存儲的海量數據包括對象的空間拓撲特征、非空間屬性特征以及對象在時間上的狀態(tài)變化。 常見的空間數據庫數據類型 地理信息系統(GIS) 遙感圖像數據 醫(yī)學圖像數據,26,時間數據庫和時序數據庫,時間數據庫和時序數據庫都存放與時間有關的數據。 時間數據庫通常存放包含時間相關屬性的數據。 時序數據庫存放隨時間變化的值序列。 對時間數據庫和時序數據庫的數據挖掘,可以通過研究事物發(fā)生發(fā)展的過程,有助于揭示事物發(fā)展的本質規(guī)律,可以發(fā)現數據對象的演變特征或對象變化趨勢。,27,流數據,與傳統的數據庫技術中的靜態(tài)數據不同,流數據是連續(xù)的、有序的、變化的、快速的、大量的數據輸入的數據。 主要應用場合 網絡監(jiān)控 網頁點擊流 股票市場 流媒體等等 與傳統數據庫技術相比,流數據在存儲、查詢、訪問、實時性的要求等方面都有很大區(qū)別。,28,多媒體數據庫,多媒體數據庫實現用計算機管理龐大復雜的多媒體數據,主要包括包括圖形(graphics)、圖象(image)、聲音(audio)、視頻(video)等等,現代數據庫技術一般將這些多媒體數據以二進制大對象的形式進行存儲。 對于多媒體數據庫的數據挖掘,需要將存儲和檢索技術相結合。目前的主要方法包括構造多媒體數據立方體、多媒體數據庫的多特征提取和基于相似性的模式匹配。,29,面向對象數據庫是面向對象技術和數據庫技術結合的產物,該技術對數據以對象的形式進行存儲,并在這個基礎上實現了傳統數據庫的功能。 對象關系數據庫基于對象關系模型構造,該模型通過處理復雜對象的豐富數據類型和對象定位等功能,擴充關系模型。 面向對象數據庫和對象關系數據庫中的數據挖掘會涉及一些新的技術,比如處理復雜對象結構、復雜數據類型、類和子類層次結構、構造繼承以及方法和過程等等。,面向對象數據庫/對象-關系數據庫,30,異構數據庫和歷史(legacy)數據庫,歷史數據庫是一系列的異構數據庫系統的集合,包括不同種類的數據庫系統,像關系數據庫、網絡數據庫、文件系統等等。 有效利用歷史數據庫的關鍵在于實現不同數據庫之間的數據信息資源、硬件設備資源和人力資源的合并和共享。 對于異構數據庫系統,實現數據共享應當達到兩點:一是實現數據庫轉換;二是實現數據的透明訪問。 WEB SERVICE技術的出現有利于歷史數據庫數據的重新利用。,31,文本數據庫和萬維網(WWW),文本數據庫存儲的是對對象的文字性描述。 文本數據庫的分類 無結構類型(大部分的文本資料和網頁) 半結構類型(XML數據) 結構類型(圖書館數據) 萬維網(WWW)可以被看成最大的文本數據庫 數據挖掘內容 內容檢索 WEB訪問模式檢索,32,知識庫,針對知識庫中的事實規(guī)則應用綜合歸納推理機制,挖掘出深層次的更富概括性的知識,33,34,數據倉庫與傳統數據庫的區(qū)別,35,實踐項目名稱,1、數據倉庫軟件的使用方法; 2、客戶數據倉庫的建立; 3、編程實現關聯分析算法; 4、編程實現決策樹分類算法; 5、數據挖掘應用分析。,36,課程報告,1、實驗目的 2、規(guī)格說明 3、算法步驟 4、結果分析 5、實驗體會 6、結束語 7、參考文獻 8、程序源碼,源碼要求有清晰明確的注釋。,37,- 配套講稿:
如PPT文件的首頁顯示word圖標,表示該PPT已包含配套word講稿。雙擊word圖標可打開word文檔。
- 特殊限制:
部分文檔作品中含有的國旗、國徽等圖片,僅作為作品整體效果示例展示,禁止商用。設計者僅對作品中獨創(chuàng)性部分享有著作權。
- 關 鍵 詞:
- 數據倉庫 數據 挖掘 信息管理 ppt 課件
裝配圖網所有資源均是用戶自行上傳分享,僅供網友學習交流,未經上傳用戶書面授權,請勿作他用。
鏈接地址:http://www.szxfmmzy.com/p-1417066.html