數據倉庫與數據挖掘技術第2章.ppt
《數據倉庫與數據挖掘技術第2章.ppt》由會員分享,可在線閱讀,更多相關《數據倉庫與數據挖掘技術第2章.ppt(54頁珍藏版)》請在裝配圖網上搜索。
2020/4/27,1,第二章數據倉庫的分析,主要內容如何建立數據倉庫的需求模型?影響數據倉庫成功的因素有哪些?數據倉庫開發(fā)各階段的任務是什么?數據倉庫的基本體系結構是怎樣的?數據倉庫的邏輯結構是怎樣的?,2020/4/27,2,1、如何建立數據倉庫的需求模型?,是數據倉庫的分析中首要解決的問題,2020/4/27,3,圖2.1數據倉庫的需求分析模型,2020/4/27,4,2、影響數據倉庫成功的因素有哪些?,2020/4/27,5,影響因素,數據存儲的組織方式,決定了數據的可獲取性與有用性,進而決定了數據的價值。數據倉庫的數據庫結構有以下要求:(P44表2.1)反映靜態(tài)數據存儲歷史數據在時間上是可見的、明確的數據的粒度是詳細的可導出的匯總定期的、計劃的更新支持的任務是不可預期的對數據庫的靈活性要求高,2020/4/27,6,2020/4/27,7,2020/4/27,8,3、數據倉庫開發(fā)各階段的任務是什么?,2020/4/27,9,傳統(tǒng)的操作型系統(tǒng)的生命周期,SystemDevelopmentLifeCycleSDLC系統(tǒng)開發(fā)生命周期需求驅動的開發(fā)生命周期,2020/4/27,10,數據倉庫的生命周期CLDS,CLDS數據驅動的開發(fā)生命周期(SDLC的逆序)實現數據倉庫集成數據檢驗偏差針對數據編程設計DSS系統(tǒng)分析結果和理解需求參見P45圖2.5,2020/4/27,11,2020/4/27,12,1.數據倉庫計劃與準備階段,用戶需求分析可行性研究用戶的認可建設數據倉庫的協調與阻力分析開發(fā)項目計劃制定關鍵資源管理,2020/4/27,13,(1)用戶需求分析內容,用戶如何處理其事務如何衡量用戶的工作表現用戶需要什么屬性(在信息方面)應用于這些屬性的業(yè)務層次結構是什么用戶現在使用什么數據,以及需要什么數據用戶需要什么水平的細節(jié)或匯總數據,2020/4/27,14,2020/4/27,15,(2)可行性研究,三個重要分析技術可行性操作可行性經濟可行性,2020/4/27,16,(3)用戶認可(Userbuyin),重要因素用戶大力支持不可少,其與上層的支持是不同的不能完全改變決策方式,只能改變決策信息的獲取方法,改進用戶獲取信息的方法數據倉庫必須經常集成其中應用軟件的數據,理解用戶的看法,2020/4/27,17,(4)建設數據倉庫的協調與阻力分析,2020/4/27,18,(5)開發(fā)項目計劃制定,2020/4/27,19,(6)創(chuàng)建數據倉庫所使用的關鍵資源,人才業(yè)務分析員確定和定義目的和目標用戶群確定滿足組織戰(zhàn)略性商業(yè)目標數據體系結構設計師數據的采集、轉換、分配和加載定義數據模型信息系統(tǒng)服務人員最終用戶支持人員領導和管理人員項目領導項目經理硬件軟件,2020/4/27,20,2.數據倉庫的其他階段,2020/4/27,21,數據倉庫的系統(tǒng)分析,系統(tǒng)分析的目標是了解當前實際是如何工作的,以使得系統(tǒng)的操作可在將來得到改善。原型法注意:不能與其所有可操作數據源相連,數據仍然需要做數據凈化、傳送等工作開發(fā)方法數據驅動法應用驅動法,2020/4/27,22,數據驅動方法,數據源:連續(xù)的數據源次序:自頂向下優(yōu)點:每一個階段在技術上都很簡單,只涉及一個文件或數據庫類型映射到數據倉庫數據庫之中,每個附加數據源只有在其前面的附加數據源處理完之后才添加。缺點:數據資源不能利落地映射到商業(yè)查詢中。,2020/4/27,23,應用驅動方法,數據源:來自幾個操作系統(tǒng)的數據次序:自頂向下優(yōu)點:在第一階段就提供有用的信息缺點:到達這一階段要花費較長的時間、并且需要的活動很多很復雜,2020/4/27,24,數據倉庫系統(tǒng)設計,重點:設計數據倉庫的元素,即數據庫和數據分析如何選擇數據庫體系結構按照哪種系統(tǒng)結構設計如何安排數據庫定義數據如何使用所有的數據源都被映射傳送到數據倉庫描述數據倉庫何時及時如何更新并回答程序員遇到的無數多個”我該怎么辦”,2020/4/27,25,數據倉庫的測試,適用于順序測試確保對源文件提取記錄及字段的正確性證明傳送和凈化工作正常,對比元數據,檢查數據倉庫內容以確保整個加載過程有效,可能要測試有關已知誰的回答的分析。增強維護,增強用戶支持,2020/4/27,26,思考,查閱賽迪網,閱讀和比較不同的數據倉庫的解決方案。明確數據驅動法與應用驅動法兩種方法在數據倉庫實施中的不同表現。,2020/4/27,27,4、數據倉庫的基本體系結構是怎樣的?,2020/4/27,28,數據倉庫基本體系結構,2020/4/27,29,數據倉庫體系結構,數據倉庫,2020/4/27,30,數據倉庫體系結構,2020/4/27,31,數據分級,DataStaging提取,轉化,凈化,加載數據倉庫不直接存儲事務數據,提取時必須將事務數據進行轉換成數據倉庫的數據結構和內部格式,為了保證數據的品質,還要對數據進行凈化,將凈化后的數據加載到數據倉庫中。,2020/4/27,32,ETL(提取轉換加載),數據的提取轉換加載(ETL)是用來實現異構數據源的數據集成,即完成數據的抓取/抽取、清洗、轉換、加載與索引等數據調和工作。ETL是數據倉庫系統(tǒng)中最重要的處理工具之一,它的主要任務是建立、維護數據倉庫,通過與操作型數據源的映像關系執(zhí)行數據提取轉換加載的任務。其中涉及各種各樣的技術和處理,比如,數據清洗及其準備結構的設計和處理、映像技術和方法、粒度的考慮,以及數據的提取、轉換、追加、加載作業(yè)控制等一系列問題。,操作型系統(tǒng),數據倉庫,提取,集結地,清洗,轉換,加載與索引,拒絕數據的信息,有關拒絕數據的信息,2020/4/27,33,元數據,元數據Metadata“有關數據的數據”“數據倉庫的元數據是要解決何人在何時何地為了什么原因及怎樣使用數據倉庫的問題”??蓪祿}庫中的各種數據進行詳細的描述與說明,說明每個數據的上下文關系,使每個數據具有符合現實的真實含義,使最終用戶了解這些數據之間的關系。作用:通過元數據進行數據倉庫的管理;通過元數據來使用數據倉庫。,2020/4/27,34,技術元數據:用于對數據倉庫進行管理的元數據是數據倉庫的設計和管理人員用于數據倉庫開發(fā)和日常管理數據倉庫時使用的元數據。它包括數據源信息、數據轉換的描述、數據倉庫對象和數據結構的定義、數據清理和數據更新時采用的規(guī)則、源數據到目的數據的映射、用戶訪問權限、數據備份歷史紀錄、數據導入歷史紀錄、信息發(fā)布歷史紀錄等。商業(yè)元數據:幫助使用數據倉庫的元數據從商業(yè)業(yè)務的角度描述了數據倉庫中的數據。它包括業(yè)務主題的描述,以及對所包含的數據、查詢、報表的描述,等等。,2020/4/27,35,元數據為訪問數據倉庫提供了一個信息目錄數據倉庫中都有些什么數據這些數據是怎么得到的誰在管轄怎么訪問這些數據其他更多的信息可通過查詢工具得知元數據的有關資料元數據是數據倉庫運行和維護的中心,數據倉庫服務器必須利用元數據來存儲和更新數據,用戶必須通過元數據來了解和訪問數據。,2020/4/27,36,數據倉庫數據庫,是整個數據倉庫環(huán)境的核心,是數據存放的地方,提供對數據的支持和快速檢索的支持相對于操縱型數據庫來說,其突出的特點是對海量數據的支持和快速的檢索技術。包含明細數據和匯總數據,2020/4/27,37,查詢工具,查詢工具通常包括一個用于向數據庫提出問題的最終用戶接口,此接口位于聯機分析處理OLAP的程序中。,2020/4/27,38,4、數據倉庫的邏輯結構是怎樣的?,2020/4/27,39,數據倉庫的粒度,粒度是指數據倉庫的數據單位中保存數據細化或綜合程度的級別。,2020/4/27,40,數據倉庫的粒度,粒度粒度越小,細節(jié)程度越高,綜合程度越低,回答查詢的種類就越多反之,粒度的增大將會提高查詢效率,但同時也造成回答細節(jié)問題能力的下降。低粒度級(高細節(jié)級)高粒度級(低細節(jié)級)例如:電訊公司數據倉庫中,保存一個顧客一個月內每個電話的細節(jié)高細節(jié)級,低粒度級,假設有200個記錄,包含本月內200個電話的任何信息;保存一個顧客一個月內每天電話的匯總輕度綜合,較高粒度級,只有30或31條記錄,只能回答匯總查詢的問題。保存一個顧客一個月內的電話的綜合低細節(jié)級,高粒度級,只有一條記錄。,2020/4/27,41,輕度綜合數據,2020/4/27,42,數據倉庫的粒度,雙重粒度指輕度綜合數據和真實細節(jié)數據級(最低粒度級)大部分的分析數據是針對被壓縮的、存取效率高的輕度粒度級數據進行的。需要分析更低的細節(jié)數據時才訪問最低粒度級數據。,2020/4/27,43,2020/4/27,44,數據倉庫中的數據分割,把數據分散到各自小的物理單元中去任何給定的單元屬于一個分割數據分割后的數據單元稱為分片分割后的單元具有靈活性,能夠實現重構、索引、順序掃描、重組、恢復、監(jiān)控等,2020/4/27,45,數據分割,2020/4/27,46,2020/4/27,47,數據倉庫中數據組織,簡單堆積結構輪轉綜合數據存儲簡單直接文件連續(xù)組織,2020/4/27,48,簡單堆積結構,從操作型環(huán)境中取出每天的事務數據根據主題來綜合成數據倉庫記錄,2020/4/27,49,輪轉綜合數據存儲,只有在輪轉綜合文件中的數據才能被輸入到不同的結構形式中,而操作型數據到數據倉庫環(huán)境中的數據處理方法簡單的堆積結構相同。,方式:每天進行數據綜合,每周累加,月底將每周的數據加到一起,并放于第一個每月響應的數據位置處,然后每周數據位置清零。到了年底,將每月數據累加,放入第一個年度響應的數據位置處,然后每月數據位置清零。,2020/4/27,50,簡單堆積與輪轉綜合的比較,2020/4/27,51,簡單直接文件組織,把數據從操作型環(huán)境拖入數據倉庫環(huán)境中,無任何累積,以較長時間為單位的它是間隔一定時間的操作型數據的一個快照,2020/4/27,52,連續(xù)數據組織,依據兩個或更多的簡單直接文件快照進行合并創(chuàng)建或追加的,2020/4/27,53,快照,是為一些事件的發(fā)生而產生的事件的類型隨機發(fā)生的離散活動在規(guī)定時間點事件觸發(fā)快照,其基本結構由四個部分組成鍵碼(Key)時間單元(描述事件已發(fā)生或捕捉數據的時間)只和關鍵碼相關的初始數據與關鍵碼無直接關系的二次數據,2020/4/27,54,課堂練習,充分認識數據倉庫中幾個關鍵術語,說明它們的概念與意義ETL元數據粒度數據分割快照輪轉綜合數據存儲,- 配套講稿:
如PPT文件的首頁顯示word圖標,表示該PPT已包含配套word講稿。雙擊word圖標可打開word文檔。
- 特殊限制:
部分文檔作品中含有的國旗、國徽等圖片,僅作為作品整體效果示例展示,禁止商用。設計者僅對作品中獨創(chuàng)性部分享有著作權。
- 關 鍵 詞:
- 數據倉庫 數據 挖掘 技術
裝配圖網所有資源均是用戶自行上傳分享,僅供網友學習交流,未經上傳用戶書面授權,請勿作他用。
鏈接地址:http://www.szxfmmzy.com/p-11536377.html