九九热最新网址,777奇米四色米奇影院在线播放,国产精品18久久久久久久久久,中文有码视频,亚洲一区在线免费观看,国产91精品在线,婷婷丁香六月天

歡迎來到裝配圖網(wǎng)! | 幫助中心 裝配圖網(wǎng)zhuangpeitu.com!
裝配圖網(wǎng)
ImageVerifierCode 換一換
首頁 裝配圖網(wǎng) > 資源分類 > PPT文檔下載  

數(shù)據(jù)倉庫與數(shù)據(jù)挖掘技術(shù)第2章.ppt

  • 資源ID:11536377       資源大小:2.78MB        全文頁數(shù):54頁
  • 資源格式: PPT        下載積分:14.9積分
快捷下載 游客一鍵下載
會員登錄下載
微信登錄下載
三方登錄下載: 微信開放平臺登錄 支付寶登錄   QQ登錄   微博登錄  
二維碼
微信掃一掃登錄
下載資源需要14.9積分
郵箱/手機:
溫馨提示:
用戶名和密碼都是您填寫的郵箱或者手機號,方便查詢和重復下載(系統(tǒng)自動生成)
支付方式: 支付寶    微信支付   
驗證碼:   換一換

 
賬號:
密碼:
驗證碼:   換一換
  忘記密碼?
    
友情提示
2、PDF文件下載后,可能會被瀏覽器默認打開,此種情況可以點擊瀏覽器菜單,保存網(wǎng)頁到桌面,就可以正常下載了。
3、本站不支持迅雷下載,請使用電腦自帶的IE瀏覽器,或者360瀏覽器、谷歌瀏覽器下載即可。
4、本站資源下載后的文檔和圖紙-無水印,預覽文檔經(jīng)過壓縮,下載后原文更清晰。
5、試題試卷類文檔,如果標題沒有明確說明有答案則都視為沒有答案,請知曉。

數(shù)據(jù)倉庫與數(shù)據(jù)挖掘技術(shù)第2章.ppt

2020/4/27,1,第二章數(shù)據(jù)倉庫的分析,主要內(nèi)容如何建立數(shù)據(jù)倉庫的需求模型?影響數(shù)據(jù)倉庫成功的因素有哪些?數(shù)據(jù)倉庫開發(fā)各階段的任務是什么?數(shù)據(jù)倉庫的基本體系結(jié)構(gòu)是怎樣的?數(shù)據(jù)倉庫的邏輯結(jié)構(gòu)是怎樣的?,2020/4/27,2,1、如何建立數(shù)據(jù)倉庫的需求模型?,是數(shù)據(jù)倉庫的分析中首要解決的問題,2020/4/27,3,圖2.1數(shù)據(jù)倉庫的需求分析模型,2020/4/27,4,2、影響數(shù)據(jù)倉庫成功的因素有哪些?,2020/4/27,5,影響因素,數(shù)據(jù)存儲的組織方式,決定了數(shù)據(jù)的可獲取性與有用性,進而決定了數(shù)據(jù)的價值。數(shù)據(jù)倉庫的數(shù)據(jù)庫結(jié)構(gòu)有以下要求:(P44表2.1)反映靜態(tài)數(shù)據(jù)存儲歷史數(shù)據(jù)在時間上是可見的、明確的數(shù)據(jù)的粒度是詳細的可導出的匯總定期的、計劃的更新支持的任務是不可預期的對數(shù)據(jù)庫的靈活性要求高,2020/4/27,6,2020/4/27,7,2020/4/27,8,3、數(shù)據(jù)倉庫開發(fā)各階段的任務是什么?,2020/4/27,9,傳統(tǒng)的操作型系統(tǒng)的生命周期,SystemDevelopmentLifeCycleSDLC系統(tǒng)開發(fā)生命周期需求驅(qū)動的開發(fā)生命周期,2020/4/27,10,數(shù)據(jù)倉庫的生命周期CLDS,CLDS數(shù)據(jù)驅(qū)動的開發(fā)生命周期(SDLC的逆序)實現(xiàn)數(shù)據(jù)倉庫集成數(shù)據(jù)檢驗偏差針對數(shù)據(jù)編程設(shè)計DSS系統(tǒng)分析結(jié)果和理解需求參見P45圖2.5,2020/4/27,11,2020/4/27,12,1.數(shù)據(jù)倉庫計劃與準備階段,用戶需求分析可行性研究用戶的認可建設(shè)數(shù)據(jù)倉庫的協(xié)調(diào)與阻力分析開發(fā)項目計劃制定關(guān)鍵資源管理,2020/4/27,13,(1)用戶需求分析內(nèi)容,用戶如何處理其事務如何衡量用戶的工作表現(xiàn)用戶需要什么屬性(在信息方面)應用于這些屬性的業(yè)務層次結(jié)構(gòu)是什么用戶現(xiàn)在使用什么數(shù)據(jù),以及需要什么數(shù)據(jù)用戶需要什么水平的細節(jié)或匯總數(shù)據(jù),2020/4/27,14,2020/4/27,15,(2)可行性研究,三個重要分析技術(shù)可行性操作可行性經(jīng)濟可行性,2020/4/27,16,(3)用戶認可(Userbuyin),重要因素用戶大力支持不可少,其與上層的支持是不同的不能完全改變決策方式,只能改變決策信息的獲取方法,改進用戶獲取信息的方法數(shù)據(jù)倉庫必須經(jīng)常集成其中應用軟件的數(shù)據(jù),理解用戶的看法,2020/4/27,17,(4)建設(shè)數(shù)據(jù)倉庫的協(xié)調(diào)與阻力分析,2020/4/27,18,(5)開發(fā)項目計劃制定,2020/4/27,19,(6)創(chuàng)建數(shù)據(jù)倉庫所使用的關(guān)鍵資源,人才業(yè)務分析員確定和定義目的和目標用戶群確定滿足組織戰(zhàn)略性商業(yè)目標數(shù)據(jù)體系結(jié)構(gòu)設(shè)計師數(shù)據(jù)的采集、轉(zhuǎn)換、分配和加載定義數(shù)據(jù)模型信息系統(tǒng)服務人員最終用戶支持人員領(lǐng)導和管理人員項目領(lǐng)導項目經(jīng)理硬件軟件,2020/4/27,20,2.數(shù)據(jù)倉庫的其他階段,2020/4/27,21,數(shù)據(jù)倉庫的系統(tǒng)分析,系統(tǒng)分析的目標是了解當前實際是如何工作的,以使得系統(tǒng)的操作可在將來得到改善。原型法注意:不能與其所有可操作數(shù)據(jù)源相連,數(shù)據(jù)仍然需要做數(shù)據(jù)凈化、傳送等工作開發(fā)方法數(shù)據(jù)驅(qū)動法應用驅(qū)動法,2020/4/27,22,數(shù)據(jù)驅(qū)動方法,數(shù)據(jù)源:連續(xù)的數(shù)據(jù)源次序:自頂向下優(yōu)點:每一個階段在技術(shù)上都很簡單,只涉及一個文件或數(shù)據(jù)庫類型映射到數(shù)據(jù)倉庫數(shù)據(jù)庫之中,每個附加數(shù)據(jù)源只有在其前面的附加數(shù)據(jù)源處理完之后才添加。缺點:數(shù)據(jù)資源不能利落地映射到商業(yè)查詢中。,2020/4/27,23,應用驅(qū)動方法,數(shù)據(jù)源:來自幾個操作系統(tǒng)的數(shù)據(jù)次序:自頂向下優(yōu)點:在第一階段就提供有用的信息缺點:到達這一階段要花費較長的時間、并且需要的活動很多很復雜,2020/4/27,24,數(shù)據(jù)倉庫系統(tǒng)設(shè)計,重點:設(shè)計數(shù)據(jù)倉庫的元素,即數(shù)據(jù)庫和數(shù)據(jù)分析如何選擇數(shù)據(jù)庫體系結(jié)構(gòu)按照哪種系統(tǒng)結(jié)構(gòu)設(shè)計如何安排數(shù)據(jù)庫定義數(shù)據(jù)如何使用所有的數(shù)據(jù)源都被映射傳送到數(shù)據(jù)倉庫描述數(shù)據(jù)倉庫何時及時如何更新并回答程序員遇到的無數(shù)多個”我該怎么辦”,2020/4/27,25,數(shù)據(jù)倉庫的測試,適用于順序測試確保對源文件提取記錄及字段的正確性證明傳送和凈化工作正常,對比元數(shù)據(jù),檢查數(shù)據(jù)倉庫內(nèi)容以確保整個加載過程有效,可能要測試有關(guān)已知誰的回答的分析。增強維護,增強用戶支持,2020/4/27,26,思考,查閱賽迪網(wǎng),閱讀和比較不同的數(shù)據(jù)倉庫的解決方案。明確數(shù)據(jù)驅(qū)動法與應用驅(qū)動法兩種方法在數(shù)據(jù)倉庫實施中的不同表現(xiàn)。,2020/4/27,27,4、數(shù)據(jù)倉庫的基本體系結(jié)構(gòu)是怎樣的?,2020/4/27,28,數(shù)據(jù)倉庫基本體系結(jié)構(gòu),2020/4/27,29,數(shù)據(jù)倉庫體系結(jié)構(gòu),數(shù)據(jù)倉庫,2020/4/27,30,數(shù)據(jù)倉庫體系結(jié)構(gòu),2020/4/27,31,數(shù)據(jù)分級,DataStaging提取,轉(zhuǎn)化,凈化,加載數(shù)據(jù)倉庫不直接存儲事務數(shù)據(jù),提取時必須將事務數(shù)據(jù)進行轉(zhuǎn)換成數(shù)據(jù)倉庫的數(shù)據(jù)結(jié)構(gòu)和內(nèi)部格式,為了保證數(shù)據(jù)的品質(zhì),還要對數(shù)據(jù)進行凈化,將凈化后的數(shù)據(jù)加載到數(shù)據(jù)倉庫中。,2020/4/27,32,ETL(提取轉(zhuǎn)換加載),數(shù)據(jù)的提取轉(zhuǎn)換加載(ETL)是用來實現(xiàn)異構(gòu)數(shù)據(jù)源的數(shù)據(jù)集成,即完成數(shù)據(jù)的抓取/抽取、清洗、轉(zhuǎn)換、加載與索引等數(shù)據(jù)調(diào)和工作。ETL是數(shù)據(jù)倉庫系統(tǒng)中最重要的處理工具之一,它的主要任務是建立、維護數(shù)據(jù)倉庫,通過與操作型數(shù)據(jù)源的映像關(guān)系執(zhí)行數(shù)據(jù)提取轉(zhuǎn)換加載的任務。其中涉及各種各樣的技術(shù)和處理,比如,數(shù)據(jù)清洗及其準備結(jié)構(gòu)的設(shè)計和處理、映像技術(shù)和方法、粒度的考慮,以及數(shù)據(jù)的提取、轉(zhuǎn)換、追加、加載作業(yè)控制等一系列問題。,操作型系統(tǒng),數(shù)據(jù)倉庫,提取,集結(jié)地,清洗,轉(zhuǎn)換,加載與索引,拒絕數(shù)據(jù)的信息,有關(guān)拒絕數(shù)據(jù)的信息,2020/4/27,33,元數(shù)據(jù),元數(shù)據(jù)Metadata“有關(guān)數(shù)據(jù)的數(shù)據(jù)”“數(shù)據(jù)倉庫的元數(shù)據(jù)是要解決何人在何時何地為了什么原因及怎樣使用數(shù)據(jù)倉庫的問題”??蓪?shù)據(jù)倉庫中的各種數(shù)據(jù)進行詳細的描述與說明,說明每個數(shù)據(jù)的上下文關(guān)系,使每個數(shù)據(jù)具有符合現(xiàn)實的真實含義,使最終用戶了解這些數(shù)據(jù)之間的關(guān)系。作用:通過元數(shù)據(jù)進行數(shù)據(jù)倉庫的管理;通過元數(shù)據(jù)來使用數(shù)據(jù)倉庫。,2020/4/27,34,技術(shù)元數(shù)據(jù):用于對數(shù)據(jù)倉庫進行管理的元數(shù)據(jù)是數(shù)據(jù)倉庫的設(shè)計和管理人員用于數(shù)據(jù)倉庫開發(fā)和日常管理數(shù)據(jù)倉庫時使用的元數(shù)據(jù)。它包括數(shù)據(jù)源信息、數(shù)據(jù)轉(zhuǎn)換的描述、數(shù)據(jù)倉庫對象和數(shù)據(jù)結(jié)構(gòu)的定義、數(shù)據(jù)清理和數(shù)據(jù)更新時采用的規(guī)則、源數(shù)據(jù)到目的數(shù)據(jù)的映射、用戶訪問權(quán)限、數(shù)據(jù)備份歷史紀錄、數(shù)據(jù)導入歷史紀錄、信息發(fā)布歷史紀錄等。商業(yè)元數(shù)據(jù):幫助使用數(shù)據(jù)倉庫的元數(shù)據(jù)從商業(yè)業(yè)務的角度描述了數(shù)據(jù)倉庫中的數(shù)據(jù)。它包括業(yè)務主題的描述,以及對所包含的數(shù)據(jù)、查詢、報表的描述,等等。,2020/4/27,35,元數(shù)據(jù)為訪問數(shù)據(jù)倉庫提供了一個信息目錄數(shù)據(jù)倉庫中都有些什么數(shù)據(jù)這些數(shù)據(jù)是怎么得到的誰在管轄怎么訪問這些數(shù)據(jù)其他更多的信息可通過查詢工具得知元數(shù)據(jù)的有關(guān)資料元數(shù)據(jù)是數(shù)據(jù)倉庫運行和維護的中心,數(shù)據(jù)倉庫服務器必須利用元數(shù)據(jù)來存儲和更新數(shù)據(jù),用戶必須通過元數(shù)據(jù)來了解和訪問數(shù)據(jù)。,2020/4/27,36,數(shù)據(jù)倉庫數(shù)據(jù)庫,是整個數(shù)據(jù)倉庫環(huán)境的核心,是數(shù)據(jù)存放的地方,提供對數(shù)據(jù)的支持和快速檢索的支持相對于操縱型數(shù)據(jù)庫來說,其突出的特點是對海量數(shù)據(jù)的支持和快速的檢索技術(shù)。包含明細數(shù)據(jù)和匯總數(shù)據(jù),2020/4/27,37,查詢工具,查詢工具通常包括一個用于向數(shù)據(jù)庫提出問題的最終用戶接口,此接口位于聯(lián)機分析處理OLAP的程序中。,2020/4/27,38,4、數(shù)據(jù)倉庫的邏輯結(jié)構(gòu)是怎樣的?,2020/4/27,39,數(shù)據(jù)倉庫的粒度,粒度是指數(shù)據(jù)倉庫的數(shù)據(jù)單位中保存數(shù)據(jù)細化或綜合程度的級別。,2020/4/27,40,數(shù)據(jù)倉庫的粒度,粒度粒度越小,細節(jié)程度越高,綜合程度越低,回答查詢的種類就越多反之,粒度的增大將會提高查詢效率,但同時也造成回答細節(jié)問題能力的下降。低粒度級(高細節(jié)級)高粒度級(低細節(jié)級)例如:電訊公司數(shù)據(jù)倉庫中,保存一個顧客一個月內(nèi)每個電話的細節(jié)高細節(jié)級,低粒度級,假設(shè)有200個記錄,包含本月內(nèi)200個電話的任何信息;保存一個顧客一個月內(nèi)每天電話的匯總輕度綜合,較高粒度級,只有30或31條記錄,只能回答匯總查詢的問題。保存一個顧客一個月內(nèi)的電話的綜合低細節(jié)級,高粒度級,只有一條記錄。,2020/4/27,41,輕度綜合數(shù)據(jù),2020/4/27,42,數(shù)據(jù)倉庫的粒度,雙重粒度指輕度綜合數(shù)據(jù)和真實細節(jié)數(shù)據(jù)級(最低粒度級)大部分的分析數(shù)據(jù)是針對被壓縮的、存取效率高的輕度粒度級數(shù)據(jù)進行的。需要分析更低的細節(jié)數(shù)據(jù)時才訪問最低粒度級數(shù)據(jù)。,2020/4/27,43,2020/4/27,44,數(shù)據(jù)倉庫中的數(shù)據(jù)分割,把數(shù)據(jù)分散到各自小的物理單元中去任何給定的單元屬于一個分割數(shù)據(jù)分割后的數(shù)據(jù)單元稱為分片分割后的單元具有靈活性,能夠?qū)崿F(xiàn)重構(gòu)、索引、順序掃描、重組、恢復、監(jiān)控等,2020/4/27,45,數(shù)據(jù)分割,2020/4/27,46,2020/4/27,47,數(shù)據(jù)倉庫中數(shù)據(jù)組織,簡單堆積結(jié)構(gòu)輪轉(zhuǎn)綜合數(shù)據(jù)存儲簡單直接文件連續(xù)組織,2020/4/27,48,簡單堆積結(jié)構(gòu),從操作型環(huán)境中取出每天的事務數(shù)據(jù)根據(jù)主題來綜合成數(shù)據(jù)倉庫記錄,2020/4/27,49,輪轉(zhuǎn)綜合數(shù)據(jù)存儲,只有在輪轉(zhuǎn)綜合文件中的數(shù)據(jù)才能被輸入到不同的結(jié)構(gòu)形式中,而操作型數(shù)據(jù)到數(shù)據(jù)倉庫環(huán)境中的數(shù)據(jù)處理方法簡單的堆積結(jié)構(gòu)相同。,方式:每天進行數(shù)據(jù)綜合,每周累加,月底將每周的數(shù)據(jù)加到一起,并放于第一個每月響應的數(shù)據(jù)位置處,然后每周數(shù)據(jù)位置清零。到了年底,將每月數(shù)據(jù)累加,放入第一個年度響應的數(shù)據(jù)位置處,然后每月數(shù)據(jù)位置清零。,2020/4/27,50,簡單堆積與輪轉(zhuǎn)綜合的比較,2020/4/27,51,簡單直接文件組織,把數(shù)據(jù)從操作型環(huán)境拖入數(shù)據(jù)倉庫環(huán)境中,無任何累積,以較長時間為單位的它是間隔一定時間的操作型數(shù)據(jù)的一個快照,2020/4/27,52,連續(xù)數(shù)據(jù)組織,依據(jù)兩個或更多的簡單直接文件快照進行合并創(chuàng)建或追加的,2020/4/27,53,快照,是為一些事件的發(fā)生而產(chǎn)生的事件的類型隨機發(fā)生的離散活動在規(guī)定時間點事件觸發(fā)快照,其基本結(jié)構(gòu)由四個部分組成鍵碼(Key)時間單元(描述事件已發(fā)生或捕捉數(shù)據(jù)的時間)只和關(guān)鍵碼相關(guān)的初始數(shù)據(jù)與關(guān)鍵碼無直接關(guān)系的二次數(shù)據(jù),2020/4/27,54,課堂練習,充分認識數(shù)據(jù)倉庫中幾個關(guān)鍵術(shù)語,說明它們的概念與意義ETL元數(shù)據(jù)粒度數(shù)據(jù)分割快照輪轉(zhuǎn)綜合數(shù)據(jù)存儲,

注意事項

本文(數(shù)據(jù)倉庫與數(shù)據(jù)挖掘技術(shù)第2章.ppt)為本站會員(tian****1990)主動上傳,裝配圖網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對上載內(nèi)容本身不做任何修改或編輯。 若此文所含內(nèi)容侵犯了您的版權(quán)或隱私,請立即通知裝配圖網(wǎng)(點擊聯(lián)系客服),我們立即給予刪除!

溫馨提示:如果因為網(wǎng)速或其他原因下載失敗請重新下載,重復下載不扣分。




關(guān)于我們 - 網(wǎng)站聲明 - 網(wǎng)站地圖 - 資源地圖 - 友情鏈接 - 網(wǎng)站客服 - 聯(lián)系我們

copyright@ 2023-2025  zhuangpeitu.com 裝配圖網(wǎng)版權(quán)所有   聯(lián)系電話:18123376007

備案號:ICP2024067431-1 川公網(wǎng)安備51140202000466號


本站為文檔C2C交易模式,即用戶上傳的文檔直接被用戶下載,本站只是中間服務平臺,本站所有文檔下載所得的收益歸上傳人(含作者)所有。裝配圖網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對上載內(nèi)容本身不做任何修改或編輯。若文檔所含內(nèi)容侵犯了您的版權(quán)或隱私,請立即通知裝配圖網(wǎng),我們立即給予刪除!