九九热最新网址,777奇米四色米奇影院在线播放,国产精品18久久久久久久久久,中文有码视频,亚洲一区在线免费观看,国产91精品在线,婷婷丁香六月天

歡迎來到裝配圖網(wǎng)! | 幫助中心 裝配圖網(wǎng)zhuangpeitu.com!
裝配圖網(wǎng)
ImageVerifierCode 換一換
首頁 裝配圖網(wǎng) > 資源分類 > DOC文檔下載  

IBM數(shù)據(jù)倉庫解決方案(簡).doc

  • 資源ID:6576538       資源大?。?span id="24d9guoke414" class="font-tahoma">243KB        全文頁數(shù):24頁
  • 資源格式: DOC        下載積分:9.9積分
快捷下載 游客一鍵下載
會員登錄下載
微信登錄下載
三方登錄下載: 微信開放平臺登錄 支付寶登錄   QQ登錄   微博登錄  
二維碼
微信掃一掃登錄
下載資源需要9.9積分
郵箱/手機:
溫馨提示:
用戶名和密碼都是您填寫的郵箱或者手機號,方便查詢和重復(fù)下載(系統(tǒng)自動生成)
支付方式: 支付寶    微信支付   
驗證碼:   換一換

 
賬號:
密碼:
驗證碼:   換一換
  忘記密碼?
    
友情提示
2、PDF文件下載后,可能會被瀏覽器默認打開,此種情況可以點擊瀏覽器菜單,保存網(wǎng)頁到桌面,就可以正常下載了。
3、本站不支持迅雷下載,請使用電腦自帶的IE瀏覽器,或者360瀏覽器、谷歌瀏覽器下載即可。
4、本站資源下載后的文檔和圖紙-無水印,預(yù)覽文檔經(jīng)過壓縮,下載后原文更清晰。
5、試題試卷類文檔,如果標題沒有明確說明有答案則都視為沒有答案,請知曉。

IBM數(shù)據(jù)倉庫解決方案(簡).doc

1.1 技術(shù)架構(gòu)設(shè)計成功地實施一個倉庫項目,通常需要很長的時間。如果僅僅著眼于短期成果,缺乏整體考慮,采用一種不健全的體系結(jié)構(gòu),不僅會增加系統(tǒng)開發(fā)和維護成本,而且必將對發(fā)揮數(shù)據(jù)倉庫的作用造成不利的影響。因此一個綜合,清晰的遠景規(guī)劃及技術(shù)實施藍圖將在整個項目的實施過程中起到重要作用。技術(shù)架構(gòu)必須具有高度先進性和可擴展性,以滿足業(yè)務(wù)需求的不斷變化。一個完整的數(shù)據(jù)倉庫系統(tǒng)包括數(shù)據(jù)源、數(shù)據(jù)轉(zhuǎn)換區(qū)、數(shù)據(jù)倉庫、數(shù)據(jù)集市、和數(shù)據(jù)展現(xiàn)層,通過數(shù)據(jù)倉庫不同層次之間的加工過程,實現(xiàn)財政從數(shù)據(jù)資產(chǎn)向信息資產(chǎn)的轉(zhuǎn)化過程。在不同層次之間的數(shù)據(jù)加工過程需要通過ETL技術(shù)實現(xiàn),并對整個過程進行有效的元數(shù)據(jù)管理?;趯π枨蟮睦斫?,基于財政部的信息系統(tǒng)框架模型基礎(chǔ)之上的財政決策支持系統(tǒng)技術(shù)架構(gòu)如下圖所示:如上圖所示意,通過搭建靈活的、可擴展技術(shù)架構(gòu),在保持數(shù)據(jù)集市穩(wěn)定性的同時,可以不斷增加數(shù)據(jù)源,增加應(yīng)用數(shù)據(jù)層、增加應(yīng)用層,滿足不斷增加的業(yè)務(wù)分析應(yīng)用需求。采用DW+ODS的數(shù)據(jù)倉庫體系結(jié)構(gòu),使用全新的ETL模式對ODS進程每日數(shù)據(jù)更新,按周或月周期對數(shù)據(jù)倉庫執(zhí)行ETL過程。使用COGNOS BI做為前端的查詢分析和數(shù)據(jù)挖掘工具,可滿足各種日常數(shù)據(jù)處理操作,從即時簡單報表查詢到多維多級數(shù)據(jù)分析和挖掘,都能夠在統(tǒng)一COGNOS BI平臺上完成。1.1.1 數(shù)據(jù)源和數(shù)據(jù)接口數(shù)據(jù)源指存儲于財政各個業(yè)務(wù)系統(tǒng)的業(yè)務(wù)數(shù)據(jù),以及未來的財政監(jiān)管和外部數(shù)據(jù)。數(shù)據(jù)倉庫系統(tǒng)將整合來自于這些系統(tǒng)的數(shù)據(jù),形成財政統(tǒng)一的、一致的基礎(chǔ)數(shù)據(jù)集,并提供給不同的應(yīng)用主題形成數(shù)據(jù)集市。各個系統(tǒng)在體系架構(gòu)、開發(fā)平臺、數(shù)據(jù)定義、接口標準都會存在不同程度的差異;另外由于業(yè)務(wù)的不斷變化,歷史數(shù)據(jù)與當前數(shù)據(jù)之間的含義也可能存在不同,因此數(shù)據(jù)整合必須充分考慮源系統(tǒng)在技術(shù)和數(shù)據(jù)方面存在的差異。數(shù)據(jù)倉庫系統(tǒng)將采用文本文件的方式從源系統(tǒng)獲取數(shù)據(jù)。每個源系統(tǒng)會就與數(shù)據(jù)倉庫之間就傳輸數(shù)據(jù)接口文件(IFF)的格式和方法制定標準,稱之為接口規(guī)范。每個數(shù)據(jù)源會首先通過各自的數(shù)據(jù)導(dǎo)出程序(Extractor)生成接口文件存儲在各自的文件緩沖區(qū)內(nèi)。這個Extractor負責(zé)各自范圍內(nèi)導(dǎo)出數(shù)據(jù)的完備性和一致性,包括:1) 依照各自的業(yè)務(wù)規(guī)則確定增量數(shù)據(jù)的導(dǎo)出方法2) 保證導(dǎo)出文件的格式符合接口規(guī)范的要求3) 保證導(dǎo)出文件的傳輸時間的及時性4) 保證接口文件的數(shù)據(jù)質(zhì)量,不錯數(shù)、不丟數(shù)、不多數(shù)1.1.2 財政數(shù)據(jù)倉庫財政數(shù)據(jù)倉庫(EDW),存儲和管理來自源數(shù)據(jù)系統(tǒng)的數(shù)據(jù),按照數(shù)據(jù)模型分主題進行組織和存放,包括當期的和較長時間的歷史數(shù)據(jù)。數(shù)據(jù)倉庫的核心是企業(yè)級數(shù)據(jù)模型的規(guī)劃和設(shè)計,是所有應(yīng)用的基礎(chǔ)。接下來我們分別對EDW每個數(shù)據(jù)區(qū)域做詳細介紹。1) 接口文件區(qū)接口文件區(qū)是存儲和處理接口文件的區(qū)域,如前面章節(jié)所述,接口文件區(qū)在系統(tǒng)下按照特定的目錄結(jié)構(gòu)組織起來。用一些系統(tǒng)命令和工具來管理。對每個目錄按照其特定的用途設(shè)定對不同用戶的訪問權(quán)限,比如誰能讀,誰能寫,誰能改等。2) 細節(jié)數(shù)據(jù)暫存區(qū)SSA(SOR Staging Area)SSA的主要目的是支持把接口文件的裝載到數(shù)據(jù)庫,對其進行驗證和處理,然后把數(shù)據(jù)整合到SOR內(nèi)。驗證的方法主要是將新轉(zhuǎn)載的數(shù)據(jù)與SOR內(nèi)已有的數(shù)據(jù)進行查找和比較。SSA內(nèi)數(shù)據(jù)結(jié)構(gòu)的設(shè)計原則是最大限度的利用接口文件的數(shù)據(jù)結(jié)構(gòu),盡量降低實體的個數(shù),同時很好的支持后續(xù)的ETL過程。3) 細節(jié)數(shù)據(jù)SOR(System Of Record)SOR是基于模型開發(fā)的一套符合3NF范式規(guī)范的表結(jié)構(gòu)。SOR存儲了數(shù)據(jù)倉庫內(nèi)最細節(jié)層次的數(shù)據(jù),按照不同的主題域進一步分分類組織。此模型是整個數(shù)據(jù)倉庫數(shù)據(jù)模型的核心,其設(shè)計為具有足夠的靈活性,以能夠應(yīng)對添加更多的數(shù)據(jù)源,支持更多分析需求,同時也能夠支持進一步升級和更新。為了能夠在數(shù)據(jù)倉庫內(nèi)記錄數(shù)據(jù)的變化以支持歷史趨勢和變化分析,SOR在一些關(guān)鍵的屬性值上會跟蹤變化(比如客戶的信用度、狀態(tài)等)。跟蹤變化的常見方法就是利用漸變維的Type 2方法來處理記錄,在表內(nèi)增加一條記錄變化數(shù)據(jù)的新記錄。同時為了降低不必要的存儲空間的浪費(相同數(shù)據(jù)的重復(fù)存儲),我們可以把實體中動態(tài)變化的屬性與靜態(tài)不變或只需覆蓋不需跟蹤變化的屬性分開。比如對用戶,我們可以用一張表存放不變化的用戶靜態(tài)屬性,用另一張表存放經(jīng)常變化的用戶行為屬性,當跟蹤用戶行為的變化時我們只需在用戶行為表內(nèi)添加記錄就行了,沒必要把沒有發(fā)生變化的用戶靜態(tài)表內(nèi)的數(shù)據(jù)也復(fù)制一份。4) 匯總數(shù)據(jù)區(qū)Summary匯總數(shù)據(jù)區(qū)是為了方便查詢和后續(xù)多維數(shù)據(jù)的更新,創(chuàng)建一些常用的中間匯總表,以提高性能和降低后續(xù)ETL工作的復(fù)雜性。由于SOR是高度規(guī)范化的數(shù)據(jù),因此要完成一個查詢需要大量的關(guān)聯(lián)操作;同時數(shù)據(jù)集市中的數(shù)據(jù)粒度往往要比SOR高很多,對要成生數(shù)據(jù)集市所需數(shù)據(jù)也需要大量的匯總計算,因此如果我們把常用的數(shù)據(jù)預(yù)先關(guān)聯(lián)和匯總好,并讓其盡量多在多個數(shù)據(jù)集市的計算中共享,就能大幅度的提高整個ETL工作和數(shù)據(jù)倉庫查詢的性能。5) 反饋數(shù)據(jù)區(qū)(Feedback Area)反饋數(shù)據(jù)區(qū)主要記錄的是數(shù)據(jù)倉庫自身生成的結(jié)果。比如用戶對營銷活動的反饋等。數(shù)據(jù)倉庫的特性決定了用戶在原則上不能直接修改數(shù)據(jù)倉庫中的數(shù)據(jù),因此用戶的修改數(shù)據(jù)和其它生成數(shù)據(jù)必須單獨記錄,以便于追蹤歷史和進行比較。6) 元數(shù)據(jù)存儲MDR(Meta Data Repository)元數(shù)據(jù)存儲用來保存關(guān)于數(shù)據(jù)倉庫中的過程、數(shù)據(jù)的信息(日志、數(shù)據(jù)詞典、配置信息等)。由于各個工具和系統(tǒng)都會生成自己的元數(shù)據(jù),同時我們還利用元數(shù)據(jù)管理工具把這些元數(shù)據(jù)盡可能的集中存儲到數(shù)據(jù)倉庫中的MDR內(nèi),因此MDR總的來說只是一個共享元數(shù)據(jù)供用戶集中訪問的地方,真正元數(shù)據(jù)的維護地還是在生成這些元數(shù)據(jù)的系統(tǒng)或工具內(nèi)。1.1.3 數(shù)據(jù)集市數(shù)據(jù)集市設(shè)計用途是要滿足特定的目的,同時具有查詢、多維分析、報表和數(shù)據(jù)挖掘功能。這與企業(yè)數(shù)據(jù)倉庫截然不同,設(shè)計時企業(yè)數(shù)據(jù)倉庫在信息內(nèi)容與結(jié)構(gòu)方面盡可能擁有開放性與靈活性。數(shù)據(jù)集市有以下特征:n 為特定用途而設(shè)計數(shù)據(jù)集市設(shè)計的目的,是支持特定用戶對數(shù)據(jù)子集的特定范圍的查詢。它以用戶所要求的方式提供企業(yè)數(shù)據(jù)倉庫的細節(jié)匯總。n 優(yōu)化數(shù)據(jù)集市為了支持特定工具的訪問而優(yōu)化。根據(jù)工具、根據(jù)企業(yè)數(shù)據(jù)倉庫提供的信息子集來設(shè)計數(shù)據(jù)集市,而不是讓用戶直接訪問企業(yè)數(shù)據(jù)倉庫中的大型數(shù)據(jù)庫,這可以改善數(shù)據(jù)集市的性能。n 虛擬或物理數(shù)據(jù)集市數(shù)據(jù)集市可以是物理的實現(xiàn),也可以是企業(yè)數(shù)據(jù)倉庫表的各種視圖。使用視圖(虛擬數(shù)據(jù)集市)可以避免存儲數(shù)據(jù)的多個副本,簡化了數(shù)據(jù)管理。數(shù)據(jù)集市,即Data Mart,指面向?qū)m棏?yīng)用領(lǐng)域的分析主題。Data Mart即是通過OLAP技術(shù)或者數(shù)據(jù)挖掘技術(shù),利用數(shù)據(jù)倉庫的數(shù)據(jù)根據(jù)用戶需求建立的數(shù)據(jù)集市模型,大大提高了前端查詢訪問的效率,用戶能方便地實現(xiàn)靈活、動態(tài)、快速、多角度、多層次地分析企業(yè)數(shù)據(jù)。同時,也可以通過定制靈活的OLTP查詢來了解明細數(shù)據(jù)。1.1.4 數(shù)據(jù)的抽取、轉(zhuǎn)換、加載(ETL)數(shù)據(jù)倉庫的數(shù)據(jù)來源于業(yè)務(wù)處理系統(tǒng),但是數(shù)據(jù)倉庫的數(shù)據(jù)并不是對源系統(tǒng)數(shù)據(jù)的簡單疊加,它需要按照數(shù)據(jù)倉庫的邏輯模型和物理模型,在源系統(tǒng)數(shù)據(jù)分析的基礎(chǔ)上,按照源系統(tǒng)數(shù)據(jù)和數(shù)據(jù)倉庫數(shù)據(jù)之間的映射關(guān)系,經(jīng)過數(shù)據(jù)的抽取(Extraction)、轉(zhuǎn)換 (Transformation)和加載(Loading)等環(huán)節(jié)方可進入數(shù)據(jù)倉庫,這個過程簡稱為ETL處理。數(shù)據(jù)經(jīng)過數(shù)據(jù)抽取、轉(zhuǎn)換和加載處理進入數(shù)據(jù)倉庫的整個過程可以簡稱為ETL過程。ETL是搭建數(shù)據(jù)倉庫數(shù)據(jù)平臺的基礎(chǔ),也是保證數(shù)據(jù)倉庫的數(shù)據(jù)質(zhì)量的具體實現(xiàn)。根據(jù)基于數(shù)據(jù)倉庫項目開發(fā)的經(jīng)驗,在大多數(shù)據(jù)倉庫的實施過程當中,ETL都是一個非常復(fù)雜、耗時的過程,其工作量約占整個數(shù)據(jù)倉庫項目的40-50%,占數(shù)據(jù)倉庫設(shè)計階段工作量的70-80%,有許多原因影響這一階段的時間和進度。比如對原有業(yè)務(wù)系統(tǒng)和舊的操作環(huán)境的了解有限,原系統(tǒng)文檔不全等。因為這些原因,使ETL任務(wù)花了許多時間在了解舊的業(yè)務(wù)應(yīng)用以及如何抽取數(shù)據(jù)上。ETL實施困難另一個原因是原有的系統(tǒng)平臺沒有足夠的容量/系統(tǒng)資源來支持數(shù)據(jù)抽取處理,系統(tǒng)資源不足可能表現(xiàn)為:CPU、磁盤空間、I/O帶寬或沒有一個有效的窗口去運行抽取、轉(zhuǎn)換程序。ETL過程不僅工作量大,而且還受到很多時間窗口的限制,它不僅需要在不同的特定(非確定)的時間抽取數(shù)據(jù),而且還必須要在特定的時間范圍內(nèi)把數(shù)據(jù)加載到數(shù)據(jù)倉庫。由于ETL過程是數(shù)據(jù)倉庫應(yīng)用系統(tǒng)每天都要進行的工作, ETL設(shè)計的科學(xué)性和效率性是非常重要的,關(guān)系到數(shù)據(jù)倉庫項目的成敗。ETL遵循如下設(shè)計原則:n 靈活性:不同的時間段中能夠進行數(shù)據(jù)獲取、轉(zhuǎn)換、裝載。n 可重復(fù)性:支持失敗的ETL任務(wù)行數(shù)據(jù)重新裝載。n 模塊化:ETL過程分步實施,每個過程通過不同的模塊組件來完成。并盡可能復(fù)用這些組件;從而提高ETL實施效率,增加數(shù)據(jù)倉庫的可維護性。n 迭代方法:滿足當前的業(yè)務(wù)需求,盡可能搭建滿足未來的業(yè)務(wù)需求的平臺上不斷開發(fā)實施。n ETL邏輯順序:依賴業(yè)務(wù)系統(tǒng)數(shù)據(jù)處理方式,來定義ETL處理流程控制。例如:在銀行的ETL過程中,交易記錄信息的數(shù)據(jù)裝載應(yīng)該在賬戶信息進入數(shù)據(jù)倉庫之后進行。1.1.4.1 第一步:數(shù)據(jù)抽取在源系統(tǒng)上啟動數(shù)據(jù)抽取控制程序,完成以下工作:1、數(shù)據(jù)采集考慮到數(shù)據(jù)來源的多樣性和復(fù)雜性,數(shù)據(jù)采集主要包括:l 對業(yè)務(wù)系統(tǒng)的數(shù)據(jù)采集:在日終結(jié)后,當日數(shù)據(jù)自動、增量地轉(zhuǎn)儲到數(shù)據(jù)備份機上,作為數(shù)據(jù)倉庫的數(shù)據(jù)源并成為數(shù)據(jù)備份策略的一部分。l 對于稅收計劃、外部數(shù)據(jù)、納稅人財務(wù)報表的數(shù)據(jù)采集??筛鶕?jù)實際需要,采用多種途徑。2、數(shù)據(jù)發(fā)送在數(shù)據(jù)采集完成后,各系統(tǒng)上的抽取控制程序?qū)?shù)據(jù)文件和校驗文件通過局域網(wǎng)發(fā)送到數(shù)據(jù)轉(zhuǎn)換區(qū)。1.1.4.2 第二步:數(shù)據(jù)裝入轉(zhuǎn)換區(qū)1.檢查數(shù)據(jù)是否到位根據(jù)校驗文件,檢查源系統(tǒng)數(shù)據(jù)是否到位、是否存在傳輸錯誤等異常情況。如果數(shù)據(jù)不全或傳輸出現(xiàn)錯誤,如果出錯,將出錯結(jié)果寫入錯誤日志,重新執(zhí)行第一步。2.將外部數(shù)據(jù)文件裝入數(shù)據(jù)庫把來自外部源數(shù)據(jù)源的格式化數(shù)據(jù)轉(zhuǎn)化成數(shù)據(jù)庫、表結(jié)構(gòu)。3.修改系統(tǒng)狀態(tài):待該步驟工作完成后,將系統(tǒng)狀態(tài)改為抽取工作完成。注:若直接從業(yè)務(wù)系統(tǒng)數(shù)據(jù)庫中抽取數(shù)據(jù),則無須數(shù)據(jù)轉(zhuǎn)換區(qū)步驟。1.1.4.3 第三步:數(shù)據(jù)質(zhì)量檢查和出錯處理1.狀態(tài)檢查:查詢參數(shù)表,如果數(shù)據(jù)抽取工作已經(jīng)完成,開始執(zhí)行該步驟工作。2.數(shù)據(jù)質(zhì)量檢查:根據(jù)檢查規(guī)則,數(shù)據(jù)質(zhì)量檢查程序掃描源數(shù)據(jù)數(shù)據(jù)表,根據(jù)規(guī)則檢查數(shù)據(jù)是否合法,給出檢查報告和最終的數(shù)據(jù)質(zhì)量報告并寫入數(shù)據(jù)庫,數(shù)據(jù)質(zhì)量檢查結(jié)果寫入質(zhì)量檢查報告。3.出錯處理:如果出現(xiàn)嚴重出錯,停止ETL工作,需要系統(tǒng)維護人員現(xiàn)場做出相應(yīng)的處理,修改正確后,重新執(zhí)行該步驟工作;對于警告級出錯,繼續(xù)進行下述步驟。4.修改系統(tǒng)狀態(tài):待該步驟工作完成后,將系統(tǒng)狀態(tài)改為數(shù)據(jù)質(zhì)量檢查工作完成。1.1.4.4 第四步:數(shù)據(jù)轉(zhuǎn)換1、狀態(tài)檢查查詢參數(shù)表,如果數(shù)據(jù)質(zhì)量檢查工作已經(jīng)完成,開始執(zhí)行該步工作。2、數(shù)據(jù)轉(zhuǎn)換根據(jù)數(shù)據(jù)倉庫要求的數(shù)據(jù)源格式在Staging Area中進行并行轉(zhuǎn)換處理,并將轉(zhuǎn)換的結(jié)果數(shù)據(jù)存放在待裝載數(shù)據(jù)存放區(qū)。3、生成轉(zhuǎn)換報告記錄數(shù)據(jù)轉(zhuǎn)換情況,并寫入數(shù)據(jù)庫轉(zhuǎn)換日志中。4、修改系統(tǒng)狀態(tài): 待該步驟工作完成后,將系統(tǒng)狀態(tài)改為數(shù)據(jù)轉(zhuǎn)換工作完成。1.1.4.5 第五步:數(shù)據(jù)加載1、狀態(tài)檢查查詢參數(shù)表,如果數(shù)據(jù)質(zhì)量檢查工作已經(jīng)完成,開始執(zhí)行該步驟工作。2、數(shù)據(jù)裝入數(shù)據(jù)倉庫采用非依賴數(shù)據(jù)并行加載的策略,將待裝載數(shù)據(jù)區(qū)的數(shù)據(jù)裝入中心數(shù)據(jù)倉庫,如果標準代碼表發(fā)生變化,數(shù)據(jù)裝載程序?qū)藴蚀a的變化情況增量加載到數(shù)據(jù)倉庫代碼表中。3、數(shù)據(jù)加載情況報告記錄數(shù)據(jù)加載情況,并寫入數(shù)據(jù)倉庫數(shù)據(jù)庫的參數(shù)表中。4、修改系統(tǒng)狀態(tài): 待該步驟工作完成后,將系統(tǒng)狀態(tài)改為數(shù)據(jù)轉(zhuǎn)換工作完成。1.1.4.6 第六步:加載時間維1.狀態(tài)檢查查詢參數(shù)表,如果數(shù)據(jù)加載工作已經(jīng)完成,開始執(zhí)行該步驟工作。2.加載時間維根據(jù)當前的時間,依據(jù)數(shù)據(jù)集市多維模型,完成時間維的加載工作。3.修改系統(tǒng)狀態(tài):待該步驟工作完成后,將系統(tǒng)狀態(tài)改為時間維加載工作完成。1.1.4.7 第七步:加載事實表1.狀態(tài)檢查查詢參數(shù)表,如果時間維加載工作已經(jīng)完成,開始執(zhí)行該步驟工作。2.加載事實表以數(shù)據(jù)倉庫數(shù)據(jù)為數(shù)據(jù)源,依據(jù)數(shù)據(jù)集市多維模型,完成事實表的加載工作。3.修改系統(tǒng)狀態(tài):待該步驟工作完成后,將系統(tǒng)狀態(tài)改為事實表加載工作完成。1.1.4.8 第八步:加載聚合表1.狀態(tài)檢查查詢參數(shù)表,如果事實表加載工作已經(jīng)完成,開始執(zhí)行該步驟工作。2.加載聚合表以事實表為數(shù)據(jù)源,依據(jù)數(shù)據(jù)集市多維模型,完成聚合表的加載工作。3.修改系統(tǒng)狀態(tài):待該步驟工作完成后,將系統(tǒng)狀態(tài)改為ETL工作結(jié)束。1.1.5 數(shù)據(jù)展現(xiàn)數(shù)據(jù)訪問及展現(xiàn)是通過信息門戶,將各類數(shù)據(jù)集市應(yīng)用通過統(tǒng)一的平臺展現(xiàn)給財政各類用戶。同時提供數(shù)據(jù)分析結(jié)果的表達、共享與傳遞的功能,是信息服務(wù)的主要界面,主要包括信息展現(xiàn)與人機交互、信息發(fā)布等。 本次的展現(xiàn)選擇*的報表分析平臺,詳細功能見附件一。1.2 數(shù)據(jù)架構(gòu)設(shè)計數(shù)據(jù)倉庫的體系結(jié)構(gòu)包括4 個層次的數(shù)據(jù):數(shù)據(jù)源、數(shù)據(jù)倉庫層和數(shù)據(jù)集市層。1) 數(shù)據(jù)源(業(yè)務(wù)系統(tǒng))包含面向操作應(yīng)用的原始數(shù)據(jù)以及外部錄入數(shù)據(jù),主要服務(wù)于高性能的事務(wù)處理。2) 數(shù)據(jù)倉庫層(包括ODS 和DW)存儲企業(yè)的歷史數(shù)據(jù),其數(shù)據(jù)是規(guī)范的、穩(wěn)定的。i. 數(shù)據(jù)倉庫包含當前數(shù)據(jù)、綜合數(shù)據(jù)、歷史數(shù)據(jù)的組織和整理。通過數(shù)據(jù)抽取平臺獲取的各業(yè)務(wù)數(shù)據(jù),從邏輯上和業(yè)務(wù)上是獨立的、分散的,要實現(xiàn)一體化的查詢功能,必須對分散的業(yè)務(wù)數(shù)據(jù)進行抽取和整合。如將分散的單位基礎(chǔ)信息、預(yù)算數(shù)據(jù)、支出數(shù)據(jù)通過一定的策略,整理形成一套編碼統(tǒng)一、業(yè)務(wù)連貫的數(shù)據(jù)體系,這是一體化查詢系統(tǒng)成功的關(guān)鍵。3) 數(shù)據(jù)集市層(包括Relational Data Mart 和Star-Schema Data Mart 和OLAP)是面向部門的、滿足最終用戶需求的數(shù)據(jù),數(shù)據(jù)集市中的數(shù)據(jù)是反規(guī)范的、匯總的。數(shù)據(jù)整理平臺基于各業(yè)務(wù)數(shù)據(jù),可以根據(jù)不同的用戶查詢需求,定制數(shù)據(jù)整理策略。根據(jù)查詢角度的不同,按決策的主題要求形成當前的基本數(shù)據(jù)層,按綜合決策的要求構(gòu)成綜合數(shù)據(jù)層,隨著時問的推移,由時間控制機制將當前基本數(shù)據(jù)層轉(zhuǎn)為歷史數(shù)據(jù)層。4) 數(shù)據(jù)展現(xiàn)層(前端展現(xiàn))是面向業(yè)務(wù)用戶的需求展現(xiàn),包括使用報表、多維分析、即席查詢等基本功能,提供告警、統(tǒng)計算法等高級功能。第二章 基于基礎(chǔ)資料系統(tǒng)的數(shù)據(jù)模型設(shè)計2.1 基本緯度數(shù)據(jù)模型設(shè)計“金財工程”一體化需以系統(tǒng)統(tǒng)一的數(shù)據(jù)字典和統(tǒng)一的編碼體系為基礎(chǔ),以統(tǒng)一的應(yīng)用支撐平臺作保障,通過本級財政業(yè)務(wù)流程的整合,實現(xiàn)對任一筆資金的跟蹤和回溯。為了實現(xiàn)對數(shù)據(jù)的集中使用,就要從需求出發(fā),在充分考慮到數(shù)據(jù)的可共享性、系統(tǒng)未來的可擴展性等因素,定義一套標準數(shù)據(jù)格式,為系統(tǒng)的建設(shè)打下一個良好的基礎(chǔ)。它包括各種涉及的基礎(chǔ)編碼表:如預(yù)算科目表、經(jīng)濟科目表、預(yù)算單位編碼表、企業(yè)登記表、稅種表、預(yù)算級次表等。數(shù)據(jù)字典是財政業(yè)務(wù)系統(tǒng)間需要統(tǒng)一維護管理、支持同步和共享的數(shù)據(jù)元、基礎(chǔ)代碼集、基礎(chǔ)配置數(shù)據(jù)和相關(guān)命名規(guī)范的統(tǒng)稱。其中數(shù)據(jù)元又稱數(shù)據(jù)類型,包括定義、標識、表示以及允許值等一系列屬性描述的數(shù)據(jù)單元。通常所說的業(yè)務(wù)要素就是財政業(yè)務(wù)系統(tǒng)中構(gòu)成業(yè)務(wù)數(shù)據(jù)的比較重要的數(shù)據(jù)元,該類數(shù)據(jù)元均有相應(yīng)的基礎(chǔ)代碼集。數(shù)據(jù)字典中主要包括的內(nèi)容:財政業(yè)務(wù)管理涉及到的所有的數(shù)據(jù)元及共享的基礎(chǔ)代碼集;共用的用戶列表;相關(guān)配置數(shù)據(jù)及系統(tǒng)開發(fā)需遵循的命名規(guī)范。我們將按照省廳建設(shè)的基礎(chǔ)數(shù)據(jù)資料庫來進行基本緯度模型的建設(shè)。2.2 基礎(chǔ)資料系統(tǒng)維護功能模塊功能模塊功能說明框架單點登錄多系統(tǒng)實現(xiàn)單點登錄權(quán)限控制統(tǒng)一的功能權(quán)限控制機制日志統(tǒng)一的系統(tǒng)級、功能級、數(shù)據(jù)級操作日志選擇年度選擇所需要操作的年度和帳套,設(shè)置默認的年度;修改密碼修改當前用戶的登錄系統(tǒng)密碼;注銷注銷當前用戶,退出系統(tǒng),返回到登錄頁面;幫助隱藏隱藏和顯示頁面上方軟件標題欄和左方菜單欄;基礎(chǔ)資料創(chuàng)建新年度系統(tǒng)設(shè)置應(yīng)用設(shè)置設(shè)置應(yīng)用的名稱以及一些基礎(chǔ)信息;選項表設(shè)置設(shè)置選項表以及下拉菜單信息;參數(shù)設(shè)置設(shè)置各個應(yīng)用的所在服務(wù)器的IP值以及一些其他的固定的參數(shù);應(yīng)用權(quán)限設(shè)置設(shè)置數(shù)據(jù)授權(quán)中的用戶和單位對應(yīng)用中的要素的權(quán)限是否公有;用戶對賬本年度設(shè)置用戶與賬本年度對應(yīng)關(guān)系,也即用戶訪問賬本年度的權(quán)限;緩存管理刷新緩存的功能;要素維護預(yù)算單位設(shè)置預(yù)算單位名稱以及基本信息;功能科目設(shè)置功能科目名稱以及基本信息;會計科目設(shè)置會計科目名稱以及基本信息;經(jīng)濟科目設(shè)置經(jīng)濟科目名稱以及基本信息;預(yù)算項目設(shè)置預(yù)算項目名稱以及基本信息;收費項目設(shè)置收費項目名稱以及基本信息;資金來源設(shè)置資金來源名稱以及基本信息;指標類型設(shè)置指標類型名稱以及基本信息;資金性質(zhì)設(shè)置資金性質(zhì)名稱以及基本信息;財政歸口部門設(shè)置財政歸口部門名稱以及基本信息;數(shù)據(jù)授權(quán)用戶對預(yù)算單位設(shè)置用戶與預(yù)算單位對應(yīng)關(guān)系;用戶對會計科目設(shè)置用戶與會計科目對應(yīng)關(guān)系;用戶對功能科目設(shè)置用戶與功能科目對應(yīng)關(guān)系;用戶對經(jīng)濟科目設(shè)置用戶與經(jīng)濟科目對應(yīng)關(guān)系;用戶對預(yù)算項目設(shè)置用戶與預(yù)算項目對應(yīng)關(guān)系;用戶對收費項目設(shè)置用戶與收費項目對應(yīng)關(guān)系;用戶對指標類型設(shè)置用戶與指標類型對應(yīng)關(guān)系;用戶對資金來源設(shè)置用戶與資金來源對應(yīng)關(guān)系;單位對會計科目設(shè)置預(yù)算單位與會計科目對應(yīng)關(guān)系;單位對功能科目設(shè)置預(yù)算單位與功能科目對應(yīng)關(guān)系;單位對經(jīng)濟科目設(shè)置預(yù)算單位與經(jīng)濟科目對應(yīng)關(guān)系;單位對預(yù)算項目設(shè)置預(yù)算單位與預(yù)算項目對應(yīng)關(guān)系;處室對單位設(shè)置財政歸口部門與預(yù)算單位之間的對應(yīng)關(guān)系;用戶對歸口設(shè)置用戶與財政歸口部門之間的對應(yīng)關(guān)系;功能授權(quán)用戶設(shè)置用戶的基本信息以及用戶與財政歸口部門和預(yù)算單位之間的對應(yīng)關(guān)系;崗位設(shè)置崗位的基本信息;功能設(shè)置功能(也即各個應(yīng)用的菜單和按鈕)的基本信息和鏈接地址等;功能轉(zhuǎn)授把當前用戶的功能轉(zhuǎn)授給其他用戶的設(shè)置;用戶對崗位設(shè)置用戶與崗位的對應(yīng)關(guān)系;崗位對功能設(shè)置崗位與功能的對應(yīng)關(guān)系;權(quán)限轉(zhuǎn)授用戶對會計科目把當前用戶會計科目的數(shù)據(jù)權(quán)限轉(zhuǎn)授給其他用戶;用戶對經(jīng)濟科目把當前用戶經(jīng)濟科目的數(shù)據(jù)權(quán)限轉(zhuǎn)授給其他用戶;用戶對指標類型把當前用戶指標類型的數(shù)據(jù)權(quán)限轉(zhuǎn)授給其他用戶;用戶對收費項目把當前用戶收費項目的數(shù)據(jù)權(quán)限轉(zhuǎn)授給其他用戶;用戶對預(yù)算項目把當前用戶預(yù)算項目的數(shù)據(jù)權(quán)限轉(zhuǎn)授給其他用戶;用戶對資金來源把當前用戶資金來源的數(shù)據(jù)權(quán)限轉(zhuǎn)授給其他用戶;2.3 數(shù)據(jù)邏輯建模邏輯建模是數(shù)據(jù)倉庫實施中的重要一環(huán), 因為它能直接反映出決策者管理者的需求, 同時對系統(tǒng)的物理實施有著重要的指導(dǎo)作用。目前較常用的兩種建模方法是所謂的第三范式(3NF, 即 Third Normal Form)和星型模式 (Star-Schema),3NF 是數(shù)據(jù)庫設(shè)計的基礎(chǔ)理論,這里不再展開。星型模式是一種多維的數(shù)據(jù)關(guān)系,它由一個事實表(Fact Table)和一組維表(Dimension Table)組成。每個維表都有一個維作為主鍵,所有這些維的主鍵組合成事實表的主鍵。事實表的非主鍵屬性稱為事實 (Fact),它們一般都是數(shù)值或其他可以進行計算的數(shù)據(jù); 而維大都是文字、時間等類型的數(shù)據(jù),按這種方式組織好數(shù)據(jù)我們就可以按照不同的維(事實表的主鍵的部分或全部)來對這些事實數(shù)據(jù)進行求和(summary)、求平均(average)、計數(shù)(count)、百分比(percent)的聚集計算,甚至可以做20-80 分析。這樣就可以從不同的角度數(shù)字來分析業(yè)務(wù)主題的情況,下面給出一個直觀的例子。功能分類維功能分類標準碼類款項業(yè)務(wù)處室維業(yè)務(wù)處室編碼業(yè)務(wù)處室名稱時間維時間代碼年季度月單位維單位編碼一級單位編碼一級單位名稱二級單位編碼預(yù)算執(zhí)行情況分析功能分類標準碼業(yè)務(wù)處室編碼時間代碼單位編碼指標金額計劃金額支付金額圖8-3 預(yù)算執(zhí)行情況星型模型圖三是一個典型的財政預(yù)算執(zhí)行情況分析的模型設(shè)計,其中加邊框的為主關(guān)鍵字(PK, Primary Key),其中預(yù)算執(zhí)行情況分析表是一個事實表,其中的指標金額,計劃金額,支付金額是需要從各角度觀察的數(shù)據(jù)(事實),而觀察的角度是有功能分類、業(yè)務(wù)處室、時間和單位這四個方面組合進行,這些分析角度的有機組合,可以對指標金額、計劃金額和支付金額進行多種組合的數(shù)據(jù)統(tǒng)計分析,以此實現(xiàn)對預(yù)算執(zhí)行情況的多角度(維)多層次(數(shù)據(jù)不同的匯總程度)的分析,預(yù)算執(zhí)行情況分析人員既可以宏觀地看到財政業(yè)務(wù)的整體情況,又可以微觀地觀察到具體某預(yù)算單位某天支出的細節(jié)信息。多維分析的時候,維度選擇越多數(shù)據(jù)越細節(jié)(劃分得更細了),維度選擇越少數(shù)據(jù)越匯總越宏觀。這樣一個中間一個大表形成主表,周圍一組小表與主表相關(guān)聯(lián)的結(jié)構(gòu),形態(tài)上呈星星和雪花的形狀,星型模型是數(shù)據(jù)倉庫的數(shù)據(jù)模型與其他數(shù)據(jù)庫應(yīng)用相區(qū)分的一個重要特征。星型雪花數(shù)據(jù)倉庫典型的邏輯模型形狀第三章 數(shù)據(jù)抽取平臺建設(shè)數(shù)據(jù)轉(zhuǎn)換平臺是將分布式物理存儲的源數(shù)據(jù),轉(zhuǎn)換到統(tǒng)一存儲的數(shù)據(jù)倉庫中。從分布式源數(shù)據(jù)庫中獲取對財政一體化查詢系統(tǒng)用戶有用的數(shù)據(jù)、過濾掉不需要的內(nèi)容、驗證數(shù)據(jù)的質(zhì)量、數(shù)據(jù)清理、數(shù)據(jù)融合、到最后數(shù)據(jù)裝載入數(shù)據(jù)倉庫中。數(shù)據(jù)抽取是數(shù)據(jù)進入倉庫的入口,財政一體化查詢系統(tǒng)涉及多個分布式數(shù)據(jù)源,需要通過抽取過程將數(shù)據(jù)從聯(lián)機事務(wù)處理系統(tǒng)、外部數(shù)據(jù)源、脫機的數(shù)據(jù)存儲介質(zhì)中導(dǎo)入到數(shù)據(jù)倉庫。根據(jù)源數(shù)據(jù)的不同性質(zhì),應(yīng)選用不同的數(shù)據(jù)抽取方法。本系統(tǒng)中,對于Oracle、sybase等關(guān)系數(shù)據(jù)庫中的數(shù)據(jù),我們通過交易日志的方法進行數(shù)據(jù)抽取,而對于其它半結(jié)構(gòu)化或非結(jié)構(gòu)化數(shù)據(jù),我們選用靜態(tài)數(shù)據(jù)、時間標記、文件比較等方法實現(xiàn)數(shù)據(jù)抽取。3.1 設(shè)計原則 l 高數(shù)據(jù)質(zhì)量原則:保證進入數(shù)據(jù)倉庫數(shù)據(jù)的質(zhì)量,將垃圾數(shù)據(jù)排除在數(shù)據(jù)倉庫之外。l 自動化原則:ETL過程應(yīng)盡量自動完成,減少人為干預(yù)程度。l 可追溯原則:ETL的相關(guān)工作結(jié)果,應(yīng)留有痕跡,給出相應(yīng)的報告,以便跟蹤和分析。l 參數(shù)化設(shè)計原則:采用參數(shù)化的設(shè)計思想,減少編程的工作量,增強系統(tǒng)的靈活性和可維護性。l 效率性原則:采用并行處理等設(shè)計方法,減少ETL時間,提高ETL效率。l 源系統(tǒng)不修改原則:盡量不對源系統(tǒng)進行修改,將對源系統(tǒng)的影響降低到最低程度。l 方便性原則。設(shè)計應(yīng)充分考慮系統(tǒng)運行后管理和維護的方便性和易用性。3.2 ETL抽取過程設(shè)計ETL工具采用Cognos產(chǎn)品本身的ETL工具3.2.1 ETL過程概述ETL流程是指源系統(tǒng)數(shù)據(jù)經(jīng)過數(shù)據(jù)抽取、轉(zhuǎn)換和加載處理進入數(shù)據(jù)倉庫的整個過程。ETL流程主要包括以下主要步驟:1. 數(shù)據(jù)抽?。簲?shù)據(jù)抽取就是將數(shù)據(jù)倉庫需要的業(yè)務(wù)數(shù)據(jù)抽取到數(shù)據(jù)轉(zhuǎn)換區(qū)的過程。(這里的數(shù)據(jù)轉(zhuǎn)換區(qū)也可以僅僅是一個邏輯的概念,即數(shù)據(jù)的抽取到轉(zhuǎn)換采取數(shù)據(jù)不落地的方式完成)2. 數(shù)據(jù)檢查和出錯處理:在數(shù)據(jù)轉(zhuǎn)換區(qū)中,對源系統(tǒng)數(shù)據(jù)質(zhì)量進行檢查,形成檢查報告,并進行相應(yīng)的出錯處理,對于嚴重錯誤,需要系統(tǒng)維護人員現(xiàn)場做出相應(yīng)的處理。3. 數(shù)據(jù)轉(zhuǎn)換:數(shù)據(jù)轉(zhuǎn)換包括對源系統(tǒng)數(shù)據(jù)進行整理、剔除、合并、驗證等一系列轉(zhuǎn)換工作,最后形成數(shù)據(jù)倉庫物理數(shù)據(jù)結(jié)構(gòu)所需的數(shù)據(jù),存放在轉(zhuǎn)換區(qū)的數(shù)據(jù)表中。4. 數(shù)據(jù)加載:數(shù)據(jù)加載將數(shù)據(jù)轉(zhuǎn)換的結(jié)果數(shù)據(jù)加載到數(shù)據(jù)倉庫,并形成數(shù)據(jù)加載情況的報告。3.2.2 ETL過程詳述本期項目ETL的過程具體描述如下:第一步: 數(shù)據(jù)抽取在源系統(tǒng)上啟動數(shù)據(jù)抽取控制程序,完成以下工作:1、 數(shù)據(jù)采集考慮到數(shù)據(jù)來源的多樣性和復(fù)雜性,數(shù)據(jù)采集主要包括:l 對業(yè)務(wù)系統(tǒng)的數(shù)據(jù)采集:在日終結(jié)后,當日數(shù)據(jù)自動、增量地轉(zhuǎn)儲到數(shù)據(jù)備份機上,作為數(shù)據(jù)倉庫的數(shù)據(jù)源并成為數(shù)據(jù)備份策略的一部分。l 對于稅收計劃、外部數(shù)據(jù)、納稅人財務(wù)報表的數(shù)據(jù)采集??筛鶕?jù)實際需要,采用多種途徑。2、 數(shù)據(jù)發(fā)送在數(shù)據(jù)采集完成后,各系統(tǒng)上的抽取控制程序?qū)?shù)據(jù)文件和校驗文件通過局域網(wǎng)發(fā)送到數(shù)據(jù)轉(zhuǎn)換區(qū)。第二步:數(shù)據(jù)裝入轉(zhuǎn)換區(qū)1. 檢查數(shù)據(jù)是否到位根據(jù)校驗文件,檢查源系統(tǒng)數(shù)據(jù)是否到位、是否存在傳輸錯誤等異常情況。如果數(shù)據(jù)不全或傳輸出現(xiàn)錯誤,如果出錯,將出錯結(jié)果寫入錯誤日志,重新執(zhí)行第一步。2. 將外部數(shù)據(jù)文件裝入oracle數(shù)據(jù)庫把來自外部源數(shù)據(jù)源的格式化數(shù)據(jù)轉(zhuǎn)化成oracle數(shù)據(jù)庫、表結(jié)構(gòu)。3. 修改系統(tǒng)狀態(tài):待該步驟工作完成后,將系統(tǒng)狀態(tài)改為抽取工作完成。注:若直接從業(yè)務(wù)系統(tǒng)數(shù)據(jù)庫中抽取數(shù)據(jù),則無須數(shù)據(jù)轉(zhuǎn)換區(qū)步驟。第三步:數(shù)據(jù)質(zhì)量檢查和出錯處理1. 狀態(tài)檢查:查詢參數(shù)表,如果數(shù)據(jù)抽取工作已經(jīng)完成,開始執(zhí)行該步驟工作。2. 數(shù)據(jù)質(zhì)量檢查:根據(jù)檢查規(guī)則,數(shù)據(jù)質(zhì)量檢查程序掃描源數(shù)據(jù)數(shù)據(jù)表,根據(jù)規(guī)則檢查數(shù)據(jù)是否合法,給出檢查報告和最終的數(shù)據(jù)質(zhì)量報告并寫入數(shù)據(jù)庫,數(shù)據(jù)質(zhì)量檢查結(jié)果寫入質(zhì)量檢查報告。3. 出錯處理:如果出現(xiàn)嚴重出錯,停止ETL工作,需要系統(tǒng)維護人員現(xiàn)場做出相應(yīng)的處理,修改正確后,重新執(zhí)行該步驟工作;對于警告級出錯,繼續(xù)進行下述步驟。4. 修改系統(tǒng)狀態(tài):待該步驟工作完成后,將系統(tǒng)狀態(tài)改為數(shù)據(jù)質(zhì)量檢查工作完成。第四步:數(shù)據(jù)轉(zhuǎn)換1、 狀態(tài)檢查查詢參數(shù)表,如果數(shù)據(jù)質(zhì)量檢查工作已經(jīng)完成,開始執(zhí)行該步工作。2、 數(shù)據(jù)轉(zhuǎn)換根據(jù)數(shù)據(jù)倉庫要求的數(shù)據(jù)源格式在Staging Area中進行并行轉(zhuǎn)換處理,并將轉(zhuǎn)換的結(jié)果數(shù)據(jù)存放在待裝載數(shù)據(jù)存放區(qū)。3、 生成轉(zhuǎn)換報告記錄數(shù)據(jù)轉(zhuǎn)換情況,并寫入數(shù)據(jù)庫轉(zhuǎn)換日志中。4、 修改系統(tǒng)狀態(tài): 待該步驟工作完成后,將系統(tǒng)狀態(tài)改為數(shù)據(jù)轉(zhuǎn)換工作完成。第五步:數(shù)據(jù)加載l 狀態(tài)檢查查詢參數(shù)表,如果數(shù)據(jù)質(zhì)量檢查工作已經(jīng)完成,開始執(zhí)行該步驟工作。l 數(shù)據(jù)裝入數(shù)據(jù)倉庫采用非依賴數(shù)據(jù)并行加載的策略,將待裝載數(shù)據(jù)區(qū)的數(shù)據(jù)裝入中心數(shù)據(jù)倉庫,如果標準代碼表發(fā)生變化,數(shù)據(jù)裝載程序?qū)藴蚀a的變化情況增量加載到數(shù)據(jù)倉庫代碼表中。l 數(shù)據(jù)加載情況報告記錄數(shù)據(jù)加載情況,并寫入數(shù)據(jù)倉庫數(shù)據(jù)庫的參數(shù)表中。l 修改系統(tǒng)狀態(tài): 待該步驟工作完成后,將系統(tǒng)狀態(tài)改為數(shù)據(jù)轉(zhuǎn)換工作完成。第六步:加載時間維1. 狀態(tài)檢查查詢參數(shù)表,如果數(shù)據(jù)加載工作已經(jīng)完成,開始執(zhí)行該步驟工作。2. 加載時間維根據(jù)當前的時間,依據(jù)數(shù)據(jù)集市多維模型,完成時間維的加載工作。3. 修改系統(tǒng)狀態(tài):待該步驟工作完成后,將系統(tǒng)狀態(tài)改為時間維加載工作完成。第七步:加載事實表1. 狀態(tài)檢查查詢參數(shù)表,如果時間維加載工作已經(jīng)完成,開始執(zhí)行該步驟工作。2. 加載事實表以數(shù)據(jù)倉庫數(shù)據(jù)為數(shù)據(jù)源,依據(jù)數(shù)據(jù)集市多維模型,完成事實表的加載工作。3. 修改系統(tǒng)狀態(tài):待該步驟工作完成后,將系統(tǒng)狀態(tài)改為事實表加載工作完成。第八步:加載聚合表1. 狀態(tài)檢查查詢參數(shù)表,如果事實表加載工作已經(jīng)完成,開始執(zhí)行該步驟工作。2. 加載聚合表以事實表為數(shù)據(jù)源,依據(jù)數(shù)據(jù)集市多維模型,完成聚合表的加載工作。3. 修改系統(tǒng)狀態(tài):待該步驟工作完成后,將系統(tǒng)狀態(tài)改為ETL工作結(jié)束。3.2.3 ETL時間約束數(shù)據(jù)抽取的范圍涉及財政核心業(yè)務(wù)系統(tǒng)數(shù)據(jù),主要是五大塊內(nèi)容:稅收收入數(shù)據(jù)、非稅收入數(shù)據(jù)、部門預(yù)算、支出數(shù)據(jù)、專項支出數(shù)據(jù)、其他系統(tǒng)數(shù)據(jù)。其中:其他系統(tǒng)數(shù)據(jù)包含固定資產(chǎn)、統(tǒng)發(fā)工資等相關(guān)財政業(yè)務(wù)系統(tǒng)數(shù)據(jù)。平臺在數(shù)據(jù)抽取時根據(jù)用戶對數(shù)據(jù)的查詢需求,可以實時、按天、按月取數(shù)。是指對在每天的特定時間必須要完成的事件進行嚴格的控制。對時間的限制建議可以表示為下圖:圖4-2:ETL時間階段示意圖從上圖可以看出,為了保證每天業(yè)務(wù)人員及時使用數(shù)據(jù)倉庫系統(tǒng),對ETL時間通常有如下要求:n 3:30之前完成數(shù)據(jù)從源系統(tǒng)到數(shù)據(jù)轉(zhuǎn)換區(qū)的數(shù)據(jù)抽取工作。n 5:00之前完成數(shù)據(jù)轉(zhuǎn)換區(qū)內(nèi)的數(shù)據(jù)轉(zhuǎn)換工作。n 6:00之前完成轉(zhuǎn)換后數(shù)據(jù)到數(shù)據(jù)倉庫的數(shù)據(jù)加載工作。n 8:00之前完成數(shù)據(jù)倉庫到數(shù)據(jù)集市多維數(shù)據(jù)庫的ETL工作。ETL的時間窗口通常在4-6小時,考慮到將來系統(tǒng)數(shù)據(jù)的增長,ETL工具的處理效率和擴展性是關(guān)鍵。3.3 后臺對應(yīng)規(guī)則的設(shè)置平臺中的數(shù)據(jù)由于來自不同的業(yè)務(wù)系統(tǒng),各數(shù)據(jù)的編碼可能不一致,系統(tǒng)能與后臺設(shè)置各編碼的進行對應(yīng)關(guān)系管理;用戶對預(yù)算單位設(shè)置用戶與預(yù)算單位對應(yīng)關(guān)系;用戶對會計科目設(shè)置用戶與會計科目對應(yīng)關(guān)系;用戶對功能科目設(shè)置用戶與功能科目對應(yīng)關(guān)系;用戶對經(jīng)濟科目設(shè)置用戶與經(jīng)濟科目對應(yīng)關(guān)系;用戶對預(yù)算項目設(shè)置用戶與預(yù)算項目對應(yīng)關(guān)系;用戶對收費項目設(shè)置用戶與收費項目對應(yīng)關(guān)系;用戶對指標類型設(shè)置用戶與指標類型對應(yīng)關(guān)系;用戶對資金來源設(shè)置用戶與資金來源對應(yīng)關(guān)系;單位對會計科目設(shè)置預(yù)算單位與會計科目對應(yīng)關(guān)系;單位對功能科目設(shè)置預(yù)算單位與功能科目對應(yīng)關(guān)系;單位對經(jīng)濟科目設(shè)置預(yù)算單位與經(jīng)濟科目對應(yīng)關(guān)系;單位對預(yù)算項目設(shè)置預(yù)算單位與預(yù)算項目對應(yīng)關(guān)系;處室對單位設(shè)置財政歸口部門與預(yù)算單位之間的對應(yīng)關(guān)系;用戶對歸口設(shè)置用戶與財政歸口部門之間的對應(yīng)關(guān)系;預(yù)算項目對執(zhí)行項目設(shè)置預(yù)算項目與執(zhí)行項目之間的對應(yīng)關(guān)系.3.3.1 數(shù)據(jù)抽取程序的設(shè)計原則數(shù)據(jù)倉庫需要的數(shù)據(jù)存在于不同種類、不同技術(shù)平臺的業(yè)務(wù)系統(tǒng)中,數(shù)據(jù)抽取就是從這些不同的數(shù)據(jù)源中抽取數(shù)據(jù)作為數(shù)據(jù)倉庫的原材料。本項目數(shù)據(jù)抽取設(shè)計時,采用以下方法:1. 直接從源業(yè)務(wù)系統(tǒng)抽取最原始的數(shù)據(jù),不抽取派生數(shù)據(jù)。2. 只抽取源系統(tǒng)中本期項目需要的數(shù)據(jù)庫表。3.3.2 數(shù)據(jù)抽取方式1. 初始抽取數(shù)據(jù)初始抽取指按照需求設(shè)計要求,把數(shù)據(jù)倉庫要求的各業(yè)務(wù)系統(tǒng)的數(shù)據(jù)源一次性抽取并加載到數(shù)據(jù)倉庫,本項目初始抽取的數(shù)據(jù)范圍為源業(yè)務(wù)系統(tǒng)當天日終后的數(shù)據(jù)。初次加載時間可定為投入運行的當月業(yè)務(wù)系統(tǒng)處理結(jié)束后進行。2. 增量抽取在數(shù)據(jù)倉庫系統(tǒng)投入運行后,只抽取業(yè)務(wù)系統(tǒng)的增量數(shù)據(jù)到數(shù)據(jù)倉庫,增量數(shù)據(jù)包括業(yè)務(wù)系統(tǒng)新增數(shù)據(jù)和變化數(shù)據(jù)兩部分,采用增量抽取的方法確保每次最小的數(shù)據(jù)子集加載到數(shù)據(jù)倉庫里。第四章 數(shù)據(jù)整理平臺建設(shè) 數(shù)據(jù)整理平臺實現(xiàn)數(shù)據(jù)倉庫中當前數(shù)據(jù)、綜合數(shù)據(jù)、歷史數(shù)據(jù)的組織和整理。通過數(shù)據(jù)抽取平臺獲取的各業(yè)務(wù)數(shù)據(jù),從邏輯上和業(yè)務(wù)上是獨立的、分散的,要實現(xiàn)一體化的查詢功能,必須對分散的業(yè)務(wù)數(shù)據(jù)進行抽取和整合。如將分散的單位基礎(chǔ)信息、預(yù)算數(shù)據(jù)、支出數(shù)據(jù)通過一定的策略,整理形成一套編碼統(tǒng)一、業(yè)務(wù)連貫的數(shù)據(jù)體系,這是一體化查詢系統(tǒng)成功的關(guān)鍵。數(shù)據(jù)整理平臺基于各業(yè)務(wù)數(shù)據(jù),可以根據(jù)不同的用戶查詢需求,定制數(shù)據(jù)整理策略。根據(jù)查詢角度的不同,按決策的主題要求形成當前的基本數(shù)據(jù)層,按綜合決策的要求構(gòu)成綜合數(shù)據(jù)層,隨著時問的推移,由時間控制機制將當前基本數(shù)據(jù)層轉(zhuǎn)為歷史數(shù)據(jù)層。4.1 數(shù)據(jù)轉(zhuǎn)換設(shè)計4.1.1 數(shù)據(jù)轉(zhuǎn)換的工作內(nèi)容數(shù)據(jù)轉(zhuǎn)換是數(shù)據(jù)倉庫項目中數(shù)據(jù)管理部分的核心內(nèi)容,這個過程會直接影響數(shù)據(jù)倉庫數(shù)據(jù)的質(zhì)量,數(shù)據(jù)轉(zhuǎn)換主要設(shè)計以下工作內(nèi)容:l 數(shù)據(jù)整理:這一處理過程將數(shù)據(jù)從源系統(tǒng)中的結(jié)構(gòu)和格式轉(zhuǎn)換成數(shù)據(jù)倉庫所需的結(jié)構(gòu)和格式。l 數(shù)據(jù)清理:數(shù)據(jù)清理通常用來處理已知的某一數(shù)據(jù)源的數(shù)據(jù)質(zhì)量問題,數(shù)據(jù)清理主要是根據(jù)相關(guān)的業(yè)務(wù)規(guī)則來糾正數(shù)據(jù)質(zhì)量問題,給數(shù)據(jù)倉庫中的數(shù)據(jù)一個合理的取值。l 數(shù)據(jù)驗證:這一過程確保所選擇的數(shù)據(jù)成功采集、在轉(zhuǎn)換處理過程中保證數(shù)據(jù)的完整性。4.1.2 數(shù)據(jù)轉(zhuǎn)換程序的設(shè)計原則根據(jù)本次的項目特點,數(shù)據(jù)轉(zhuǎn)換設(shè)計采用如下設(shè)計方法:1. 數(shù)據(jù)轉(zhuǎn)換程序首先完成數(shù)據(jù)整理工作,保證數(shù)據(jù)格式的正確性。2. 數(shù)據(jù)倉庫中不需要的數(shù)據(jù)(記錄和/或字段)應(yīng)該盡早剝離掉。3. 只有數(shù)據(jù)質(zhì)量問題無法在源應(yīng)用系統(tǒng)中修復(fù)的時候才采用數(shù)據(jù)清洗的方法。這些問題可能需要源應(yīng)用系統(tǒng)中相應(yīng)程序的改變,也可能只需要用戶執(zhí)行一個數(shù)據(jù)清掃的任務(wù)。4. 數(shù)據(jù)轉(zhuǎn)換時,確證滿足數(shù)據(jù)倉庫的數(shù)據(jù)參考完整性要求。5. 采用參數(shù)化的設(shè)計方法,以便新的條件和規(guī)則增加時,只需要做最少的配置參數(shù)的工作。6. 轉(zhuǎn)換程序的設(shè)計采用模塊化的設(shè)計方法,以便于數(shù)據(jù)倉庫的后續(xù)階段的共享。4.2 數(shù)據(jù)質(zhì)量檢查和出錯處理4.2.1 數(shù)據(jù)質(zhì)量檢查數(shù)據(jù)質(zhì)量檢查是為了保證數(shù)據(jù)倉庫中數(shù)據(jù)的正確性,防止不符合規(guī)則的數(shù)據(jù)進入數(shù)據(jù)倉庫。由于源業(yè)務(wù)系統(tǒng)的多種多樣,以及對各自業(yè)務(wù)關(guān)注點的不同,很有可能會有一些數(shù)據(jù)是不完整的,也就是不能滿足數(shù)據(jù)倉庫分析功能的需要。為了保證數(shù)據(jù)分析的正確性,我們就需要對這些數(shù)據(jù)進行質(zhì)量檢查,使正確的數(shù)據(jù)進入數(shù)據(jù)倉庫,同時在數(shù)據(jù)轉(zhuǎn)換區(qū)內(nèi)保留不完整的數(shù)據(jù),這些被保留的數(shù)據(jù)經(jīng)過數(shù)據(jù)管理員和業(yè)務(wù)人員的共同維護,使之滿足數(shù)據(jù)倉庫分析功能的需要,并能正確反映業(yè)務(wù)系統(tǒng)的實際情況。由于數(shù)據(jù)質(zhì)量檢查內(nèi)容的不同,我們在數(shù)據(jù)ETL的不同階段進行不同的數(shù)據(jù)質(zhì)量檢查任務(wù),并根據(jù)檢查結(jié)果進行相應(yīng)的出錯處理。4.2.2 出錯級別將源數(shù)據(jù)的質(zhì)量分為三級:正常級、警告級和嚴重錯誤級。三種定義為:l 正常級:數(shù)據(jù)符合業(yè)務(wù)規(guī)則所賦予的意義和數(shù)據(jù)庫數(shù)據(jù)格式的定義。l 警告級:源數(shù)據(jù)的非關(guān)鍵屬性殘缺、內(nèi)容和長度不符規(guī)范等一些非關(guān)鍵錯誤。l 錯誤級:數(shù)據(jù)質(zhì)量發(fā)現(xiàn)嚴重的錯誤,不能啟動數(shù)據(jù)轉(zhuǎn)換和加載過程。4.2.3 出錯處理設(shè)計如果在檢查過程中發(fā)現(xiàn)了存在有警告級和錯誤級錯誤,則將錯誤記錄的信息記錄在檢查錯誤結(jié)果表中,根據(jù)不同的錯誤級別采取不同的處理方式:l 警告級: 記錄出錯信息,可以繼續(xù)后續(xù)工作。l 錯誤級: 只要存在錯誤級錯誤,則停止執(zhí)行后續(xù)工作,需要系統(tǒng)維護人員現(xiàn)場做出相應(yīng)的處理,修改正確后,重新執(zhí)行數(shù)據(jù)質(zhì)量檢查工作。

注意事項

本文(IBM數(shù)據(jù)倉庫解決方案(簡).doc)為本站會員(xin****828)主動上傳,裝配圖網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對上載內(nèi)容本身不做任何修改或編輯。 若此文所含內(nèi)容侵犯了您的版權(quán)或隱私,請立即通知裝配圖網(wǎng)(點擊聯(lián)系客服),我們立即給予刪除!

溫馨提示:如果因為網(wǎng)速或其他原因下載失敗請重新下載,重復(fù)下載不扣分。




關(guān)于我們 - 網(wǎng)站聲明 - 網(wǎng)站地圖 - 資源地圖 - 友情鏈接 - 網(wǎng)站客服 - 聯(lián)系我們

copyright@ 2023-2025  zhuangpeitu.com 裝配圖網(wǎng)版權(quán)所有   聯(lián)系電話:18123376007

備案號:ICP2024067431-1 川公網(wǎng)安備51140202000466號


本站為文檔C2C交易模式,即用戶上傳的文檔直接被用戶下載,本站只是中間服務(wù)平臺,本站所有文檔下載所得的收益歸上傳人(含作者)所有。裝配圖網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對上載內(nèi)容本身不做任何修改或編輯。若文檔所含內(nèi)容侵犯了您的版權(quán)或隱私,請立即通知裝配圖網(wǎng),我們立即給予刪除!