基于數(shù)據(jù)倉(cāng)庫(kù)技術(shù)的決策支持系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)
《基于數(shù)據(jù)倉(cāng)庫(kù)技術(shù)的決策支持系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)》由會(huì)員分享,可在線閱讀,更多相關(guān)《基于數(shù)據(jù)倉(cāng)庫(kù)技術(shù)的決策支持系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)(41頁(yè)珍藏版)》請(qǐng)?jiān)谘b配圖網(wǎng)上搜索。
第一章 引言 1 1 問(wèn)題的提出 我國(guó)的電信業(yè) 尤其是移動(dòng)通信業(yè) 起步比較晚 但發(fā)展非常快 對(duì)許多 業(yè)務(wù)的決策和方向的把握都是在摸索中進(jìn)行的 某些立項(xiàng)缺乏統(tǒng)一意見(jiàn)和充足 的科學(xué)依據(jù) 帶有一定程度的盲目性 另一方面 經(jīng)過(guò)多年運(yùn)營(yíng) 積累了龐大 的業(yè)務(wù)數(shù)據(jù) 如計(jì)費(fèi)中心的計(jì)費(fèi)數(shù)據(jù) 客服中心的用戶信息數(shù)據(jù)等 這些海量 數(shù)據(jù)中包含著寶貴的經(jīng)驗(yàn)和商業(yè)信息 可以很好地拿來(lái)借鑒今后的業(yè)務(wù)運(yùn)作 但是這些數(shù)據(jù)信息隱藏在龐大 復(fù)雜的數(shù)據(jù)庫(kù)里面 許多有價(jià)值的信息并沒(méi)有 直接表現(xiàn)出來(lái) 而是掩蓋在無(wú)聊的數(shù)據(jù)后面 多數(shù)情況下 我們不得不用到某 些分析工具 以期取得豐富而又客觀翔實(shí)的商業(yè)信息 用于開發(fā)更大的市場(chǎng)和 提供更完善的服務(wù) 到目前為止 電信業(yè)尚無(wú)比較完備的分析工具 然而另一方面 電信業(yè)又 面臨著許多急于解決的問(wèn)題 如 話費(fèi)流失問(wèn)題 新業(yè)務(wù)開展問(wèn)題 基站分配 問(wèn)題 批價(jià)問(wèn)題等等 以話費(fèi)流失為例 我國(guó)電信業(yè)每年僅此項(xiàng)損失就達(dá)數(shù)億 元人民幣之巨 基本上無(wú)法追回 如何盡快避免或盡量減免這一損失 就顯得 極為迫切和必須 在這種背景下 數(shù)據(jù)倉(cāng)庫(kù)技術(shù)以及其上的一些分析挖掘工具就應(yīng)運(yùn)而生了 如聯(lián)機(jī)分析處理 數(shù)據(jù)挖掘等等 決策支持系統(tǒng) DSS Decision Support System 是70 年代由美國(guó)M S Scott Morton 提出 迅速發(fā)展起來(lái)的新型學(xué)科 決策支持系統(tǒng)是綜合利用大量數(shù)據(jù) 有機(jī)組合眾多模型 數(shù)學(xué)模型與數(shù)據(jù)處理模型等 通過(guò)人機(jī)交互 輔助各級(jí) 決 策者實(shí)現(xiàn)科學(xué)決策的系統(tǒng) 數(shù)據(jù)倉(cāng)庫(kù)DW Data Warehouse 建立在傳統(tǒng)事務(wù)型數(shù)據(jù)庫(kù)的基礎(chǔ)之上 為企業(yè)DSS 及數(shù)據(jù)挖掘系統(tǒng)提供數(shù)據(jù)源 它從原事務(wù)數(shù)據(jù)庫(kù)中將分析型數(shù)據(jù)與 事務(wù)型數(shù)據(jù)相分離 單獨(dú)存放而形成數(shù)據(jù)集合 數(shù)據(jù)倉(cāng)庫(kù)就是要把分散存放在 企業(yè)各個(gè)地方的數(shù)據(jù)集中到一起 并利用這些數(shù)據(jù)制定出更好的決策 聯(lián)機(jī)分析處理 OLAP On Line Analysis Processing 是數(shù)據(jù)倉(cāng)庫(kù)上的分析 應(yīng)用工具 它建立在多維數(shù)據(jù)視圖的基礎(chǔ)上 主要有在線性和多維分析兩個(gè)特 點(diǎn) 數(shù)據(jù)挖掘 DM Data Mining 是從大量數(shù)據(jù)中提取出可信的 新穎的 有 效的并能被人理解的模式的高級(jí)處理過(guò)程 4 1 2 國(guó)內(nèi)外發(fā)展現(xiàn)狀 目前 各大數(shù)據(jù)庫(kù)廠商均在數(shù)據(jù)倉(cāng)庫(kù)項(xiàng)目上提出了風(fēng)格各異 內(nèi)容相似的 數(shù)據(jù)倉(cāng)庫(kù)全面解決方案 比較知名的有Oracle Sybase Informix IBM NCR CA 等公司 Sybase 擁有一個(gè)獨(dú)特而強(qiáng)有力的點(diǎn)對(duì)點(diǎn)方案 用來(lái)設(shè)計(jì) 建立和管理數(shù)據(jù) 倉(cāng)庫(kù)和數(shù)據(jù)集市 各個(gè)部門之間通過(guò)集中的元數(shù)據(jù)進(jìn)行交互 具有完整性 集 中性和靈活性等特點(diǎn) 使用的工具也具有很多優(yōu)越性能 如Power Designer Warehouse Architect Power Stage Adaptive Server IQ Power Dimensions 等 Sybase 的解決方案及其組成具有以下特點(diǎn) 快速實(shí)現(xiàn) 數(shù)據(jù)集市與中心倉(cāng)庫(kù)的 無(wú)縫集成 極高的查詢速度 高效的數(shù)據(jù)壓縮 Oracle 提出一個(gè)面向決策支持應(yīng)用的數(shù)據(jù)倉(cāng)庫(kù)解決方案 開發(fā)出了Oracle Warehouse Builder Oracle8i 數(shù)據(jù)庫(kù) Oracle Express 等系列工具 其中 Oracle8i 直接對(duì)分區(qū)鍵值作更新 有利于大量重復(fù)操作 還在SQL 引擎內(nèi)建立強(qiáng)大的指 令集 如擴(kuò)展了CUBE 和ROLLUP SQL 操作 支持對(duì)表進(jìn)行抽樣查詢 Informix 為促使 IT 專業(yè)人員迅速建立和運(yùn)用數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)集市 提供了 尖端決策方案套裝 這一合成的產(chǎn)品和服務(wù)是專為概括高級(jí)關(guān)鍵商務(wù)分析的決 策支持環(huán)境設(shè)計(jì)的 為關(guān)鍵商務(wù)數(shù)據(jù)倉(cāng)庫(kù)提供世界一流的數(shù)據(jù)倉(cāng)庫(kù)產(chǎn)品和服務(wù) 及工業(yè)領(lǐng)先的工具 包括 Informix 的專家級(jí)數(shù)據(jù)庫(kù)設(shè)計(jì) 具有超級(jí)的可操作 性 伸縮性和廣泛性 為建立和展開分析應(yīng)用的合成工具 包括數(shù)據(jù)抽取 轉(zhuǎn) 換 清理和裝載 提供了基于ROLAP 的多維數(shù)據(jù)分析 導(dǎo)向 匯報(bào)以及一整 套編程工具和APIs 值得一提的是 Informix 的OLAP 工具M(jìn)ETACUBE 在漢 化方面做了大量的工作 基本能夠滿足國(guó)內(nèi)用戶的需求 其他公司的解決方案大體類似 只是具體開發(fā)工具在功能上有所不同 這 些國(guó)外公司的最大特點(diǎn)是各種開發(fā)工具齊全 從數(shù)據(jù)倉(cāng)庫(kù)模型設(shè)計(jì) 數(shù)據(jù)抽取 工具 數(shù)據(jù)庫(kù)管理系統(tǒng)到OLAP 分析工具 用戶只需要面對(duì)一個(gè)廠商就可以獲 得全部的支持和服務(wù) 而國(guó)內(nèi)公司則沒(méi)有這樣的技術(shù)優(yōu)勢(shì) 在國(guó)內(nèi) 數(shù)據(jù)倉(cāng)庫(kù)剛剛起步 從事這方面研究的學(xué)校和公司不多 主要是 知識(shí)發(fā)現(xiàn) 數(shù)據(jù)挖掘 領(lǐng)域的研究 并且是利用第三方開發(fā)工具系統(tǒng)集成 比較 知名的有 中青旅尚洋電子技術(shù)有限公司 亞信德康通信技術(shù)有限公司 億陽(yáng) 信通有限公司 巨陽(yáng)科技開發(fā)有限公司等 根據(jù)數(shù)據(jù)倉(cāng)庫(kù)技術(shù)國(guó)際著名刊物 DM Review 的評(píng)論 有國(guó)外一些電信公司 采用決策支持通用平臺(tái) 如新加坡電信 英國(guó)電信等 目前已經(jīng)在我國(guó)設(shè)立辦 事處或代理機(jī)構(gòu)的廠商的產(chǎn)品有 Brio SAS Clementine Business Object 5 SPSS Oracle Informix Sybase Pilot 等 其優(yōu)點(diǎn)是平臺(tái)系統(tǒng)而完整 不 足之 處在于存在本地化問(wèn)題等 往往需要二次開發(fā) 無(wú)法直接適應(yīng)中國(guó)電信市場(chǎng)的 需要 1 3 主要工作及成果 本文在深入研究數(shù)據(jù)倉(cāng)庫(kù) 數(shù)據(jù)挖掘技術(shù)的基礎(chǔ)上 設(shè)計(jì)并實(shí)現(xiàn)了一個(gè)DSS 系統(tǒng) 主要完成了以下幾個(gè)方面的工作 建造了一個(gè)數(shù)據(jù)倉(cāng)庫(kù)管理系統(tǒng) 并運(yùn)用聚類 分類算法和 C5 算法進(jìn)行用 戶信用度分析和客戶行為特征分析 提出并實(shí)現(xiàn)了一個(gè)改進(jìn)的聚類算法 傳統(tǒng)系統(tǒng)聚類算法僅限于樣本聚類 在聚類指標(biāo)過(guò)多并且指標(biāo)之間存在依賴關(guān)系的情況下正確度不高 本文提出并 實(shí)現(xiàn)的多重系統(tǒng)聚類算法 將樣本聚類與變量聚類結(jié)合起來(lái) 在不同的指標(biāo)組 上分別聚類 然后進(jìn)行二次 或多次 聚類 在很大程度上提高了算法的正確 度 6 第二章 數(shù)據(jù)倉(cāng)庫(kù)技術(shù) 2 1 基本概念 隨著 IT 業(yè)的發(fā)展 業(yè)界數(shù)據(jù)規(guī)模的不斷擴(kuò)大 為了以合理的費(fèi)用 向任 何地點(diǎn)需要數(shù)據(jù)的人提供高質(zhì)量的數(shù)據(jù) 1992 年William H Inmon 提出了取 得廣泛認(rèn)可的數(shù)據(jù)倉(cāng)庫(kù)概念 集成的 面向主題的 隨時(shí)間變化的不可修改的 數(shù)據(jù)集合 從上面的定義 我們可以知道 數(shù)據(jù)倉(cāng)庫(kù)首先是一個(gè)數(shù)據(jù)的集合 在這一 點(diǎn)上 它與傳統(tǒng)意義上的數(shù)據(jù)庫(kù)是一致的 實(shí)際在物理上 數(shù)據(jù)倉(cāng)庫(kù)也主要是 以關(guān)系表的形式實(shí)現(xiàn)的 數(shù)據(jù)倉(cāng)庫(kù)有四大主要特點(diǎn) 面向主題的 是相對(duì)于傳統(tǒng)數(shù)據(jù)庫(kù)的面向應(yīng)用而言的 所謂面向應(yīng)用 指 的是系統(tǒng)實(shí)現(xiàn)過(guò)程中主要圍繞著一些應(yīng)用或功能 而面向主題則考慮一個(gè)個(gè)的 問(wèn)題域 對(duì)問(wèn)題域涉及到的數(shù)據(jù)和分析數(shù)據(jù)所采用的功能給予同樣的重視 集成的 數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)來(lái)自各個(gè)不同的數(shù)據(jù)源 操作數(shù)據(jù)庫(kù) 由于歷 史的原因 各操作數(shù)據(jù)庫(kù)的組織結(jié)構(gòu)往往是不同的 在這些異構(gòu)數(shù)據(jù)載入到數(shù) 據(jù)倉(cāng)庫(kù)之前 必須經(jīng)歷一個(gè)集成過(guò)程 或稱為抽取過(guò)程 隨時(shí)間變化的 數(shù)據(jù)倉(cāng)庫(kù)以維的形式對(duì)數(shù)據(jù)進(jìn)行組織 維是數(shù)據(jù)倉(cāng)庫(kù)技術(shù) 中很重要的一個(gè)概念 通??梢赃@樣理解一個(gè)維 維是人們看待事物的一種角 度 維具有層次性 不可修改的 與面向應(yīng)用的事務(wù)數(shù)據(jù)庫(kù)對(duì)數(shù)據(jù)作頻繁的插入 更新操作不 同的是 對(duì)于數(shù)據(jù)倉(cāng)庫(kù)中數(shù)據(jù)的操作僅限于數(shù)據(jù)的初始導(dǎo)入和記錄查詢 在數(shù) 據(jù)載入數(shù)據(jù)倉(cāng)庫(kù)之后 一般不允許隨意修改 2 2 數(shù)據(jù)倉(cāng)庫(kù)簡(jiǎn)介 數(shù)據(jù)倉(cāng)庫(kù)是一種結(jié)構(gòu)化的數(shù)據(jù)環(huán)境 為決策支持系統(tǒng)提供數(shù)據(jù)源 它可以 幫助企業(yè)管理者準(zhǔn)確了解企業(yè)的狀況 從而進(jìn)行預(yù)測(cè) 制定計(jì)劃并作出明智的 決策 數(shù)據(jù)倉(cāng)庫(kù)作為整個(gè)企業(yè)的業(yè)務(wù)數(shù)據(jù)集成庫(kù) 從眾多數(shù)據(jù)源中集成數(shù)據(jù) 它 包含龐大的企業(yè)級(jí)數(shù)據(jù) 其實(shí)質(zhì)是由多種技術(shù)和服務(wù)組成的完整的解決方案 數(shù)據(jù)倉(cāng)庫(kù)處理的數(shù)據(jù)與一般的信息系統(tǒng)的數(shù)據(jù)不同 它來(lái)自不同的分散數(shù)據(jù)源 包括操作數(shù)據(jù) 歷史數(shù)據(jù) 外部數(shù)據(jù)等 對(duì)這些數(shù)據(jù)進(jìn)行提煉和綜合 集成到 一個(gè)單一的關(guān)系數(shù)據(jù)倉(cāng)庫(kù)中 對(duì)這個(gè)集成的數(shù)據(jù)倉(cāng)庫(kù)進(jìn)行管理 將其規(guī)范為面 7 向主題的格式 以便于最終用戶進(jìn)行數(shù)據(jù)訪問(wèn)和分析 數(shù)據(jù)倉(cāng)庫(kù)由可操作的外部數(shù)據(jù)源 一個(gè) 多個(gè)數(shù)據(jù)倉(cāng)庫(kù)和一個(gè) 多個(gè)數(shù)據(jù)分 析工具組成 構(gòu)造數(shù)據(jù)倉(cāng)庫(kù) 首先要從數(shù)據(jù)源 如聯(lián)機(jī)信息系統(tǒng) 電子郵件消 息等 中抽取 集成 轉(zhuǎn)換 聚合和復(fù)制數(shù)據(jù) 并存儲(chǔ)到數(shù)據(jù)倉(cāng)庫(kù)中 然后 這其中的一部分?jǐn)?shù)據(jù)再被聚合 復(fù)制到數(shù)據(jù)集市 最后 用戶用分析工具創(chuàng)建 電子報(bào)表 進(jìn)行查詢操作 從而實(shí)現(xiàn)決策分析 2 3 數(shù)據(jù)倉(cāng)庫(kù)的關(guān)鍵技術(shù) 在技術(shù)上可以根據(jù)數(shù)據(jù)的工作過(guò)程分為 數(shù)據(jù)的抽取 存儲(chǔ)和管理以及數(shù) 據(jù)的表現(xiàn)三個(gè)方面 在此 我們將分別討論每一個(gè)環(huán)節(jié) 2 3 1 數(shù)據(jù)的抽取 數(shù)據(jù)的抽取是數(shù)據(jù)進(jìn)入倉(cāng)庫(kù)的入口 由于數(shù)據(jù)倉(cāng)庫(kù)是一個(gè)獨(dú)立的數(shù)據(jù)環(huán) 境 它需要通過(guò)抽取程序?qū)?shù)據(jù)從聯(lián)機(jī)事務(wù)處理系統(tǒng) 外部數(shù)據(jù)源 脫機(jī)的數(shù) 據(jù)存儲(chǔ)介質(zhì)中導(dǎo)入數(shù)據(jù)倉(cāng)庫(kù) 數(shù)據(jù)抽取在技術(shù)上主要涉及互連 復(fù)制 增量 轉(zhuǎn)換 調(diào)度和監(jiān)控等幾個(gè)方面 數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)不要求實(shí)時(shí)響應(yīng) 因此數(shù)據(jù)抽 取可以定時(shí)進(jìn)行 但多個(gè)抽取操作執(zhí)行的時(shí)間 相互的順序 成敗對(duì)數(shù)據(jù)倉(cāng)庫(kù) 中信息的有效性則至關(guān)重要 目前市場(chǎng)上提供很多數(shù)據(jù)抽取工具 例如Informix 的ETL Extract Transform Loader 和Sybase 的Power Stage 這些工具通過(guò)用戶選定源數(shù)據(jù) 和目標(biāo)數(shù)據(jù)的對(duì)應(yīng)關(guān)系 會(huì)自動(dòng)生成數(shù)據(jù)抽取的代碼 數(shù)據(jù)抽取過(guò)程涉及數(shù)據(jù) 的轉(zhuǎn)換 但抽取工具支持的數(shù)據(jù)種類有限 這種情況使得抽取工具往往不能滿 足要求 因此 實(shí)際的數(shù)據(jù)倉(cāng)庫(kù)實(shí)施過(guò)程中往往不一定使用抽取工具 整個(gè)抽 取過(guò)程能否因工具的使用而納入有效的管理 調(diào)度和維護(hù)則更為重要 經(jīng)過(guò)抽取后的數(shù)據(jù)記錄應(yīng)為格式統(tǒng)一 業(yè)務(wù)信息完整的數(shù)據(jù)記錄 2 3 2 存儲(chǔ)和管理 數(shù)據(jù)倉(cāng)庫(kù)的關(guān)鍵是數(shù)據(jù)的存儲(chǔ)和管理 數(shù)據(jù)倉(cāng)庫(kù)的組織管理方式?jīng)Q定了它 有別于傳統(tǒng)數(shù)據(jù)庫(kù)的特性 同時(shí)也決定了它對(duì)外部數(shù)據(jù)的表現(xiàn)形式 要決定采 用什么產(chǎn)品和技術(shù)來(lái)建立數(shù)據(jù)倉(cāng)庫(kù)核心 則需要從數(shù)據(jù)倉(cāng)庫(kù)的技術(shù)特點(diǎn)著手分 析 數(shù)據(jù)倉(cāng)庫(kù)遇到的第一個(gè)問(wèn)題是對(duì)大量數(shù)據(jù)的存儲(chǔ)和管理 這里所涉及的數(shù) 據(jù)量比傳統(tǒng)事務(wù)處理大得多 且隨時(shí)間的推移而累積 從現(xiàn)有技術(shù)和產(chǎn)品來(lái)看 只有關(guān)系數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)能夠擔(dān)當(dāng)此任 關(guān)系數(shù)據(jù)倉(cāng)庫(kù)經(jīng)過(guò)近30 年的發(fā)展 在數(shù) 8 據(jù)存儲(chǔ)和管理方面已經(jīng)非常成熟 目前不少關(guān)系數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)已支持?jǐn)?shù)據(jù)分割 技術(shù) 能夠?qū)⒁粋€(gè)大的數(shù)據(jù)倉(cāng)庫(kù)表分散在多個(gè)物理存儲(chǔ)設(shè)備中 進(jìn)一步增強(qiáng)了 系統(tǒng)管理大數(shù)據(jù)量的擴(kuò)展能力 采用關(guān)系數(shù)據(jù)倉(cāng)庫(kù)管理數(shù)百個(gè)GB 甚至到TB 的 數(shù)據(jù)已是一件平常的事情 數(shù)據(jù)倉(cāng)庫(kù)要解決的第二個(gè)問(wèn)題是并行處理 在傳統(tǒng)聯(lián)機(jī)事務(wù)處理應(yīng)用中 用戶訪問(wèn)系統(tǒng)的特點(diǎn)是短小而密集 對(duì)于一個(gè)多處理機(jī)系統(tǒng)來(lái)說(shuō) 能夠?qū)⒂脩?的請(qǐng)求進(jìn)行均衡分擔(dān)是關(guān)鍵 這便是并發(fā)操作 而在數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)中 用戶訪 問(wèn)系統(tǒng)的特點(diǎn)是龐大而稀疏 每一個(gè)查詢和統(tǒng)計(jì)都很復(fù)雜 但訪問(wèn)的頻率并不 是很高 此時(shí)系統(tǒng)需要有能力將所有的處理機(jī)調(diào)動(dòng)起來(lái)為這一個(gè)復(fù)雜的查詢請(qǐng) 求服務(wù) 將該請(qǐng)求并行處理 因此 并行處理技術(shù)在數(shù)據(jù)倉(cāng)庫(kù)中比以往更加重 要 數(shù)據(jù)倉(cāng)庫(kù)的第三個(gè)問(wèn)題是針對(duì)決策支持查詢的優(yōu)化 這個(gè)問(wèn)題主要針對(duì)關(guān) 系數(shù)據(jù)倉(cāng)庫(kù)而言 在技術(shù)上 針對(duì)決策支持的優(yōu)化涉及數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)的索引機(jī) 制 查詢優(yōu)化器 連接策略 數(shù)據(jù)排序和采樣等諸多部分 普通關(guān)系數(shù)據(jù)倉(cāng)庫(kù) 采用B 樹類的索引 對(duì)于性別 年齡 地區(qū)等具有大量重復(fù)值的字段幾乎沒(méi)有 效果 而擴(kuò)充的關(guān)系數(shù)據(jù)倉(cāng)庫(kù)則引入了位圖索引的機(jī)制 以二進(jìn)制位表示字段 的狀態(tài) 將查詢過(guò)程變?yōu)楹Y選過(guò)程 單個(gè)計(jì)算機(jī)的基本操作便可篩選多條記錄 由于數(shù)據(jù)倉(cāng)庫(kù)中各數(shù)據(jù)表的數(shù)據(jù)量往往極不均勻 普通查詢優(yōu)化器所得出的最 佳查詢路徑可能不是最優(yōu)的 因此 面向決策支持的關(guān)系數(shù)據(jù)倉(cāng)庫(kù)在查詢優(yōu)化 器上也做了改進(jìn) 同時(shí)根據(jù)索引的使用特性增加了多重索引掃描的能力 以關(guān) 系數(shù)據(jù)倉(cāng)庫(kù)建立的數(shù)據(jù)倉(cāng)庫(kù)在應(yīng)用時(shí)會(huì)遇到大量的表間連接操作 而連接操作 對(duì)于關(guān)系數(shù)據(jù)倉(cāng)庫(kù)來(lái)說(shuō)是一件耗時(shí)的事兒 擴(kuò)充的關(guān)系庫(kù)中對(duì)連接操作可以做 預(yù)先的定義 我們稱之為連接索引 使得數(shù)據(jù)倉(cāng)庫(kù)在執(zhí)行查詢時(shí)可直接獲取數(shù) 據(jù)而不必實(shí)施具體的連接操作 數(shù)據(jù)倉(cāng)庫(kù)的查詢常常只需要數(shù)據(jù)倉(cāng)庫(kù)中的部分 記錄 決策支持的關(guān)系數(shù)據(jù)倉(cāng)庫(kù)在此做了改進(jìn) 提供了這一功能 此外 在大 容量數(shù)據(jù)環(huán)境中需要有足夠短的系統(tǒng)相應(yīng)時(shí)間 因此 一些數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)增加 了采樣數(shù)據(jù)的查詢能力 在精確度允許的范圍內(nèi) 大幅度提高系統(tǒng)查詢效率 數(shù)據(jù)倉(cāng)庫(kù)的第四個(gè)問(wèn)題是支持多維分析的查詢模式 這也是關(guān)系數(shù)據(jù)倉(cāng)庫(kù) 在數(shù)據(jù)倉(cāng)庫(kù)領(lǐng)域遇到的最嚴(yán)峻的挑戰(zhàn)之一 用戶在使用數(shù)據(jù)倉(cāng)庫(kù)時(shí)的訪問(wèn)方式 與傳統(tǒng)關(guān)系數(shù)據(jù)倉(cāng)庫(kù)有很大的不同 對(duì)于數(shù)據(jù)倉(cāng)庫(kù)的訪問(wèn)往往不是簡(jiǎn)單的表和 記錄的查詢 而是基于用戶業(yè)務(wù)的分析模式 即聯(lián)機(jī)分析 它的特點(diǎn)是將數(shù)據(jù) 想像成多維的立方體 用戶的查詢便相當(dāng)于在其中的部分維 棱 上施加條件 對(duì)立方體進(jìn)行切片 分割 得到的結(jié)果則是數(shù)值的矩陣或向量 并將其制成圖 表或輸入數(shù)理統(tǒng)計(jì)的算法 9 2 3 3 數(shù)據(jù)的表現(xiàn) 它們主要集中在多維分析 數(shù)理統(tǒng)計(jì)和數(shù)據(jù)挖掘方面 多維分析是數(shù)據(jù)倉(cāng)庫(kù)的重要表現(xiàn)形式 由于MOLAP 多維OLAP 系統(tǒng)是專 用的 因此 關(guān)于多維分析領(lǐng)域的工具和產(chǎn)品大多是ROLAP 關(guān)系OLAP 工具 在實(shí)際工作中 客戶需要通過(guò)對(duì)數(shù)據(jù)的統(tǒng)計(jì)來(lái)驗(yàn)證他們對(duì)某些事物的假設(shè) 以 進(jìn)行決策 數(shù)據(jù)挖掘強(qiáng)調(diào)的不僅僅是驗(yàn)證人們對(duì)數(shù)據(jù)特性的假設(shè) 而且它更要 主動(dòng)地尋找并發(fā)現(xiàn)蘊(yùn)藏在數(shù)據(jù)之中的規(guī)律 因此 在當(dāng)前的數(shù)據(jù)倉(cāng)庫(kù)應(yīng)用中 有效地利用數(shù)理統(tǒng)計(jì)就已經(jīng)能夠獲得可觀的效益 2 4 數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)庫(kù)的區(qū)別 數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)庫(kù)有多方面的區(qū)別 下表從幾個(gè)方面加以比較 數(shù)據(jù)庫(kù) 數(shù)據(jù)倉(cāng)庫(kù) 聯(lián)線處理方式OLTP OLAP 數(shù)據(jù)源 單一數(shù)據(jù)源 多數(shù)據(jù)源集成 數(shù)據(jù)屬性 動(dòng)態(tài) 除非刷新 否則為靜態(tài) 數(shù)據(jù)內(nèi)容 當(dāng)前值 概要值 計(jì)算值 歸檔值 數(shù)據(jù)結(jié)構(gòu) 復(fù)雜 適于OLTP 簡(jiǎn)單 適于OLAP 數(shù)據(jù)存取頻率 高 低 數(shù)據(jù)修改方式 直接修改 不直接修改 數(shù)據(jù)存取類型 重復(fù)的讀和寫 不重復(fù) 只讀 系統(tǒng)響應(yīng)時(shí)間 秒級(jí) 分級(jí) 2 5 數(shù)據(jù)倉(cāng)庫(kù)多維模型設(shè)計(jì) 2 5 1 多維模型的設(shè)計(jì)原則 數(shù)據(jù)倉(cāng)庫(kù)與傳統(tǒng)數(shù)據(jù)庫(kù)所不同的是表間較少以二維關(guān)系型方式連接 而以 多維形式關(guān)聯(lián) 最為流行且被業(yè)界認(rèn)可的邏輯結(jié)構(gòu)有星型結(jié)構(gòu)和雪花型結(jié)構(gòu) 其中以星型結(jié)構(gòu)最常被人們采用 下圖是數(shù)據(jù)倉(cāng)庫(kù)邏輯結(jié)構(gòu)的一個(gè)實(shí)例 這個(gè)例子采用的是星型結(jié)構(gòu) 星型 模式中間有一個(gè)單一對(duì)象 沿半徑向外連接到多個(gè)對(duì)象 它反映了最終用戶對(duì) 商務(wù)查詢的看法 稱為 事實(shí)表 Fact Table 與之相連的對(duì)象稱為 維 表 Dimension Table 圖中事實(shí)表中存儲(chǔ)了鍵屬性 時(shí)間代碼 地區(qū)代碼 年 10 齡代碼等 對(duì)事實(shí)表的查詢就是獲取指向維表的指針表 當(dāng)對(duì)事實(shí)表的查詢 與 對(duì)維表的查詢結(jié)合在一起時(shí) 就可以檢索大量的信息 通過(guò)聯(lián)合 維表可以對(duì) 查找標(biāo)準(zhǔn)細(xì)剖和聚集 維表通過(guò)外鍵與事實(shí)表相關(guān)聯(lián) 雪花模式 雪花模式是對(duì)星型模式的擴(kuò)展 每一個(gè)點(diǎn)都沿半徑向外連接到 多個(gè)點(diǎn) 雪花模式對(duì)星型模式的維表進(jìn)一步標(biāo)準(zhǔn)化 它的優(yōu)點(diǎn)是通過(guò)最大限度 地減少數(shù)據(jù)存儲(chǔ)量以及把最小的標(biāo)準(zhǔn)化表 而不是大的非標(biāo)準(zhǔn)化表 聯(lián)合在一 起來(lái)改善查詢性能 由于采取了標(biāo)準(zhǔn)化及較低的粒度 雪花模式增加了應(yīng)用程 序的靈活性 當(dāng)然同時(shí)也增加了用戶必須處理的表的數(shù)量和某些查詢的復(fù)雜性 圖 2 1 客戶群體特征事實(shí)表 2 5 2 多維模型的設(shè)計(jì)方法 多維數(shù)據(jù)模型由事實(shí)表和維表組成 事實(shí)表中一個(gè)索引對(duì)應(yīng)一個(gè)維表 常 用的統(tǒng)計(jì)信息放在事實(shí)表中 維表分得盡可能的細(xì)致 方便 維表之間相互獨(dú) 立 不同維表之間不能有相同的主鍵和外鍵 要根據(jù)數(shù)據(jù)之間的基本的內(nèi)在聯(lián) 系組織數(shù)據(jù) 而不是根據(jù)現(xiàn)有的分析主題組織數(shù)據(jù) 下面是一個(gè)實(shí)例 drop table f cdr drop table d account 11 create table d account sub id integer not null name char 50 postal code char 6 id name char 10 id code char 20 contact person char 20 contact phone char 40 address char 60 primary key sub id maxrows per segment 40000 create synonym det account for d account drop table d period create table d period per key integer not null day char 20 month char 10 year char 6 current flag char 1 primary key per key maxrows per segment 400 create synonym det period for d period drop table d duration create table d duration dur key integer not null dur seg char 40 primary key dur key maxrows per segment 10 create synonym det duration for d duration drop table d time create table d time time key integer not null minute char 6 hour char 2 promo desc char 10 primary key time key maxrows per segment 1440 create synonym det time for d time drop table w area create table w area area code char 8 not null area tag char 8 city char 20 province char 10 region char 10 primary key area code maxrows per segment 600 12 create synonym d orig area for w area create synonym det area for w area drop table d route create table d route route key char 10 not null route desc char 10 primary key route key maxrows per segment 1000 create synonym det route for d route create table f cdr imsi char 15 not null calling time timestamp not null sub id integer not null per key integer not null time key integer not null dur key integer not null orig area code char 8 not null route key char 10 not null base fee decimal 7 3 idd fee decimal 9 3 sub fee decimal 9 3 ddd fee decimal 9 3 gat fee decimal 9 3 roam fee decimal 7 3 extra fee decimal 7 3 duration integer calling count integer primary key imsi calling time foreign key imsi references d imsi imsi foreign key sub id references d account sub id foreign key per key references d period per key foreign key time key references d time time key foreign key dur key references d duration dur key foreign key route key references d route route key foreign key orig area code references d orig area area code maxsegments 2 maxrows per segment 10000000 2 6 數(shù)據(jù)倉(cāng)庫(kù)的成功案例 在數(shù)據(jù)倉(cāng)庫(kù)應(yīng)用領(lǐng)域 從電信 金融到制造 餐飲零售 都有不少成功的 案例 如MCI 通過(guò)Informix 公司為其建立數(shù)據(jù)倉(cāng)庫(kù)應(yīng)用 數(shù)據(jù)倉(cāng)庫(kù)規(guī)模為 3TB 能被1 萬(wàn)個(gè)用戶訪問(wèn) 借助于數(shù)據(jù)倉(cāng)庫(kù) MCI 公司可以分析存儲(chǔ)其公司范圍內(nèi) 幾乎全部的美國(guó)消費(fèi)者信息 以此增強(qiáng)公司的競(jìng)爭(zhēng)地位 美國(guó)百事可樂(lè)快餐集團(tuán)也建立了自己的數(shù)據(jù)倉(cāng)庫(kù)解決方案 各連鎖快餐廳 13 使用數(shù)據(jù)倉(cāng)庫(kù)技術(shù)為其提供及時(shí) 有效的信息 它們包括 顧客對(duì)某個(gè)快餐廳 的喜好 總體購(gòu)買行為 快餐廳地理位置的選擇等等 用于集團(tuán)對(duì)所有快餐廳 的最終管理和評(píng)估 這些信息對(duì)于集團(tuán)來(lái)說(shuō)是極其重要且有價(jià)值的 Sybase 公司與美國(guó)財(cái)政部的國(guó)內(nèi)稅收服務(wù)部門 IRS 合作開發(fā)的項(xiàng)目獲 得了Data Warehousing Institute TDWI 頒發(fā)的1999 年度數(shù)據(jù)庫(kù)最佳實(shí)踐獎(jiǎng) NCR 公司的 電信業(yè)解決方案 Fraud SENTRY 等 在國(guó)內(nèi)也有不少成功的數(shù)據(jù)倉(cāng)庫(kù)應(yīng)用案例 在目前國(guó)內(nèi)采用的同類產(chǎn)品 可分為開發(fā)專用的系統(tǒng) 引進(jìn)國(guó)外的軟件 使用通用決策支持基礎(chǔ)平臺(tái)等 見(jiàn) 諸報(bào)道的專用系統(tǒng)有國(guó)內(nèi)新太公司的 郵電智能辦公決策管理系統(tǒng) IntraSuite 亞信德康的 金眼睛 等 第三章 聯(lián)機(jī)分析處理與數(shù)據(jù)挖掘 14 3 1 聯(lián)機(jī)分析處理 傳統(tǒng)的數(shù)據(jù)庫(kù)管理系統(tǒng)建立在事務(wù)型數(shù)據(jù)的基礎(chǔ)之上 注重的是數(shù)據(jù)庫(kù)的 安全 高效運(yùn)作以及維持大量細(xì)節(jié)數(shù)據(jù)的一致性 安全性以及完整性這樣的事 務(wù)性操作 即OLTP On Line Transaction Processing 為了保證系統(tǒng)的高 效運(yùn)作及快速響應(yīng) 不可能維持決策分析所需的大量歷史數(shù)據(jù) 此外 系統(tǒng)在 運(yùn)行過(guò)程中產(chǎn)生的數(shù)據(jù)大多并不能直接拿來(lái)做決策支持分析之用 而首先要作 一些預(yù)處理工作 比如匯總 抽取等 這樣的預(yù)處理工作也是OLTP所不能完成 的 要想得到對(duì)決策有用的信息或?qū)?shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)做靈活的 多角度的探 察 則還必須借助一些分析展示工具 因此 就在這樣一個(gè)背景下 1993年 E F Codd首次提出了聯(lián)機(jī)分析處理系統(tǒng) OLAP 的概念 3 1 1 OLAP 的概念及特征 聯(lián)機(jī)分析處理OLAP 是一類軟件技術(shù) 它使分析人員 管理人員通過(guò)對(duì)信 息的多種可能的觀察進(jìn)行快速 一致和交互性的存取以獲得對(duì)信息的深入理解 OLAP 是數(shù)據(jù)倉(cāng)庫(kù)上的分析展示工具 它建立在數(shù)據(jù)多維視圖的基礎(chǔ)上 可以提 供給用戶強(qiáng)大的統(tǒng)計(jì) 分析 報(bào)表處理功能及進(jìn)行趨勢(shì)預(yù)測(cè)的能力 主要有兩 個(gè)特點(diǎn) 一是在線性 On Line 體現(xiàn)為對(duì)用戶請(qǐng)求的快速響應(yīng)和交互式操作 二是多維分析 Multi Dimension Analysis 數(shù)據(jù)的多維視圖使用戶能從多角 度 多側(cè)面 多層次地考察包含在數(shù)據(jù)中的信息 這正是OLAP 技術(shù)的核心所在 根據(jù)對(duì)數(shù)據(jù)組織方式的不同 OLAP 可分為兩種 基于多維數(shù)據(jù)庫(kù)的 OLAP MOLAP 和基于關(guān)系數(shù)據(jù)庫(kù)的OLAP ROLAP 前者響應(yīng)速度快 執(zhí)行 效率高 但由于所有的預(yù)處理操作都是預(yù)先定義好的 限制了它的靈活性 與 之相比 后者由于建立在數(shù)據(jù)倉(cāng)庫(kù)的基礎(chǔ)上 靈活性 擴(kuò)展性要高得多 并且 支持大數(shù)據(jù)量和較多維數(shù)的能力也要強(qiáng)于前者 因此 雖然在響應(yīng)速度 執(zhí)行 效率上差一點(diǎn) 仍然得到了廣泛的應(yīng)用 就軟件技術(shù)而言 數(shù)據(jù)倉(cāng)庫(kù)的核心是 關(guān)系數(shù)據(jù)倉(cāng)庫(kù) 而讓集成的數(shù)據(jù)發(fā)揮效益 則需要一個(gè)先進(jìn)的關(guān)系型聯(lián)機(jī)分析 處理 ROLAP 工具 這種工具應(yīng)能支持并行數(shù)據(jù)查詢 PDQ 和操作 支持 表分割技術(shù) Table Cross 支持多種DSS 索引等等 因此現(xiàn)有的OLAP 工具 大多基于后者 關(guān)于二者的更詳細(xì)的區(qū)別 請(qǐng)參見(jiàn)文獻(xiàn) 46 目前 針對(duì)OLAP 技術(shù)的研究領(lǐng)域相當(dāng)活躍 對(duì)OLAP 的理解也不斷深入 有 人提出了OLAP 的更為簡(jiǎn)潔的定義 如 Nigel Pendse 提出的FASMI Fast Analysis Of Shared Multidimensional Information 15 3 1 2 OLAP 的結(jié)構(gòu) OLAP 是建立在客戶 服務(wù)器結(jié)構(gòu)之上的 它要對(duì)來(lái)自基層的操作數(shù)據(jù)進(jìn)行 多維化或預(yù)綜合處理 故它是一個(gè)三層的客戶 服務(wù)器體系結(jié)構(gòu) OLAP 對(duì)數(shù)據(jù)倉(cāng)庫(kù)中數(shù)據(jù)的操作是針對(duì)多維數(shù)據(jù)視圖或稱為超立方體進(jìn)行 的 對(duì)立方體的典型操作有 切片 切塊以及旋轉(zhuǎn)等 切片是指選定多維數(shù)組的一個(gè)二維子集 切塊是指選定多維數(shù)組的一個(gè)三維子集 旋轉(zhuǎn)指改變一個(gè)立方體顯示的維方向 使人們可以從不同的角度更加清晰 直觀地觀察數(shù)據(jù) 圖 3 1 是典型OLAP 操作的抽象圖 3 2 數(shù)據(jù)挖掘 數(shù)據(jù)挖掘涵蓋了廣泛的計(jì)算機(jī)技術(shù) 涉及到機(jī)器學(xué)習(xí) 模式識(shí)別 統(tǒng)計(jì)學(xué) 智能數(shù)據(jù)庫(kù) 知識(shí)獲取 數(shù)據(jù)可視化 高性能計(jì)算 專家系統(tǒng)等多個(gè)領(lǐng)域 根 據(jù)人類學(xué)習(xí)的不同模式人們提出了很多機(jī)器學(xué)習(xí)方法 如 實(shí)例學(xué)習(xí) 觀察和 發(fā)現(xiàn)學(xué)習(xí) 神經(jīng)網(wǎng)絡(luò)和遺傳算法等等 其中某些常用且較成熟的算法已被人們 運(yùn)用于實(shí)際的應(yīng)用系統(tǒng)及智能計(jì)算機(jī)的設(shè)計(jì)和實(shí)現(xiàn)中 數(shù)據(jù)挖掘包括在數(shù)據(jù)中查找模式 傳統(tǒng)上這是屬于分析專家的領(lǐng)域 其中 一個(gè)主要的問(wèn)題是統(tǒng)計(jì)上重要的模式?jīng)]有商業(yè)價(jià)值 要借助于商業(yè)知識(shí)和日常 感覺(jué) 而不是IT 經(jīng)驗(yàn)來(lái)實(shí)現(xiàn) 數(shù)據(jù)挖掘通常用于電信 金融 零售 直銷 銀行貸款欺詐檢測(cè)及欺詐分 析 健康保障行業(yè) 電視臺(tái)電視欄目收視率分析 交通流量分析 罪犯特征分 析 保險(xiǎn)風(fēng)險(xiǎn)分析 藥品和化學(xué)成分的影響分析等 這種投資回報(bào)有時(shí)是超出 想象的 例如一位客戶采用Clementine 軟件處理了一家環(huán)保超標(biāo)的工廠的數(shù)據(jù) 切片 切塊 旋轉(zhuǎn) 地 域 年份地域 產(chǎn) 品 圖 3 1 對(duì)超立方體的典型操作 16 這項(xiàng)改進(jìn)為公司節(jié)約了計(jì)劃 10 萬(wàn)美元的預(yù)期投資 3 2 1 數(shù)據(jù)挖掘的概念 數(shù)據(jù)挖掘是從大量數(shù)據(jù)中提取出可信的 新穎的 有效的并能被人理解的 模式的高級(jí)處理過(guò)程 下面我們對(duì)這個(gè)定義作一些解釋 數(shù)據(jù) 數(shù)據(jù)是指一個(gè)有關(guān)事實(shí)F 的集合 它是用來(lái)描述事物有關(guān)方面的原 始信息的 模式 模式給出了數(shù)據(jù)特性或數(shù)據(jù)之間的關(guān)系 是對(duì)數(shù)據(jù)包含信息更抽象 的描述 對(duì)于集合F 中的數(shù)據(jù) 我們可以用語(yǔ)言L 來(lái)描述其中數(shù)據(jù)的特性 得 出一個(gè)表達(dá)式E E 所描述的數(shù)據(jù)是集合F 的一個(gè)子集FE 只有當(dāng)表達(dá)式E 比 列舉所有FE 中元素的描述方法更為簡(jiǎn)單時(shí) 我們才可稱之為模式 如 如果 成績(jī)?cè)?1 90 之間 則成績(jī)優(yōu)良 可稱為一個(gè)模式 而 如果成績(jī)?yōu)?1 82 83 84 85 86 87 88 89 或90 則成績(jī)優(yōu)良 就不能稱之為一個(gè)模式 可信 通過(guò)數(shù)據(jù)挖掘從當(dāng)前數(shù)據(jù)中所發(fā)現(xiàn)的模式必須有一定的正確程度 否則數(shù)據(jù)挖掘就毫無(wú)作用 可以通過(guò)新增數(shù)據(jù)來(lái)檢驗(yàn)?zāi)J降恼_性 我們用c 表示模式E 的可信度c C E F 新穎 經(jīng)過(guò)數(shù)據(jù)挖掘提取出的模式必須是新穎的 至少對(duì)系統(tǒng)來(lái)說(shuō)應(yīng)該如 此 模式是否新穎可以通過(guò)兩個(gè)途徑來(lái)衡量 其一是得到的數(shù)據(jù) 通過(guò)對(duì)比當(dāng) 前得到的數(shù)據(jù)和以前的數(shù)據(jù)或期望得到的數(shù)據(jù)之間的比較來(lái)判斷該模式的新穎 程度 其二是通過(guò)其內(nèi)部所包含的知識(shí) 通過(guò)對(duì)比發(fā)現(xiàn)的模式與已有的模式的 關(guān)系來(lái)判斷 通常我們可以用一個(gè)函數(shù)來(lái)表示模式的新穎程度N E F 該函 數(shù)的返回值是邏輯值或是對(duì)模式E 的新穎程度的一個(gè)判斷數(shù)值 有效 提取出的模式應(yīng)該是有意義的 這可以通過(guò)某些函數(shù)的值來(lái)衡量 用u 表示模式E 的有作用程度 u U E F 可被人理解 數(shù)據(jù)挖掘的一個(gè)目標(biāo)就是將數(shù)據(jù)庫(kù)中隱含的模式以容易理解 的形式表現(xiàn)出來(lái) 從而幫助人們更好地了解數(shù)據(jù)庫(kù)中所包含的信息 當(dāng)然一個(gè) 模式是否容易被人理解 這本身就很難衡量 比較常用的方法是對(duì)其簡(jiǎn)單程度 進(jìn)行衡量 我們假定模式E 的簡(jiǎn)單度 可理解度 為S 則可用函數(shù)S E F 來(lái)衡量 處理過(guò)程 數(shù)據(jù)挖掘是一個(gè)多步驟的處理過(guò)程 包括數(shù)據(jù)預(yù)處理 模式提 取 知識(shí)評(píng)估及過(guò)程優(yōu)化 上面介紹的各種度量函數(shù)都只是從不同角度對(duì)所發(fā)現(xiàn)的模式進(jìn)行評(píng)價(jià) 一 般為方便起見(jiàn) 往往采用權(quán)值來(lái)對(duì)所發(fā)現(xiàn)的模式進(jìn)行綜合評(píng)判 在某些數(shù)據(jù)挖 17 掘系統(tǒng)中 利用函數(shù)來(lái)求得模式E 的權(quán)值i I E F C N U S 而在其 他一些系統(tǒng)中 通過(guò)對(duì)求得的模式的不同排序來(lái)表現(xiàn)模式的權(quán)值大小 3 2 2 數(shù)據(jù)挖掘技術(shù)的工業(yè)標(biāo)準(zhǔn) 數(shù)據(jù)挖掘技術(shù)的工業(yè)標(biāo)準(zhǔn) CRISP DM 是英文 CRoss Industry Standard Process for Data Mining 數(shù)據(jù)挖掘技術(shù)的工業(yè)標(biāo)準(zhǔn)過(guò)程 的縮寫 是基于經(jīng) 驗(yàn)的 集中于解決業(yè)務(wù)問(wèn)題的 數(shù)據(jù)挖掘技術(shù)的業(yè)界規(guī)范 1997 年數(shù)據(jù)挖掘技術(shù)報(bào)告 Data Mining Report 指出 CRISP DM 確立了數(shù)據(jù)挖掘技術(shù)的工業(yè)規(guī)范 提供 了 數(shù)據(jù)挖掘過(guò)程的所有策略 數(shù)據(jù)挖掘本質(zhì)上是根據(jù)經(jīng)驗(yàn)來(lái)學(xué)習(xí) 恰當(dāng)?shù)臄?shù)據(jù)展 示了企業(yè)積累的經(jīng)驗(yàn) 通過(guò)CRISP DM 可以理解數(shù)據(jù)及建立數(shù)據(jù)模型可使商務(wù) 活動(dòng)能吸收過(guò)去積累的經(jīng)驗(yàn) 職業(yè)的商務(wù)人員能發(fā)現(xiàn)那些對(duì)商務(wù)活動(dòng)真正重要 的東西 避免無(wú)謂的浪費(fèi)時(shí)間 CRISP DM 最早由英國(guó)ISL 公司在其著名軟件Clementine 中提出 其倡導(dǎo) 者包括ISL NCR Daimler Benz OHRA 等著名公司 并得到了歐洲議會(huì)的支 持 CRISP DM 提出的目的是開發(fā)一種產(chǎn)業(yè)界用戶和工具開發(fā)商共同認(rèn)可的數(shù) 據(jù)挖掘過(guò)程模型 CRISP DM 在世界范圍內(nèi)超過(guò)100 個(gè)成員公司的支持 其中包括 數(shù)據(jù)挖掘技術(shù)開發(fā)商 有 IBM SAS SGI Data Distilleries Magnify 等 系統(tǒng)提供商 有 Cap Gemini ICL Retail 等 最終用戶 包括 BT Daimler Benz ABB Lloyds Bank AirTouch 等 3 2 3 數(shù)據(jù)挖掘的處理過(guò)程 數(shù)據(jù)挖掘是一個(gè)高級(jí)處理過(guò)程 它從數(shù)據(jù)集中識(shí)別出以模式表示的知識(shí) 數(shù)據(jù)挖掘包括以下步驟 1 數(shù)據(jù)準(zhǔn)備 數(shù)據(jù)挖掘的處理對(duì)象是大量的數(shù)據(jù) 這些數(shù)據(jù)一般存儲(chǔ)在業(yè)務(wù)數(shù)據(jù)庫(kù)系統(tǒng) 中 是長(zhǎng)期積累的結(jié)果 但往往不合適直接在這些數(shù)據(jù)上進(jìn)行知識(shí)挖掘 需要 做一些準(zhǔn)備工作 也就是數(shù)據(jù)的預(yù)處理 數(shù)據(jù)預(yù)處理包括數(shù)據(jù)的選擇 選擇相 關(guān)數(shù)據(jù) 凈化 消除噪音 冗余數(shù)據(jù) 推測(cè) 推算缺值數(shù)據(jù) 轉(zhuǎn)換 離 散型 數(shù)據(jù)與連續(xù)型數(shù)據(jù)之間的轉(zhuǎn)換 數(shù)據(jù)縮減 減少數(shù)據(jù)量 等 數(shù)據(jù)準(zhǔn)備是數(shù)據(jù)挖掘的第一個(gè)步驟 也是比較重要的一個(gè)步驟 數(shù)據(jù)準(zhǔn)備 是否做好將影響到數(shù)據(jù)挖掘的效率和準(zhǔn)確度以及最終模式的有效性 2 數(shù)據(jù)分析 數(shù)據(jù)分析是數(shù)據(jù)挖掘中最為關(guān)鍵的步驟 它根據(jù)數(shù)據(jù)挖掘的目標(biāo) 選取相 應(yīng)算法的參數(shù) 分析數(shù)據(jù) 得到可能形成知識(shí)的模式模型 目前采用較多的技 術(shù)有決策樹 分類 聚類 粗糙集 關(guān)聯(lián)規(guī)則 神經(jīng)網(wǎng)絡(luò) 遺傳算法等 18 3 模式的評(píng)估 解釋 通過(guò)上面步驟所得到的模式 有可能是沒(méi)有意義或沒(méi)有實(shí)用價(jià)值的 因此 需要評(píng)估 確定哪些是有效的 有用的模式 此外 大部分模式是用數(shù)學(xué)手段 描述的表達(dá)式 很難被人理解 還需要將其解釋成可理解的方式以呈現(xiàn)給用戶 亦即上文說(shuō)的數(shù)據(jù)展示 4 知識(shí)運(yùn)用 發(fā)現(xiàn)知識(shí)是為了運(yùn)用 如何使知識(shí)能被運(yùn)用也是數(shù)據(jù)挖掘的步驟之一 運(yùn) 用知識(shí)有兩種方法 一種是只需看知識(shí)本身所描述的關(guān)系或結(jié)果 就可以對(duì)決 策提供支持 另一種是要求對(duì)新的數(shù)據(jù)運(yùn)用知識(shí) 由此可能產(chǎn)生新的問(wèn)題 而 需要對(duì)知識(shí)做進(jìn)一步的優(yōu)化 數(shù)據(jù)挖掘過(guò)程可能需要多次的循環(huán)反復(fù) 每一個(gè)步驟一旦與預(yù)期目標(biāo)不 符 都要回到前面的步驟 重新調(diào)整 重新執(zhí)行 3 2 4 數(shù)據(jù)挖掘的典型模式 模式有很多種 按功能可分有兩大類 預(yù)測(cè)型 Predictive 模式和描述型 Descriptive 模式 預(yù)測(cè)型模式是可以根據(jù)數(shù)據(jù)項(xiàng)的值精確確定某種結(jié)果的模式 挖掘預(yù)測(cè)型 模式所使用的數(shù)據(jù)也都是可以明確知道結(jié)果的 例如 根據(jù)各種動(dòng)物的資料 可以建立這樣的模式 凡是胎生的動(dòng)物都是哺乳類動(dòng)物 當(dāng)有新的動(dòng)物資料時(shí) 就可以根據(jù)這個(gè)模式判別此動(dòng)物是否是哺乳動(dòng)物 描述型模式是對(duì)數(shù)據(jù)中存在的規(guī)則做一種描述 或者根據(jù)數(shù)據(jù)的相似性把 數(shù)據(jù)分組 描述型模式不能直接用于預(yù)測(cè) 例如 在地球上 70 的表面被水 覆蓋 30 是土地 在實(shí)際應(yīng)用中 根據(jù)模式的實(shí)際作用往往可以細(xì)分為以下六種 分類 Classification 回歸 Regression 時(shí)間序列 Time Series 聚類 Clustering 相關(guān)分析 Association Analysis 序列發(fā)現(xiàn) Sequence Discovery 分類和回歸主要用于預(yù)測(cè) 相關(guān)分析和序列發(fā)現(xiàn)主要用于描述 聚類則二者皆 可 1 分類 Classification 分類模式是一個(gè)分類函數(shù) 分類器 能夠把數(shù)據(jù)集中的數(shù)據(jù)項(xiàng)映射到某個(gè) 給定的類上 分類模式往往表現(xiàn)為一棵分類樹 根據(jù)數(shù)據(jù)的值從樹根開始搜索 沿著數(shù)據(jù)滿足的分支往上走 走到樹葉就能確定類別 給定類的屬性不能太多 也就是樹的分支不能太多 2 回歸 Regression 19 回歸用一系列已經(jīng)存在的數(shù)值和它們的屬性來(lái)預(yù)測(cè)連續(xù)型變量的數(shù)值 與分類不同的是 分類的輸出是離散型的變量 回歸輸出的是連續(xù)型的變量 3 時(shí)間序列 Time Series 與回歸類似 時(shí)間序列也用于預(yù)測(cè) 所不同的是 時(shí)間序列基于時(shí)間的各 個(gè)層次 如一周七天 一年十二月 4 聚類 Clustering 聚類模式以 物以類聚 的原則將數(shù)據(jù)劃分到不同的組中 使組之間的差 別盡可能大 組內(nèi)的差別盡可能小 與分類模式不同 進(jìn)行聚類前并不知道將 要?jiǎng)澐殖蓭讉€(gè)組和什么樣的組 也不知道根據(jù)哪一 幾 個(gè)數(shù)據(jù)項(xiàng)來(lái)定義組 一般來(lái)說(shuō) 業(yè)務(wù)知識(shí)豐富的人應(yīng)該可以理解這些組的含義 如果產(chǎn)生的模式無(wú) 法理解或不可用 則該模式可能是無(wú)意義的 需要回到上階段重新組織數(shù)據(jù) 5 相關(guān)分析 Association Analysis 相關(guān)分析用于描述發(fā)生在給定事件中數(shù)據(jù)項(xiàng)之間的關(guān)聯(lián)關(guān)系 當(dāng)事件 A 發(fā)生時(shí) 事件B 發(fā)生的概率 例如 在購(gòu)買面包和黃油的顧客中 有90 的 人同時(shí)也買了牛奶 就是一條關(guān)聯(lián)規(guī)則 用于關(guān)聯(lián)規(guī)則發(fā)現(xiàn)的對(duì)象主要是事務(wù)型數(shù)據(jù)庫(kù) 如果不考慮關(guān)聯(lián)規(guī)則的支 持度和可信度 那么在事務(wù)數(shù)據(jù)庫(kù)中存在無(wú)窮多的關(guān)聯(lián)規(guī)則 事實(shí)上人們只對(duì) 滿足一定的支持度和可信度的關(guān)聯(lián)規(guī)則感興趣 關(guān)聯(lián)規(guī)則發(fā)現(xiàn)算法的問(wèn)題也就 是 給定一個(gè)事務(wù)數(shù)據(jù)庫(kù)D 求出所有滿足最小支持度Minsup 和最小可信度 Minconf 的關(guān)聯(lián)規(guī)則 6 序列發(fā)現(xiàn) Sequence Discovery 序列模式與關(guān)聯(lián)模式相仿 把數(shù)據(jù)之間的關(guān)聯(lián)性與時(shí)間聯(lián)系起來(lái) 為了發(fā) 現(xiàn)序列模式 不僅需要知道事件是否發(fā)生 而且需要確定事件發(fā)生的時(shí)間 例 如 在購(gòu)買彩電的人們當(dāng)中 60 的人會(huì)在3 個(gè)月內(nèi)購(gòu)買影碟機(jī) 在解決實(shí)際問(wèn)題時(shí) 經(jīng)常要同時(shí)使用多種模式 同時(shí) 挖掘同一種模式或 實(shí)現(xiàn)同一種功能 可能會(huì)有多種算法可以采用 這就需要根據(jù)具體情況 選擇 針對(duì)問(wèn)題空間最為合適的算法 3 3 OLAP 與DM 的區(qū)別 OLAP 與DM 都是數(shù)據(jù)庫(kù) 數(shù)據(jù)倉(cāng)庫(kù) 上的分析工具 在實(shí)際應(yīng)用中各有側(cè)重 最主要的區(qū)別是 前者是用戶驅(qū)動(dòng)的 分析專家提出一個(gè)假設(shè) 然后使用OLAP 驗(yàn)證它 后者是數(shù)據(jù)驅(qū)動(dòng)的 挖掘工具作用于數(shù)據(jù)生成一個(gè)假設(shè) 前者建立在多 維視圖的基礎(chǔ)之上 強(qiáng)調(diào)執(zhí)行效率和對(duì)用戶命令的及時(shí)響應(yīng) 而且其直接數(shù)據(jù) 源一般是數(shù)據(jù)倉(cāng)庫(kù) 后者建立在各種數(shù)據(jù)源的基礎(chǔ)上 重在發(fā)現(xiàn)隱藏在數(shù)據(jù)深層 20 次的對(duì)人們有用的模式 Patterns 一般并不過(guò)多考慮執(zhí)行效率和響應(yīng)速度 在上一節(jié)我們已經(jīng)討論過(guò) 數(shù)據(jù)挖掘的過(guò)程可以分為四個(gè)階段 數(shù)據(jù)準(zhǔn)備 數(shù)據(jù)分析 模式的評(píng)估解釋以及知識(shí)展示 我們可以看到 在數(shù)據(jù)挖掘過(guò)程的 這四個(gè)階段 引入數(shù)據(jù)倉(cāng)庫(kù) OLAP 的相關(guān)特點(diǎn)都是有必要的 首先 在數(shù)據(jù)準(zhǔn)備階段 數(shù)據(jù)挖掘工具需要的數(shù)據(jù)是一些經(jīng)過(guò)凈化 集成 處理的數(shù)據(jù) 通常這種處理過(guò)程也是昂貴的 而數(shù)據(jù)倉(cāng)庫(kù)作為OLAP 的數(shù)據(jù)源 存儲(chǔ)的就是這樣的數(shù)據(jù) 它能為OLAP 提供數(shù)據(jù) 當(dāng)然也可以為DM 提供數(shù)據(jù) 其次 在數(shù)據(jù)挖掘的過(guò)程中 人們往往需要對(duì)數(shù)據(jù)作鉆探性 exploratory 分析 比如 挖掘所需的數(shù)據(jù)可能只是一部分 一定范圍的數(shù)據(jù) 因此 對(duì)多 維數(shù)據(jù)模型的切片 切塊 下鉆等操作 同樣可以應(yīng)用于DM 的過(guò)程中 也就 是說(shuō) 可以將DM 建立在多維模型 或說(shuō)超級(jí)立方體 的基礎(chǔ)之上 此外 用戶 有時(shí)還可能動(dòng)態(tài)地提出挖掘要求 選擇挖掘算法 最后 在知識(shí)展示階段 在大規(guī)模數(shù)據(jù)集上挖掘出的知識(shí) 往往需要量化 并寫回到數(shù)據(jù)倉(cāng)庫(kù)中 然后以超立方體的形式通過(guò)OLAP 工具進(jìn)行展示 在傳統(tǒng) 的關(guān)系數(shù)據(jù)庫(kù)應(yīng)用中 對(duì)同一個(gè)主題 任何不同的查詢過(guò)程所得到結(jié)果是相同 的 而數(shù)據(jù)挖掘則不然 對(duì)同一個(gè)問(wèn)題 運(yùn)用不同的挖掘算法 得出的結(jié)果可能大 相徑庭 根據(jù)立方體計(jì)算和數(shù)據(jù)挖掘所進(jìn)行的次序的不同組合可以有以下一些模 式 先進(jìn)行立方體計(jì)算 后進(jìn)行數(shù)據(jù)挖掘 在進(jìn)行數(shù)據(jù)挖掘前 先對(duì)多維數(shù)據(jù)進(jìn) 行一定的立方體計(jì)算 以選擇合適的數(shù)據(jù)范圍和恰當(dāng)?shù)某橄蠹?jí)別 先對(duì)多維數(shù)據(jù)作數(shù)據(jù)挖掘 然后再利用立方體計(jì)算算法對(duì)挖掘出來(lái)的結(jié)果 做進(jìn)一步的深入分析 立方體計(jì)算與數(shù)據(jù)挖掘同時(shí)進(jìn)行 在挖掘的過(guò)程中 可以根據(jù)需要對(duì)數(shù)據(jù)視 圖做相應(yīng)的多維操作 這也意味著同一個(gè)挖掘算法可以應(yīng)用于多維數(shù)據(jù)視 圖的不同部分 第四章決策支持系統(tǒng)及其實(shí)現(xiàn) 對(duì)電信運(yùn)營(yíng)商來(lái)說(shuō) 話費(fèi)流失以及吸引新客戶和保留大客戶是他們最為關(guān) 心的兩個(gè)問(wèn)題 所謂話費(fèi)流失 指的是電信用戶使用移動(dòng)通信服務(wù)而不付費(fèi) 直至被停機(jī) 然后再以其他戶名入網(wǎng)繼續(xù)惡意消費(fèi) 其表現(xiàn)形式有多種 如利用呼叫轉(zhuǎn)移 21 利用漫游等 由于移動(dòng)通信的欺詐行為形式多樣 技術(shù)手段高明而且隱蔽 因 此解決問(wèn)題的方案也很復(fù)雜 其中一個(gè)比較好的思路是從分析用戶信息和帳務(wù) 數(shù)據(jù)入手 為每一用戶賦予一定的信用級(jí)別 對(duì)不同信用級(jí)別的用戶分別采用 不同的預(yù)防措施或給予不同的關(guān)注程度 從而盡早發(fā)現(xiàn)不良用戶的異常行為 提前采取措施 減少欺詐行為的發(fā)生 挖掘新客戶是電信運(yùn)營(yíng)企業(yè)關(guān)心的另一個(gè)重點(diǎn) 因?yàn)槠渲饕麧?rùn)并不是來(lái) 自于產(chǎn)品或服務(wù)的初始銷售 而是來(lái)自于用戶對(duì)產(chǎn)品或服務(wù)的后續(xù)消費(fèi) 因此 對(duì)這些企業(yè)來(lái)說(shuō) 如何能盡量多地挖掘潛在客戶 吸引客戶采用公司的服務(wù)或 產(chǎn)品 是增加利潤(rùn)的關(guān)鍵一步 潛在客戶發(fā)現(xiàn)的做法是分析客戶行為 將客戶 的行為分為若干類別 在客戶行為類別統(tǒng)計(jì)分析的基礎(chǔ)上 統(tǒng)計(jì)分析各類別行 為的用戶基本信息 找出具有某些行為的用戶的基本特征 然后 根據(jù)這些特 征制定相應(yīng)的營(yíng)銷或優(yōu)惠政策 以刺激這類客戶的消費(fèi) 由此可見(jiàn) 信用度分析和客戶行為分析是反欺詐和潛在客戶挖掘的基礎(chǔ) 也是電信運(yùn)營(yíng)企業(yè)決策支持系統(tǒng)的重要功能部分 本文所做的工作 正是基于 這樣一種思路實(shí)現(xiàn)了一個(gè)DSS 系統(tǒng) 4 1 系統(tǒng)概述 考慮到應(yīng)具有開放性 易擴(kuò)展 低成本 管理及使用方便等特性 該系統(tǒng) 采用數(shù)據(jù)庫(kù)服務(wù)器端 Unix Agent Server Windows NT 和PCs 三層體系結(jié)構(gòu) 保證系統(tǒng)的開放性和對(duì)技術(shù)發(fā)展的適應(yīng)性 三層體系結(jié)構(gòu)支持所有運(yùn)行于 Web 瀏覽器上的用戶 中間層是運(yùn)行 Windows NT 的PC 機(jī)或服務(wù)器 其目的是管理象OLAP 分析引擎這樣的共享 OLE Automation Servers OLAP 分析引擎也安裝在中間層 處理所有 Web 瀏覽器使用者提交的查詢?nèi)蝿?wù) 來(lái)自聯(lián)機(jī)事物處理系統(tǒng) OLTP 的業(yè)務(wù)數(shù)據(jù) 如計(jì)費(fèi)系統(tǒng) 客戶服務(wù)系統(tǒng) 財(cái)務(wù)系統(tǒng) 客戶信息數(shù)據(jù)庫(kù)的數(shù)據(jù) 被存儲(chǔ)在業(yè)務(wù)數(shù)據(jù)庫(kù)中 應(yīng)用程序一般具 有讀寫權(quán)限 數(shù)據(jù)倉(cāng)庫(kù)設(shè)在單獨(dú)的數(shù)據(jù)倉(cāng)庫(kù)服務(wù)器上 由業(yè)務(wù)數(shù)據(jù)庫(kù)備份 歷史數(shù)據(jù)庫(kù) 中間結(jié)果數(shù)據(jù)庫(kù) 或者為決策支持系統(tǒng)建立獨(dú)立的數(shù)據(jù)集市 發(fā)布數(shù)據(jù)庫(kù)組成 此間所有的數(shù)據(jù)轉(zhuǎn)換任務(wù) 如數(shù)據(jù)備份 查詢 統(tǒng)計(jì) OLAP 分析 數(shù)據(jù)挖掘 等 由決策支持系統(tǒng)的任務(wù)管理器統(tǒng)一調(diào)度 這些任務(wù)可以細(xì)分為 業(yè)務(wù)數(shù)據(jù)備份 業(yè)務(wù)數(shù)據(jù)經(jīng)過(guò)定期或定時(shí)備份到數(shù)據(jù)倉(cāng)庫(kù)中的備份業(yè)務(wù)數(shù) 據(jù)庫(kù)中 建立歷史數(shù)據(jù)庫(kù) 由數(shù)據(jù)分析和挖掘工具經(jīng)數(shù)據(jù)清潔 查詢 提取 格式 轉(zhuǎn)換 統(tǒng)一 多表聯(lián)接 將數(shù)據(jù)轉(zhuǎn)換到專門的歷史數(shù)據(jù)庫(kù)中 22 建立面向主題的中間結(jié)果數(shù)據(jù)庫(kù)或從屬數(shù)據(jù)集市 所有數(shù)據(jù)由歷史數(shù)據(jù)庫(kù) 集中管理 按照專門的主題 將數(shù)據(jù)的中間結(jié)果和中間文件組成中間結(jié)果數(shù)據(jù) 庫(kù)或從屬數(shù)據(jù)集市 這些操作不允許改變?cè)械臍v史數(shù)據(jù)庫(kù) 具有只讀權(quán)限 分析 挖掘 準(zhǔn)備發(fā)布數(shù)據(jù) 將查詢 統(tǒng)計(jì) 分析 挖掘等產(chǎn)生的文件被 以轉(zhuǎn)換后的格式保存到發(fā)布數(shù)據(jù)庫(kù)中 任務(wù)管理器還具有菜單定制 用戶密碼 管理 批處理任務(wù)設(shè)置 發(fā)布網(wǎng)頁(yè)動(dòng)態(tài)合成 訪問(wèn)數(shù)據(jù)倉(cāng)庫(kù)等管理功能 終端用戶可以通過(guò)分級(jí)密碼訪問(wèn)數(shù)據(jù)庫(kù) 瀏覽在局域網(wǎng)中發(fā)布的信息 Ethernet X windows終端 數(shù)據(jù)倉(cāng)庫(kù)服務(wù)器 筆記本 臺(tái)式PC Unix NT 大型數(shù)據(jù)庫(kù)軟件 數(shù)據(jù)分析和挖掘工 具 Windows 98 NT 任務(wù)管理器 X Windows仿真終 端 瀏覽器 圖 4 1 網(wǎng)絡(luò)拓?fù)鋱D 決策支持解決方案網(wǎng)絡(luò)拓?fù)鋱D可用圖4 1 表示 數(shù)據(jù)倉(cāng)庫(kù)服務(wù)器包括大型 數(shù)據(jù)倉(cāng)庫(kù)軟件 數(shù)據(jù)分析和挖掘工具 客戶端包括決策支持任務(wù)管理器 配套 軟件 瀏覽器等 4 2 模塊描述 要建立一個(gè)數(shù)據(jù)倉(cāng)庫(kù) 一般分為六個(gè)步驟 1 分析主題設(shè)計(jì) 2 維設(shè)計(jì)和維表設(shè)計(jì) 3 數(shù)據(jù)倉(cāng)庫(kù)結(jié)構(gòu)定義 4 導(dǎo)入數(shù)據(jù) 5 CUBE 設(shè)計(jì) 6 建立挖掘模型 這六個(gè)步驟有的已在前文闡述過(guò) 有的屬于電信業(yè)務(wù)范疇 所以這里重點(diǎn) 介紹數(shù)據(jù)挖掘模型的建立 23 在建模階段 精通數(shù)據(jù)挖掘的專業(yè)人員 根據(jù)實(shí)際問(wèn)題的不同 選擇合適 的挖掘算法以及數(shù)據(jù)倉(cāng)庫(kù) 集市中的訓(xùn)練數(shù)據(jù)進(jìn)行訓(xùn)練學(xué)習(xí) 并得到相應(yīng)的模 型 一般來(lái)說(shuō) 建模的復(fù)雜度取決于多種因素 如數(shù)據(jù)庫(kù) 倉(cāng)庫(kù)大小 建模訓(xùn)練 集屬性多少 挖掘算法性能以及操作者的熟練程度等 模型一旦建立并經(jīng)歷史數(shù)據(jù)驗(yàn)證有一定的可靠性之后 就可以進(jìn)入動(dòng)態(tài)評(píng) 分過(guò)程 用戶就可以根據(jù)需要對(duì)新數(shù)據(jù)動(dòng)態(tài)進(jìn)行評(píng)分 也可以對(duì)數(shù)據(jù)庫(kù)中某一 部分?jǐn)?shù)據(jù)執(zhí)行評(píng)分操作 數(shù)據(jù)挖掘模塊主要有兩個(gè)方面的分析 群體分析 利用聚類或分類算法 把企業(yè)客戶按照某種規(guī)則分為若干群體 行為分析 根據(jù)客戶以前的消費(fèi)行為 分析某幾類有顯著特征的行為模式 并據(jù)此對(duì)客戶未來(lái)的行為進(jìn)行預(yù)測(cè) 上述兩種建模技術(shù)均可以被用來(lái)提高企業(yè)營(yíng)銷目標(biāo)對(duì)象的準(zhǔn)確性并提高相 應(yīng)的收益 為達(dá)到這個(gè)目的 目前有很多的分析工具可以被應(yīng)用 如 交叉報(bào)表工具 基于機(jī)器學(xué)習(xí)的數(shù)據(jù)挖掘工具工具如 Clementine Intelligent Miner 等 基于統(tǒng)計(jì)學(xué)的分析工具 如 SAS SPSS 等 神經(jīng)網(wǎng)絡(luò) 下面依次介紹各基本功能模塊 4 2 1 客戶信用度管理 根據(jù)影響客戶信用度的主要因素 對(duì)用戶的帳務(wù)數(shù)據(jù)進(jìn)行分類 建立分類 模型 并對(duì)用戶進(jìn)行評(píng)分 給出用戶的信用度級(jí)別 影響客戶信用度的主要因素有 1 交費(fèi)的及時(shí)度 2 用戶的社會(huì)性質(zhì) 3 用戶的通話業(yè)務(wù)量 4 用戶申請(qǐng)的業(yè)務(wù)數(shù)量 5 用戶申請(qǐng)的業(yè)務(wù)種類和用戶的投訴情況 客戶信用度等級(jí)描述 詳細(xì)描述客戶信用度等級(jí)的具體含義 信用等級(jí)分布表示 客戶的利潤(rùn) 客戶的基本信息和行為分類如時(shí)間 段 業(yè)務(wù)類型等的分布表示 類似于客戶行為分析 信用度的相關(guān)分析 分析影響用戶信用度的因素之間的概率依賴關(guān)系 強(qiáng)度及其可信度 這一方面用于預(yù)測(cè)客戶信用度的發(fā)展趨勢(shì) 當(dāng)發(fā)生 變化時(shí) 對(duì)其信用等級(jí)進(jìn)行相應(yīng)的調(diào)整 24 利用以上的結(jié)果 給出從一個(gè)信用度等級(jí)到另一個(gè)信用度等級(jí)變化可 能性大的客戶 4 2 2 防欺詐策略管理 防欺詐策略分析建立在信用度管理的基礎(chǔ)之上 分析防欺詐策略的相關(guān)變量 高額話費(fèi)額度 欠費(fèi)停機(jī)額度和用戶具 有不同的欠費(fèi)停機(jī)額度等 指定防欺詐策略 分析信用度 客戶的滿意程度 高額話費(fèi)警告額度和停機(jī)額度之間的 關(guān)系 根據(jù)分析結(jié)果調(diào)整用戶的基本信息 分析信用度 客戶的滿意程度和用戶催繳周期 催繳頻度之間的關(guān)系 4 2 3 客戶行為與潛在客戶分析與管理 客戶行為分析的思路是將客戶的行為分為若干類別 對(duì)具有某一類行為特 征的用戶 分析其基本信息 以期找出客戶行為和客戶基本特征兩者之間的若 干潛在關(guān)系 客戶行為分析的依據(jù)是對(duì)用戶話單數(shù)據(jù)的分類 因?yàn)閿?shù)據(jù)量龐大 故對(duì)高 效分類算法的選擇顯得尤為重要 潛在客戶分析則是在行為分析的基礎(chǔ)上 根據(jù)某種業(yè)務(wù)或業(yè)務(wù)組合與客戶 基本信息特征之間的相關(guān)度分析 建立兩者之間的相關(guān)度定量關(guān)系模型 由此 得出與某種業(yè)務(wù)或業(yè)務(wù)組合最為相關(guān)的客戶群體 潛在客戶分為兩類 未采用任何業(yè)務(wù)的爭(zhēng)取對(duì)象 使用某一種或幾種業(yè)務(wù)的已有用戶 對(duì)于前者 為營(yíng)銷部門提供科學(xué)的依據(jù) 采取更為靈活的優(yōu)惠銷售策略以 吸引更多的新用戶是最終目的 為此 需要待開發(fā)地區(qū)和人群的相關(guān)社會(huì)資料 如職業(yè)構(gòu)成 年齡層次 受教育程度以及收入等級(jí) 期望通信支出等等 這些 信息數(shù)據(jù)往往較難得到 可以通過(guò)各種途徑 如問(wèn)卷調(diào)查 電話咨詢記錄 第 三方資料共享等 而對(duì)于后者 則以爭(zhēng)取用戶采用更多業(yè)務(wù)種類為目的 對(duì)任意一種業(yè)務(wù)組 合 通過(guò)分析其用戶的基本信息以獲取這部分用戶的相應(yīng)特征 那么 具有相 同或相似特征而只采用其中某一種業(yè)務(wù)的用戶就是另外幾種業(yè)務(wù)的潛在用戶 這樣的分析 由于用戶基本資料已記錄在案 因此在可操作性上較前者為高 4 2 4 趨勢(shì)分析 趨勢(shì)分析主要指業(yè)務(wù)預(yù)測(cè) 是針對(duì)電信量發(fā)展的短期預(yù)測(cè) 它建立在對(duì)大 25 量數(shù)據(jù) 業(yè)務(wù)資料數(shù)據(jù) 社會(huì)基礎(chǔ)資料數(shù)據(jù) 市場(chǎng)調(diào)查資料 其他運(yùn)營(yíng)者資料 數(shù)據(jù) 統(tǒng)計(jì)分析的基礎(chǔ)上 通過(guò)模型運(yùn)算 統(tǒng)計(jì)分析等數(shù)據(jù)處理手段 完成對(duì) 電信企業(yè)的業(yè)務(wù)發(fā)展 用戶需求數(shù)量 用戶分布 市場(chǎng)占有等幾方面的預(yù)測(cè)分 析 從上面介紹的數(shù)據(jù)挖掘子系統(tǒng)各模塊的介紹中可以看出 信用度分析及客 戶行為分析是每個(gè)部分的基礎(chǔ) 也是系統(tǒng)設(shè)計(jì)的重點(diǎn) 在下文中 我們將給出 信用度分析及客戶行為分析的數(shù)據(jù)流圖 并簡(jiǎn)單介紹基于分類的潛在客戶挖掘 處理 4 3 信用度及行為分析處理數(shù)據(jù)流圖 4 3 1 客戶信用度分析 客戶信用度分析可以分為兩步 1 系統(tǒng)初裝時(shí) 沒(méi)有用戶的信用度級(jí)別信息 這時(shí)采用無(wú)監(jiān)督分類算法 聚類 按照用戶的帳務(wù)行為信息將其分為若干類 在此基礎(chǔ)上 依照每類指標(biāo)的統(tǒng)計(jì) 數(shù)據(jù)和一定的等級(jí)評(píng)定規(guī)則 將各類的信用度賦予高低級(jí)別 2 在系統(tǒng)運(yùn)行過(guò)程中 用戶 指本系統(tǒng)用戶 可能會(huì)對(duì)已有信用度級(jí)別提出異議 或加以修改 這樣 對(duì)做了相應(yīng)級(jí)別修正后的用戶數(shù)據(jù) 采用有監(jiān)督的分類學(xué) 習(xí) 就會(huì)得到更為準(zhǔn)確的分類模型 而且 這個(gè)模型也是不斷在更新的 相應(yīng) 地 隨著用戶信用行為特征的變化 其信用級(jí)別也會(huì)不斷變動(dòng) 作為信用度類別分類依據(jù)的用戶帳務(wù)信息數(shù)據(jù)包括 1 開戶平均時(shí)長(zhǎng) 2 欠費(fèi)次數(shù) 3 金額 如本月欠費(fèi) 則為欠費(fèi)金額 此值為負(fù) 如本月不欠費(fèi) 則為通 話費(fèi)用 4 欠費(fèi)時(shí)長(zhǎng) 5 帳務(wù)人社會(huì)性質(zhì) 一 信用度初始化 圖中號(hào)碼表示相應(yīng)操作的先后順序 26 圖 4 1 信用度初始化 注 1 這里的聚類分析是無(wú)監(jiān)督分類學(xué)習(xí)算法 采用貝因斯聚類算法 Autoclass 2 類別模型 1 是一個(gè)初始模型 說(shuō)明樣本數(shù)據(jù)分為幾類 每一類都有哪些 數(shù)據(jù)樣本 但每一類的信用度級(jí)別高低并沒(méi)有明確區(qū)分 按照每類用戶的各指 標(biāo)的統(tǒng)計(jì)信息以及等級(jí)評(píng)定規(guī)則 分出各類級(jí)別高低順序 就得到修正的類別 模型1 3 等級(jí)評(píng)定規(guī)則的制定較為困難 按照對(duì)影響信用度級(jí)別的各指標(biāo)的權(quán) 重大小的理解不同 評(píng)定規(guī)則也不同 在這里 我們采取另外一種思路 從各 類別用戶的利潤(rùn)貢獻(xiàn)角度來(lái)考察其級(jí)別等級(jí) 利潤(rùn)的計(jì)算可用如下公式 利潤(rùn) 平均通話金額 平均欠費(fèi)時(shí)長(zhǎng) 平均欠費(fèi)金額 0 01 平均壞帳 其中 假設(shè)向用戶收取的滯納金為每天 1 平均通話金額 平均開戶時(shí)長(zhǎng) 平均通話金額 反映在金額字段為- 1.請(qǐng)仔細(xì)閱讀文檔,確保文檔完整性,對(duì)于不預(yù)覽、不比對(duì)內(nèi)容而直接下載帶來(lái)的問(wèn)題本站不予受理。
- 2.下載的文檔,不會(huì)出現(xiàn)我們的網(wǎng)址水印。
- 3、該文檔所得收入(下載+內(nèi)容+預(yù)覽)歸上傳者、原創(chuàng)作者;如果您是本文檔原作者,請(qǐng)點(diǎn)此認(rèn)領(lǐng)!既往收益都?xì)w您。
下載文檔到電腦,查找使用更方便
15 積分
下載 |
- 配套講稿:
如PPT文件的首頁(yè)顯示word圖標(biāo),表示該P(yáng)PT已包含配套word講稿。雙擊word圖標(biāo)可打開word文檔。
- 特殊限制:
部分文檔作品中含有的國(guó)旗、國(guó)徽等圖片,僅作為作品整體效果示例展示,禁止商用。設(shè)計(jì)者僅對(duì)作品中獨(dú)創(chuàng)性部分享有著作權(quán)。
- 關(guān) 鍵 詞:
- 基于 數(shù)據(jù)倉(cāng)庫(kù) 技術(shù) 決策 支持系統(tǒng) 設(shè)計(jì) 實(shí)現(xiàn)
鏈接地址:http://www.szxfmmzy.com/p-10537166.html