商業(yè)分析第5章商業(yè)信息的管理
《商業(yè)分析第5章商業(yè)信息的管理》由會員分享,可在線閱讀,更多相關《商業(yè)分析第5章商業(yè)信息的管理(45頁珍藏版)》請在裝配圖網(wǎng)上搜索。
1、-商業(yè)數(shù)據(jù)的分析、挖掘和應用華東師范大學出版社 數(shù)據(jù)庫和數(shù)據(jù)倉庫數(shù)據(jù)倉庫設計數(shù)據(jù)集市商業(yè)信息倉儲設計商業(yè)智能 數(shù)據(jù)庫和數(shù)據(jù)倉庫 數(shù)據(jù)庫 概念:數(shù)據(jù)庫(Database)是依照某種數(shù)據(jù)模型組織起來并存放二級存儲器中的數(shù)據(jù)集合。這種數(shù)據(jù)集合具有如下特點:盡可能不重復;以最優(yōu)方式為某個特定組織的多種應用服務;其數(shù)據(jù)結(jié)構(gòu)獨立于使用它的應用程序;對數(shù)據(jù)的增、刪、改和檢索由統(tǒng)一軟件進行管理和控制。從發(fā)展的歷史看,數(shù)據(jù)庫由文件管理系統(tǒng)發(fā)展起來的,它是數(shù)據(jù)管理的高級階段。 數(shù)據(jù)庫建設的必要性: 1.劣質(zhì)信息要付出成本 2.難以辨別企業(yè)最有價值的客戶 3.由于不準確的單據(jù),難以對收入進行追蹤 4.優(yōu)質(zhì)信息將帶來
2、明顯的好處 數(shù)據(jù)庫管理系統(tǒng) 數(shù)據(jù)庫管理系統(tǒng)之于數(shù)據(jù)庫,就如同文字處理軟件之于文件,或電子表格軟件之于電子表格。一個是信息,而另一個是人們用來操作這些信息的軟件。數(shù)據(jù)庫管理系統(tǒng)層次數(shù)據(jù)庫模型網(wǎng)狀數(shù)據(jù)庫模型關系數(shù)據(jù)庫模型 優(yōu)勢更高的靈活性和性能更少的數(shù)據(jù)冗余和錯誤更高的安全性 數(shù)據(jù)倉庫 概念: 1990年比爾恩門(Bill Inmon)提出了數(shù)據(jù)倉庫(Data Warehouse)的概念。數(shù)據(jù)倉庫是一個面向主題的(Subject Oriented)、集成的(Integrate)、相對穩(wěn)定的(Non-Volatile)、反映歷史變化(Time Variant)的數(shù)據(jù)集合,用于支持管理決策。面向主題(
3、Subject Oriented)集成(Integrate)相對穩(wěn)定(Non-Volatile)反映歷史變化(Time Variant) 傳統(tǒng)數(shù)據(jù)庫到數(shù)據(jù)倉庫決策處理中的系統(tǒng)響應問題決策數(shù)據(jù)需求的問題決策數(shù)據(jù)操作的問題 數(shù)據(jù)庫與數(shù)據(jù)倉庫的區(qū)別面向事務設計存儲實時數(shù)據(jù)采用符合范式的規(guī)則來設計(盡量避免冗 余)數(shù)據(jù)庫面向主題設計存儲歷史數(shù)據(jù)采用反范式的方式來設計(有意引入冗余)數(shù)據(jù)倉庫從數(shù)據(jù)量來說,數(shù)據(jù)倉庫要比數(shù)據(jù)庫更龐大得多在為應用服務的過程中,數(shù)據(jù)庫與數(shù)據(jù)倉庫往往要結(jié)合使用。 5.2.1 相關概念1. 三層結(jié)構(gòu) 三層體系結(jié)構(gòu),是在客戶端與數(shù)據(jù)庫之間加入了一個中間層。三層體系結(jié)構(gòu)的應用程序?qū)I(yè)務
4、規(guī)則、數(shù)據(jù)訪問、合法性校驗等工作放到了中間層進行處理。通常情況下,客戶端不直接與數(shù)據(jù)庫進行交互,而是通過與中間層通訊建立連接,再經(jīng)由中間層與數(shù)據(jù)庫進行交互。 )表示層(Browser)中間層(WebServer)數(shù)據(jù)層 (DBServer) 表示層位于客戶端,一般沒有應用程序,借助于Javaapplet、Actives、Javascript、vbscript等技術可以處理一些簡單的客戶端處理邏輯。 中間層是用戶服務和數(shù)據(jù)服務的邏輯橋梁。它負責接受遠程或異地的用戶請求,對用戶身份和數(shù)據(jù)庫存取權限進行驗證,運用服務器腳本,借助于中間件把請求發(fā)送到數(shù)據(jù)庫服務器(即數(shù)據(jù)層),把數(shù)據(jù)庫服務器返回的數(shù)據(jù)經(jīng)
5、過邏輯處理并轉(zhuǎn)換成HTML及各種腳本傳回客戶端。 數(shù)據(jù)層位于最底層,它負責管理數(shù)據(jù)庫,接受Web服務器對數(shù)據(jù)庫操縱的請求,實現(xiàn)對數(shù)據(jù)庫查詢、修改、更新等功能及相關服務,并把結(jié)果數(shù)據(jù)提交給Web服務器。 2. 三級模型和二層映射l 數(shù)據(jù)庫的設計有一個嚴謹?shù)捏w系結(jié)構(gòu),即:三級模式,它包括外模式、概念模式、內(nèi)模式。三級模式有效地組織、管理數(shù)據(jù),提高了數(shù)據(jù)庫的邏輯獨立性和物理獨立性。l 數(shù)據(jù)庫管理系統(tǒng)在這三級模式之間提供那個了兩層映像:外模式/模式映像,模式/內(nèi)模式映像。 數(shù)據(jù)倉庫的生成05 數(shù)據(jù)字典和元數(shù)據(jù)06 物理模型設計04總體分析設計01 邏輯模型設計03 概念模型設計02 1. 總體分析設計
6、 確定研究內(nèi)容 這一環(huán)節(jié)主要是明確要研究的內(nèi)容,即要研究的問題,圍繞該問題所需要的數(shù)據(jù)和信息及如何獲得這些信息等方面問題進行研究。 確定主題 這一步中,需要根據(jù)所研究的內(nèi)容確定相應的主題,并盡可能明確主題之間的關系。 以企業(yè)為例,當企業(yè)在選擇促銷商品的時候,它可能考慮的主題包括:商品、顧客、供應商。 其中商品主題包含商品編號、商品名稱、價格、庫存、產(chǎn)品、顏色、大小等;顧客主題包含顧客編號、年齡、姓名、性別、職業(yè)等;供應商主題包含供應商編號、供應商所在地、供應商品編號、供應商品名稱等。 在這三個主題中,一個供應商可以供應多種商品,一種商品可以由多個供應商供應,供應商主題和商品主題之間的聯(lián)系就是商
7、品供應關系;一位顧客可以買多種商品,一種商品可以被多個顧客購買,商品主題和顧客主題之間的聯(lián)系是購買關系;顧客主題和供應商主題之間沒有 直接關系,它們之間的關系是通過商品來實現(xiàn)的。 技術環(huán)境準備在這一階段,一般包括兩個步驟:a) 要根據(jù)要處理的問題來確定數(shù)據(jù)倉庫的各項性能指標。一般情況下,需要在這一步里確定的性能指標包括: 管理大數(shù)據(jù)量的能力; 進行靈活數(shù)據(jù)存取的能力; 根據(jù)數(shù)據(jù)模型重組數(shù)據(jù)的能力; 數(shù)據(jù)發(fā)送和接收的能力; 周期性成批裝載數(shù)據(jù)的能力; 可設定完成時間的作業(yè)管理能力。 b) 要根據(jù)上面的各項性能指標來確定相應的軟硬件配置。 2.概念模型設計l 將總體分析設計中得到的用戶需求抽象為計
8、算機表示的信息結(jié)構(gòu),即概念模型。它是從客觀世界(用戶)到計算機世界的一個中間層次,即用戶需求的數(shù)據(jù)模型。l 概念模型常用的表示方法是實體-關系法(E-R圖法),這種方法用E-R圖作為描述工具。 3.邏輯模型設計 邏輯模型設計描述了數(shù)據(jù)的形式,是數(shù)據(jù)倉庫需求部分的重要文檔,是數(shù)據(jù)倉庫細化的準備工作。主要包括以下幾方面內(nèi)容: 分析主題域l 主題域是對某個主題進行分析后確定的主題集合的邊界。l 選擇第一個主題域所要考慮的是它要足夠大,以便使得該主題域能建設成為一個可應用的系統(tǒng);它還要足夠小,以便于開發(fā)和較快的實施。如果所選擇的主題域很大并且很復雜,可以針對它某個有意義的子集來進行開發(fā)。在每一次的反饋
9、過程中,都要進行主題域分析。 粒度層次劃分l 數(shù)據(jù)粒度是指數(shù)據(jù)倉庫的數(shù)據(jù)中保存數(shù)據(jù)的細化程度或綜合程度的級別。細化程度越高,粒度級別就越小;相反,細化程度越低,粒度級別就越高。l 數(shù)據(jù)倉庫邏輯設計中要解決的一個重要問題是決定數(shù)據(jù)倉庫的粒度劃分層次,粒度層次劃分適當與否直接影響到數(shù)據(jù)倉庫中的數(shù)據(jù)量和所適合的查詢類型。 l 通過估算數(shù)據(jù)行數(shù)和所需的直接存取存儲設備數(shù),來確定是采用單一粒度還是多重粒度,以及粒度劃分的層次。 確定數(shù)據(jù)分割策略 在選擇數(shù)據(jù)分割的標準時,一般要考慮以下幾個方面因素:數(shù)據(jù)量、數(shù)據(jù)分析處理的實際情況、簡單易行以及粒度劃分策略等。 數(shù)據(jù)量的大小是決定是否進行數(shù)據(jù)分割和如何分割的
10、主要因素。 數(shù)據(jù)分析處理的要求是選擇數(shù)據(jù)分割標準的一個主要依據(jù),因為數(shù)據(jù)分割是跟數(shù)據(jù)分析處理的對象緊密聯(lián)系的。 關系模式定義 數(shù)據(jù)倉庫的每個主題都是由多個表來實現(xiàn)的,這些表之間依靠主題的公共碼鍵聯(lián)系在一起,形成一個完整的主題。在概念模型設計時,已經(jīng)確定了數(shù)據(jù)倉庫的基本主題,并對每個主題的公共碼鍵、基本內(nèi)容等做了描述,接下來就要對選定的當前實施的主題進行模式劃分,形成多個表,最終確定各個表的關系模式。 與概念模型設計中的E-R圖相對,邏輯模型設計中需要將其轉(zhuǎn)化為邏輯模型,主要包括星形模型、雪花型模型。 星形模型 用星形模型來表示邏輯模型,設計簡單,容易被用戶理解。星形模型主要包含兩部分:指標實體
11、和維度實體。指標實體是位于星形模型中間的實體,它是用戶最關心的實體,為用戶的商務活動提供定量的數(shù)據(jù),指標實體用矩形表示。維度實體是位于星形模型角星上的實體,其作用是限制用戶的查詢結(jié)果,用菱形表示。雪花型模型 雪花型模型是星形模型的進一步細化。與星形模型相比,雪花模型增加了一個詳細類別實體,詳細類別實體代表維度內(nèi)的一個單獨層次,用結(jié)束符號表示。 4.物理模型設計 物理模型設計主要是確定數(shù)據(jù)的存儲結(jié)構(gòu),確定索引策略,確定數(shù)據(jù)存放位置,確定存儲分配。 要實現(xiàn)數(shù)據(jù)倉庫的物理模型,設計人員必須做到以下幾點:a) 全面了解所選用的數(shù)據(jù)庫管理系統(tǒng),特別是存儲結(jié)構(gòu)和存取方法。b) 了解數(shù)據(jù)環(huán)境、數(shù)據(jù)的使用頻度
12、、使用方式、數(shù)據(jù)規(guī)模以及響應時間要求等,這些事對空間和時間效率進行平衡和優(yōu)化的重要依據(jù)。 c) 了解外部存儲設備的特性,如分塊原則、塊大小的規(guī)定、設備的I/O特性等。根據(jù)這些要求,所做的工作包括以下四點: 確定數(shù)據(jù)的物理存儲結(jié)構(gòu) 確定索引策略 確定存儲分配 5.數(shù)據(jù)倉庫的生成 這一環(huán)節(jié)主要是把數(shù)據(jù)放入數(shù)據(jù)倉庫中,并進行接口的設計,一旦完成,就可以在其上建立數(shù)據(jù)倉庫的應用。設計接口 將操作型環(huán)境下的數(shù)據(jù)裝載進數(shù)據(jù)倉庫環(huán)境,需要在兩個不同環(huán)境的記錄系統(tǒng)之間建立一個接口。 在這一過程中,還要考慮到物理設計的一些因素和技術條件限制,根據(jù)這些內(nèi)容,嚴格地制定規(guī)格說明。 數(shù)據(jù)裝入 在這一步里所要進行的就是
13、運行接口程序,將數(shù)據(jù)裝入到數(shù)據(jù)倉庫中。主要的工作是: 確定數(shù)據(jù)裝入的次序。 清除無效或錯誤數(shù)據(jù)。 數(shù)據(jù)粒度管理。 數(shù)據(jù)刷新等。 數(shù)據(jù)倉庫生成完后數(shù)據(jù)是穩(wěn)定的,但并不是一成不變的,而是要根據(jù)需求在使用過程中不斷地維護和更新。 6.數(shù)據(jù)字典和元數(shù)據(jù) 嚴格來說,這并不是建立數(shù)據(jù)倉庫的一個步驟,而是建立數(shù)據(jù)倉庫過程中所要涉及的特殊數(shù)據(jù)。 數(shù)據(jù)字典是數(shù)據(jù)庫中各類數(shù)據(jù)描述的集合,通常包括數(shù)據(jù)項、數(shù)據(jù)結(jié)構(gòu)、數(shù)據(jù)流、數(shù)據(jù)存儲和處理過程五個部分,其中數(shù)據(jù)項是數(shù)據(jù)的最小組成單位,若干個數(shù)據(jù)項可以組成一個數(shù)據(jù)結(jié)構(gòu),數(shù)據(jù)字典通過對數(shù)據(jù)項和數(shù)據(jù)結(jié)構(gòu)的定義來描述數(shù)據(jù)流、數(shù)據(jù)存儲的邏輯內(nèi)容。 數(shù)據(jù)項 數(shù)據(jù)項是不可再分的數(shù)據(jù)
14、單位。對數(shù)據(jù)項的描述通常包括數(shù)據(jù)項名、數(shù)據(jù)項含義說明、數(shù)據(jù)類型、長度、取值范圍、取值含義等。數(shù)據(jù)結(jié)構(gòu) 數(shù)據(jù)結(jié)構(gòu)反映了數(shù)據(jù)之間的組合關系。一個數(shù)據(jù)結(jié)構(gòu)可以由若干個數(shù)據(jù)項組成,也可以由若干個數(shù)據(jù)結(jié)構(gòu)組成。數(shù)據(jù)結(jié)構(gòu)的描述通常包括數(shù)據(jù)結(jié)構(gòu)名、含義說明、數(shù)據(jù)項等。 數(shù)據(jù)流 數(shù)據(jù)流是數(shù)據(jù)結(jié)構(gòu)在系統(tǒng)內(nèi)傳輸?shù)穆窂?,對?shù)據(jù)流的描述通常包括數(shù)據(jù)流名、說明、數(shù)據(jù)流來源、數(shù)據(jù)流去向、平均流量等。其中“數(shù)據(jù)流來源”用于說明該數(shù)據(jù)流來自哪個過程。“數(shù)據(jù)流去向”用于說明該數(shù)據(jù)流將到哪個過程去。“平均流量”是指單位時間(如每天)里的傳輸次數(shù)。 數(shù)據(jù)存儲 數(shù)據(jù)存儲是數(shù)據(jù)結(jié)構(gòu)保存數(shù)據(jù)的地方,數(shù)據(jù)存儲的描述通常包括數(shù)據(jù)存儲名、說明
15、、編號、輸入的數(shù)據(jù)流、輸出的數(shù)據(jù)流、數(shù)據(jù)量、存取頻度、存取方式。 其中“存取頻度”指每小時或每天或每周存取幾次、每次存取多少數(shù)據(jù)等信息?!按嫒》绞健卑ㄊ桥幚磉€是聯(lián)機處理、是檢索還是更新、是順序檢索還是隨機檢索等。另外,“輸入的數(shù)據(jù)流”要指出其來源,“輸出的數(shù)據(jù)流”要指出其去向。“輸出的數(shù)據(jù)流”要指出其去向。 處理過程 處理過程一般用判定表或判定樹來描述。數(shù)據(jù)字典中只需要描述處理過程的說明性信息,通常包括處理過程名、說明、輸入、輸出、處理。其中“處理”主要說明該處理過程的功能及處理要求。 可見,數(shù)據(jù)字典是關于數(shù)據(jù)庫中數(shù)據(jù)的描述,而不是數(shù)據(jù)本身。數(shù)據(jù)字典是數(shù)據(jù)庫的元數(shù)據(jù)。 元數(shù)據(jù)(MetaDa
16、ta)被定義為關于數(shù)據(jù)的數(shù)據(jù)(Data about Data)。 目前,元數(shù)據(jù)這一術語實際用于各種類型信息資源的描述記錄。元數(shù)據(jù)在數(shù)據(jù)倉庫中是描述數(shù)據(jù)倉庫中數(shù)據(jù)及其環(huán)境的數(shù)據(jù)。 元數(shù)據(jù)在數(shù)據(jù)倉庫中不僅定義了數(shù)據(jù)倉庫有什么,還指明了數(shù)據(jù)倉庫中信息的內(nèi)容和位置,刻畫了數(shù)據(jù)的抽取和轉(zhuǎn)換規(guī)則的說明,存儲了與數(shù)據(jù)倉庫主題有關的各種商業(yè)信息,而且整個數(shù)據(jù)倉庫的運行都是基于元數(shù)據(jù)的,如數(shù)據(jù)的修改、跟蹤、抽取、裝入、綜合以及使用等。由于元數(shù)據(jù)遍及數(shù)據(jù)倉庫的所有方面,因此它已成為整個數(shù)據(jù)倉庫的核心。 數(shù)據(jù)倉庫的元數(shù)據(jù)共包含有四類元數(shù)據(jù),除對數(shù)據(jù)倉庫中數(shù)據(jù)的描述(數(shù)據(jù)字典)外,還有以下三類元數(shù)據(jù):關于數(shù)據(jù)源的元數(shù)
17、據(jù) 關于抽取和轉(zhuǎn)換的元數(shù)據(jù) 關于最終用戶使用數(shù)據(jù)倉庫的元數(shù)據(jù) 數(shù)據(jù)庫的誕生是一次變革,讓數(shù)據(jù)的存儲變得便捷而有序,發(fā)展出的數(shù)據(jù)倉庫技術又是一次變革,讓數(shù)據(jù)的價值通過整理和分析更加得以發(fā)揮。數(shù)據(jù)集市是由數(shù)據(jù)倉庫發(fā)展而來,某種層面上講,它是屬于企業(yè)某個部門的小型數(shù)據(jù)倉庫,強化了一部分功能,擁有更專業(yè)的目的。雖然數(shù)據(jù)集市比企業(yè)的數(shù)據(jù)倉庫應用范圍更小,包含數(shù)據(jù)更少,但是進一步支撐了所屬部門的數(shù)據(jù)處理和信息獲取能力,是一次體系結(jié)構(gòu)上的巨大進步,是對“大而全”目標反向思考的成功結(jié)果。對于部門而言,了解和應用數(shù)據(jù)集市,并將其與企業(yè)數(shù)據(jù)倉庫整合,可能比單純的使用數(shù)據(jù)倉庫更有效。概述:數(shù)據(jù)集市(DataMart
18、s),作為一種更小、更集中的數(shù)據(jù)倉庫,為公司提供了一條分析商業(yè)數(shù)據(jù)的廉價途徑,主要針對某個具有戰(zhàn)略意義的應用或者具體部門級的應用,支持用戶利用已有的數(shù)據(jù)獲得重要的競爭優(yōu)勢或者找 到進入新市場的具體解決方案。是滿足部分特殊用戶群體用來收集、管理他們本部門、本專業(yè)信息的數(shù)據(jù)倉庫。獨立數(shù)據(jù)集市從屬數(shù)據(jù)集市數(shù)據(jù)集市 數(shù)據(jù)集市的幾個特征: 面向部門,由部門定義、設計和開發(fā),也由部門來管理和維護。數(shù)據(jù)集市面向部門的,這就要求它的整個實施過程需要由部門來主導,才能達到更貼近部門需求,提高部門實力的效果。 規(guī)模小,便于實施,購買較便宜,投資快速回收。數(shù)據(jù)集市相對數(shù)據(jù)倉庫的規(guī)模較小,能夠快捷的設立,發(fā)揮作用,產(chǎn)
19、生的效益能夠較快的覆蓋為設立數(shù)據(jù)集市付出的投資。 提供更詳細的、預先存在的、數(shù)據(jù)倉庫的摘要子集,可升級到完整的數(shù)據(jù)倉庫。無論如何,數(shù)據(jù)集市的數(shù)據(jù)和功能都是數(shù)據(jù) 倉庫的一個子集,并不擁有數(shù)據(jù)倉庫的全部,一些公司通過先行建立數(shù)據(jù)集市再完善成數(shù)據(jù)倉庫,這絕對是可以做到的,盡管一些專家認為這可能導致后生成的數(shù)據(jù)倉庫整體性不夠而產(chǎn)生問題。 數(shù)據(jù)倉庫是一個集成的、面向主題的數(shù)據(jù)集合,設計的目的是支持決策支持系統(tǒng)(Decision Support System,DSS)功能。數(shù)據(jù)集市就是企業(yè)級數(shù)據(jù)倉庫的一個子集,它主要面向部門級業(yè)務,并且只面向某個特定的主題。為了解決靈活性和性能之間的矛盾,數(shù)據(jù)集市就是數(shù)據(jù)
20、倉庫體系結(jié)構(gòu)中增加的一種小型的部門或工作組級別的數(shù)據(jù)倉庫。數(shù)據(jù)倉庫是面對企業(yè)整體事務,數(shù)據(jù)集市面對部門級業(yè)務無論企業(yè)的數(shù)據(jù)倉庫是直接建立還是由小型的數(shù)據(jù)系統(tǒng)逐漸擴充,它都要保證數(shù)據(jù)對于整個企業(yè)內(nèi)部的協(xié)調(diào)和統(tǒng)一,這由數(shù)據(jù)倉庫的作用范圍所決定。數(shù)據(jù)集市作為部門級和主題向的相對小型的數(shù)據(jù)應用,針對他所服務 的對象,必將進行特別的實用性優(yōu)化,對數(shù)據(jù)的選取和組合方式也就各有不同,這些數(shù)據(jù)集市之間設計的不同,并不會對企業(yè)的運行產(chǎn)生不良影響,相反可以為服務對象提供更優(yōu)質(zhì)的信息服務。數(shù)據(jù)倉庫具有統(tǒng)一性,數(shù)據(jù)集市各有不同 5.3.3關于商業(yè)集市的誤區(qū)數(shù)據(jù)集市是一個數(shù)據(jù)分支子集,它可以從一個數(shù)據(jù)倉庫中找到,或者是
21、為一個單獨業(yè)務單元提供決策支持而建立的。甚至企業(yè)的大部分戰(zhàn)略都可以由數(shù)據(jù)集市來完成,在這個過程中制定行動方針。但是,在建立一個數(shù)據(jù)集市之前,企業(yè)應該知道幾個關于數(shù)據(jù)集市的不切實際的看法。單純用數(shù)據(jù)量大小來區(qū)分數(shù)據(jù)集市和數(shù)據(jù)倉庫 用大小來判斷一個企業(yè)是在實施數(shù)據(jù)倉庫還是數(shù)據(jù)集市的做法是很片面的。尺寸大小不是數(shù)據(jù)集市的本質(zhì)特征,真正的問題在于,數(shù)據(jù)集市(它可能是一個數(shù)據(jù)倉庫的子集)的數(shù)據(jù)模型一定是滿足應用的特定需求的。簡單地理解數(shù)據(jù)集市容易建立數(shù)據(jù)集市的確比數(shù)據(jù)倉庫的復雜程度低一些,因為它只針對某一需要解決的特定的商業(yè)問題,但是圍繞數(shù)據(jù)獲取的很多復雜問題并沒有減少。數(shù)據(jù)集市要從多個數(shù)據(jù)源中提取數(shù)據(jù)
22、,這個過程很耗時,因為這個過程與建立一個數(shù)據(jù)倉庫一樣,需要相同的計劃和管理,并且需要把數(shù)據(jù)模型化。 數(shù)據(jù)集市很容易升級成數(shù)據(jù)倉庫事實上,數(shù)據(jù)集市針對特殊的業(yè)務需要,不可能很容易地伸縮。如果沒有事先擴展數(shù)據(jù)模型,追加數(shù)據(jù)是非常困難的。例如,一個數(shù)據(jù)集市可以很快找到最暢銷款式的鞋的銷售數(shù)字,為了增加關于這種鞋的信息,比如新顧客的百分比,就需要新的數(shù)據(jù)模型,這種數(shù)據(jù)集市的擴充是困難的。 一個組織為何要構(gòu)建數(shù)據(jù)集市呢?雖然OLTP和遺留系統(tǒng)擁有寶貴的信息,但是可能難以從這些系統(tǒng)中提取有意義的信息并且速度也較慢。而且這些系統(tǒng)雖然一般可支持預先定義操作的報表,但卻經(jīng)常無法支持一個組織對于歷史的、聯(lián)合的、“
23、智能的”或易于訪問的信息需求。因為數(shù)據(jù)分布在許多跨系統(tǒng)和平臺的表中,而且通常是“臟的”,包含了不一致的和無效的值,使得難于分析。數(shù)據(jù)集市將合并不同系統(tǒng)的數(shù)據(jù)源來滿足業(yè)務信息需求。若能有效地得以實現(xiàn),數(shù)據(jù)集市將可以快速且方便地訪問簡單信息以及系統(tǒng)的和歷史的視圖。一個設計良好的數(shù)據(jù)集市將會:發(fā)布特定用戶群體所需的信息,且無需受制于數(shù)據(jù)來源系統(tǒng)(如業(yè)務數(shù)據(jù)庫)的大量需求和操作性危機。支持訪問非易變的業(yè)務信息(非易變的信息是以預定的時間間隔進行更新的,并且不受OLTP系統(tǒng)進行中的更新的影響)。調(diào)和來自于組織里多個運行系統(tǒng)的信息,比如賬目、銷售、庫存和客戶管理以及組織外部的行業(yè)數(shù)據(jù)。通過默認有效值、使各
24、系統(tǒng)的值保持一致以及添加描述以使隱含代碼有意義,從而提供凈化的數(shù)據(jù)。 通過提供對于遺留系統(tǒng)和OLTP應用程序的選擇來減少對這些應用程序的要求,以獲得更多所需信息。 5.3.5 建模一般數(shù)據(jù)集市模型的建設是在數(shù)據(jù)倉庫的基礎上基于需求分析得到的結(jié)果,數(shù)據(jù)集市的建模主要針對事實表和維表的設計。例如,部門員工關系表,如果事實表包含部門編碼,則數(shù)據(jù)可以分析到部門;如果事實表又包含員工編碼,則數(shù)據(jù)既可以分析到部門,又可以分析到員工。一張事實表除了包含所要分析的維度編碼外,還包括需要分析的度量值。例如,用戶用電分析事實表,它的主題描述就是按地區(qū)、時間、電壓等級統(tǒng)計用戶的耗電量、應收電費,并進行同期對比;它的
25、維度就是地區(qū)、時間、電壓等級,度量值包括耗電量、應收電費等;指標來源就是數(shù)據(jù)倉庫中的計費結(jié)果表、用戶基本信息表。維表一般采用增量的方式進行抽取。 2006年,中國移動決定將數(shù)據(jù)集市作為移動地市級公司的建設重點之一。電信行業(yè)對于數(shù)據(jù)倉庫并不陌生,為了實現(xiàn)從產(chǎn)品導向往客戶導向的轉(zhuǎn)變,電信公司紛紛建立以客戶為中心的數(shù)據(jù)倉庫,希望依據(jù)客戶的需要、期望及喜好來制訂策略,提升企業(yè)競爭力。經(jīng)過近幾年的努力,吉林移動通信有限責任公司已經(jīng)成功在省級公司建立起了面向決策支持的經(jīng)營分析系統(tǒng),商業(yè)智能(Business Intelligence,BI)系統(tǒng)也逐漸完善。省級公司從業(yè)務系統(tǒng)中將相關業(yè)務數(shù)據(jù)進行抽取、清洗、
26、加工、整理、加載到數(shù)據(jù)倉庫中,在數(shù)據(jù)倉庫中形成基礎的分析數(shù)據(jù)的存儲,對地市一級公司的營銷策略進行指導。 問題也隨之產(chǎn)生,由于下屬分公司在客戶群體、市場容量、利潤來源等地域差異明顯,省級公司通過全省范圍內(nèi)分公司數(shù)據(jù)的匯總和分析,難以對單個地市級分公司產(chǎn)生個性化決策支持。另一方面,地市一級的分公司在開拓終端市場的過程中,激發(fā)了旺盛的應用需求,具體表現(xiàn)為對數(shù)據(jù)粒度的要求更加精細、需求更加靈活多變、要求更強的可操作性。 2005年6月,中國移動通信有限公司制定了中國移動經(jīng)營分析系統(tǒng)數(shù)據(jù)集市(試點)業(yè)務技術建議書。吉林省吉林市成為12個試點中第一個“吃螃蟹”的城市。吉林移動希望通過數(shù)據(jù)集市的建設及時準確
27、地了解掌握地市公司的分析需求,更好地為一線地市公司的生產(chǎn)營銷服務。吉林市分公司也希望提升自身的經(jīng)營分析水平,落實集團公司的精細化營銷戰(zhàn)略。 數(shù)據(jù)集市項目從2005年6月開始組織需求調(diào)研,經(jīng)歷了5個月的建設時間,于2005年11月底上線使用,完成了中國移動集團公司試點所要求完成的所有基本集功能以及符合吉林本地特色的擴展集的內(nèi)容。 5.4.1信息倉儲的開始5.4.2數(shù)據(jù)倉庫還是數(shù)據(jù)集市5.4.3敏感的商業(yè)收益5.4.4資源分配 1.簡述數(shù)據(jù)庫、數(shù)據(jù)庫和數(shù)據(jù)倉庫的區(qū)別有哪些。 2簡述數(shù)據(jù)庫設計流程。 3.對數(shù)據(jù)集市的誤區(qū)有哪些,如何正確理解數(shù)據(jù)集市。 4.數(shù)據(jù)倉庫有哪些實現(xiàn)方案,并簡述這些實現(xiàn)方案的優(yōu)缺點。 5.通過一個商業(yè)案例,談談你對商業(yè)智能的理解。 Click to edit company slogan
- 溫馨提示:
1: 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2: 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
3.本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 裝配圖網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。