《數(shù)據(jù)庫技術(shù)與應(yīng)用》電子課件
《數(shù)據(jù)庫技術(shù)與應(yīng)用》電子課件,數(shù)據(jù)庫技術(shù)與應(yīng)用,數(shù)據(jù)庫技術(shù),應(yīng)用,電子,課件
第十三章 數(shù)據(jù)倉庫與數(shù)據(jù)挖掘本章學習目標l理解數(shù)據(jù)倉庫的定義及理解數(shù)據(jù)倉庫的定義及OLAPOLAP應(yīng)用。應(yīng)用。l理解數(shù)據(jù)挖掘的定義。理解數(shù)據(jù)挖掘的定義。l理解和掌握數(shù)據(jù)挖掘的應(yīng)用。理解和掌握數(shù)據(jù)挖掘的應(yīng)用。l理解數(shù)據(jù)挖掘與數(shù)據(jù)倉庫的聯(lián)系與區(qū)別。理解數(shù)據(jù)挖掘與數(shù)據(jù)倉庫的聯(lián)系與區(qū)別。l理解數(shù)據(jù)挖掘常用的工具。理解數(shù)據(jù)挖掘常用的工具。本章概述隨隨著著信信息息技技術(shù)術(shù)的的不不斷斷推推廣廣和和應(yīng)應(yīng)用用,許許多多企企業(yè)業(yè)都都已已經(jīng)經(jīng)在在使使用用管管理理信信息息系系統(tǒng)統(tǒng)處處理理事事務(wù)務(wù)和和日日常常業(yè)業(yè)務(wù)務(wù)。這這些些管管理理信信息息系系統(tǒng)統(tǒng)為為企企業(yè)業(yè)積積累累了了大大量量的的信信息息。企企業(yè)業(yè)管管理理者者開開始始考考慮慮如如何何利利用用這這些些信信息息海海洋洋,提提取取有有用用的的信信息息對對企企業(yè)業(yè)的的管管理理決決策策提提供供支支持持。能能否否從從紛紛繁繁復(fù)復(fù)雜雜、大大量量沉沉淀淀的的數(shù)數(shù)據(jù)據(jù)環(huán)環(huán)境境中中取取得得有有用用的的決決策策信信息息,已已成成為為企企業(yè)業(yè)生生存存、發(fā)發(fā)展展、壯壯大大的的重重要要環(huán)環(huán)節(jié)節(jié)。因因此此,產(chǎn)產(chǎn)生生了了與與傳傳統(tǒng)統(tǒng)數(shù)數(shù)據(jù)據(jù)庫庫有有很很大大差差異異的的數(shù)數(shù)據(jù)據(jù)環(huán)環(huán)境境的的要要求求和和從從這這些些海海洋洋數(shù)數(shù)據(jù)據(jù)中中獲獲取取特特殊殊知知識識的的工工具具的的需需要要。本本章章簡簡要要介介紹紹數(shù)數(shù)據(jù)據(jù)倉倉庫庫與與數(shù)數(shù)據(jù)據(jù)挖挖掘掘的的基基本本概概念念及及應(yīng)用。應(yīng)用。主要內(nèi)容13.1 數(shù)據(jù)倉庫概述 13.3 常用的數(shù)據(jù)挖掘工具優(yōu)化13.2 數(shù)據(jù)挖掘概述主要內(nèi)容13.1 數(shù)據(jù)倉庫概述 13.3 常用的數(shù)據(jù)挖掘工具優(yōu)化13.2 數(shù)據(jù)挖掘概述13.1 數(shù)據(jù)倉庫概述 13.1.1 數(shù)據(jù)倉庫的定義William H.InmonWilliam H.Inmon定義了數(shù)據(jù)倉庫是面向主題的、集成的、包含歷史的、定義了數(shù)據(jù)倉庫是面向主題的、集成的、包含歷史的、不可更新的、面向決策支持的、面向企業(yè)的、最明細的數(shù)據(jù)存儲、數(shù)不可更新的、面向決策支持的、面向企業(yè)的、最明細的數(shù)據(jù)存儲、數(shù)據(jù)快照式的數(shù)據(jù)獲取等。這些原則至今依然是指導(dǎo)數(shù)據(jù)倉庫建設(shè)的最據(jù)快照式的數(shù)據(jù)獲取等。這些原則至今依然是指導(dǎo)數(shù)據(jù)倉庫建設(shè)的最基本原則?;驹瓌t。與傳統(tǒng)數(shù)據(jù)庫相比,數(shù)據(jù)倉庫雖然是從數(shù)據(jù)庫發(fā)展而來的,但是兩者在與傳統(tǒng)數(shù)據(jù)庫相比,數(shù)據(jù)倉庫雖然是從數(shù)據(jù)庫發(fā)展而來的,但是兩者在許多方面都存在著很大的差異,如表許多方面都存在著很大的差異,如表13-113-1所示。所示。數(shù)據(jù)倉庫的特性主要有面向主題性、數(shù)據(jù)集成性、數(shù)據(jù)的時變性、數(shù)據(jù)數(shù)據(jù)倉庫的特性主要有面向主題性、數(shù)據(jù)集成性、數(shù)據(jù)的時變性、數(shù)據(jù)的非易失性、數(shù)據(jù)的集合性、支持決策等作用。的非易失性、數(shù)據(jù)的集合性、支持決策等作用。(1)(1)面向主題性面向主題性數(shù)據(jù)倉庫中的數(shù)據(jù)是面向主題的組織方式,這樣可以在較高層次上對分數(shù)據(jù)倉庫中的數(shù)據(jù)是面向主題的組織方式,這樣可以在較高層次上對分析對象的數(shù)據(jù)給出完整的、一致的描述,排除對于決策無用的數(shù)據(jù),析對象的數(shù)據(jù)給出完整的、一致的描述,排除對于決策無用的數(shù)據(jù),提供特定主題的簡明視圖。提供特定主題的簡明視圖。(2)(2)數(shù)據(jù)的集成性數(shù)據(jù)的集成性構(gòu)造數(shù)據(jù)倉庫是將多個異種數(shù)據(jù)源集成在一起,確保命名約定,編碼結(jié)構(gòu)造數(shù)據(jù)倉庫是將多個異種數(shù)據(jù)源集成在一起,確保命名約定,編碼結(jié)構(gòu),屬性度量等一致性。構(gòu),屬性度量等一致性。13.1 數(shù)據(jù)倉庫概述 (3)(3)數(shù)據(jù)的時變性數(shù)據(jù)的時變性數(shù)據(jù)存儲從歷史的角度提供信息。在數(shù)據(jù)倉庫,隱式或顯式地包含時間元素。數(shù)據(jù)存儲從歷史的角度提供信息。在數(shù)據(jù)倉庫,隱式或顯式地包含時間元素。(4)(4)數(shù)據(jù)的非易失性數(shù)據(jù)的非易失性數(shù)據(jù)倉庫總是物理地分離存放數(shù)據(jù);由于這種分離,數(shù)據(jù)倉庫不需要事務(wù)處理,數(shù)據(jù)倉庫總是物理地分離存放數(shù)據(jù);由于這種分離,數(shù)據(jù)倉庫不需要事務(wù)處理,恢復(fù)和并發(fā)控制。通常數(shù)據(jù)倉庫只需要兩種數(shù)據(jù)訪問:數(shù)據(jù)的初始化裝入和恢復(fù)和并發(fā)控制。通常數(shù)據(jù)倉庫只需要兩種數(shù)據(jù)訪問:數(shù)據(jù)的初始化裝入和數(shù)據(jù)訪問。數(shù)據(jù)訪問。(5)(5)數(shù)據(jù)的集合性數(shù)據(jù)的集合性數(shù)據(jù)倉庫以某種數(shù)據(jù)集合的形式存儲。目前,數(shù)據(jù)倉庫采用的集合方式有:多數(shù)據(jù)倉庫以某種數(shù)據(jù)集合的形式存儲。目前,數(shù)據(jù)倉庫采用的集合方式有:多維數(shù)據(jù)庫的多維模式、關(guān)系數(shù)據(jù)庫的關(guān)系模式、多維模式和關(guān)系模式相結(jié)合維數(shù)據(jù)庫的多維模式、關(guān)系數(shù)據(jù)庫的關(guān)系模式、多維模式和關(guān)系模式相結(jié)合的混合模式。的混合模式。(6)(6)支持決策的支持決策的數(shù)據(jù)倉庫中的數(shù)據(jù)主要是提供決策進行查詢,一般不一定都需要即時更新,可數(shù)據(jù)倉庫中的數(shù)據(jù)主要是提供決策進行查詢,一般不一定都需要即時更新,可以定期刷新或按需刷新以定期刷新或按需刷新13.1 數(shù)據(jù)倉庫概述 13.1.2數(shù)據(jù)倉庫的基本結(jié)構(gòu)數(shù)據(jù)倉庫的目的是構(gòu)建面向分析的集成化數(shù)據(jù)環(huán)境,為企業(yè)提供決策支數(shù)據(jù)倉庫的目的是構(gòu)建面向分析的集成化數(shù)據(jù)環(huán)境,為企業(yè)提供決策支持持(Decision Support)(Decision Support)。整個數(shù)據(jù)倉庫系統(tǒng)是一個包含四個層次的體。整個數(shù)據(jù)倉庫系統(tǒng)是一個包含四個層次的體系結(jié)構(gòu)。系結(jié)構(gòu)。13.1 數(shù)據(jù)倉庫概述 13.1.2數(shù)據(jù)倉庫的基本結(jié)構(gòu)數(shù)據(jù)源:是數(shù)據(jù)倉庫系統(tǒng)的基礎(chǔ),是整個系統(tǒng)的數(shù)據(jù)源泉。通常包括內(nèi)部數(shù)據(jù)源:是數(shù)據(jù)倉庫系統(tǒng)的基礎(chǔ),是整個系統(tǒng)的數(shù)據(jù)源泉。通常包括內(nèi)部數(shù)據(jù)和外部數(shù)據(jù)。內(nèi)部數(shù)據(jù)包括存放于數(shù)據(jù)和外部數(shù)據(jù)。內(nèi)部數(shù)據(jù)包括存放于RDBMSRDBMS中的各種業(yè)務(wù)處理數(shù)據(jù)和各中的各種業(yè)務(wù)處理數(shù)據(jù)和各類文檔數(shù)據(jù)。外部數(shù)據(jù)包括各類法律法規(guī)、市場信息和調(diào)查數(shù)據(jù)等。類文檔數(shù)據(jù)。外部數(shù)據(jù)包括各類法律法規(guī)、市場信息和調(diào)查數(shù)據(jù)等。數(shù)據(jù)存儲與管理:是整個數(shù)據(jù)倉庫系統(tǒng)的核心。數(shù)據(jù)倉庫的真正關(guān)鍵是數(shù)數(shù)據(jù)存儲與管理:是整個數(shù)據(jù)倉庫系統(tǒng)的核心。數(shù)據(jù)倉庫的真正關(guān)鍵是數(shù)據(jù)的存儲和管理。數(shù)據(jù)倉庫的組織管理方式?jīng)Q定了它有別于傳統(tǒng)數(shù)據(jù)庫,據(jù)的存儲和管理。數(shù)據(jù)倉庫的組織管理方式?jīng)Q定了它有別于傳統(tǒng)數(shù)據(jù)庫,同時也決定了其對外部數(shù)據(jù)的表現(xiàn)形式。同時也決定了其對外部數(shù)據(jù)的表現(xiàn)形式。聯(lián)機分析處理聯(lián)機分析處理 (OLAP(OLAP:On-Line Analytical Processing)On-Line Analytical Processing)服務(wù)器:即從數(shù)服務(wù)器:即從數(shù)據(jù)倉庫中抽取詳細數(shù)據(jù)的一個子集,并經(jīng)過必要的聚集存儲到據(jù)倉庫中抽取詳細數(shù)據(jù)的一個子集,并經(jīng)過必要的聚集存儲到OLAPOLAP服務(wù)器服務(wù)器中供前端分析工具讀取,對分析需要的數(shù)據(jù)進行有效集成,按多維模型予中供前端分析工具讀取,對分析需要的數(shù)據(jù)進行有效集成,按多維模型予以組織,以便進行多角度、多層次的分析,并發(fā)現(xiàn)趨勢。以組織,以便進行多角度、多層次的分析,并發(fā)現(xiàn)趨勢。前端工具:主要包括各種報表工具、查詢工具、數(shù)據(jù)分析工具、數(shù)據(jù)挖掘前端工具:主要包括各種報表工具、查詢工具、數(shù)據(jù)分析工具、數(shù)據(jù)挖掘工具以及各種基于數(shù)據(jù)倉庫或數(shù)據(jù)集市的應(yīng)用開發(fā)工具。其中數(shù)據(jù)分析工工具以及各種基于數(shù)據(jù)倉庫或數(shù)據(jù)集市的應(yīng)用開發(fā)工具。其中數(shù)據(jù)分析工具主要針對具主要針對OLAPOLAP服務(wù)器,報表工具、數(shù)據(jù)挖掘工具主要針對數(shù)據(jù)倉庫。服務(wù)器,報表工具、數(shù)據(jù)挖掘工具主要針對數(shù)據(jù)倉庫。13.1 數(shù)據(jù)倉庫概述 13.1.2 數(shù)據(jù)倉庫的主要應(yīng)用數(shù)據(jù)倉庫主要應(yīng)用在以下三個方面:數(shù)據(jù)倉庫主要應(yīng)用在以下三個方面:(1)(1)信息處理信息處理支持查詢和基本的統(tǒng)計分析,并使用表或圖進行報告。支持查詢和基本的統(tǒng)計分析,并使用表或圖進行報告。(2)(2)分析處理分析處理支持基本的支持基本的OLAPOLAP操作,在匯總的和細節(jié)的歷史數(shù)據(jù)上操作。操作,在匯總的和細節(jié)的歷史數(shù)據(jù)上操作。(3)(3)數(shù)據(jù)挖掘數(shù)據(jù)挖掘 支持知識發(fā)現(xiàn),包括找出隱藏的模式和關(guān)聯(lián),構(gòu)造分析模型,進行支持知識發(fā)現(xiàn),包括找出隱藏的模式和關(guān)聯(lián),構(gòu)造分析模型,進行分類和預(yù)測,并用可視化工具提供挖掘結(jié)果。分類和預(yù)測,并用可視化工具提供挖掘結(jié)果。13.1 數(shù)據(jù)倉庫概述 13.1.2 數(shù)據(jù)倉庫的主要應(yīng)用 其中其中OLAPOLAP是數(shù)據(jù)倉庫的一個主要應(yīng)用,是數(shù)據(jù)倉庫的一個主要應(yīng)用,OLAP(OLAP(聯(lián)機分析處理聯(lián)機分析處理)是針是針對某個特定的主題進行聯(lián)機數(shù)據(jù)訪問、處理和分析,通過直觀的方式對某個特定的主題進行聯(lián)機數(shù)據(jù)訪問、處理和分析,通過直觀的方式從多個維度、多種數(shù)據(jù)綜合程度將系統(tǒng)的運營情況展現(xiàn)給用戶。由于從多個維度、多種數(shù)據(jù)綜合程度將系統(tǒng)的運營情況展現(xiàn)給用戶。由于SQLSQL對大型數(shù)據(jù)庫進行的簡單查詢已不能滿足終端用戶分析的要求。用對大型數(shù)據(jù)庫進行的簡單查詢已不能滿足終端用戶分析的要求。用戶的決策分析需要對關(guān)系數(shù)據(jù)庫進行大量計算才能得到結(jié)果,而查詢戶的決策分析需要對關(guān)系數(shù)據(jù)庫進行大量計算才能得到結(jié)果,而查詢的結(jié)果并不能滿足決策者提出的需求,這時就需要的結(jié)果并不能滿足決策者提出的需求,這時就需要OLAPOLAP聯(lián)機分析處理聯(lián)機分析處理來解決這個問題。來解決這個問題。OLAPOLAP不是面向顧客的,用于事務(wù)和查詢處理,而是不是面向顧客的,用于事務(wù)和查詢處理,而是面向市場的,用于數(shù)據(jù)分析;不是管理當前數(shù)據(jù)而是管理大量歷史數(shù)面向市場的,用于數(shù)據(jù)分析;不是管理當前數(shù)據(jù)而是管理大量歷史數(shù)據(jù),供匯總和聚集機制;不是采用實體據(jù),供匯總和聚集機制;不是采用實體-聯(lián)系聯(lián)系E-RE-R模型和面向應(yīng)用的數(shù)模型和面向應(yīng)用的數(shù)據(jù)庫設(shè)計,而是采用星型或雪花模型和面向主題的數(shù)據(jù)庫設(shè)計。據(jù)庫設(shè)計,而是采用星型或雪花模型和面向主題的數(shù)據(jù)庫設(shè)計。13.2 數(shù)據(jù)挖掘概述 13.2.1 數(shù)據(jù)挖掘的定義 數(shù)據(jù)挖掘數(shù)據(jù)挖掘(Data Mining(Data Mining,DM)DM)從技術(shù)角度看,數(shù)據(jù)挖掘是從大量的、不從技術(shù)角度看,數(shù)據(jù)挖掘是從大量的、不完全的、有噪聲的、模糊的、隨機的實際數(shù)據(jù)中,提取隱含在其中的、完全的、有噪聲的、模糊的、隨機的實際數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程。人們事先不知道的、但又是潛在有用的信息和知識的過程。從商業(yè)應(yīng)用角度看,數(shù)據(jù)挖掘是一種嶄新的商業(yè)信息處理技術(shù),其主從商業(yè)應(yīng)用角度看,數(shù)據(jù)挖掘是一種嶄新的商業(yè)信息處理技術(shù),其主要特點是對商業(yè)數(shù)據(jù)庫中的大量業(yè)務(wù)數(shù)據(jù)進行抽取、轉(zhuǎn)化、分析和模要特點是對商業(yè)數(shù)據(jù)庫中的大量業(yè)務(wù)數(shù)據(jù)進行抽取、轉(zhuǎn)化、分析和模式化處理,從中提取輔助商業(yè)決策的關(guān)鍵知識。式化處理,從中提取輔助商業(yè)決策的關(guān)鍵知識。數(shù)據(jù)挖掘應(yīng)該更正確地命名為數(shù)據(jù)挖掘應(yīng)該更正確地命名為“從數(shù)據(jù)中挖掘知識從數(shù)據(jù)中挖掘知識”。還有很多類似術(shù)。還有很多類似術(shù)語,如知識發(fā)現(xiàn)、數(shù)據(jù)分析、數(shù)據(jù)融合以及決策支持等。人工智能領(lǐng)語,如知識發(fā)現(xiàn)、數(shù)據(jù)分析、數(shù)據(jù)融合以及決策支持等。人工智能領(lǐng)域習慣稱之為知識發(fā)現(xiàn),而數(shù)據(jù)庫領(lǐng)域習慣稱之為數(shù)據(jù)挖掘。域習慣稱之為知識發(fā)現(xiàn),而數(shù)據(jù)庫領(lǐng)域習慣稱之為數(shù)據(jù)挖掘。13.2 數(shù)據(jù)挖掘概述 數(shù)據(jù)挖掘是一個完整的過程,其一般步驟如圖數(shù)據(jù)挖掘是一個完整的過程,其一般步驟如圖13-113-1所示。數(shù)據(jù)挖掘主要經(jīng)過確所示。數(shù)據(jù)挖掘主要經(jīng)過確定挖掘?qū)ο?、準備?shù)據(jù)、建立模型、數(shù)據(jù)挖掘、結(jié)果分析及知識同化這五個定挖掘?qū)ο?、準備?shù)據(jù)、建立模型、數(shù)據(jù)挖掘、結(jié)果分析及知識同化這五個階段。階段。13.2 數(shù)據(jù)挖掘概述 13.2.2 數(shù)據(jù)挖掘技術(shù)及應(yīng)用1.1.數(shù)據(jù)挖掘的常用技術(shù)數(shù)據(jù)挖掘的常用技術(shù)數(shù)據(jù)挖掘的常用技術(shù)有聚類分析、決策樹、人工神經(jīng)網(wǎng)絡(luò)、粗糙集、關(guān)數(shù)據(jù)挖掘的常用技術(shù)有聚類分析、決策樹、人工神經(jīng)網(wǎng)絡(luò)、粗糙集、關(guān)聯(lián)規(guī)則挖掘、統(tǒng)計分析等,具體功能是用于概念描述、關(guān)聯(lián)分析、分聯(lián)規(guī)則挖掘、統(tǒng)計分析等,具體功能是用于概念描述、關(guān)聯(lián)分析、分類與預(yù)測、聚類分析、偏差分析等。類與預(yù)測、聚類分析、偏差分析等。(1)(1)聚類分析聚類分析(clustering analysis)(clustering analysis)是一個比較活躍的數(shù)據(jù)挖掘領(lǐng)域,是一個比較活躍的數(shù)據(jù)挖掘領(lǐng)域,源于統(tǒng)計學、生物學以及機器學習等。聚類生成的組叫簇,簇是數(shù)源于統(tǒng)計學、生物學以及機器學習等。聚類生成的組叫簇,簇是數(shù)據(jù)對象的集合。據(jù)對象的集合。(2)(2)決策樹決策樹(decision tree)(decision tree)主要用于分類和預(yù)測,提供了一種展示類似主要用于分類和預(yù)測,提供了一種展示類似在什么條件下會得到什么值這類規(guī)則的方法。在什么條件下會得到什么值這類規(guī)則的方法。(3)(3)人工神經(jīng)網(wǎng)絡(luò)人工神經(jīng)網(wǎng)絡(luò)(artificial neural network(artificial neural network,ANN)ANN)是一類比較新的是一類比較新的計算模型,它是模仿人的腦神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)和某些工作機制而建立計算模型,它是模仿人的腦神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)和某些工作機制而建立的一種計算模型。的一種計算模型。(4)(4)粗糙集粗糙集(rough set)(rough set)是一種處理不確定、不完備數(shù)據(jù)和不精確問題的是一種處理不確定、不完備數(shù)據(jù)和不精確問題的新的數(shù)學理論。新的數(shù)學理論。13.2 數(shù)據(jù)挖掘概述 (5)(5)關(guān)聯(lián)規(guī)則挖掘關(guān)聯(lián)規(guī)則挖掘(association rule mining)(association rule mining)是數(shù)據(jù)挖掘中最活躍的研是數(shù)據(jù)挖掘中最活躍的研究方法之一,最早由究方法之一,最早由AgrawalAgrawal等人提出。關(guān)聯(lián)規(guī)則的基本思想:一是等人提出。關(guān)聯(lián)規(guī)則的基本思想:一是找到所有支持度大于最小支持度的頻繁項集,即頻集;二是使用第找到所有支持度大于最小支持度的頻繁項集,即頻集;二是使用第一步找到的頻集產(chǎn)生期望的規(guī)則。其核心方法是基于頻集理論的遞一步找到的頻集產(chǎn)生期望的規(guī)則。其核心方法是基于頻集理論的遞推方法。關(guān)聯(lián)規(guī)則挖掘的主要算法包含關(guān)聯(lián)發(fā)現(xiàn)、序列模式發(fā)現(xiàn)、推方法。關(guān)聯(lián)規(guī)則挖掘的主要算法包含關(guān)聯(lián)發(fā)現(xiàn)、序列模式發(fā)現(xiàn)、時序發(fā)現(xiàn)等。時序發(fā)現(xiàn)等。(6)(6)統(tǒng)計分析統(tǒng)計分析(statistics analysis)(statistics analysis)是從事物的外在數(shù)量上的表現(xiàn)去推是從事物的外在數(shù)量上的表現(xiàn)去推斷該事物可能的規(guī)律。科學的規(guī)律性一般總是隱藏得比較深,最初斷該事物可能的規(guī)律??茖W的規(guī)律性一般總是隱藏得比較深,最初總是從數(shù)量表現(xiàn)上通過統(tǒng)計分析看出一些線索,然后提出一定的假總是從數(shù)量表現(xiàn)上通過統(tǒng)計分析看出一些線索,然后提出一定的假說或?qū)W說,做進一步深入的理論研究。當理論研究提出一定的結(jié)論說或?qū)W說,做進一步深入的理論研究。當理論研究提出一定的結(jié)論時,往往還需要在實踐中加以驗證,即觀測一些自然現(xiàn)象或?qū)iT安時,往往還需要在實踐中加以驗證,即觀測一些自然現(xiàn)象或?qū)iT安排的實驗所得資料是否與理論相符,在大多數(shù)程度上相符,偏離可排的實驗所得資料是否與理論相符,在大多數(shù)程度上相符,偏離可能是朝哪個方向等等問題。都需要用到統(tǒng)計分析方法。常見的統(tǒng)計能是朝哪個方向等等問題。都需要用到統(tǒng)計分析方法。常見的統(tǒng)計分析有回歸分析、判別分析以及探索性分析等。分析有回歸分析、判別分析以及探索性分析等。13.2 數(shù)據(jù)挖掘概述 2.2.數(shù)據(jù)挖掘的應(yīng)用數(shù)據(jù)挖掘的應(yīng)用隨著人們對數(shù)據(jù)挖掘認識的深入,數(shù)據(jù)挖掘技術(shù)應(yīng)用越來越廣泛。目前隨著人們對數(shù)據(jù)挖掘認識的深入,數(shù)據(jù)挖掘技術(shù)應(yīng)用越來越廣泛。目前數(shù)據(jù)挖掘應(yīng)用在金融業(yè)和保險業(yè)較多,也擴展到了其他應(yīng)用領(lǐng)域,數(shù)據(jù)挖掘應(yīng)用在金融業(yè)和保險業(yè)較多,也擴展到了其他應(yīng)用領(lǐng)域,如零售業(yè)、醫(yī)療保健、行政司法等社會部分以及科學和工程研究單如零售業(yè)、醫(yī)療保健、行政司法等社會部分以及科學和工程研究單位。位。例如在金融業(yè),可以用數(shù)據(jù)挖掘分析市場的動向、預(yù)測公司的營運能力例如在金融業(yè),可以用數(shù)據(jù)挖掘分析市場的動向、預(yù)測公司的營運能力和股價趨勢等。和股價趨勢等。(1)(1)評估賬戶信用等級。金融業(yè)風險與效益并存,分析賬戶的信用等級評估賬戶信用等級。金融業(yè)風險與效益并存,分析賬戶的信用等級對于降低風險、增加收益是非常重要的。對于降低風險、增加收益是非常重要的。(2)(2)分析信用卡使用模式。分析信用卡使用模式。(3)(3)分析股票趨勢。分析股票趨勢。(4)(4)探測金融政策與金融行情關(guān)系。探測金融政策與金融行情關(guān)系。13.2 數(shù)據(jù)挖掘概述 13.2.3 數(shù)據(jù)挖掘與數(shù)據(jù)倉庫的聯(lián)系與區(qū)別1.1.數(shù)據(jù)倉庫與數(shù)據(jù)挖掘的聯(lián)系數(shù)據(jù)倉庫與數(shù)據(jù)挖掘的聯(lián)系數(shù)據(jù)挖掘和數(shù)據(jù)倉庫作為決策支持的新技術(shù),在近十年來發(fā)展十分迅速。數(shù)據(jù)挖掘和數(shù)據(jù)倉庫作為決策支持的新技術(shù),在近十年來發(fā)展十分迅速。數(shù)據(jù)倉庫是數(shù)據(jù)挖掘的對象,數(shù)據(jù)倉庫技術(shù)的產(chǎn)生和發(fā)展為數(shù)據(jù)挖掘數(shù)據(jù)倉庫是數(shù)據(jù)挖掘的對象,數(shù)據(jù)倉庫技術(shù)的產(chǎn)生和發(fā)展為數(shù)據(jù)挖掘技術(shù)開辟了新的戰(zhàn)場,同時也提出了新的要求和挑戰(zhàn)。數(shù)據(jù)倉庫和數(shù)技術(shù)開辟了新的戰(zhàn)場,同時也提出了新的要求和挑戰(zhàn)。數(shù)據(jù)倉庫和數(shù)據(jù)挖掘是相互影響,相互促進的。兩者的聯(lián)系主要表現(xiàn)在以下幾點。據(jù)挖掘是相互影響,相互促進的。兩者的聯(lián)系主要表現(xiàn)在以下幾點。(1)(1)數(shù)據(jù)倉庫為數(shù)據(jù)挖掘提供了更好的、更廣泛的數(shù)據(jù)源。數(shù)據(jù)倉庫為數(shù)據(jù)挖掘提供了更好的、更廣泛的數(shù)據(jù)源。(2)(2)數(shù)據(jù)倉庫為數(shù)據(jù)挖掘提供了新的支持平臺。數(shù)據(jù)倉庫為數(shù)據(jù)挖掘提供了新的支持平臺。(3)(3)數(shù)據(jù)倉庫為更好地使用數(shù)據(jù)挖掘工具提供了方便。數(shù)據(jù)倉庫為更好地使用數(shù)據(jù)挖掘工具提供了方便。(4)(4)數(shù)據(jù)挖掘為數(shù)據(jù)倉庫提供了廣泛的技術(shù)支持。數(shù)據(jù)挖掘為數(shù)據(jù)倉庫提供了廣泛的技術(shù)支持。數(shù)據(jù)挖掘和數(shù)據(jù)倉庫技術(shù)要結(jié)合起來才能充分發(fā)揮潛力。數(shù)據(jù)挖掘和數(shù)據(jù)倉庫技術(shù)要結(jié)合起來才能充分發(fā)揮潛力。13.2 數(shù)據(jù)挖掘概述 13.2.3 數(shù)據(jù)挖掘與數(shù)據(jù)倉庫的聯(lián)系與區(qū)別2.2.數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的區(qū)別數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的區(qū)別數(shù)據(jù)倉庫是一種存儲技術(shù),它包含大量的歷史數(shù)據(jù)、當前詳細數(shù)據(jù)以及綜數(shù)據(jù)倉庫是一種存儲技術(shù),它包含大量的歷史數(shù)據(jù)、當前詳細數(shù)據(jù)以及綜合數(shù)據(jù),它能為不同用戶的不同決策需要提供所需要的數(shù)據(jù)和信息。合數(shù)據(jù),它能為不同用戶的不同決策需要提供所需要的數(shù)據(jù)和信息。數(shù)據(jù)挖掘是從人工智能機器學習中發(fā)展起來的,它研究各種方法和技術(shù),數(shù)據(jù)挖掘是從人工智能機器學習中發(fā)展起來的,它研究各種方法和技術(shù),從大量的數(shù)據(jù)中挖掘有用的信息和知識。從大量的數(shù)據(jù)中挖掘有用的信息和知識。13.3 常用的數(shù)據(jù)挖掘工具 13.3.1 數(shù)據(jù)挖掘工具的種類數(shù)據(jù)挖掘工具按照使用方式,可以分成:決策方案生成工具、商業(yè)分析工具數(shù)據(jù)挖掘工具按照使用方式,可以分成:決策方案生成工具、商業(yè)分析工具和研究分析工具三大類。和研究分析工具三大類。按照數(shù)據(jù)挖掘的技術(shù)可以分成:基于神經(jīng)網(wǎng)絡(luò)的工具、基于規(guī)則和決策樹的按照數(shù)據(jù)挖掘的技術(shù)可以分成:基于神經(jīng)網(wǎng)絡(luò)的工具、基于規(guī)則和決策樹的工具、基于模糊邏輯的工具和綜合性數(shù)據(jù)挖掘工具等。工具、基于模糊邏輯的工具和綜合性數(shù)據(jù)挖掘工具等。按照數(shù)據(jù)挖掘的應(yīng)用范圍可以將挖掘工具分成專用型數(shù)據(jù)挖掘工具和通用型按照數(shù)據(jù)挖掘的應(yīng)用范圍可以將挖掘工具分成專用型數(shù)據(jù)挖掘工具和通用型數(shù)據(jù)挖掘工具。數(shù)據(jù)挖掘工具。13.3.2 常用數(shù)據(jù)挖掘工具數(shù)據(jù)挖掘工具種類繁多,以下介紹幾種常用的數(shù)據(jù)挖掘工具。數(shù)據(jù)挖掘工具種類繁多,以下介紹幾種常用的數(shù)據(jù)挖掘工具。13.3 常用的數(shù)據(jù)挖掘工具 1.SPSS1.SPSS SPSS(Statistical Package for the Social Science SPSS(Statistical Package for the Social Science,社會科學統(tǒng)計,社會科學統(tǒng)計軟件包軟件包)是一種集成化的計算機數(shù)據(jù)處理應(yīng)用軟件。是一種集成化的計算機數(shù)據(jù)處理應(yīng)用軟件。19681968年,美國斯坦福大年,美國斯坦福大學學H.NieH.Nie等等3 3位大學生開發(fā)了最早的位大學生開發(fā)了最早的SPSSSPSS統(tǒng)計軟件,并于統(tǒng)計軟件,并于19751975年在芝加哥成年在芝加哥成立了立了SPSSSPSS公司,廣泛應(yīng)用于通信、醫(yī)療、銀行、證券、保險、制造、市場公司,廣泛應(yīng)用于通信、醫(yī)療、銀行、證券、保險、制造、市場研究、科研、教育等多個領(lǐng)域和行業(yè)。研究、科研、教育等多個領(lǐng)域和行業(yè)。2.SAS2.SAS SAS SAS是由美國北卡羅來納州立大學于是由美國北卡羅來納州立大學于19661966年開發(fā)的統(tǒng)計分析軟件。年開發(fā)的統(tǒng)計分析軟件。19761976年年SASSAS軟件研究所成立,開始進行軟件研究所成立,開始進行SASSAS系統(tǒng)的維護、開發(fā)、銷售和培訓工作。系統(tǒng)的維護、開發(fā)、銷售和培訓工作。經(jīng)過多年的完善和發(fā)展,經(jīng)過多年的完善和發(fā)展,SASSAS系統(tǒng)在國際上已被譽為統(tǒng)計分析的標準軟件,系統(tǒng)在國際上已被譽為統(tǒng)計分析的標準軟件,在各個領(lǐng)域得到廣泛應(yīng)用。在各個領(lǐng)域得到廣泛應(yīng)用。3.SQL Server 2005 3.SQL Server 2005 SQL Server SQL Server是一個全面的、集成的、端到端的數(shù)據(jù)解決方案,它為組是一個全面的、集成的、端到端的數(shù)據(jù)解決方案,它為組織中的用戶提供了一個更安全可靠和更高效的平臺,主要用于企業(yè)數(shù)據(jù)和織中的用戶提供了一個更安全可靠和更高效的平臺,主要用于企業(yè)數(shù)據(jù)和BIBI應(yīng)用。應(yīng)用。SQL Server 2005SQL Server 2005為為ITIT專家和信息工作者帶來了功能強大的數(shù)據(jù)挖專家和信息工作者帶來了功能強大的數(shù)據(jù)挖掘分析工具,同時降低了在從移動設(shè)備到企業(yè)數(shù)據(jù)系統(tǒng)的多平臺上創(chuàng)建、掘分析工具,同時降低了在從移動設(shè)備到企業(yè)數(shù)據(jù)系統(tǒng)的多平臺上創(chuàng)建、部署、管理和使用企業(yè)數(shù)據(jù)和分析應(yīng)用程序的復(fù)雜性。部署、管理和使用企業(yè)數(shù)據(jù)和分析應(yīng)用程序的復(fù)雜性。13.3 常用的數(shù)據(jù)挖掘工具 4.Weka4.WekaWeka(Waikato Environment for Knowledge AnalysisWeka(Waikato Environment for Knowledge Analysis,壞卡托智能分析環(huán)境,壞卡托智能分析環(huán)境),是一個開放源碼的數(shù)據(jù)挖掘軟件。,是一個開放源碼的數(shù)據(jù)挖掘軟件。WekaWeka的主要開發(fā)者來自新西蘭的的主要開發(fā)者來自新西蘭的WaikatoWaikato大學,數(shù)據(jù)挖掘用戶可通過大學,數(shù)據(jù)挖掘用戶可通過WekaWeka集成的大量算法,執(zhí)行數(shù)據(jù)預(yù)處理、集成的大量算法,執(zhí)行數(shù)據(jù)預(yù)處理、分類、回歸、聚類、關(guān)聯(lián)規(guī)則、數(shù)據(jù)可視化等任務(wù)。開發(fā)者可以使用分類、回歸、聚類、關(guān)聯(lián)規(guī)則、數(shù)據(jù)可視化等任務(wù)。開發(fā)者可以使用javajava語語言在言在WekaWeka架構(gòu)上開發(fā)出更多的數(shù)據(jù)挖掘算法。使用架構(gòu)上開發(fā)出更多的數(shù)據(jù)挖掘算法。使用WekaWeka可以輕松地進行數(shù)據(jù)可以輕松地進行數(shù)據(jù)預(yù)處理和在數(shù)據(jù)集上運用數(shù)據(jù)挖掘算法。預(yù)處理和在數(shù)據(jù)集上運用數(shù)據(jù)挖掘算法。5.MATLAB5.MATLABMATLABMATLAB是矩陣實驗室是矩陣實驗室(Matrix Laboratory)(Matrix Laboratory)的簡稱,是美國的簡稱,是美國MathWorksMathWorks公司出品公司出品的商業(yè)數(shù)學軟件,是用于算法開發(fā)、數(shù)據(jù)可視化、數(shù)據(jù)分析以及數(shù)值計算的的商業(yè)數(shù)學軟件,是用于算法開發(fā)、數(shù)據(jù)可視化、數(shù)據(jù)分析以及數(shù)值計算的高級計算語言和交互式環(huán)境,主要包括高級計算語言和交互式環(huán)境,主要包括MATLABMATLAB和和simulinksimulink兩大部分。兩大部分。MATLABMATLAB的應(yīng)用范圍非常廣,包括信號和圖像處理、通信、控制系統(tǒng)設(shè)計、測試的應(yīng)用范圍非常廣,包括信號和圖像處理、通信、控制系統(tǒng)設(shè)計、測試和測量、財務(wù)建模和分析以及計算生物學等眾多領(lǐng)域。和測量、財務(wù)建模和分析以及計算生物學等眾多領(lǐng)域。本章小結(jié) 本本章章主主要要介介紹紹了了數(shù)數(shù)據(jù)據(jù)倉倉庫庫的的基基本本概概念念包包括括數(shù)數(shù)據(jù)據(jù)倉倉庫庫的的定定義義和和主主要要應(yīng)應(yīng)用用,然然后后介介紹紹了了數(shù)數(shù)據(jù)據(jù)挖挖掘掘技技術(shù)術(shù)的的相相關(guān)關(guān)概概念念,包包括括數(shù)數(shù)據(jù)據(jù)挖挖掘掘的的定定義義和和數(shù)數(shù)據(jù)據(jù)挖挖掘掘常常用用技技術(shù)術(shù)與與應(yīng)應(yīng)用用以以及及數(shù)數(shù)據(jù)據(jù)挖挖掘掘與與數(shù)數(shù)據(jù)據(jù)倉倉庫庫的的關(guān)關(guān)系系。最最后后介介紹紹了幾種常用的數(shù)據(jù)挖掘工具,以方便讀者選擇合適的數(shù)據(jù)挖掘工具。了幾種常用的數(shù)據(jù)挖掘工具,以方便讀者選擇合適的數(shù)據(jù)挖掘工具。思 考 練 習l1.1.數(shù)據(jù)庫與數(shù)據(jù)倉庫的本質(zhì)區(qū)別是什么?數(shù)據(jù)庫與數(shù)據(jù)倉庫的本質(zhì)區(qū)別是什么?l2.2.數(shù)據(jù)挖掘的數(shù)據(jù)源是否必須是數(shù)據(jù)倉庫的數(shù)據(jù)?數(shù)據(jù)挖掘的數(shù)據(jù)源是否必須是數(shù)據(jù)倉庫的數(shù)據(jù)?l3.3.數(shù)據(jù)挖掘的技術(shù)主要包含哪幾種?數(shù)據(jù)挖掘的技術(shù)主要包含哪幾種?l4.4.數(shù)據(jù)挖掘的具體功能有哪些?數(shù)據(jù)挖掘的具體功能有哪些?l5.5.數(shù)據(jù)挖掘與數(shù)據(jù)倉庫的關(guān)系是什么?數(shù)據(jù)挖掘與數(shù)據(jù)倉庫的關(guān)系是什么?l6.6.常用的數(shù)據(jù)挖掘工具有哪些?常用的數(shù)據(jù)挖掘工具有哪些?l7.7.數(shù)據(jù)挖掘可以應(yīng)用在哪些領(lǐng)域?數(shù)據(jù)挖掘可以應(yīng)用在哪些領(lǐng)域?
收藏
編號:48760729
類型:共享資源
大?。?span id="ievbyqtbdd" class="font-tahoma">10.02MB
格式:ZIP
上傳時間:2022-01-14
30
積分
- 關(guān) 鍵 詞:
-
數(shù)據(jù)庫技術(shù)與應(yīng)用
數(shù)據(jù)庫技術(shù)
應(yīng)用
電子
課件
- 資源描述:
-
《數(shù)據(jù)庫技術(shù)與應(yīng)用》電子課件,數(shù)據(jù)庫技術(shù)與應(yīng)用,數(shù)據(jù)庫技術(shù),應(yīng)用,電子,課件
展開閱讀全文
- 溫馨提示:
1: 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2: 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3.本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 裝配圖網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
裝配圖網(wǎng)所有資源均是用戶自行上傳分享,僅供網(wǎng)友學習交流,未經(jīng)上傳用戶書面授權(quán),請勿作他用。