第2章數(shù)據(jù)挖掘可挖掘的知識(shí)類型
《第2章數(shù)據(jù)挖掘可挖掘的知識(shí)類型》由會(huì)員分享,可在線閱讀,更多相關(guān)《第2章數(shù)據(jù)挖掘可挖掘的知識(shí)類型(24頁珍藏版)》請(qǐng)?jiān)谘b配圖網(wǎng)上搜索。
1、單擊此處編輯母版文本樣式,第二級(jí),第三級(jí),第四級(jí),第五級(jí),*,單擊此處編輯母版標(biāo)題樣式,數(shù)據(jù)挖掘原理與,SPSS Clementine,應(yīng)用寶典,元昌安 主編,鄧松李文敬劉海濤編著,電子工業(yè)出版社,雙擊添加主標(biāo)題,概念,/,類描述,關(guān)聯(lián)模式,分類,聚類分析,預(yù)測(cè),時(shí)間序列,偏差檢測(cè),2,概念,/,類描述,就是通過對(duì)某類對(duì)象關(guān)聯(lián)數(shù)據(jù)的匯總、分析和比較,用匯總的、簡(jiǎn)潔的、精確的方式對(duì)此類對(duì)象的內(nèi)涵進(jìn)行描述,并概括這類對(duì)象的有關(guān)特征。,概念描述分為,特征性描述,和,區(qū)別性描述,。,特征性描述,是指從與某類對(duì)象相關(guān)的一組數(shù)據(jù)中提取出關(guān)于這些對(duì)象的共同特征。生成一個(gè)類的特征性描述只涉及該類對(duì)象中所有對(duì)象
2、的共性。,區(qū)別性描述,描述兩個(gè)或更多個(gè)不同類對(duì)象之間的差異。生成區(qū)別性描述則涉及目標(biāo)類和對(duì)比類中對(duì)象的共性。,2.1,概念,/,類描述,2.1,概念,/,類描述,數(shù)據(jù)特征的輸出可以用多種形式提供。包括餅圖、條圖、曲線、多維數(shù)據(jù)方和包括交叉表在內(nèi)的多維表。結(jié)果描述也可以用泛化關(guān)系或規(guī)則(稱作特征規(guī)則)形式提供。,例如:利用面向?qū)傩缘臍w納方法(,AOI,),在一個(gè)商場(chǎng)數(shù)據(jù)庫(kù)(,2000,銷售)中進(jìn)行屬性歸納操作,獲得了如下的歸納結(jié)果:,表,2-1 AOI,方法挖掘結(jié)果表格表示示意描述,地點(diǎn),商品,銷售額(百萬),個(gè)數(shù)累計(jì)(千),亞洲,歐洲,北美,亞洲,歐洲,北美,電視,電視,電視,電腦,電腦,電腦
3、,15,12,28,120,150,200,300,250,450,1000,1200,1800,2.1,概念,/,類描述,對(duì)于以上結(jié)果,也可以用組合表(,crosstab,)或其他圖表的形式來加以描述。數(shù)據(jù)分析中可視化圖示非常普遍。,表,2-2,對(duì)應(yīng)表,2-1,的組合表表示描述 圖,2-1,對(duì)應(yīng)表,2-2,棒圖表示描述,TV,Computer,TV+Computer,sales,count,sales,count,sales,count,Asia,15,300,120,1000,135,1300,Europe,12,250,150,1200,162,1450,North_Amaerica,2
4、8,450,200,1800,228,2250,All_region,45,1000,470,4000,525,5000,item,Location,2.1,概念,/,類描述,圖,2-2,對(duì)應(yīng)表,2-1,(部分?jǐn)?shù)據(jù))的餅圖表示描述,北美,51%,亞洲,27%,歐洲,22%,電視銷售圖,2.1,概念,/,類描述,區(qū)別性描述是將目標(biāo)類對(duì)象的一般特性與一個(gè)或多個(gè)對(duì)比類對(duì)象的一般特性比較。這種比較必須是在具備可比性的兩個(gè)或多個(gè)類之間進(jìn)行。,例如,對(duì)某校講師和副教授的特征進(jìn)行比較,可能會(huì)得到這樣一條規(guī)則:,“講師:(,78%,)(,paper3,),and(teaching course=3,),and
5、(teaching course=2)”,;,該對(duì)比規(guī)則表示該校講師中約有四分至三的人發(fā)表論文少于三篇且主講課程不超過一門;而對(duì)比之下該校副教授中約有三分至二的人發(fā)表論文不少于三篇且主講課程不少于一門。,2.2,關(guān)聯(lián)模式,關(guān)聯(lián)模式挖掘旨在從大量的數(shù)據(jù)當(dāng)中發(fā)現(xiàn)特征之間或數(shù)據(jù)之間的相互依賴關(guān)系。這種存在于給定數(shù)據(jù)集中的頻繁出現(xiàn)的關(guān)聯(lián)模式,又稱為關(guān)聯(lián)規(guī)則。關(guān)聯(lián)可分為簡(jiǎn)單關(guān)聯(lián)、時(shí)序關(guān)聯(lián)、因果關(guān)聯(lián)等。這些關(guān)聯(lián)并不總是事先知道,而是通過數(shù)據(jù)庫(kù)中數(shù)據(jù)的關(guān)聯(lián)分析獲得的,其對(duì)商業(yè)決策具有重要價(jià)值。因而關(guān)聯(lián)分析廣泛用于市場(chǎng)營(yíng)銷、事務(wù)分析等應(yīng)用領(lǐng)域。,挖掘關(guān)聯(lián)知識(shí)的一個(gè)典型應(yīng)用實(shí)例就是市場(chǎng)購(gòu)物分析。根據(jù)被放到一個(gè)購(gòu)
6、物袋的(購(gòu)物)內(nèi)容記錄數(shù)據(jù)而發(fā)現(xiàn)的不同(被購(gòu)買)商品之間所存在的關(guān)聯(lián)知識(shí)無疑將會(huì)幫助商家分析顧客的購(gòu)買習(xí)慣。發(fā)現(xiàn)常在一起被購(gòu)買的商品(關(guān)聯(lián)知識(shí))將幫助商家指定有針對(duì)性的市場(chǎng)策略。,比如:顧客在購(gòu)買牛奶時(shí),是否也可能同時(shí)購(gòu)買面包或會(huì)購(gòu)買哪個(gè)牌子的面包,顯然能夠回答這些問題的有關(guān)信息肯定回有效地幫助商家進(jìn)行有針對(duì)性的促銷,以及進(jìn)行合適的貨架商品擺放。如可以將牛奶和面包放在相近的地方或許會(huì)促進(jìn)這兩個(gè)商品的銷售。,2.2,關(guān)聯(lián)模式,根據(jù)關(guān)聯(lián)規(guī)則所涉及變量的多少,可以分為,多維關(guān)聯(lián)規(guī)則,和,單維關(guān)聯(lián)規(guī)則,。通常,關(guān)聯(lián)規(guī)則具有:,X,Y,的形式,即”,A1,.,Am,B1,.,Bn,”,的規(guī)則;其中,Ai
7、(i,1,.,m),Bj,(j,1,.,n),是屬性,-,值對(duì)。關(guān)聯(lián)規(guī)則,X,Y,解釋為“滿足,X,中條件的數(shù)據(jù)庫(kù)元組多半也滿足,Y,中條件”。,例如:一個(gè)數(shù)據(jù)挖掘系統(tǒng)可以從一個(gè)商場(chǎng)的銷售,(,交易事務(wù)處理,),記錄數(shù)據(jù)中,挖掘出如下所示的關(guān)聯(lián)規(guī)則:,age(X,”20-29”)income(X,”20K-30K”),buys(X,,”,mp3”)support=2%,confidence=60%,上述關(guān)聯(lián)規(guī)則表示:該商場(chǎng)有的顧客年齡在,20,歲到,29,歲且收入在,2,萬到,3,萬之間,這群顧客中有,60%,的人購(gòu)買了,MP3,,或者說這群顧客購(gòu)買,MP3,的概率為六成。這一規(guī)則涉及到,年齡
8、,、,收入,和,購(gòu)買,三個(gè)變量,(,即三維,),,可稱為,多維關(guān)聯(lián)規(guī)則,。,2.2,關(guān)聯(lián)模式,對(duì)于一個(gè)商場(chǎng)經(jīng)理,或許更想知道哪些商品是常被一起購(gòu)買,描述這種情況的一條關(guān)聯(lián)規(guī)則可能是,:,Contains(X,”computer,”),contain(X,”software,”)support=1%,confidence=60%,上述關(guān)聯(lián)規(guī)則表示:該商場(chǎng),1%,銷售交易事物記錄中包含“,computer”,和“,software”,兩個(gè)商品;而對(duì)于一條包含(購(gòu)買)“,computer”,商品的交易事物記錄有,60%,可能也包含(購(gòu)買)”,software”,商品。這條記錄中由于只涉及到購(gòu)買事物這
9、一個(gè)變量,所以稱為,單維關(guān)聯(lián)規(guī)則,。,2.3,分類,分類是數(shù)據(jù)挖掘中一項(xiàng)非常重要的任務(wù),利用分類可以從數(shù)據(jù)集中提取描述數(shù)據(jù)類的一個(gè)函數(shù)或模型(也常稱為分類器),并把數(shù)據(jù)集中的每個(gè)對(duì)象歸結(jié)到某個(gè)已知的對(duì)象類中。,從機(jī)器學(xué)習(xí)的觀點(diǎn),,分類技術(shù)是一種有指導(dǎo)的學(xué)習(xí),即每個(gè)訓(xùn)練樣本的數(shù)據(jù)對(duì)象已經(jīng)有類標(biāo)識(shí),通過學(xué)習(xí)可以形成表達(dá)數(shù)據(jù)對(duì)象與類標(biāo)識(shí)間對(duì)應(yīng)的知識(shí),從這個(gè)意義上說,數(shù)據(jù)挖掘的目標(biāo)就是根據(jù)樣本數(shù)據(jù)形成的類知識(shí)并對(duì)源數(shù)據(jù)進(jìn)行分類,進(jìn)而也可以預(yù)測(cè)未來數(shù)據(jù)的歸類。,2.3,分類,分類挖掘所獲的分類模型可以采用多種形式加以描述輸出。其中主要的表示方法有:分類規(guī)則(,IF-THEN,)、決策樹(,decisio
10、n tree,)、數(shù)學(xué)公式(,mathematical formulae,)和神經(jīng)網(wǎng)絡(luò)。,決策樹是一個(gè)類似于流程圖的結(jié)構(gòu),每個(gè)結(jié)點(diǎn)代表一個(gè)屬性值上的測(cè)試,每個(gè)分枝代表測(cè)試的一個(gè)輸出,樹葉代表類或類分布。決策樹容易轉(zhuǎn)換成分類規(guī)則。,神經(jīng)網(wǎng)絡(luò)用于分類時(shí),是一組類似于神經(jīng)元的處理單元,單元之間加權(quán)連接。,另外,最近有興起了一種新的方法,粗糙集(,rough set,),其知識(shí)表示是產(chǎn)生式規(guī)則。,2.3,分類,分類通常用來預(yù)測(cè)對(duì)象的類標(biāo)號(hào)。例如,銀行信貸部門可以根據(jù)一個(gè)顧客信用信息數(shù)據(jù)庫(kù),將功課的信用等級(jí)記錄為一般或良好,然后根據(jù)挖掘得出信用良好的顧客信息特征,應(yīng)用這些特征描述,可以有效發(fā)現(xiàn)優(yōu)質(zhì)客戶。
11、這一分類過程主要含有兩個(gè)步驟:,(,1,)如圖所示:建立一個(gè)已知數(shù)據(jù)集類別或概念的模型。,分類算法,分類規(guī)則,if,年齡,=30-40,且,收入,=,高,則,信用評(píng)估,=,良好,姓名,年齡,收入,信用評(píng)估,汪明,王剛,李勇,30,40,40,30,33-40,高,低,高,一般,一般,良好,圖,2-5,分類挖掘第二步:分類測(cè)試,良好,測(cè)試數(shù)據(jù),2.4,聚類分析,與分類技術(shù)不同,在機(jī)器學(xué)習(xí)中,聚類是一種無指導(dǎo)學(xué)習(xí)。也就是說,,聚類分析是在預(yù)先不知道欲劃分類的情況下,根據(jù)信息相似度原則進(jìn)行信息集聚的一種方法,。聚類的目的是使得屬于同一類別的個(gè)體之間的差別盡可能的小,而不同類別上的個(gè)體見的差別盡可能的
12、大。因此,聚類的意義就在于將觀察到的內(nèi)容組織成類分層結(jié)構(gòu),把類似的事物組織在一起。通過聚類,人們能夠識(shí)別密集的和稀疏的區(qū)域,因而發(fā)現(xiàn)全局的分布模式,以及數(shù)據(jù)屬性之間的有趣的關(guān)系。,數(shù)據(jù)聚類分析是一個(gè)正在蓬勃發(fā)展的領(lǐng)域。聚類技術(shù)主要是以統(tǒng)計(jì)方法、機(jī)器學(xué)習(xí)、神經(jīng)網(wǎng)絡(luò)等方法為基礎(chǔ)。比較有代表性的聚類技術(shù)是基于幾何距離的聚類方法,如歐氏距離、曼哈坦(,Manhattan,)距離、明考斯基(,Minkowski,)距離等。,2.4,聚類分析,聚類分析廣泛應(yīng)用于商業(yè)、生物、地理、網(wǎng)絡(luò)服務(wù)等多種領(lǐng)域。例如,聚類可以幫助市場(chǎng)分析人員從客戶基本庫(kù)中發(fā)現(xiàn)不同的客戶群,并能用不同的購(gòu)買模式來刻畫不同的客戶群的特征,
13、如圖,2-6,顯示了一個(gè)城市內(nèi)顧客位置的二維圖,數(shù)據(jù)點(diǎn)的三個(gè)簇是顯而易見的。聚類還可以從地球觀測(cè)數(shù)據(jù)庫(kù)中幫助識(shí)別具有相似土地使用情況的區(qū)域;以及可以幫助分類識(shí)別互聯(lián)網(wǎng)上的文檔以便進(jìn)行信息發(fā)現(xiàn)等等。,圖,2-6,一個(gè)城市內(nèi)顧客位置的二維圖,2.5,預(yù)測(cè),預(yù)測(cè)型知識(shí)(,Prediction,)是指由歷史的和當(dāng)前的數(shù)據(jù)產(chǎn)生的并能推測(cè)未來數(shù)據(jù)趨勢(shì)的知識(shí),。,這類知識(shí)可以被認(rèn)為是以時(shí)間為關(guān)鍵屬性的關(guān)聯(lián)知識(shí),因此上面介紹的關(guān)聯(lián)知識(shí)挖掘方法可以應(yīng)用到以時(shí)間為關(guān)鍵屬性的源數(shù)據(jù)挖掘中。,前面介紹分類知識(shí)挖掘時(shí)曾經(jīng)提到過:分類通常用來預(yù)測(cè)對(duì)象的類標(biāo)號(hào)。然而,在某些應(yīng)用中,人們可能希望預(yù)測(cè)某些遺漏的或不知道的數(shù)據(jù)值
14、,而不是類標(biāo)號(hào)。,當(dāng)被預(yù)測(cè)的值是數(shù)值數(shù)據(jù)時(shí),通常稱之為預(yù)測(cè),。,也就是說,預(yù)測(cè)用于預(yù)測(cè)數(shù)據(jù)對(duì)象的連續(xù)取值,如:可以構(gòu)造一個(gè)分類模型來對(duì)銀行貸款進(jìn)行風(fēng)險(xiǎn)評(píng)估(安全或危險(xiǎn));也可建立一個(gè)預(yù)測(cè)模型以利用顧客收入與職業(yè)(參數(shù))預(yù)測(cè)其可能用于購(gòu)買計(jì)算機(jī)設(shè)備的支出大小。,2.5,預(yù)測(cè),例如,表,2-3,給出了一組年薪數(shù)據(jù)。其中,,X,表示大學(xué)畢業(yè)后工作的年數(shù),而,Y,是對(duì)應(yīng)的收入。這些數(shù)據(jù)點(diǎn)如圖,2-7,所示,暗示我們,X,和,Y,之間存在線性關(guān)系。我們可以采用某種方法推出預(yù)測(cè)模型,從而可以利用這一模型預(yù)測(cè)有,10,年工作經(jīng)驗(yàn)的大學(xué)畢業(yè)生的年薪。,X,(,工作年數(shù)),Y,(,年薪(單位:,$1K,),3,
15、8,9,13,3,6,11,21,1,16,30,57,64,72,36,43,59,90,20,83,表,2-3,工作年數(shù)與年薪關(guān)系表,圖,2-7,工作年數(shù)與年薪對(duì)應(yīng)的關(guān)系圖,2.5,預(yù)測(cè),預(yù)測(cè)型知識(shí)的挖掘可以利用統(tǒng)計(jì)學(xué)中的回歸方法,通過歷史數(shù)據(jù)直接產(chǎn)生連續(xù)的對(duì)未來數(shù)據(jù)的預(yù)測(cè)值;可以借助于經(jīng)典的統(tǒng)計(jì)方法、神經(jīng)網(wǎng)絡(luò)和機(jī)器學(xué)習(xí)等技術(shù)。無論如何,經(jīng)典的統(tǒng)計(jì)學(xué)方法是挖掘預(yù)測(cè)知識(shí)的基礎(chǔ)。,2.6,時(shí)間序列,具有一個(gè)或多個(gè)時(shí)間屬性的預(yù)測(cè)應(yīng)用稱為時(shí)間序列問題,。時(shí)間序列是數(shù)據(jù)存在的特殊形式,序列的過去值會(huì)影響到將來值,這種影響的大小以及影響的方式可由時(shí)間序列中的趨勢(shì)周期及非平穩(wěn)等行為來刻畫。,例如:系統(tǒng)調(diào)
16、用日志記錄了操作系統(tǒng)及其系統(tǒng)進(jìn)程調(diào)用的時(shí)間序列,通過對(duì)正常調(diào)用序列的學(xué)習(xí)可以預(yù)測(cè)隨后發(fā)生的系統(tǒng)調(diào)用序列、發(fā)現(xiàn)異常的調(diào)用。表,2-4,給出了一個(gè)系統(tǒng)調(diào)用數(shù)據(jù)表。,這樣的數(shù)據(jù)源可以通過適當(dāng)?shù)臄?shù)據(jù)整理使之成為調(diào)用序列,如表,2-5,,再通相應(yīng)的挖掘算法達(dá)到跟蹤和分析操作系統(tǒng)審計(jì)數(shù)據(jù)的目的。,2.6,時(shí)間序列,進(jìn)程號(hào),(,pro,id,),調(diào)用時(shí)間,(,call,time,),調(diào)用號(hào),(,call,id,),744,744,1069,9,1069,744,1069,9,-1,04,:,01,:,10,:,30,04,:,01,:,10,:,31,04,:,01,:,10,:,32,04,:,01,:,10,:,34,04,:,01,:,10,:,35,04,:,01,:,10,:,38,04,:,01,:,10,:,39,04,:,01,:,10,:,40,23,14,4,24,5,81,62,16,進(jìn)程號(hào)(,pro,id,),調(diào)用序列(,call,sequence,),744,1069,9,表,2-4,系統(tǒng)進(jìn)程調(diào)用數(shù)據(jù)示例,表,2-5,系統(tǒng)調(diào)用序列數(shù)據(jù)表示例,2.7,偏差檢測(cè),偏差檢測(cè)(,d
- 溫馨提示:
1: 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2: 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3.本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 裝配圖網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 第11講-相對(duì)定向
- 部編八級(jí)上冊(cè)-經(jīng)濟(jì)和社會(huì)生活的變化課件
- 光學(xué)部份復(fù)習(xí)幻燈片
- 健康:保護(hù)牙齒 (2)
- 新人培訓(xùn)之市場(chǎng)部門員工培訓(xùn)(財(cái)務(wù))
- 五上Module2復(fù)習(xí)課件
- 做一個(gè)有道德的人主題班會(huì)
- 選擇希望人生課件3-人教版
- 前廳運(yùn)行與管理課程課件
- 海事和海事預(yù)防 (2)
- 課輝煌的隋唐文化課件1
- 信息搜索新發(fā)展
- 牛津譯林版七年級(jí)英語下冊(cè)(7B)Unit7-Integrated-SKills課件
- 骨的形態(tài)和結(jié)構(gòu)ppt
- 預(yù)定登記總控和優(yōu)惠價(jià)格分析