《第2章數(shù)據(jù)挖掘可挖掘的知識類型》由會員分享,可在線閱讀,更多相關(guān)《第2章數(shù)據(jù)挖掘可挖掘的知識類型(24頁珍藏版)》請?jiān)谘b配圖網(wǎng)上搜索。
1、單擊此處編輯母版文本樣式,第二級,第三級,第四級,第五級,*,單擊此處編輯母版標(biāo)題樣式,數(shù)據(jù)挖掘原理與,SPSS Clementine,應(yīng)用寶典,元昌安 主編,鄧松李文敬劉海濤編著,電子工業(yè)出版社,雙擊添加主標(biāo)題,概念,/,類描述,關(guān)聯(lián)模式,分類,聚類分析,預(yù)測,時間序列,偏差檢測,2,概念,/,類描述,就是通過對某類對象關(guān)聯(lián)數(shù)據(jù)的匯總、分析和比較,用匯總的、簡潔的、精確的方式對此類對象的內(nèi)涵進(jìn)行描述,并概括這類對象的有關(guān)特征。,概念描述分為,特征性描述,和,區(qū)別性描述,。,特征性描述,是指從與某類對象相關(guān)的一組數(shù)據(jù)中提取出關(guān)于這些對象的共同特征。生成一個類的特征性描述只涉及該類對象中所有對象
2、的共性。,區(qū)別性描述,描述兩個或更多個不同類對象之間的差異。生成區(qū)別性描述則涉及目標(biāo)類和對比類中對象的共性。,2.1,概念,/,類描述,2.1,概念,/,類描述,數(shù)據(jù)特征的輸出可以用多種形式提供。包括餅圖、條圖、曲線、多維數(shù)據(jù)方和包括交叉表在內(nèi)的多維表。結(jié)果描述也可以用泛化關(guān)系或規(guī)則(稱作特征規(guī)則)形式提供。,例如:利用面向?qū)傩缘臍w納方法(,AOI,),在一個商場數(shù)據(jù)庫(,2000,銷售)中進(jìn)行屬性歸納操作,獲得了如下的歸納結(jié)果:,表,2-1 AOI,方法挖掘結(jié)果表格表示示意描述,地點(diǎn),商品,銷售額(百萬),個數(shù)累計(千),亞洲,歐洲,北美,亞洲,歐洲,北美,電視,電視,電視,電腦,電腦,電腦
3、,15,12,28,120,150,200,300,250,450,1000,1200,1800,2.1,概念,/,類描述,對于以上結(jié)果,也可以用組合表(,crosstab,)或其他圖表的形式來加以描述。數(shù)據(jù)分析中可視化圖示非常普遍。,表,2-2,對應(yīng)表,2-1,的組合表表示描述 圖,2-1,對應(yīng)表,2-2,棒圖表示描述,TV,Computer,TV+Computer,sales,count,sales,count,sales,count,Asia,15,300,120,1000,135,1300,Europe,12,250,150,1200,162,1450,North_Amaerica,2
4、8,450,200,1800,228,2250,All_region,45,1000,470,4000,525,5000,item,Location,2.1,概念,/,類描述,圖,2-2,對應(yīng)表,2-1,(部分?jǐn)?shù)據(jù))的餅圖表示描述,北美,51%,亞洲,27%,歐洲,22%,電視銷售圖,2.1,概念,/,類描述,區(qū)別性描述是將目標(biāo)類對象的一般特性與一個或多個對比類對象的一般特性比較。這種比較必須是在具備可比性的兩個或多個類之間進(jìn)行。,例如,對某校講師和副教授的特征進(jìn)行比較,可能會得到這樣一條規(guī)則:,“講師:(,78%,)(,paper3,),and(teaching course=3,),and
5、(teaching course=2)”,;,該對比規(guī)則表示該校講師中約有四分至三的人發(fā)表論文少于三篇且主講課程不超過一門;而對比之下該校副教授中約有三分至二的人發(fā)表論文不少于三篇且主講課程不少于一門。,2.2,關(guān)聯(lián)模式,關(guān)聯(lián)模式挖掘旨在從大量的數(shù)據(jù)當(dāng)中發(fā)現(xiàn)特征之間或數(shù)據(jù)之間的相互依賴關(guān)系。這種存在于給定數(shù)據(jù)集中的頻繁出現(xiàn)的關(guān)聯(lián)模式,又稱為關(guān)聯(lián)規(guī)則。關(guān)聯(lián)可分為簡單關(guān)聯(lián)、時序關(guān)聯(lián)、因果關(guān)聯(lián)等。這些關(guān)聯(lián)并不總是事先知道,而是通過數(shù)據(jù)庫中數(shù)據(jù)的關(guān)聯(lián)分析獲得的,其對商業(yè)決策具有重要價值。因而關(guān)聯(lián)分析廣泛用于市場營銷、事務(wù)分析等應(yīng)用領(lǐng)域。,挖掘關(guān)聯(lián)知識的一個典型應(yīng)用實(shí)例就是市場購物分析。根據(jù)被放到一個購
6、物袋的(購物)內(nèi)容記錄數(shù)據(jù)而發(fā)現(xiàn)的不同(被購買)商品之間所存在的關(guān)聯(lián)知識無疑將會幫助商家分析顧客的購買習(xí)慣。發(fā)現(xiàn)常在一起被購買的商品(關(guān)聯(lián)知識)將幫助商家指定有針對性的市場策略。,比如:顧客在購買牛奶時,是否也可能同時購買面包或會購買哪個牌子的面包,顯然能夠回答這些問題的有關(guān)信息肯定回有效地幫助商家進(jìn)行有針對性的促銷,以及進(jìn)行合適的貨架商品擺放。如可以將牛奶和面包放在相近的地方或許會促進(jìn)這兩個商品的銷售。,2.2,關(guān)聯(lián)模式,根據(jù)關(guān)聯(lián)規(guī)則所涉及變量的多少,可以分為,多維關(guān)聯(lián)規(guī)則,和,單維關(guān)聯(lián)規(guī)則,。通常,關(guān)聯(lián)規(guī)則具有:,X,Y,的形式,即”,A1,.,Am,B1,.,Bn,”,的規(guī)則;其中,Ai
7、(i,1,.,m),Bj,(j,1,.,n),是屬性,-,值對。關(guān)聯(lián)規(guī)則,X,Y,解釋為“滿足,X,中條件的數(shù)據(jù)庫元組多半也滿足,Y,中條件”。,例如:一個數(shù)據(jù)挖掘系統(tǒng)可以從一個商場的銷售,(,交易事務(wù)處理,),記錄數(shù)據(jù)中,挖掘出如下所示的關(guān)聯(lián)規(guī)則:,age(X,”20-29”)income(X,”20K-30K”),buys(X,,”,mp3”)support=2%,confidence=60%,上述關(guān)聯(lián)規(guī)則表示:該商場有的顧客年齡在,20,歲到,29,歲且收入在,2,萬到,3,萬之間,這群顧客中有,60%,的人購買了,MP3,,或者說這群顧客購買,MP3,的概率為六成。這一規(guī)則涉及到,年齡
8、,、,收入,和,購買,三個變量,(,即三維,),,可稱為,多維關(guān)聯(lián)規(guī)則,。,2.2,關(guān)聯(lián)模式,對于一個商場經(jīng)理,或許更想知道哪些商品是常被一起購買,描述這種情況的一條關(guān)聯(lián)規(guī)則可能是,:,Contains(X,”computer,”),contain(X,”software,”)support=1%,confidence=60%,上述關(guān)聯(lián)規(guī)則表示:該商場,1%,銷售交易事物記錄中包含“,computer”,和“,software”,兩個商品;而對于一條包含(購買)“,computer”,商品的交易事物記錄有,60%,可能也包含(購買)”,software”,商品。這條記錄中由于只涉及到購買事物這
9、一個變量,所以稱為,單維關(guān)聯(lián)規(guī)則,。,2.3,分類,分類是數(shù)據(jù)挖掘中一項(xiàng)非常重要的任務(wù),利用分類可以從數(shù)據(jù)集中提取描述數(shù)據(jù)類的一個函數(shù)或模型(也常稱為分類器),并把數(shù)據(jù)集中的每個對象歸結(jié)到某個已知的對象類中。,從機(jī)器學(xué)習(xí)的觀點(diǎn),,分類技術(shù)是一種有指導(dǎo)的學(xué)習(xí),即每個訓(xùn)練樣本的數(shù)據(jù)對象已經(jīng)有類標(biāo)識,通過學(xué)習(xí)可以形成表達(dá)數(shù)據(jù)對象與類標(biāo)識間對應(yīng)的知識,從這個意義上說,數(shù)據(jù)挖掘的目標(biāo)就是根據(jù)樣本數(shù)據(jù)形成的類知識并對源數(shù)據(jù)進(jìn)行分類,進(jìn)而也可以預(yù)測未來數(shù)據(jù)的歸類。,2.3,分類,分類挖掘所獲的分類模型可以采用多種形式加以描述輸出。其中主要的表示方法有:分類規(guī)則(,IF-THEN,)、決策樹(,decisio
10、n tree,)、數(shù)學(xué)公式(,mathematical formulae,)和神經(jīng)網(wǎng)絡(luò)。,決策樹是一個類似于流程圖的結(jié)構(gòu),每個結(jié)點(diǎn)代表一個屬性值上的測試,每個分枝代表測試的一個輸出,樹葉代表類或類分布。決策樹容易轉(zhuǎn)換成分類規(guī)則。,神經(jīng)網(wǎng)絡(luò)用于分類時,是一組類似于神經(jīng)元的處理單元,單元之間加權(quán)連接。,另外,最近有興起了一種新的方法,粗糙集(,rough set,),其知識表示是產(chǎn)生式規(guī)則。,2.3,分類,分類通常用來預(yù)測對象的類標(biāo)號。例如,銀行信貸部門可以根據(jù)一個顧客信用信息數(shù)據(jù)庫,將功課的信用等級記錄為一般或良好,然后根據(jù)挖掘得出信用良好的顧客信息特征,應(yīng)用這些特征描述,可以有效發(fā)現(xiàn)優(yōu)質(zhì)客戶。
11、這一分類過程主要含有兩個步驟:,(,1,)如圖所示:建立一個已知數(shù)據(jù)集類別或概念的模型。,分類算法,分類規(guī)則,if,年齡,=30-40,且,收入,=,高,則,信用評估,=,良好,姓名,年齡,收入,信用評估,汪明,王剛,李勇,30,40,40,30,33-40,高,低,高,一般,一般,良好,圖,2-5,分類挖掘第二步:分類測試,良好,測試數(shù)據(jù),2.4,聚類分析,與分類技術(shù)不同,在機(jī)器學(xué)習(xí)中,聚類是一種無指導(dǎo)學(xué)習(xí)。也就是說,,聚類分析是在預(yù)先不知道欲劃分類的情況下,根據(jù)信息相似度原則進(jìn)行信息集聚的一種方法,。聚類的目的是使得屬于同一類別的個體之間的差別盡可能的小,而不同類別上的個體見的差別盡可能的
12、大。因此,聚類的意義就在于將觀察到的內(nèi)容組織成類分層結(jié)構(gòu),把類似的事物組織在一起。通過聚類,人們能夠識別密集的和稀疏的區(qū)域,因而發(fā)現(xiàn)全局的分布模式,以及數(shù)據(jù)屬性之間的有趣的關(guān)系。,數(shù)據(jù)聚類分析是一個正在蓬勃發(fā)展的領(lǐng)域。聚類技術(shù)主要是以統(tǒng)計方法、機(jī)器學(xué)習(xí)、神經(jīng)網(wǎng)絡(luò)等方法為基礎(chǔ)。比較有代表性的聚類技術(shù)是基于幾何距離的聚類方法,如歐氏距離、曼哈坦(,Manhattan,)距離、明考斯基(,Minkowski,)距離等。,2.4,聚類分析,聚類分析廣泛應(yīng)用于商業(yè)、生物、地理、網(wǎng)絡(luò)服務(wù)等多種領(lǐng)域。例如,聚類可以幫助市場分析人員從客戶基本庫中發(fā)現(xiàn)不同的客戶群,并能用不同的購買模式來刻畫不同的客戶群的特征,
13、如圖,2-6,顯示了一個城市內(nèi)顧客位置的二維圖,數(shù)據(jù)點(diǎn)的三個簇是顯而易見的。聚類還可以從地球觀測數(shù)據(jù)庫中幫助識別具有相似土地使用情況的區(qū)域;以及可以幫助分類識別互聯(lián)網(wǎng)上的文檔以便進(jìn)行信息發(fā)現(xiàn)等等。,圖,2-6,一個城市內(nèi)顧客位置的二維圖,2.5,預(yù)測,預(yù)測型知識(,Prediction,)是指由歷史的和當(dāng)前的數(shù)據(jù)產(chǎn)生的并能推測未來數(shù)據(jù)趨勢的知識,。,這類知識可以被認(rèn)為是以時間為關(guān)鍵屬性的關(guān)聯(lián)知識,因此上面介紹的關(guān)聯(lián)知識挖掘方法可以應(yīng)用到以時間為關(guān)鍵屬性的源數(shù)據(jù)挖掘中。,前面介紹分類知識挖掘時曾經(jīng)提到過:分類通常用來預(yù)測對象的類標(biāo)號。然而,在某些應(yīng)用中,人們可能希望預(yù)測某些遺漏的或不知道的數(shù)據(jù)值
14、,而不是類標(biāo)號。,當(dāng)被預(yù)測的值是數(shù)值數(shù)據(jù)時,通常稱之為預(yù)測,。,也就是說,預(yù)測用于預(yù)測數(shù)據(jù)對象的連續(xù)取值,如:可以構(gòu)造一個分類模型來對銀行貸款進(jìn)行風(fēng)險評估(安全或危險);也可建立一個預(yù)測模型以利用顧客收入與職業(yè)(參數(shù))預(yù)測其可能用于購買計算機(jī)設(shè)備的支出大小。,2.5,預(yù)測,例如,表,2-3,給出了一組年薪數(shù)據(jù)。其中,,X,表示大學(xué)畢業(yè)后工作的年數(shù),而,Y,是對應(yīng)的收入。這些數(shù)據(jù)點(diǎn)如圖,2-7,所示,暗示我們,X,和,Y,之間存在線性關(guān)系。我們可以采用某種方法推出預(yù)測模型,從而可以利用這一模型預(yù)測有,10,年工作經(jīng)驗(yàn)的大學(xué)畢業(yè)生的年薪。,X,(,工作年數(shù)),Y,(,年薪(單位:,$1K,),3,
15、8,9,13,3,6,11,21,1,16,30,57,64,72,36,43,59,90,20,83,表,2-3,工作年數(shù)與年薪關(guān)系表,圖,2-7,工作年數(shù)與年薪對應(yīng)的關(guān)系圖,2.5,預(yù)測,預(yù)測型知識的挖掘可以利用統(tǒng)計學(xué)中的回歸方法,通過歷史數(shù)據(jù)直接產(chǎn)生連續(xù)的對未來數(shù)據(jù)的預(yù)測值;可以借助于經(jīng)典的統(tǒng)計方法、神經(jīng)網(wǎng)絡(luò)和機(jī)器學(xué)習(xí)等技術(shù)。無論如何,經(jīng)典的統(tǒng)計學(xué)方法是挖掘預(yù)測知識的基礎(chǔ)。,2.6,時間序列,具有一個或多個時間屬性的預(yù)測應(yīng)用稱為時間序列問題,。時間序列是數(shù)據(jù)存在的特殊形式,序列的過去值會影響到將來值,這種影響的大小以及影響的方式可由時間序列中的趨勢周期及非平穩(wěn)等行為來刻畫。,例如:系統(tǒng)調(diào)
16、用日志記錄了操作系統(tǒng)及其系統(tǒng)進(jìn)程調(diào)用的時間序列,通過對正常調(diào)用序列的學(xué)習(xí)可以預(yù)測隨后發(fā)生的系統(tǒng)調(diào)用序列、發(fā)現(xiàn)異常的調(diào)用。表,2-4,給出了一個系統(tǒng)調(diào)用數(shù)據(jù)表。,這樣的數(shù)據(jù)源可以通過適當(dāng)?shù)臄?shù)據(jù)整理使之成為調(diào)用序列,如表,2-5,,再通相應(yīng)的挖掘算法達(dá)到跟蹤和分析操作系統(tǒng)審計數(shù)據(jù)的目的。,2.6,時間序列,進(jìn)程號,(,pro,id,),調(diào)用時間,(,call,time,),調(diào)用號,(,call,id,),744,744,1069,9,1069,744,1069,9,-1,04,:,01,:,10,:,30,04,:,01,:,10,:,31,04,:,01,:,10,:,32,04,:,01,:,10,:,34,04,:,01,:,10,:,35,04,:,01,:,10,:,38,04,:,01,:,10,:,39,04,:,01,:,10,:,40,23,14,4,24,5,81,62,16,進(jìn)程號(,pro,id,),調(diào)用序列(,call,sequence,),744,1069,9,表,2-4,系統(tǒng)進(jìn)程調(diào)用數(shù)據(jù)示例,表,2-5,系統(tǒng)調(diào)用序列數(shù)據(jù)表示例,2.7,偏差檢測,偏差檢測(,d