數(shù)據(jù)挖掘技術(shù) 分類挖掘及其應(yīng)用PPT課件
《數(shù)據(jù)挖掘技術(shù) 分類挖掘及其應(yīng)用PPT課件》由會員分享,可在線閱讀,更多相關(guān)《數(shù)據(jù)挖掘技術(shù) 分類挖掘及其應(yīng)用PPT課件(22頁珍藏版)》請在裝配圖網(wǎng)上搜索。
1、第5章 分類挖掘及其應(yīng)用5.1 分類概念分類概念 5.1.1概述概述 分類和預(yù)測是兩種數(shù)據(jù)分析形式,可以用于描述重要數(shù)據(jù)類的分類和預(yù)測是兩種數(shù)據(jù)分析形式,可以用于描述重要數(shù)據(jù)類的模型或預(yù)測未來的數(shù)據(jù)趨勢。然而模型或預(yù)測未來的數(shù)據(jù)趨勢。然而,分類是預(yù)測分類標(biāo)號(或離散值分類是預(yù)測分類標(biāo)號(或離散值),而預(yù)測建立連續(xù)值函數(shù)模型。而預(yù)測建立連續(xù)值函數(shù)模型。 數(shù)據(jù)分類(數(shù)據(jù)分類(data classification)是一個兩步過程)是一個兩步過程: 第一步,建立一個模型第一步,建立一個模型,描述預(yù)定的數(shù)據(jù)類集或概念集描述預(yù)定的數(shù)據(jù)類集或概念集 ; 第二步,使用模型進(jìn)行分類。第二步,使用模型進(jìn)行分類。
2、 如果認(rèn)為模型的準(zhǔn)確率可以接受如果認(rèn)為模型的準(zhǔn)確率可以接受,就可以用它對類標(biāo)號未知的數(shù)據(jù)就可以用它對類標(biāo)號未知的數(shù)據(jù)元組或?qū)ο筮M(jìn)行分類。元組或?qū)ο筮M(jìn)行分類。 分類具有廣泛的應(yīng)用分類具有廣泛的應(yīng)用,包括信譽證實、醫(yī)療診斷、性能預(yù)測和選擇包括信譽證實、醫(yī)療診斷、性能預(yù)測和選擇購物。購物。第1頁/共22頁5.1.2分類預(yù)處理分類預(yù)處理準(zhǔn)備分類的數(shù)據(jù)準(zhǔn)備分類的數(shù)據(jù) 可以對數(shù)據(jù)使用下面的預(yù)處理以便提高分類過程的準(zhǔn)確性、可以對數(shù)據(jù)使用下面的預(yù)處理以便提高分類過程的準(zhǔn)確性、有效性有效性 和可伸縮性。和可伸縮性。 1)數(shù)據(jù)清理)數(shù)據(jù)清理 2)相關(guān)性分析)相關(guān)性分析 3)數(shù)據(jù)變換)數(shù)據(jù)變換 分類方法評估分類方法
3、評估 分類方法可以根據(jù)下列標(biāo)準(zhǔn)進(jìn)行比較和評估。分類方法可以根據(jù)下列標(biāo)準(zhǔn)進(jìn)行比較和評估。 1)測的準(zhǔn)確率)測的準(zhǔn)確率 2)速度)速度 3)強壯性)強壯性 4)可伸縮性)可伸縮性 5)可解)可解釋性釋性 數(shù)據(jù)庫研究界對數(shù)據(jù)挖掘的分類的貢獻(xiàn)一直強調(diào)可伸縮性,數(shù)據(jù)庫研究界對數(shù)據(jù)挖掘的分類的貢獻(xiàn)一直強調(diào)可伸縮性,特別是特別是 對判定樹歸納。對判定樹歸納。第5章 分類挖掘及其應(yīng)用第2頁/共22頁5.2 分類挖掘算分類挖掘算法法 5.2.1決策樹分類決策樹分類 決策樹學(xué)習(xí)算法包括如決策樹學(xué)習(xí)算法包括如ID3算法(算法(C4.5), SLI(supervised learning in quest)算法。)算
4、法。 5.2.2 貝葉斯分類貝葉斯分類 貝葉斯分類算法是利用概率統(tǒng)計知識進(jìn)行分類的分類算法。貝葉斯分類算法是利用概率統(tǒng)計知識進(jìn)行分類的分類算法。 5.2.3 基于關(guān)聯(lián)規(guī)則分類基于關(guān)聯(lián)規(guī)則分類 CBA算法(算法(classification based on association)是)是基于關(guān)聯(lián)規(guī)則的分類算法?;陉P(guān)聯(lián)規(guī)則的分類算法。 LB(Large Bayes)算法是綜合了概率統(tǒng)計和關(guān)聯(lián)規(guī)則的)算法是綜合了概率統(tǒng)計和關(guān)聯(lián)規(guī)則的知識而提出的分類算法。知識而提出的分類算法。 5.2.4 基于數(shù)據(jù)庫技術(shù)分類基于數(shù)據(jù)庫技術(shù)分類 在分類算法中,利用數(shù)據(jù)庫技術(shù)解決分類問題的算法。目前,在分類算法中,利
5、用數(shù)據(jù)庫技術(shù)解決分類問題的算法。目前,有有MIND和和GAC-RDB兩類。兩類。第5章 分類挖掘及其應(yīng)用第3頁/共22頁 5.2.5 基于支持向量機分類基于支持向量機分類 支持向量機(支持向量機(SVM)分類算法是在有較堅實數(shù)學(xué)理論基礎(chǔ)的)分類算法是在有較堅實數(shù)學(xué)理論基礎(chǔ)的統(tǒng)計學(xué)理論及優(yōu)化技術(shù)之上發(fā)展起來的機器學(xué)習(xí)方法。統(tǒng)計學(xué)理論及優(yōu)化技術(shù)之上發(fā)展起來的機器學(xué)習(xí)方法。 One-class是標(biāo)準(zhǔn)是標(biāo)準(zhǔn)SVM分類算法的改進(jìn),該算法(無監(jiān)督)分類算法的改進(jìn),該算法(無監(jiān)督)僅僅需要使用正例作為輸入數(shù)據(jù),通過從正例中識別出孤立點作僅僅需要使用正例作為輸入數(shù)據(jù),通過從正例中識別出孤立點作為反例,然后再使
6、用基于為反例,然后再使用基于SVM的標(biāo)準(zhǔn)分類技術(shù)來完成分類的標(biāo)準(zhǔn)分類技術(shù)來完成分類 。 其他分類算法還包括神經(jīng)網(wǎng)絡(luò)方法,其他分類算法還包括神經(jīng)網(wǎng)絡(luò)方法,k_最鄰近分類,粗糙集合最鄰近分類,粗糙集合方法,模糊集方法等。方法,模糊集方法等。 5.2.6 基于基于AIS模型分類算法模型分類算法 這種分類算法主要用來找尋樣本集合中主要類別的分類規(guī)則,這種分類算法主要用來找尋樣本集合中主要類別的分類規(guī)則,用于劃分主類和其他類。對于其他類,同樣可以看做一個樣本集用于劃分主類和其他類。對于其他類,同樣可以看做一個樣本集合,再次利用該分類算法進(jìn)行分類。合,再次利用該分類算法進(jìn)行分類。 第5章 分類挖掘及其應(yīng)用
7、第4頁/共22頁5.3人工免疫算法及其在故障診斷中的應(yīng)人工免疫算法及其在故障診斷中的應(yīng)用用 5.3.1人工免疫算法人工免疫算法5.3.1.1引言引言 本節(jié)闡明了不同免疫算法或免疫理論的原理,同時也提出了常用本節(jié)闡明了不同免疫算法或免疫理論的原理,同時也提出了常用的人工免疫系統(tǒng)的一般模型框架。這些技術(shù)己經(jīng)被成功的用于模式識別的人工免疫系統(tǒng)的一般模型框架。這些技術(shù)己經(jīng)被成功的用于模式識別和數(shù)據(jù)挖掘、故障檢測與診斷、計算機安全及其它各種應(yīng)用。和數(shù)據(jù)挖掘、故障檢測與診斷、計算機安全及其它各種應(yīng)用。5.3.1.2典型的人工免疫算法典型的人工免疫算法(1)克隆選擇算法;)克隆選擇算法;(2)否定選擇算法;
8、)否定選擇算法;(3)免疫網(wǎng)絡(luò)算法)免疫網(wǎng)絡(luò)算法 ;(4)基于信息嫡的免疫算法;)基于信息嫡的免疫算法;(5)免疫進(jìn)化算法;)免疫進(jìn)化算法;(6)其它學(xué)習(xí)算法:免疫目標(biāo)算法、免疫)其它學(xué)習(xí)算法:免疫目標(biāo)算法、免疫Agent算法、免疫算法、免疫DNA算法、算法、基于人工免疫系統(tǒng)的無監(jiān)督學(xué)習(xí)策略。基于人工免疫系統(tǒng)的無監(jiān)督學(xué)習(xí)策略。第5章 分類挖掘及其應(yīng)用第5頁/共22頁5.3.2基于否定選擇算法的故障診斷方基于否定選擇算法的故障診斷方法法 在現(xiàn)階段的故障診斷領(lǐng)域,常用的診斷方法包括模在現(xiàn)階段的故障診斷領(lǐng)域,常用的診斷方法包括模糊診斷、專家系統(tǒng)、人工神經(jīng)網(wǎng)絡(luò)等,主要思想是將人糊診斷、專家系統(tǒng)、人工神
9、經(jīng)網(wǎng)絡(luò)等,主要思想是將人們掌握的有關(guān)故障的知識加工成智能診斷系統(tǒng)所能接受們掌握的有關(guān)故障的知識加工成智能診斷系統(tǒng)所能接受的語言或語法,并將其存儲記錄下來,診斷過程的實質(zhì)的語言或語法,并將其存儲記錄下來,診斷過程的實質(zhì)是待診樣本與系統(tǒng)所記憶的故障知識的匹配過程。是待診樣本與系統(tǒng)所記憶的故障知識的匹配過程。第5章 分類挖掘及其應(yīng)用第6頁/共22頁5.3.2.1基于基于aiNet故障樣本約減研究故障樣本約減研究免疫網(wǎng)絡(luò)模型免疫網(wǎng)絡(luò)模型 )網(wǎng)絡(luò)定義與描述網(wǎng)絡(luò)定義與描述 【定義定義】aiNet是一個邊界加權(quán)圖,無需全部連接,是一個邊界加權(quán)圖,無需全部連接,又稱為又稱為細(xì)胞的節(jié)點集合組成,節(jié)點對集合稱為邊
10、界。細(xì)胞的節(jié)點集合組成,節(jié)點對集合稱為邊界。 2)網(wǎng)絡(luò)算法約減過程網(wǎng)絡(luò)算法約減過程(如下圖)(如下圖)第5章 分類挖掘及其應(yīng)用第7頁/共22頁 圖圖5-1 aiNet算法流程圖算法流程圖 第5章 分類挖掘及其應(yīng)用第8頁/共22頁 3)實驗結(jié)果分析)實驗結(jié)果分析 綜上分析表明綜上分析表明aiNet網(wǎng)絡(luò)具有較好的數(shù)據(jù)約網(wǎng)絡(luò)具有較好的數(shù)據(jù)約減能力,在樣本壓縮率減能力,在樣本壓縮率較高的情況下,仍能保較高的情況下,仍能保持原有的數(shù)據(jù)結(jié)構(gòu)和聚持原有的數(shù)據(jù)結(jié)構(gòu)和聚類特性類特性.第5章 分類挖掘及其應(yīng)用免疫網(wǎng)絡(luò)模型第9頁/共22頁5.3.2.2基于否定選擇算法的變壓器故障診斷基于否定選擇算法的變壓器故障診斷
11、方法方法 傳統(tǒng)變壓器故障診斷方法傳統(tǒng)變壓器故障診斷方法-三比值法簡介三比值法簡介 三比值法是三比值法是IEC推薦的一種方法推薦的一種方法,是羅杰斯比值法的是羅杰斯比值法的一種改進(jìn)一種改進(jìn)。該方法是通過計該方法是通過計C2H2/C2H4,CH4/H2,C2H4/C2H6三種比值三種比值,根據(jù)根據(jù)已知的編碼規(guī)則和故障類別已知的編碼規(guī)則和故障類別,查表確定故障類別。查表確定故障類別。 基于否定選擇算法故障診斷方法基于否定選擇算法故障診斷方法 1)數(shù)據(jù)處理及編碼)數(shù)據(jù)處理及編碼 2)匹配原則)匹配原則 3)生成檢測器)生成檢測器 4)仿真實驗)仿真實驗 第5章 分類挖掘及其應(yīng)用第10頁/共22頁5.3
12、.2.3免疫算法診斷結(jié)果和傳統(tǒng)免疫算法診斷結(jié)果和傳統(tǒng)“三比值三比值”診斷結(jié)果的的比診斷結(jié)果的的比較較 從實例分析的結(jié)果來看,基于人工免疫的否定選擇算法的故從實例分析的結(jié)果來看,基于人工免疫的否定選擇算法的故障診斷準(zhǔn)確率要高于障診斷準(zhǔn)確率要高于IEC三比值法三比值法。 (1)檢測器的個數(shù)檢測器的個數(shù) 一般情況下,檢測器的個數(shù)越多,對非我空間的覆蓋越好,一般情況下,檢測器的個數(shù)越多,對非我空間的覆蓋越好,但生成檢測器的時間也越長。而如果檢測器數(shù)量太少,則會導(dǎo)致對但生成檢測器的時間也越長。而如果檢測器數(shù)量太少,則會導(dǎo)致對非我空間的覆蓋過小而造成漏診。非我空間的覆蓋過小而造成漏診。 (2)正常樣本的個
13、數(shù)正常樣本的個數(shù) 否定選擇算法是通過對正常樣本的學(xué)習(xí)來生成檢測器的,所以否定選擇算法是通過對正常樣本的學(xué)習(xí)來生成檢測器的,所以正常樣本越多,則對自我空間的描述越完全,但由于生成檢測器時,正常樣本越多,則對自我空間的描述越完全,但由于生成檢測器時,候選檢測器要與每個自我集合的元素匹配,這樣自我集合的元素越候選檢測器要與每個自我集合的元素匹配,這樣自我集合的元素越多,生成檢測器的時間也就越長,而如果正常樣本少,則會導(dǎo)致誤多,生成檢測器的時間也就越長,而如果正常樣本少,則會導(dǎo)致誤診現(xiàn)象診現(xiàn)象。第5章 分類挖掘及其應(yīng)用第11頁/共22頁(3)自我集合的半徑自我集合的半徑 自我集合的半徑選取非常重要,取
14、得大會造成漏診,較自我集合的半徑選取非常重要,取得大會造成漏診,較小。則會造成誤診,通過反復(fù)試驗選取自我集合半徑為小。則會造成誤診,通過反復(fù)試驗選取自我集合半徑為0.01時效果最好。時效果最好。 (4)窗寬及窗口移動步長窗寬及窗口移動步長 窗寬越小對原始數(shù)據(jù)描述得越好,同時也增加了算法的復(fù)窗寬越小對原始數(shù)據(jù)描述得越好,同時也增加了算法的復(fù)雜度。通過對窗口移動步長雜度。通過對窗口移動步長winstep選取不同的值選取不同的值1,2,3,4,5進(jìn)行試驗,發(fā)現(xiàn)當(dāng)窗口移動步長進(jìn)行試驗,發(fā)現(xiàn)當(dāng)窗口移動步長winstep=1時時效果最好,因為移動步長越小,數(shù)據(jù)段之間的交迭越大,效果最好,因為移動步長越小,
15、數(shù)據(jù)段之間的交迭越大,這樣便能夠更好地刻畫原始數(shù)據(jù)的特征。這樣便能夠更好地刻畫原始數(shù)據(jù)的特征。第5章 分類挖掘及其應(yīng)用第12頁/共22頁5.3.3基于克隆變異機理的故障診斷方法研基于克隆變異機理的故障診斷方法研究究5.3.3.1引言引言 在本書中,借鑒免疫系統(tǒng)的克隆變異機理及已有人在本書中,借鑒免疫系統(tǒng)的克隆變異機理及已有人工免疫系統(tǒng)成果,結(jié)合故障診斷的實際應(yīng)用,研究具有工免疫系統(tǒng)成果,結(jié)合故障診斷的實際應(yīng)用,研究具有故障診斷能力,同時又具有對故障樣本的連續(xù)學(xué)習(xí)功能故障診斷能力,同時又具有對故障樣本的連續(xù)學(xué)習(xí)功能的自適應(yīng)故障診斷方法。最后通過對標(biāo)準(zhǔn)樣本的分類識的自適應(yīng)故障診斷方法。最后通過對標(biāo)
16、準(zhǔn)樣本的分類識別及實際的故障診斷實例驗證了本書提出方法的有效性。別及實際的故障診斷實例驗證了本書提出方法的有效性。第5章 分類挖掘及其應(yīng)用第13頁/共22頁5.3.3.2免疫克隆變異機理與克隆選擇免疫克隆變異機理與克隆選擇算法算法 當(dāng)非己抗原模式被當(dāng)非己抗原模式被B細(xì)胞識別時免疫系統(tǒng)將會把與細(xì)胞識別時免疫系統(tǒng)將會把與抗原具有高親和力的抗原具有高親和力的B細(xì)胞進(jìn)行克隆變異形成大量抗體,細(xì)胞進(jìn)行克隆變異形成大量抗體,即克隆選擇原理。即克隆選擇原理。De Castro博士依據(jù)此原理提出了博士依據(jù)此原理提出了克隆選擇算法。這是一種模擬免疫系統(tǒng)學(xué)習(xí)過程的進(jìn)化克隆選擇算法。這是一種模擬免疫系統(tǒng)學(xué)習(xí)過程的進(jìn)
17、化算法算法。 第5章 分類挖掘及其應(yīng)用第14頁/共22頁5.3.3.3故障診斷方法研究故障診斷方法研究(1)初始化)初始化 初始化可采用這種方法進(jìn)行:用已知抗原進(jìn)行初始化初始化可采用這種方法進(jìn)行:用已知抗原進(jìn)行初始化。 (2)記憶細(xì)胞辨識和人工辨識球的產(chǎn)生)記憶細(xì)胞辨識和人工辨識球的產(chǎn)生 在完成初始化后,對于給定抗原,首先將其與記憶細(xì)胞集進(jìn)在完成初始化后,對于給定抗原,首先將其與記憶細(xì)胞集進(jìn)行匹配,在記憶細(xì)胞集中,找出與抗原同類且激勵水平最高的記行匹配,在記憶細(xì)胞集中,找出與抗原同類且激勵水平最高的記憶細(xì)胞,并將該細(xì)胞命名為憶細(xì)胞,并將該細(xì)胞命名為 。如果在記憶細(xì)胞集中相同。如果在記憶細(xì)胞集中
18、相同于抗原類的記憶細(xì)胞為空,則將該抗原加入記憶細(xì)胞,并令其于抗原類的記憶細(xì)胞為空,則將該抗原加入記憶細(xì)胞,并令其為為 。一旦被確定,該細(xì)胞將被加入到人工辨識球集合,然。一旦被確定,該細(xì)胞將被加入到人工辨識球集合,然后對后對 進(jìn)行克隆變異,以便產(chǎn)生新的人工辨識球。這一過進(jìn)行克隆變異,以便產(chǎn)生新的人工辨識球。這一過程模擬了免疫系統(tǒng)克隆變異的自適應(yīng)進(jìn)化機理。程模擬了免疫系統(tǒng)克隆變異的自適應(yīng)進(jìn)化機理。matchmcmatchmcmatchmc第5章 分類挖掘及其應(yīng)用第15頁/共22頁 (3)候選記憶細(xì)胞)候選記憶細(xì)胞 經(jīng)過資源的競爭后,每類中都刪除了一些低辨識水平的人工經(jīng)過資源的競爭后,每類中都刪除了
19、一些低辨識水平的人工辨識球,是整個辨識水平得到了提高。當(dāng)進(jìn)化條件滿足后,選擇辨識球,是整個辨識水平得到了提高。當(dāng)進(jìn)化條件滿足后,選擇與訓(xùn)練抗原具有相同類且激勵水平最高的人工辨識球作為候選記與訓(xùn)練抗原具有相同類且激勵水平最高的人工辨識球作為候選記憶細(xì)胞,將該細(xì)胞定為。憶細(xì)胞,將該細(xì)胞定為。 (4)記憶細(xì)胞矩陣的形成)記憶細(xì)胞矩陣的形成 首先計算候選記憶細(xì)胞首先計算候選記憶細(xì)胞 , 兩個細(xì)胞與給兩個細(xì)胞與給定抗原的激勵值,當(dāng)滿足式(定抗原的激勵值,當(dāng)滿足式(5-22)和式()和式(5-23)兩個條件時,)兩個條件時,可將可將 取代取代 ,如果只滿足式(,如果只滿足式(5-22),直接將),直接將
20、加入記憶細(xì)胞矩陣。加入記憶細(xì)胞矩陣。candidateMCmatchmccandidateMCcandidateMCmatchmccandidateMC(,)(,)stim mccandidate agstim mcmatch ag(,) affi mccandidate mcmatchATS AT(5-22)(5-23)第5章 分類挖掘及其應(yīng)用第16頁/共22頁(5)故障診斷過程)故障診斷過程圖圖5-2 基于克隆變異機理的故障診斷框圖基于克隆變異機理的故障診斷框圖(6)實驗仿真)實驗仿真第5章 分類挖掘及其應(yīng)用第17頁/共22頁 本章闡述了分類概念,論述了決策樹分類、貝葉斯分類、本章闡述了分
21、類概念,論述了決策樹分類、貝葉斯分類、基于關(guān)聯(lián)規(guī)則分類、基于數(shù)據(jù)庫技術(shù)分類、基于支持向量機基于關(guān)聯(lián)規(guī)則分類、基于數(shù)據(jù)庫技術(shù)分類、基于支持向量機的分類、基于的分類、基于AIS模型分類算法等分類算法。對課題人工免模型分類算法等分類算法。對課題人工免疫算法及其在故障診斷中的應(yīng)用進(jìn)行了詳細(xì)的討論,以此說疫算法及其在故障診斷中的應(yīng)用進(jìn)行了詳細(xì)的討論,以此說明分類挖掘在解決復(fù)雜工程問題中的應(yīng)用情況。明分類挖掘在解決復(fù)雜工程問題中的應(yīng)用情況。 本章以人工免疫算法的理論和應(yīng)用為研究內(nèi)容做了一些本章以人工免疫算法的理論和應(yīng)用為研究內(nèi)容做了一些工作。除了在理論上對人工免疫系統(tǒng)及其算法的基礎(chǔ)原理和工作。除了在理論上
22、對人工免疫系統(tǒng)及其算法的基礎(chǔ)原理和各種類型的免疫算法做了研究和分析外,最主要的是通過對各種類型的免疫算法做了研究和分析外,最主要的是通過對人工免疫算法的研究分析,提出了新的改進(jìn)算法,開拓了免人工免疫算法的研究分析,提出了新的改進(jìn)算法,開拓了免疫算法的應(yīng)用領(lǐng)域疫算法的應(yīng)用領(lǐng)域。第5章 分類挖掘及其應(yīng)用第18頁/共22頁習(xí)習(xí) 題題 51簡述判定樹分類的主要步驟。簡述判定樹分類的主要步驟。2在判定樹歸納中,為什么樹剪枝是有用的?用一個單獨的樣在判定樹歸納中,為什么樹剪枝是有用的?用一個單獨的樣 本集計值剪枝的缺點是什么?本集計值剪枝的缺點是什么?3給定判定樹,你有兩種可能的選擇。給定判定樹,你有兩種
23、可能的選擇。 (1)將判定樹轉(zhuǎn)換成規(guī)則)將判定樹轉(zhuǎn)換成規(guī)則,然后對結(jié)果規(guī)則剪枝。然后對結(jié)果規(guī)則剪枝。 (2)對判定樹剪枝)對判定樹剪枝,然后將剪枝后的樹轉(zhuǎn)換成規(guī)然后將剪枝后的樹轉(zhuǎn)換成規(guī)則則。相對于(相對于(2),(),(1)的優(yōu)點是什么?)的優(yōu)點是什么?4為什么樸素貝葉斯分類稱為為什么樸素貝葉斯分類稱為“樸素樸素”的?簡述樸素貝葉斯分類的主要思想。的?簡述樸素貝葉斯分類的主要思想。5比較急切分類(如判定樹、貝葉斯、神經(jīng)網(wǎng)絡(luò))相對于懶散分類(如,比較急切分類(如判定樹、貝葉斯、神經(jīng)網(wǎng)絡(luò))相對于懶散分類(如,K-最臨近、基于案例的推理)的優(yōu)缺點。最臨近、基于案例的推理)的優(yōu)缺點。第5章 分類挖掘及
24、其應(yīng)用第19頁/共22頁習(xí)習(xí) 題題 56下表由雇員數(shù)據(jù)庫的訓(xùn)練數(shù)據(jù)組成。數(shù)據(jù)已概化。對于給定的行,下表由雇員數(shù)據(jù)庫的訓(xùn)練數(shù)據(jù)組成。數(shù)據(jù)已概化。對于給定的行,count表示表示department,status,age和和salary在該行上具有給定值的元組數(shù)。設(shè)在該行上具有給定值的元組數(shù)。設(shè)salary是類標(biāo)號屬性。是類標(biāo)號屬性。 (1)你將如何修改你將如何修改ID3算法,以便考慮每個概化數(shù)據(jù)元組(即每一行)算法,以便考慮每個概化數(shù)據(jù)元組(即每一行) 的的count? (2)使用你修改過的使用你修改過的ID3算法,構(gòu)造給定數(shù)據(jù)的判定樹。算法,構(gòu)造給定數(shù)據(jù)的判定樹。 (3)給定一個數(shù)據(jù)樣本,它在
25、屬性)給定一個數(shù)據(jù)樣本,它在屬性department,status和和age上的值分上的值分別為別為“systems”、“junior”和和“2024”。該樣本的。該樣本的salary的樸素貝葉斯的樸素貝葉斯分類是什么?分類是什么? (4)為給定的數(shù)據(jù)設(shè)計一個多層前饋神經(jīng)網(wǎng)絡(luò)。標(biāo)記輸入和輸出層節(jié)點。)為給定的數(shù)據(jù)設(shè)計一個多層前饋神經(jīng)網(wǎng)絡(luò)。標(biāo)記輸入和輸出層節(jié)點。 (5)使用上面得到的多層前饋神經(jīng)網(wǎng)絡(luò),給定訓(xùn)練實例)使用上面得到的多層前饋神經(jīng)網(wǎng)絡(luò),給定訓(xùn)練實例“(sales, senior, 3135, 46K50K)”,給出后向傳播算法一次迭代后的權(quán)值。指出你使用的,給出后向傳播算法一次迭代后的
26、權(quán)值。指出你使用的初始權(quán)值和偏置以及學(xué)習(xí)率。初始權(quán)值和偏置以及學(xué)習(xí)率。第5章 分類挖掘及其應(yīng)用第20頁/共22頁departmentstatus age salary count salessenior 3135 46K50K 30 Salesjunior 2630 26K30K 40 Salesjunior 3135 31K35K 40 systemsjunior 2125 46K50K 20 systemssenior 3135 66K70K 5 systemsjunior 2630 46K50K 3 systemssenior 4145 66K70K 3 marketing senior 3640 46K50K 10 marketing junior 3135 41K45K 4secretary senior 4650 36K40K 4secretary junior 2630 26K30K 67給定和描述每個樣本的屬性數(shù),寫一個給定和描述每個樣本的屬性數(shù),寫一個K-最臨近分類算法。最臨近分類算法。第5章 分類挖掘及其應(yīng)用習(xí) 題 5第21頁/共22頁感謝您的觀看。第22頁/共22頁
- 溫馨提示:
1: 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2: 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3.本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 裝配圖網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 餐飲成本核算與控制培訓(xùn)課件
- 新員工入職培訓(xùn)思想修養(yǎng)篇(ppt47)
- 同步電機的工作原理及結(jié)構(gòu)特點
- 電影敘事結(jié)構(gòu)模式完整版
- 南州六月荔枝丹課件分析說明方法
- 人教版小學(xué)音樂六下《愛我中華》課件
- ××空調(diào)設(shè)備有限公司整體發(fā)展戰(zhàn)略診斷(PPT 50頁)
- 《酒店培訓(xùn)體系建設(shè)》課件
- 細(xì)胞膜系統(tǒng)的結(jié)構(gòu)
- 觸發(fā)器及其應(yīng)用
- 柱體、錐體、臺體的表面積與體積
- 萬能險銷售流程和話術(shù)0
- 紅外光譜基本原理
- 3技術(shù)創(chuàng)新管理-(9)
- 函數(shù)的零點(精品)