數(shù)據(jù)挖掘_概念與技術(shù)(第三版)部分習(xí)題答案【參照內(nèi)容】【答案類別】

上傳人：8** 文檔編號(hào)：155759823 上傳時(shí)間：2022-09-24 格式：DOC 頁數(shù)：22 大?。?.18MB

收藏版權(quán)申訴舉報(bào) 下載

數(shù)據(jù)挖掘_概念與技術(shù)(第三版)部分習(xí)題答案【參照內(nèi)容】【答案類別】_第1頁

第1頁 / 共22頁

數(shù)據(jù)挖掘_概念與技術(shù)(第三版)部分習(xí)題答案【參照內(nèi)容】【答案類別】_第2頁

第2頁 / 共22頁

數(shù)據(jù)挖掘_概念與技術(shù)(第三版)部分習(xí)題答案【參照內(nèi)容】【答案類別】_第3頁

第3頁 / 共22頁

下載文檔到電腦，查找使用更方便

3 積分

下載資源

還剩頁未讀，繼續(xù)閱讀

資源描述：

《數(shù)據(jù)挖掘_概念與技術(shù)(第三版)部分習(xí)題答案【參照內(nèi)容】【答案類別】》由會(huì)員分享，可在線閱讀，更多相關(guān)《數(shù)據(jù)挖掘_概念與技術(shù)(第三版)部分習(xí)題答案【參照內(nèi)容】【答案類別】（22頁珍藏版）》請(qǐng)?jiān)谘b配圖網(wǎng)上搜索。

1、 1.4 數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)庫(kù)有何不同？有哪些相似之處？答：區(qū)別：數(shù)據(jù)倉(cāng)庫(kù)是面向主題的，集成的，不易更改且隨時(shí)間變化的數(shù)據(jù)集合，用來支持管理人員的決策，數(shù)據(jù)庫(kù)由一組內(nèi)部相關(guān)的數(shù)據(jù)和一組管理和存取數(shù)據(jù)的軟件程序組成，是面向操作型的數(shù)據(jù)庫(kù)，是組成數(shù)據(jù)倉(cāng)庫(kù)的源數(shù)據(jù)。它用表組織數(shù)據(jù)，采用ER數(shù)據(jù)模型。相似：它們都為數(shù)據(jù)挖掘提供了源數(shù)據(jù)，都是數(shù)據(jù)的組合。翻譯結(jié)果重試抱歉，系統(tǒng)響應(yīng)超時(shí)，請(qǐng)稍后再試 · 支持中文、英文免費(fèi)在線翻譯 · 支持網(wǎng)頁翻譯，在輸入框輸入網(wǎng)頁地址即可 · 提供一鍵清空、復(fù)制功能、支持雙語對(duì)照查看，使您體驗(yàn)更加流暢 1.3 定義下列數(shù)據(jù)挖掘功能：特征化

2、、區(qū)分、關(guān)聯(lián)和相關(guān)分析、預(yù)測(cè)聚類和演變分析。使用你熟悉的現(xiàn)實(shí)生活的數(shù)據(jù)庫(kù)，給出每種數(shù)據(jù)挖掘功能的例子。答：特征化是一個(gè)目標(biāo)類數(shù)據(jù)的一般特性或特性的匯總。例如，學(xué)生的特征可被提出，形成所有大學(xué)的計(jì)算機(jī)科學(xué)專業(yè)一年級(jí)學(xué)生的輪廓，這些特征包括作為一種高的年級(jí)平均成績(jī)(GPA：Grade point aversge)的信息，還有所修的課程的最大數(shù)量。 􀁺 區(qū)分是將目標(biāo)類數(shù)據(jù)對(duì)象的一般特性與一個(gè)或多個(gè)對(duì)比類對(duì)象的一般特性進(jìn)行比較。例如，具有高GPA 的學(xué)生的一般特性可被用來與具有低GPA 的一般特性比較。最終的描述可能是學(xué)生的一個(gè)一般可比較的輪廓，就像具有高GPA 的學(xué)生的

3、75%是四年級(jí)計(jì)算機(jī)科學(xué)專業(yè)的學(xué)生，而具有低GPA 的學(xué)生的65%不是。 􀁺 關(guān)聯(lián)是指發(fā)現(xiàn)關(guān)聯(lián)規(guī)則，這些規(guī)則表示一起頻繁發(fā)生在給定數(shù)據(jù)集的特征值的條件。例如，一個(gè)數(shù)據(jù)挖掘系統(tǒng)可能發(fā)現(xiàn)的關(guān)聯(lián)規(guī)則為：major(X, “computing science”) ? owns(X, “personal computer”) [support=12%, confidence=98%] 其中，X 是一個(gè)表示學(xué)生的變量。這個(gè)規(guī)則指出正在學(xué)習(xí)的學(xué)生，12% （支持度）主修計(jì)算機(jī)科學(xué)并且擁有一臺(tái)個(gè)人計(jì)算機(jī)。這個(gè)組一個(gè)學(xué)生擁有一臺(tái)個(gè)人電腦的概率是98%（置信度，或確定度）。 И

4、698; 分類與預(yù)測(cè)不同，因?yàn)榍罢叩淖饔檬菢?gòu)造一系列能描述和區(qū)分?jǐn)?shù)據(jù)類型或概念的模型（或功能），而后者是建立一個(gè)模型去預(yù)測(cè)缺失的或無效的、并且通常是數(shù)字的數(shù)據(jù)值。它們的相似性是他們都是預(yù)測(cè)的工具：分類被用作預(yù)測(cè)目標(biāo)數(shù)據(jù)的類的標(biāo)簽，而預(yù)測(cè)典型的應(yīng)用是預(yù)測(cè)缺失的數(shù)字型數(shù)據(jù)的值。 􀁺 聚類分析的數(shù)據(jù)對(duì)象不考慮已知的類標(biāo)號(hào)。對(duì)象根據(jù)最大花蕾內(nèi)部的相似性、最小化類之間的相似性的原則進(jìn)行聚類或分組。形成的每一簇可以被看作一個(gè)對(duì)象類。聚類也便于分類法組織形式，將觀測(cè)組織成類分層結(jié)構(gòu)，把類似的事件組織在一起。 􀁺 數(shù)據(jù)演變分析描述和模型化隨時(shí)間變化的對(duì)象的

5、規(guī)律或趨勢(shì)，盡管這可能包括時(shí)間相關(guān)數(shù)據(jù)的特征化、區(qū)分、關(guān)聯(lián)和相關(guān)分析、分類、或預(yù)測(cè)，這種分析的明確特征包括時(shí)間序列數(shù)據(jù)分析、序列或周期模式匹配、和基于相似性的數(shù)據(jù)分析 2.3 假設(shè)給定的數(shù)據(jù)集的值已經(jīng)分組為區(qū)間。區(qū)間和對(duì)應(yīng)的頻率如下。 ――――――――――――――――――――――――――――――――――――― 年齡頻率 ――――――――――――――――――――――――――――――――――――― 1~5

6、 200 5~15 450 15~20 300 20~50 1500 50~80 700 80~110

7、 44 ――――――――――――――――――――――――――――――――――――― 計(jì)算數(shù)據(jù)的近似中位數(shù)值。解答：先判定中位數(shù)區(qū)間：N=200+450+300+1500+700+44=3194；N/2=1597 ∵ 200+450+300=950<1597<2450=950+1500； ∴ 20~50 對(duì)應(yīng)中位數(shù)區(qū)間。 ∴ median=32.97 歲。 2.2 假定用于分析的數(shù)據(jù)包含屬性age。數(shù)據(jù)

8、元組的age 值（以遞增序）是：13，15，16，16，19，20，20，21，22，22，25，25，25，25，30，33，33，35，35，35，35，36，40，45，46，52，70。答：(a) 該數(shù)據(jù)的均值是什么？中位數(shù)是什么？均值=(13+15+16+16+19+20+20+21+22+22+25+25+25+25+30+33+33+35+35+35+35+36+40+45+46+52+70)/27 =29.96 中位數(shù)應(yīng)是第14個(gè),即x14=25=Q2。 (b) 該數(shù)據(jù)的眾數(shù)是什么？討論數(shù)據(jù)的峰（即雙峰、三峰等）。這個(gè)數(shù)集的眾數(shù)有兩個(gè)：25 和35,發(fā)生在

9、同樣最高的頻率處,因此是雙峰眾數(shù)。 (c) 數(shù)據(jù)的中列數(shù)是什么？數(shù)據(jù)的中列數(shù)是最大數(shù)和最小數(shù)的均值。即：midrange=(70+13)/2=41.5。 (d) 你能（粗略地）找出數(shù)據(jù)的第一個(gè)四分位數(shù)（Q1）和第三個(gè)四分位數(shù)（Q3）嗎？數(shù)據(jù)集的第一個(gè)四分位數(shù)應(yīng)發(fā)生在25%處，即在(N+1)/4=（27+1）/4=7 處。所以：Q1=20。而第三個(gè)四分位數(shù)應(yīng)發(fā)生在75%處,即在3×(N+1)/4=21 處。所以：Q3=35 (e) 給出數(shù)據(jù)的五數(shù)概括。一個(gè)數(shù)據(jù)集的分布的5 數(shù)概括由最小值、第一個(gè)四分位數(shù)、中位數(shù)、第三個(gè)四分位數(shù)、和最大值構(gòu)成。它給出了分布形狀良好的匯總+并且

10、這些數(shù)據(jù)是：13、20、25、35、70。 (f) 畫出數(shù)據(jù)的盒圖。 (g) 分位數(shù)—分位數(shù)圖與分位數(shù)圖的不同之處是什么？分位數(shù)圖是一種用來展示數(shù)據(jù)值低于或等于在一個(gè)單變量分布中獨(dú)立的變量的粗略百分比。這樣,他可以展示所有數(shù)的分位數(shù)信息,而為獨(dú)立變量測(cè)得的值（縱軸）相對(duì)于它們的分位數(shù)（橫軸）被描繪出來。但分位數(shù)—分位數(shù)圖用縱軸表示一種單變量分布的分位數(shù),用橫軸表示另一單變量分布的分位數(shù)。兩個(gè)坐標(biāo)軸顯示它們的測(cè)量值相應(yīng)分布的值域,且點(diǎn)按照兩種分布分位數(shù)值展示。一條線（y=x）可畫到圖中+以增加圖像的信息。落在該線以上的點(diǎn)表示在y 軸上顯示的值的分布比x 軸的相應(yīng)的等同分位數(shù)對(duì)應(yīng)的值

11、的分布高。反之,對(duì)落在該線以下的點(diǎn)則低。 2.4假設(shè)醫(yī)院檢測(cè)隨機(jī)選擇的18個(gè)成年人年齡和身體脂肪數(shù)據(jù)，得到如下結(jié)果： (a)計(jì)算年齡和脂肪百分比的均值、中位數(shù)和標(biāo)準(zhǔn)差. 年齡均值=(23+23+27+27+39+41+47+49+50+ 52+54+54+56+57+58+58+60+61)/18=836/18=46.44, 中位數(shù)= (50+52)/2=51, 標(biāo)準(zhǔn)差=方差的平方根=開根號(hào)（ 1/n[∑(Xi)2-1/n(∑Xi)2]）=開根號(hào) 1/18[2970.44]=12.85. 脂肪百分比均值=28.78, 中位數(shù)=30.7, 標(biāo)準(zhǔn)差= 8.99. (b)繪制

12、年齡和脂肪百分比的盒圖 (c)根據(jù)這兩個(gè)屬性,繪制散布圖,各q-q圖 q-q圖散布圖 (d)根據(jù)z-score 規(guī)范化來規(guī)范化這兩個(gè)屬性（P46） (e)計(jì)算相關(guān)系數(shù)(皮爾遜積矩系數(shù)). 這兩個(gè)變量是正相關(guān)還是負(fù)相關(guān)? ra,b=∑(ai-A)(bi-B)/NσAσB=（∑(aibi)-NAB）/NσAσB=（∑(aibi)-18*46.44*28.78）/18*12.85*8.99=0.82 相關(guān)系數(shù)是0.82。變量呈正相關(guān)。 3.3 使用習(xí)題

13、2.4 給出的age 數(shù)據(jù)回答下列問題： (a) 使用分箱均值光滑對(duì)以上數(shù)據(jù)進(jìn)行光滑，箱的深度為3。解釋你的步驟。評(píng)述對(duì)于給定的數(shù)據(jù)，該技術(shù)的效果。 (b) 如何確定數(shù)據(jù)中的離群點(diǎn)？ (c) 對(duì)于數(shù)據(jù)光滑，還有哪些其他方法？解答： (a) 使用分箱均值光滑對(duì)以上數(shù)據(jù)進(jìn)行光滑，箱的深度為3。解釋你的步驟。評(píng)述對(duì)于給定的數(shù)據(jù)，該技術(shù)的效果。用箱深度為3 的分箱均值光滑對(duì)以上數(shù)據(jù)進(jìn)行光滑需要以下步驟：步驟1：對(duì)數(shù)據(jù)排序。（因?yàn)閿?shù)據(jù)已被排序，所以此時(shí)不需要該步驟。）步驟2：將數(shù)據(jù)劃分到大小為

14、3 的等頻箱中。箱1：13，15，16 箱2：16，19，20 箱3：20，21，22 箱4：22，25，25 箱5：25，25，30 箱6：33，33，35 箱7：35，35，35 箱8：36，40，45 箱9：46，52，70 步驟3：計(jì)算每個(gè)等頻箱的算數(shù)均值。步驟4：用各箱計(jì)算出的算數(shù)均值替換每箱中的每個(gè)值。箱1：44/3，44/3，44/3 箱2：55/

15、3，55/3，55/3 箱3：21，21，21 箱4：24，24，24 箱5： 80/3 ，80/3， 80/3 箱 6： 101/3，101/3， 101/3 箱7：35，35，35 箱8：121/3，121/3，121/3 箱9：56，56，56 (b) 如何確定數(shù)據(jù)中的離群點(diǎn)？聚類的方法可用來將相似的點(diǎn)分成組或“簇”，并檢測(cè)離群點(diǎn)。落到簇的集外的值可以被視為離群點(diǎn)。作為選擇，一種人機(jī)結(jié)合的檢測(cè)可被采用，而計(jì)算機(jī)用一種事先決定的數(shù)據(jù)分布來區(qū)分可能的離群點(diǎn)。這些可

16、能的離群點(diǎn)能被用人工輕松的檢驗(yàn)，而不必檢查整個(gè)數(shù)據(jù)集。 (c) 對(duì)于數(shù)據(jù)光滑，還有哪些其他方法？其它可用來數(shù)據(jù)光滑的方法包括別的分箱光滑方法，如中位數(shù)光滑和箱邊界光滑。作為選擇，等寬箱可被用來執(zhí)行任何分箱方式，其中每個(gè)箱中的數(shù)據(jù)范圍均是常量。除了分箱方法外，可以使用回歸技術(shù)擬合成函數(shù)來光滑數(shù)據(jù)，如通過線性或多線性回歸。分類技術(shù)也能被用來對(duì)概念分層，這是通過將低級(jí)概念上卷到高級(jí)概念來光滑數(shù)據(jù)。 3.5 如下規(guī)范化方法的值域是什么？答： (a) min-max 規(guī)范化。值域是[new_min, new_max]。 (b) z-score 規(guī)范化。值

17、域是[(old_min－mean)/σ，(old_max－mean)/σ]，總的來說，對(duì)于所有可能的數(shù)據(jù)集的值域是(－∞，+∞)。 (c) 小數(shù)定標(biāo)規(guī)范化。值域是(－1.0,1.0)。 3.7 使用習(xí)題 2.4 給出的 age 數(shù)據(jù)，回答以下問題： (a) 使用 min-max 規(guī)范化將 age 值 35 變換到[0.0，1.0]區(qū)間。 (b) 使用 z-score 規(guī)范化變換 age 值 35，其中 age 的標(biāo)準(zhǔn)差為 12.94 歲。 (c) 使用小數(shù)定標(biāo)規(guī)范化變換 age 值 35。 (d) 對(duì)于給定的數(shù)據(jù)，你愿意使用哪種方法？陳述你的理由。

18、解答： 3.9 假設(shè) 12 個(gè)銷售價(jià)格記錄組已經(jīng)排序如下：5，10，11，13，15，35， 50，55，72，92，204，215。使用如下每種方法將其劃分成三個(gè)箱。 (a) 等頻（等深）劃分。 (b) 等寬劃分。 (c) 聚類。解答： (a) 等頻（等深）劃分。 bin1 5,10,11,13 bin1 15,35,50,55 bin1 72,91,204,215 (b) 等寬劃分。題目a 每個(gè)區(qū)間的寬度是：(215-5)/3=70 bin1 5,10,11,13,15,35,50,55,72 bin

19、1 91 bin1 204,215 (c) 聚類。我們可以使用一種簡(jiǎn)單的聚類技術(shù)：用 2 個(gè)最大的間隙將數(shù)據(jù)分成 3 個(gè)箱。 bin1 5,10,11,13,15 bin1 35,50,55,72,91 bin1 204,215 3.11 使用習(xí)題 2.4 給出的 age 數(shù)據(jù)， (a) 畫出一個(gè)等寬為 10 的等寬直方圖； (b) 為如下每種抽樣技術(shù)勾畫例子：SRSWOR，SRSWR ，聚類抽樣，分層抽樣。使用大小為 5 的樣本和層“青年”，“中年”和“老年”。解答：(a) 畫出一個(gè)等寬為 10 的等寬直方圖； 8 7

20、 6 5 4 3 2 1 0 15 25 35 45 55 65 (b) 為如下每種抽樣技術(shù)勾畫例子：SRSWOR，SRSWR ，聚類抽樣，分層抽樣。使用大小為 5 的樣本和層“青年”，“中年”和“老年”。元組： T 1 13 T 10 22 T 19 35 T 2 15 T 11 25 T 20 35 T 3 16 T 12 25 T 21 35 T 4 16 T 13 25 T 22 36 T 5 19 T 14 25 T 23 40 T 6 20 T 15 3

21、0 T 24 45 T 7 20 T 16 33 T 25 46 T 8 21 T 17 33 T 26 52 T 9 22 T 18 35 T 27 70 SRSWOR 和 SRSWR：不是同次的隨機(jī)抽樣結(jié)果可以不同，但前者因無放回所以不能有相同的元組。 SRSWOR (n=5) SRSWR (n=5) T 4 16 T 7 20 T 6 20 T 7 20 T 10 22 T 20 35 T11 25 T 21 35 T 26 52 T 25 46 聚類抽樣：設(shè)起始聚類共有 6 類，可抽其中

22、的 m 類。 Sample1 Sample2 Sample3 Sample4 Sample5 Sample6 T 1 13 T6 20 T 11 25 T 16 33 T 21 35 T 26 52 T 2 15 T7 20 T 12 25 T 17 33 T 22 36 T 27 70 T 3 16 T8 21 T 13 25 T 18 35 T 23 40 T 4 16 T9 22 T 14 25 T 19 35 T 24 45 T 5 19 T 10 22 T

23、 15 30 T 20 35 T 25 46 Sample2 Sample5 T 6 20 T21 35 T 7 20 T22 36 T 8 21 T23 40 T 9 22 T24 45 T 10 22 T25 46 T1 13 young T 10 22 young T 19 35 middle age T2 15 young T 11 25 young T 20 35 middle age T3 16 young T 12 25 young T 21 35

24、middle age T4 16 young T 13 25 young T 22 36 middle age T5 19 young T 14 25 young T 23 40 middle age T6 20 young T 15 30 middle age T 24 45 middle age T7 20 young T 16 33 middle age T 25 46 middle age T8 21 young T 17 33 middle age T 26 52 middle age T9

25、 22 young T 18 35 middle age T 27 70 senior T4 16 young T 12 25 young T 17 33 middle age T 25 46 middle age T 27 70 Senio r 4.3 假定數(shù)據(jù)倉(cāng)庫(kù)包含三維：time,doctor和patient;和兩個(gè)度量：count和charge;其中，charge是醫(yī)生對(duì)病人一次診治的收費(fèi)。 (a)列舉三種流行的數(shù)據(jù)倉(cāng)庫(kù)建模模式答：三類模式一般用于建模數(shù)據(jù)倉(cāng)庫(kù)架構(gòu)的星形模型，雪花模型和事實(shí)星座模型。 (b)

26、使用(a)列舉的模式之一，畫出上面的數(shù)據(jù)倉(cāng)庫(kù)的模式圖數(shù)據(jù)倉(cāng)庫(kù)的星形模型（C）由基本方體[day,doctor,patient]開始，為列出2004年每位醫(yī)生的收費(fèi)總數(shù)，應(yīng)當(dāng)執(zhí)行哪些OLAP操作？沿課程（course）維從course_id“上卷”到department。 l 沿時(shí)間（time）維從 day “上卷”到 year。 l 取 time=2004，對(duì)維 time作“切片” 操作 l 沿病人（patient）維從個(gè)別病人 “上卷”到全部病人。 (d)為得到同樣結(jié)果，寫一個(gè)SQL查詢。假定數(shù)據(jù)存放在關(guān)系數(shù)據(jù)庫(kù)中，其模式為

27、 fee(day，month，year，doctor，hospital，patient，count，charge)。答：SQL查詢語句如下： select doctor, SUM(charge) from fee where year=2004 group by doctor 4.4 假定 BigUniversity 的數(shù)據(jù)倉(cāng)庫(kù)包含如下 4 個(gè)維：student(student_name, area_id , major, status, university) ， course(course_name, department) ， se

28、mester(semester, year) 和 instructor(dept, rank)；2 個(gè)度量：count 和 avg_grade。在最低概念層，度量 avg_grade 存放學(xué)生的實(shí)際課程成績(jī)。在較高概念層， avg_grade 存放給定組合的平均成績(jī)。 (a) 為該數(shù)據(jù)倉(cāng)庫(kù)畫出雪花形模式圖。 (b) 由基本方體 [student, course, semester, instructor] 開始，為列出 BigUniversity 每個(gè)學(xué)生的 CS 課程的平均成績(jī)，應(yīng)當(dāng)使用哪些特殊的 OLAP 操作。 (c) 如果每維有 5 層（包括

29、all），如“student

30、dent）維從 student_id “上卷”到 university 。 iii. 取 department= “CS ”和 university= “Big University ”，沿課程（course）維和學(xué)生（student）維切片。 iv. 沿學(xué)生（student）維從 university 下鉆到 student_name。 c) 如果每維有 5 層（包括 all），如“student

31、ate, spectator, location, 和game，和兩個(gè)度量：count和charge;其中，charge是觀眾在給定的日期觀看節(jié)目的付費(fèi)。觀眾可以是學(xué)生、成年人或老年人，每類觀眾有不同的收費(fèi)標(biāo)準(zhǔn)。 (a)畫出該數(shù)據(jù)倉(cāng)庫(kù)的星形模式圖。答：星形模式圖如下： b. 由基本方體[date，spectator，location，game]開始，為列出2004年學(xué)生觀眾在GM_Place的總付費(fèi)，應(yīng)執(zhí)行的OLAP操作： l 沿時(shí)間（date）維從date_id “上卷”到 year。 l 沿時(shí)間（game）維從 game_id “上卷”到全部。 l 沿時(shí)間（locati

32、on）維從location_id “上卷”到 location_name 。 l 沿時(shí)間（spectator）維從spectator_id “上卷”到 status 。 l 以 status="students", location name="GM Place" and year=2004 作轉(zhuǎn)軸操作 4.6 數(shù)據(jù)倉(cāng)庫(kù)可以用星形模式或雪花模式建模。簡(jiǎn)略討論這兩種模式的相似點(diǎn)和不同點(diǎn)，然后分析它們的相對(duì)做優(yōu)、缺點(diǎn)。哪種模式更實(shí)用，給出你觀點(diǎn)并陳述你的理由。答：星形模式或雪花模式的相似點(diǎn)是它們包含一個(gè)事實(shí)表和一些維表。它們主要的不同在于，雪花模式的維表可能是規(guī)范化形式，以便減

33、少了冗余，這種表易于維護(hù)并節(jié)省存儲(chǔ)空間。然而，與巨大的事實(shí)表相比，這種空間的節(jié)省可以忽略。此外，由于執(zhí)行查詢需要更多的連接操作，雪花形結(jié)構(gòu)可能降低瀏覽的性能，這樣，系統(tǒng)的性能可能相對(duì)的受到影響。星型模式的優(yōu)點(diǎn)是簡(jiǎn)單、這使得它更有效，但它需要更多的空間。因此，只要空間的要求不是太大時(shí)，星形模式比雪花模式更好，因?yàn)橥ǔＰ时瓤臻g具有更高的優(yōu)先級(jí)。在工業(yè)上，有時(shí)可能將數(shù)據(jù)從一個(gè)雪花模式非規(guī)范化為星型模式以加快處理速度，另一種選擇是保持雪花模式的維表，然后相同數(shù)據(jù)的當(dāng)前用戶折疊為星形。 4.9 4.11 5.1 5.2

34、 5.4 假定基本方體有三維A,B,C,其單元數(shù)如下：|A|=1000000,|B|=100,|C|=1000.假定每維均等地分塊成10部分。（a）假定每維只有一層，畫出完整的立方體的格。答：完整的立方體的格如下圖（b）如果每個(gè)立方體單元存放一個(gè)4字節(jié)的度量，若立方體是稠密的，所計(jì)算的立方體有多大？答：所計(jì)算的立方體大小如下： all：1 A: 1,000,000; B: 100; C: 1, 000; 小計(jì): 1,001,100 AB: 1,000,000*100=100,000,000; BC: 100*1,000=100,000

35、; AC: 1,000,000*1,000=1,000,000,000; 小計(jì): 1,100,100,000 ABC: 1,000,000*100*1,000=100,000,000,000 總和: 1+1,001,100+1,100,100,000+100,000,000,000=101,101,101,101 * 4 = 404,404,404,404 字節(jié) （C）指出空間需求量最小的立方體中的塊計(jì)算次序，并計(jì)算2-D平面計(jì)算所需要的內(nèi)存空間總量。答：順序計(jì)算，需要最少數(shù)量的空間B-C-A.如圖所示：計(jì)算二維平面需要的總主內(nèi)存空

36、間是：總空間 = (100×1,000) + (1,000,000 × 10) + (100 × 10,000) = 20,100,000 單元* 4字節(jié)/單元= 80,400,000 字節(jié) 6.3 Apriori算法使用子集支持性質(zhì)的先驗(yàn)知識(shí)。 (a) 證明頻繁項(xiàng)集的所有非空的子集也必須是頻繁的。答：設(shè)s是一個(gè)頻繁項(xiàng)集，min_sup 是最小支持度閥值，任務(wù)相關(guān)的數(shù)據(jù)D是數(shù)據(jù)庫(kù)事務(wù)的集合，|D|是D 有事務(wù)量，則有Support_count(s) = min_sup×|D|；再設(shè)s’是s的非空子集，則任何包含項(xiàng)集s的事務(wù)將同樣包含項(xiàng)集s’ , 即： support_ cou

37、nt(s') support count(s) = min_sup ×|D|. 所以，s’也是一個(gè)頻繁項(xiàng)集。 (b) 證明項(xiàng)集s的任意非空子集s’的支持至少和s的支持度一樣大。答：設(shè)任務(wù)相關(guān)的數(shù)據(jù)D是數(shù)據(jù)庫(kù)事務(wù)的集合，|D|是D 的事務(wù)量，由定義得：設(shè)s’是s的非空子集，由定義得：由（a）可知：support(s’) support(s) 由此證明，項(xiàng)集s的任意非空子集s’的支持至少和s的支持度一樣大。（c）給定頻繁項(xiàng)集 l 和 l 的子集 s ,證明規(guī)則的置信度不可能大于答：設(shè) s 是 l 的子集, 則設(shè)s’是s的非空

38、子集，則由（b）可知：support_count(s') support count(s)，此外，confidence(s’) (l-s’)) confidence(s) (l- s)) 所以，規(guī)則的置信度不可能大于。 6.6設(shè)數(shù)據(jù)庫(kù)有5個(gè)事務(wù)。設(shè)min_sup =60%, min_conf=80% (a)分別使用Apriori和FP增長(zhǎng)算法找出所有頻繁項(xiàng)集。比較兩種挖掘過程的效率。效率比較：Apriori需多次掃描數(shù)據(jù)庫(kù)而FP增長(zhǎng)建立FP樹只需一次的掃描。在Apriori算法中產(chǎn)生候選是昂貴的（由于聯(lián)接），而FP增長(zhǎng)不產(chǎn)生任何候選

39、。 (b)列舉所有與下面的元規(guī)則匹配的強(qiáng)關(guān)聯(lián)規(guī)則（給出支持度S和置信度C）,其中，X是代表顧客的變量，itemi是表示項(xiàng)的變量（如：“A”、“B”等）：答： k,o e [0.6,1] e,o k [0.6,1] 6.8.數(shù)據(jù)庫(kù)有4個(gè)事務(wù)，設(shè)min_sup =60%, min_conf=80% （a）在item_category粒度（例如，itemi 可以是“Milk”），對(duì)于下面的規(guī)則模板對(duì)最大的k,列出頻繁k項(xiàng)集包含最大的k的頻繁k項(xiàng)集的所有強(qiáng)關(guān)聯(lián)規(guī)則（包括它們的支持度S和置信度c）. (b)在粒度（例如：itemi 可以是“Sunset

40、-Milk”）對(duì)于下面的規(guī)則模板對(duì)最大的k，列出頻繁k項(xiàng)集（但不輸出任何規(guī)則）。 6.14 下面的相依表匯總了超級(jí)市場(chǎng)的事務(wù)數(shù)據(jù)。其中，hot dogs表示包含熱狗的事務(wù)，hot dogs表示不包含熱狗的事務(wù)，hamburgers表示包含漢堡包的事務(wù)，hamburgers表示不包含漢堡包的事務(wù)，（a）假定挖掘出了關(guān)聯(lián)規(guī)則。給定最小支持度閥值25%，最小置信度閥值50%，該關(guān)聯(lián)規(guī)則是強(qiáng)規(guī)則嗎？答：根據(jù)規(guī)則， support = 2000/5000 = 40%， confidence = 2000/3000 = 66.7%. 該關(guān)聯(lián)規(guī)則是強(qiáng)規(guī)則. （b）根據(jù)給定

41、的數(shù)據(jù)，買 hot dogs獨(dú)立于買humburgers嗎？如果不是，二者之間存在何種相關(guān)聯(lián)系。答：corr{hotdog;hamburger} = P({hot dog, hamburger})/(P({hot dog}) P({hamburger})=0.4/(0.5 × 0.6) =1.33 > 1. 所以，買 hot dogs不是獨(dú)立于買humburgers。兩者存在正相關(guān)關(guān)系 8.1 簡(jiǎn)述決策樹分類的主要步驟。 8.5 給定一個(gè)具有50個(gè)屬性（每個(gè)屬性包含100個(gè)不同值）的5GB的數(shù)據(jù)集，而你的臺(tái)式機(jī)有512M內(nèi)存。簡(jiǎn)述對(duì)這種大型數(shù)據(jù)集構(gòu)造決策樹的一種有效算法。通

42、過粗略地計(jì)算機(jī)主存的使用說明你的答案是正確的。這個(gè)問題我們將使用雨林算法。假設(shè)有C類標(biāo)簽。最需要的內(nèi)存將是avc-set為根的樹。計(jì)算avc-set的根節(jié)點(diǎn)，我們掃描一次數(shù)據(jù)庫(kù)，構(gòu)建avc-list每50個(gè)屬性。每一個(gè)avc-list的尺寸是100×C，avc-set的總大小是100×C×50，對(duì)于合理的C將很容易適應(yīng)512 MB內(nèi)存，計(jì)算其他avc-sets也是使用類似的方法，但他們將較小，因?yàn)楹苌賹傩钥捎谩Ｔ诓⑿杏?jì)算時(shí)，我們可以通過計(jì)算avc-set節(jié)點(diǎn)來減少同一水平上的掃描次數(shù)，使用這種每節(jié)點(diǎn)小avc-sets的方法，我們或許可以適應(yīng)內(nèi)存的水平。 8.7下表由雇員數(shù)據(jù)庫(kù)的訓(xùn)練數(shù)

43、據(jù)組成。數(shù)據(jù)已泛化。例如：age “31...35”表示年齡在31-35之間。對(duì)于給定的行，count表示department,status,age和salary在該行具有給定值的元組數(shù)。設(shè)status 是類標(biāo)號(hào)屬性。（a）如何修改基本決策樹算法，以便考慮每個(gè)廣義數(shù)據(jù)元組（即每一行）的count? (b)使用修改的算法，構(gòu)造給定數(shù)據(jù)的決策樹。 (c)給定一個(gè)數(shù)據(jù)元組，它在屬性department,age和salary的值分別為“systems”,“26..30”,和“46K.. 50K”。該元組status的樸素貝葉斯分類是什么？ 9.2支持向量機(jī)（SVM）是一種具有高準(zhǔn)確率的分類方法。然而，在使用大型數(shù)據(jù)元組集進(jìn)行訓(xùn)練時(shí)，SVM的處理速度很慢。討論如何克服這一困難，并為大型數(shù)據(jù)集有效的SVM算法。

展開閱讀全文

溫馨提示:
1: 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2: 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3.本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 裝配圖網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

關(guān)于我們 - 網(wǎng)站聲明 - 網(wǎng)站地圖 - 資源地圖 - 友情鏈接 - 網(wǎng)站客服 - 聯(lián)系我們

備案號(hào):蜀ICP備2024067431號(hào)-1 川公網(wǎng)安備51140202000466號(hào)

本站為文檔C2C交易模式，即用戶上傳的文檔直接被用戶下載，本站只是中間服務(wù)平臺(tái)，本站所有文檔下載所得的收益歸上傳人(含作者)所有。裝配圖網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)上載內(nèi)容本身不做任何修改或編輯。若文檔所含內(nèi)容侵犯了您的版權(quán)或隱私，請(qǐng)立即通知裝配圖網(wǎng)，我們立即給予刪除！

影音先锋男人资源在线观看,精品国产日韩亚洲一区91,中文字幕日韩国产,2018av男人天堂,青青伊人精品,久久久久久久综合日本亚洲,国产日韩欧美一区二区三区在线

數(shù)據(jù)挖掘_概念與技術(shù)(第三版)部分習(xí)題答案【參照內(nèi)容】【答案類別】

最新文檔

相關(guān)資源

相關(guān)搜索