數(shù)據(jù)挖掘_概念與技術(shù)(第三版)部分習(xí)題答案【參照內(nèi)容】【答案類別】
《數(shù)據(jù)挖掘_概念與技術(shù)(第三版)部分習(xí)題答案【參照內(nèi)容】【答案類別】》由會(huì)員分享,可在線閱讀,更多相關(guān)《數(shù)據(jù)挖掘_概念與技術(shù)(第三版)部分習(xí)題答案【參照內(nèi)容】【答案類別】(22頁珍藏版)》請(qǐng)?jiān)谘b配圖網(wǎng)上搜索。
1、 1.4 數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)庫(kù)有何不同?有哪些相似之處? 答:區(qū)別:數(shù)據(jù)倉(cāng)庫(kù)是面向主題的,集成的,不易更改且隨時(shí)間變化的數(shù)據(jù)集合,用來支持管理人員的決策,數(shù)據(jù)庫(kù)由一組內(nèi)部相關(guān)的數(shù)據(jù)和一組管理和存取數(shù)據(jù)的軟件程序組成,是面向操作型的數(shù)據(jù)庫(kù),是組成數(shù)據(jù)倉(cāng)庫(kù)的源數(shù)據(jù)。它用表組織數(shù)據(jù),采用ER數(shù)據(jù)模型。 相似:它們都為數(shù)據(jù)挖掘提供了源數(shù)據(jù),都是數(shù)據(jù)的組合。 翻譯結(jié)果重試 抱歉,系統(tǒng)響應(yīng)超時(shí),請(qǐng)稍后再試 · 支持中文、英文免費(fèi)在線翻譯 · 支持網(wǎng)頁翻譯,在輸入框輸入網(wǎng)頁地址即可 · 提供一鍵清空、復(fù)制功能、支持雙語對(duì)照查看,使您體驗(yàn)更加流暢 1.3 定義下列數(shù)據(jù)挖掘功能:特征化
2、、區(qū)分、關(guān)聯(lián)和相關(guān)分析、預(yù)測(cè)聚類和演變分析。使用你熟悉的現(xiàn)實(shí)生活的數(shù)據(jù)庫(kù),給出每種數(shù)據(jù)挖掘功能的例子。 答:特征化是一個(gè)目標(biāo)類數(shù)據(jù)的一般特性或特性的匯總。例如,學(xué)生的特征可被提出,形成所有大學(xué)的計(jì)算機(jī)科學(xué)專業(yè)一年級(jí)學(xué)生的輪廓,這些特征包括作為一種高的年級(jí)平均成績(jī)(GPA:Grade point aversge)的信息, 還有所修的課程的最大數(shù)量。 區(qū)分是將目標(biāo)類數(shù)據(jù)對(duì)象的一般特性與一個(gè)或多個(gè)對(duì)比類對(duì)象的一般特性進(jìn)行比較。例如,具有高GPA 的學(xué)生的一般特性可被用來與具有低GPA 的一般特性比較。最終的描述可能是學(xué)生的一個(gè)一般可比較的輪廓,就像具有高GPA 的學(xué)生的
3、75%是四年級(jí)計(jì)算機(jī)科學(xué)專業(yè)的學(xué)生,而具有低GPA 的學(xué)生的65%不是。 關(guān)聯(lián)是指發(fā)現(xiàn)關(guān)聯(lián)規(guī)則,這些規(guī)則表示一起頻繁發(fā)生在給定數(shù)據(jù)集的特征值的條件。例如,一個(gè)數(shù)據(jù)挖掘系統(tǒng)可能發(fā)現(xiàn)的關(guān)聯(lián)規(guī)則為:major(X, “computing science”) ? owns(X, “personal computer”) [support=12%, confidence=98%] 其中,X 是一個(gè)表示學(xué)生的變量。這個(gè)規(guī)則指出正在學(xué)習(xí)的學(xué)生,12% (支持度)主修計(jì)算機(jī)科學(xué)并且擁有一臺(tái)個(gè)人計(jì)算機(jī)。這個(gè)組一個(gè)學(xué)生擁有一臺(tái)個(gè)人電腦的概率是98%(置信度,或確定度)。 И
4、698; 分類與預(yù)測(cè)不同,因?yàn)榍罢叩淖饔檬菢?gòu)造一系列能描述和區(qū)分?jǐn)?shù)據(jù)類型或概念的模型(或功能),而后者是建立一個(gè)模型去預(yù)測(cè)缺失的或無效的、并且通常是數(shù)字的數(shù)據(jù)值。它們的相似性是他們都是預(yù)測(cè)的工具: 分類被用作預(yù)測(cè)目標(biāo)數(shù)據(jù)的類的標(biāo)簽,而預(yù)測(cè)典型的應(yīng)用是預(yù)測(cè)缺失的數(shù)字型數(shù)據(jù)的值。 聚類分析的數(shù)據(jù)對(duì)象不考慮已知的類標(biāo)號(hào)。對(duì)象根據(jù)最大花蕾內(nèi)部的相似性、最小化類之間的相似性的原則進(jìn)行聚類或分組。形成的每一簇可以被看作一個(gè)對(duì)象類。聚類也便于分類法組織形式,將觀測(cè)組織成類分 層結(jié)構(gòu),把類似的事件組織在一起。 數(shù)據(jù)演變分析描述和模型化隨時(shí)間變化的對(duì)象的
5、規(guī)律或趨勢(shì),盡管這可能包括時(shí)間相關(guān)數(shù)據(jù)的特征化、區(qū)分、關(guān)聯(lián)和相關(guān)分析、分類、或預(yù)測(cè),這種分析的明確特征包括時(shí)間序列數(shù)據(jù)分析、序列或周期模式匹配、和基于相似性的數(shù)據(jù)分析 2.3 假設(shè)給定的數(shù)據(jù)集的值已經(jīng)分組為區(qū)間。區(qū)間和對(duì)應(yīng)的頻率如下。 ――――――――――――――――――――――――――――――――――――― 年齡 頻率 ――――――――――――――――――――――――――――――――――――― 1~5
6、 200 5~15 450 15~20 300 20~50 1500 50~80 700 80~110
7、 44 ――――――――――――――――――――――――――――――――――――― 計(jì)算數(shù)據(jù)的近似中位數(shù)值。 解答: 先判定中位數(shù)區(qū)間:N=200+450+300+1500+700+44=3194;N/2=1597 ∵ 200+450+300=950<1597<2450=950+1500; ∴ 20~50 對(duì)應(yīng)中位數(shù)區(qū)間。 ∴ median=32.97 歲。 2.2 假定用于分析的數(shù)據(jù)包含屬性age。數(shù)據(jù)
8、元組的age 值(以遞增序)是:13,15,16,16,19,20,20,21,22,22,25,25,25,25,30,33,33,35,35,35,35,36,40,45,46,52,70。 答:(a) 該數(shù)據(jù)的均值是什么?中位數(shù)是什么? 均值=(13+15+16+16+19+20+20+21+22+22+25+25+25+25+30+33+33+35+35+35+35+36+40+45+46+52+70)/27 =29.96 中位數(shù)應(yīng)是第14個(gè),即x14=25=Q2。 (b) 該數(shù)據(jù)的眾數(shù)是什么?討論數(shù)據(jù)的峰(即雙峰、三峰等)。 這個(gè)數(shù)集的眾數(shù)有兩個(gè):25 和35,發(fā)生在
9、同樣最高的頻率處,因此是雙峰眾數(shù)。 (c) 數(shù)據(jù)的中列數(shù)是什么? 數(shù)據(jù)的中列數(shù)是最大數(shù)和最小數(shù)的均值。即:midrange=(70+13)/2=41.5。 (d) 你能(粗略地)找出數(shù)據(jù)的第一個(gè)四分位數(shù)(Q1)和第三個(gè)四分位數(shù)(Q3)嗎? 數(shù)據(jù)集的第一個(gè)四分位數(shù)應(yīng)發(fā)生在25%處,即在(N+1)/4=(27+1)/4=7 處。所以:Q1=20。 而第三個(gè)四分位數(shù)應(yīng)發(fā)生在75%處,即在3×(N+1)/4=21 處。所以:Q3=35 (e) 給出數(shù)據(jù)的五數(shù)概括。 一個(gè)數(shù)據(jù)集的分布的5 數(shù)概括由最小值、第一個(gè)四分位數(shù)、中位數(shù)、第三個(gè)四分位數(shù)、和最大值構(gòu)成。它給出了分布形狀良好的匯總+并且
10、這些數(shù)據(jù)是:13、20、25、35、70。 (f) 畫出數(shù)據(jù)的盒圖。 (g) 分位數(shù)—分位數(shù)圖與分位數(shù)圖的不同之處是什么? 分位數(shù)圖是一種用來展示數(shù)據(jù)值低于或等于在一個(gè)單變量分布中獨(dú)立的變量的粗略百分比。這樣,他可以展示所有數(shù)的分位數(shù)信息,而為獨(dú)立變量測(cè)得的值(縱軸)相對(duì)于它們的分位數(shù)(橫軸)被描繪出來。但分位數(shù)—分位數(shù)圖用縱軸表示一種單變量分布的分位數(shù),用橫軸表示另一單變量分布的分位數(shù)。兩個(gè)坐標(biāo)軸顯示它們的測(cè)量值相應(yīng)分布的值域,且點(diǎn)按照兩種分布分位數(shù)值展示。一條線(y=x)可畫到圖中+以增加圖像的信息。落在該線以上的點(diǎn)表示在y 軸上顯示的值的分布比x 軸的相應(yīng)的等同分位數(shù)對(duì)應(yīng)的值
11、的分布高。反之,對(duì)落在該線以下的點(diǎn)則低。 2.4假設(shè)醫(yī)院檢測(cè)隨機(jī)選擇的18個(gè)成年人年齡和身體脂肪數(shù)據(jù),得到如下結(jié)果: (a)計(jì)算年齡和脂肪百分比的均值、中位數(shù)和標(biāo)準(zhǔn)差. 年齡均值=(23+23+27+27+39+41+47+49+50+ 52+54+54+56+57+58+58+60+61)/18=836/18=46.44, 中位數(shù)= (50+52)/2=51, 標(biāo)準(zhǔn)差=方差的平方根=開根號(hào)( 1/n[∑(Xi)2-1/n(∑Xi)2])=開根號(hào) 1/18[2970.44]=12.85. 脂肪百分比均值=28.78, 中位數(shù)=30.7, 標(biāo)準(zhǔn)差= 8.99. (b)繪制
12、年齡和脂肪百分比的盒圖 (c)根據(jù)這兩個(gè)屬性,繪制散布圖,各q-q圖 q-q圖 散布圖 (d)根據(jù)z-score 規(guī)范化來規(guī)范化這兩個(gè)屬性(P46) (e)計(jì)算相關(guān)系數(shù)(皮爾遜積矩系數(shù)). 這兩個(gè)變量是正相關(guān)還是負(fù)相關(guān)? ra,b=∑(ai-A)(bi-B)/NσAσB=(∑(aibi)-NAB)/NσAσB=(∑(aibi)-18*46.44*28.78)/18*12.85*8.99=0.82 相關(guān)系數(shù)是0.82。變量呈正相關(guān)。 3.3 使用習(xí)題
13、2.4 給出的age 數(shù)據(jù)回答下列問題: (a) 使用分箱均值光滑對(duì)以上數(shù)據(jù)進(jìn)行光滑,箱的深度為3。解釋你的步驟。 評(píng)述對(duì)于給定的數(shù)據(jù),該技術(shù)的效果。 (b) 如何確定數(shù)據(jù)中的離群點(diǎn)? (c) 對(duì)于數(shù)據(jù)光滑,還有哪些其他方法? 解答: (a) 使用分箱均值光滑對(duì)以上數(shù)據(jù)進(jìn)行光滑,箱的深度為3。解釋你的步驟。評(píng)述對(duì)于給定的數(shù)據(jù),該技術(shù)的效果。 用箱深度為3 的分箱均值光滑對(duì)以上數(shù)據(jù)進(jìn)行光滑需要以下步驟: 步驟1:對(duì)數(shù)據(jù)排序。(因?yàn)閿?shù)據(jù)已被排序,所以此時(shí)不需要該步驟。) 步驟2:將數(shù)據(jù)劃分到大小為
14、3 的等頻箱中。 箱1:13,15,16 箱2:16,19,20 箱3:20,21,22 箱4:22,25,25 箱5:25,25,30 箱6:33,33,35 箱7:35,35,35 箱8:36,40,45 箱9:46,52,70 步驟3:計(jì)算每個(gè)等頻箱的算數(shù)均值。 步驟4:用各箱計(jì)算出的算數(shù)均值替換每箱中的每個(gè)值。 箱1:44/3,44/3,44/3 箱2:55/
15、3,55/3,55/3 箱3:21,21,21 箱4:24,24,24 箱5: 80/3 ,80/3, 80/3 箱 6: 101/3,101/3, 101/3 箱7:35,35,35 箱8:121/3,121/3,121/3 箱9:56,56,56 (b) 如何確定數(shù)據(jù)中的離群點(diǎn)? 聚類的方法可用來將相似的點(diǎn)分成組或“簇”,并檢測(cè)離群點(diǎn)。落到簇的集外的值可以被視為離群點(diǎn)。作為選擇,一種人機(jī)結(jié)合的檢測(cè)可被采用,而計(jì)算機(jī)用一種事先決定的數(shù)據(jù)分布來區(qū)分可能的離群點(diǎn)。這些可
16、能的離群點(diǎn)能被用人工輕松的檢驗(yàn),而不必檢查整個(gè)數(shù)據(jù)集。 (c) 對(duì)于數(shù)據(jù)光滑,還有哪些其他方法? 其它可用來數(shù)據(jù)光滑的方法包括別的分箱光滑方法,如中位數(shù)光滑和箱邊界光滑。作為選擇,等寬箱可被用來執(zhí)行任何分箱方式,其中每個(gè)箱中的數(shù)據(jù)范圍均是常量。除了分箱方法外,可以使用回歸技術(shù)擬合成函數(shù)來光滑數(shù)據(jù),如通過線性或多線性回歸。分類技術(shù)也能被用來對(duì)概念分層,這是通過將低級(jí)概念上卷到高級(jí)概念來光滑數(shù)據(jù)。 3.5 如下規(guī)范化方法的值域是什么? 答: (a) min-max 規(guī)范化。 值域是[new_min, new_max]。 (b) z-score 規(guī)范化。 值
17、域是[(old_min-mean)/σ,(old_max-mean)/σ],總的來說,對(duì)于所有可能的數(shù)據(jù)集的值域是(-∞,+∞)。 (c) 小數(shù)定標(biāo)規(guī)范化。 值域是(-1.0,1.0)。 3.7 使用習(xí)題 2.4 給出的 age 數(shù)據(jù),回答以下問題: (a) 使用 min-max 規(guī)范化將 age 值 35 變換到[0.0,1.0]區(qū)間。 (b) 使用 z-score 規(guī)范化變換 age 值 35,其中 age 的標(biāo)準(zhǔn)差為 12.94 歲。 (c) 使用小數(shù)定標(biāo)規(guī)范化變換 age 值 35。 (d) 對(duì)于給定的數(shù)據(jù),你愿意使用哪種方法?陳述你的理由。
18、 解答: 3.9 假設(shè) 12 個(gè)銷售價(jià)格記錄組已經(jīng)排序如下:5,10,11,13,15,35, 50,55,72,92,204,215。使用如下每種方法將其劃分成三個(gè)箱。 (a) 等頻(等深)劃分。 (b) 等寬劃分。 (c) 聚類。 解答: (a) 等頻(等深)劃分。 bin1 5,10,11,13 bin1 15,35,50,55 bin1 72,91,204,215 (b) 等寬劃分。 題目a 每個(gè)區(qū)間的寬度是:(215-5)/3=70 bin1 5,10,11,13,15,35,50,55,72 bin
19、1 91 bin1 204,215 (c) 聚類。 我們可以使用一種簡(jiǎn)單的聚類技術(shù):用 2 個(gè)最大的間隙將數(shù)據(jù)分成 3 個(gè)箱。 bin1 5,10,11,13,15 bin1 35,50,55,72,91 bin1 204,215 3.11 使用習(xí)題 2.4 給出的 age 數(shù)據(jù), (a) 畫出一個(gè)等寬為 10 的等寬直方圖; (b) 為如下每種抽樣技術(shù)勾畫例子:SRSWOR,SRSWR ,聚類抽樣,分層 抽樣。使用大小為 5 的樣本和層“青年”,“中年”和“老年”。 解答:(a) 畫出一個(gè)等寬為 10 的等寬直方圖; 8 7
20、 6 5 4 3 2 1 0 15 25 35 45 55 65 (b) 為如下每種抽樣技術(shù)勾畫例子:SRSWOR,SRSWR ,聚類抽樣,分層 抽樣。使用大小為 5 的樣本和層“青年”,“中年”和“老年”。 元組: T 1 13 T 10 22 T 19 35 T 2 15 T 11 25 T 20 35 T 3 16 T 12 25 T 21 35 T 4 16 T 13 25 T 22 36 T 5 19 T 14 25 T 23 40 T 6 20 T 15 3
21、0 T 24 45 T 7 20 T 16 33 T 25 46 T 8 21 T 17 33 T 26 52 T 9 22 T 18 35 T 27 70 SRSWOR 和 SRSWR:不是同次的隨機(jī)抽樣結(jié)果可以不同,但前者因無放回 所以不能有相同的元組。 SRSWOR (n=5) SRSWR (n=5) T 4 16 T 7 20 T 6 20 T 7 20 T 10 22 T 20 35 T11 25 T 21 35 T 26 52 T 25 46 聚類抽樣:設(shè)起始聚類共有 6 類,可抽其中
22、的 m 類。 Sample1 Sample2 Sample3 Sample4 Sample5 Sample6 T 1 13 T6 20 T 11 25 T 16 33 T 21 35 T 26 52 T 2 15 T7 20 T 12 25 T 17 33 T 22 36 T 27 70 T 3 16 T8 21 T 13 25 T 18 35 T 23 40 T 4 16 T9 22 T 14 25 T 19 35 T 24 45 T 5 19 T 10 22 T
23、 15 30 T 20 35 T 25 46 Sample2 Sample5 T 6 20 T21 35 T 7 20 T22 36 T 8 21 T23 40 T 9 22 T24 45 T 10 22 T25 46 T1 13 young T 10 22 young T 19 35 middle age T2 15 young T 11 25 young T 20 35 middle age T3 16 young T 12 25 young T 21 35
24、middle age T4 16 young T 13 25 young T 22 36 middle age T5 19 young T 14 25 young T 23 40 middle age T6 20 young T 15 30 middle age T 24 45 middle age T7 20 young T 16 33 middle age T 25 46 middle age T8 21 young T 17 33 middle age T 26 52 middle age T9
25、 22 young T 18 35 middle age T 27 70 senior T4 16 young T 12 25 young T 17 33 middle age T 25 46 middle age T 27 70 Senio r 4.3 假定數(shù)據(jù)倉(cāng)庫(kù)包含三維:time,doctor和patient;和兩個(gè)度量:count和charge;其中,charge是醫(yī)生對(duì)病人一次診治的收費(fèi)。 (a)列舉三種流行的數(shù)據(jù)倉(cāng)庫(kù)建模模式 答:三類模式一般用于建模數(shù)據(jù)倉(cāng)庫(kù)架構(gòu)的星形模型,雪花模型和事實(shí)星座模型。 (b)
26、使用(a)列舉的模式之一,畫出上面的數(shù)據(jù)倉(cāng)庫(kù)的模式圖 數(shù)據(jù)倉(cāng)庫(kù)的星形模型 (C)由基本方體[day,doctor,patient]開始,為列出2004年每位醫(yī)生的收費(fèi)總數(shù),應(yīng)當(dāng)執(zhí)行哪些OLAP操作?沿課程(course)維從course_id“上卷”到department。 l 沿時(shí)間(time)維從 day “上卷”到 year。 l 取 time=2004,對(duì)維 time作“切片” 操作 l 沿病人(patient)維從 個(gè)別病人 “上卷”到 全部病人。 (d)為得到同樣結(jié)果,寫一個(gè)SQL查詢。假定數(shù)據(jù)存放在關(guān)系數(shù)據(jù)庫(kù)中,其模式為
27、 fee(day,month,year,doctor,hospital,patient,count,charge)。 答:SQL查詢語句如下: select doctor, SUM(charge) from fee where year=2004 group by doctor 4.4 假定 BigUniversity 的數(shù)據(jù)倉(cāng)庫(kù)包含如下 4 個(gè)維:student(student_name, area_id , major, status, university) , course(course_name, department) , se
28、mester(semester, year) 和 instructor(dept, rank);2 個(gè)度量:count 和 avg_grade。 在最低概念層, 度量 avg_grade 存放學(xué)生的實(shí)際 課程成績(jī)。在較高概念層, avg_grade 存放給定組合的平均成績(jī)。 (a) 為該數(shù)據(jù)倉(cāng)庫(kù)畫出雪花形模式圖。 (b) 由 基 本 方 體 [student, course, semester, instructor] 開 始 , 為 列 出 BigUniversity 每個(gè)學(xué)生的 CS 課程的平均成績(jī),應(yīng)當(dāng)使用哪些特殊 的 OLAP 操作。 (c) 如果每維有 5 層(包括
29、all),如“student 30、dent)維從 student_id “上卷”到 university 。
iii. 取 department= “CS ”和 university= “Big University ”,沿課程
(course)維和學(xué)生(student)維切片。
iv. 沿學(xué)生(student)維從 university 下鉆到 student_name。
c) 如果每維有 5 層(包括 all),如“student 31、ate, spectator, location, 和game,和兩個(gè)度量:count和charge;其中,charge是觀眾在給定的日期觀看節(jié)目的付費(fèi)。觀眾可以是學(xué)生、成年人或老年人,每類觀眾有不同的收費(fèi)標(biāo)準(zhǔn)。
(a)畫出該數(shù)據(jù)倉(cāng)庫(kù)的星形模式圖。
答: 星形模式圖如下:
b. 由基本方體[date,spectator,location,game]開始,為列出2004年學(xué)生觀眾在GM_Place的總付費(fèi),應(yīng)執(zhí)行的OLAP操作:
l 沿時(shí)間(date)維從date_id “上卷”到 year。
l 沿時(shí)間(game)維從 game_id “上卷”到全部。
l 沿時(shí)間(locati 32、on)維從location_id “上卷”到 location_name 。
l 沿時(shí)間(spectator)維從spectator_id “上卷”到 status 。
l 以 status="students", location name="GM Place" and year=2004 作轉(zhuǎn)軸操作
4.6 數(shù)據(jù)倉(cāng)庫(kù)可以用星形模式或雪花模式建模。簡(jiǎn)略討論這兩種模式的相似點(diǎn)和不同點(diǎn),然后分析它們的相對(duì)做優(yōu)、缺點(diǎn)。哪種模式更實(shí)用,給出你觀點(diǎn)并陳述你的理由。
答:星形模式或雪花模式的相似點(diǎn)是它們包含一個(gè)事實(shí)表和一些維表。它們主要的不同在于,雪花模式的維表可能是規(guī)范化形式,以便減 33、少了冗余,這種表易于維護(hù)并節(jié)省存儲(chǔ)空間。然而,與巨大的事實(shí)表相比,這種空間的節(jié)省可以忽略。此外,由于執(zhí)行查詢需要更多的連接操作,雪花形結(jié)構(gòu)可能降低瀏覽的性能,這樣,系統(tǒng)的性能可能相對(duì)的受到影響。星型模式的優(yōu)點(diǎn)是簡(jiǎn)單、這使得它更有效,但它需要更多的空間。因此,只要空間的要求不是太大時(shí),星形模式比雪花模式更好,因?yàn)橥ǔP时瓤臻g具有更高的優(yōu)先級(jí)。在工業(yè)上,有時(shí)可能將數(shù)據(jù)從一個(gè)雪花模式非規(guī)范化為星型模式以加快處理速度,另一種選擇是保持雪花模式的維表,然后相同數(shù)據(jù)的當(dāng)前用戶折疊為星形。
4.9
4.11
5.1 5.2
34、
5.4 假定基本方體有三維A,B,C,其單元數(shù)如下:|A|=1000000,|B|=100,|C|=1000.假定每維均等地分塊成10部分。
(a)假定每維只有一層,畫出完整的立方體的格。
答:完整的立方體的格如下圖
(b)如果每個(gè)立方體單元存放一個(gè)4字節(jié)的度量,若立方體是稠密的,所計(jì)算的立方體有多大?
答:所計(jì)算的立方體大小如下:
all:1
A: 1,000,000; B: 100; C: 1, 000; 小計(jì): 1,001,100
AB: 1,000,000*100=100,000,000; BC: 100*1,000=100,000 35、; AC: 1,000,000*1,000=1,000,000,000;
小計(jì): 1,100,100,000
ABC: 1,000,000*100*1,000=100,000,000,000
總和: 1+1,001,100+1,100,100,000+100,000,000,000=101,101,101,101 * 4 = 404,404,404,404 字節(jié)
(C)指出空間需求量最小的立方體中的塊計(jì)算次序,并計(jì)算2-D平面計(jì)算所需要的內(nèi)存空間總量。
答:順序計(jì)算,需要最少數(shù)量的空間B-C-A.如圖所示:
計(jì)算二維平面需要的總主內(nèi)存空 36、間是:
總空間 = (100×1,000) + (1,000,000 × 10) + (100 × 10,000) = 20,100,000 單元* 4字節(jié)/單元= 80,400,000 字節(jié)
6.3 Apriori算法使用子集支持性質(zhì)的先驗(yàn)知識(shí)。
(a) 證明頻繁項(xiàng)集的所有非空的子集也必須是頻繁的。
答:設(shè)s是一個(gè)頻繁項(xiàng)集,min_sup 是最小支持度閥值,任務(wù)相關(guān)的數(shù)據(jù)D是數(shù)據(jù)庫(kù)事務(wù)的集合,|D|是D 有事務(wù)量,則有Support_count(s) = min_sup×|D|;
再設(shè)s’是s的非空子集,則任何包含項(xiàng)集s的事務(wù)將同樣包含項(xiàng)集s’ , 即:
support_ cou 37、nt(s') support count(s) = min_sup ×|D|.
所以,s’也是一個(gè)頻繁項(xiàng)集。
(b) 證明項(xiàng)集s的任意非空子集s’的支持至少和s的支持度一樣大。
答:設(shè)任務(wù)相關(guān)的數(shù)據(jù)D是數(shù)據(jù)庫(kù)事務(wù)的集合,|D|是D 的事務(wù)量,由定義得:
設(shè)s’是s的非空子集,由定義得:
由(a)可知:support(s’) support(s)
由此證明,項(xiàng)集s的任意非空子集s’的支持至少和s的支持度一樣大。
(c)給定頻繁項(xiàng)集 l 和 l 的子集 s ,證明規(guī)則的置信度不可能大于
答:設(shè) s 是 l 的子集, 則
設(shè)s’是s的非空 38、子集,則
由(b)可知:support_count(s') support count(s),
此外,confidence(s’) (l-s’)) confidence(s) (l- s))
所以,規(guī)則的置信度不可能大于。
6.6設(shè)數(shù)據(jù)庫(kù)有5個(gè)事務(wù)。設(shè)min_sup =60%, min_conf=80%
(a)分別使用Apriori和FP增長(zhǎng)算法找出所有頻繁項(xiàng)集。比較兩種挖掘過程的效率。
效率比較:Apriori需多次掃描數(shù)據(jù)庫(kù)而FP增長(zhǎng)建立FP樹只需一次的掃描。在Apriori算法中產(chǎn)生候選是昂貴的(由于聯(lián)接),而FP增長(zhǎng)不產(chǎn)生任何候選 39、。
(b)列舉所有與下面的元規(guī)則匹配的強(qiáng)關(guān)聯(lián)規(guī)則(給出支持度S和置信度C),其中,X是代表顧客的變量,itemi是表示項(xiàng)的變量(如:“A”、“B”等):
答: k,o e [0.6,1]
e,o k [0.6,1]
6.8.數(shù)據(jù)庫(kù)有4個(gè)事務(wù),設(shè)min_sup =60%, min_conf=80%
(a)在item_category粒度(例如,itemi 可以是“Milk”),對(duì)于下面的規(guī)則模板
對(duì)最大的k,列出頻繁k項(xiàng)集包含最大的k的頻繁k項(xiàng)集的所有強(qiáng)關(guān)聯(lián)規(guī)則(包括它們的支持度S和置信度c).
(b)在 粒度(例如:itemi 可以是“Sunset 40、-Milk”)對(duì)于下面的規(guī)則模板
對(duì)最大的k,列出頻繁k項(xiàng)集(但不輸出任何規(guī)則)。
6.14 下面的相依表匯總了超級(jí)市場(chǎng)的事務(wù)數(shù)據(jù)。其中,hot dogs表示包含熱狗的事務(wù),hot dogs表示不包含熱狗的事務(wù),hamburgers表示包含漢堡包的事務(wù),hamburgers表示不包含漢堡包的事務(wù),
(a)假定挖掘出了關(guān)聯(lián)規(guī)則 。給定最小支持度閥值25%,最小置信度閥值50%,該關(guān)聯(lián)規(guī)則是強(qiáng)規(guī)則嗎?
答:根據(jù)規(guī)則, support = 2000/5000 = 40%, confidence = 2000/3000 = 66.7%. 該關(guān)聯(lián)規(guī)則是強(qiáng)規(guī)則.
(b)根據(jù)給定 41、的數(shù)據(jù),買 hot dogs獨(dú)立于買humburgers嗎?如果不是,二者之間存在何種相關(guān)聯(lián)系。
答:corr{hotdog;hamburger} = P({hot dog, hamburger})/(P({hot dog}) P({hamburger})=0.4/(0.5 × 0.6) =1.33 > 1. 所以,買 hot dogs不是獨(dú)立于買humburgers。兩者存在正相關(guān)關(guān)系
8.1 簡(jiǎn)述決策樹分類的主要步驟。
8.5 給定一個(gè)具有50個(gè)屬性(每個(gè)屬性包含100個(gè)不同值)的5GB的數(shù)據(jù)集,而你的臺(tái)式機(jī)有512M內(nèi)存。簡(jiǎn)述對(duì)這種大型數(shù)據(jù)集構(gòu)造決策樹的一種有效算法。通 42、過粗略地計(jì)算機(jī)主存的使用說明你的答案是正確的。
這個(gè)問題我們將使用雨林算法。假設(shè)有C類標(biāo)簽。最需要的內(nèi)存將是avc-set為根的樹。計(jì)算avc-set的根節(jié)點(diǎn),我們掃描一次數(shù)據(jù)庫(kù),構(gòu)建avc-list每50個(gè)屬性。每一個(gè)avc-list的尺寸是100×C,avc-set的總大小是100×C×50,對(duì)于合理的C將很容易適應(yīng)512 MB內(nèi)存,計(jì)算其他avc-sets也是使用類似的方法,但他們將較小,因?yàn)楹苌賹傩钥捎谩T诓⑿杏?jì)算時(shí),我們可以通過計(jì)算avc-set節(jié)點(diǎn)來減少同一水平上的掃描次數(shù),使用這種每節(jié)點(diǎn)小avc-sets的方法,我們或許可以適應(yīng)內(nèi)存的水平。
8.7下表由雇員數(shù)據(jù)庫(kù)的訓(xùn)練數(shù) 43、據(jù)組成。數(shù)據(jù)已泛化。例如:age “31...35”表示年齡在31-35之間。對(duì)于給定的行,count表示department,status,age和salary在該行具有給定值的元組數(shù)。設(shè)status 是類標(biāo)號(hào)屬性。
(a)如何修改基本決策樹算法,以便考慮每個(gè)廣義數(shù)據(jù)元組(即每一行)的count?
(b)使用修改的算法,構(gòu)造給定數(shù)據(jù)的決策樹。
(c)給定一個(gè)數(shù)據(jù)元組,它在屬性department,age和salary的值分別為“systems”,“26..30”,和“46K.. 50K”。該元組status的樸素貝葉斯分類是什么?
9.2支持向量機(jī)(SVM)是一種具有高準(zhǔn)確率的分類方法。然而,在使用大型數(shù)據(jù)元組集進(jìn)行訓(xùn)練時(shí),SVM的處理速度很慢。討論如何克服這一困難,并為大型數(shù)據(jù)集有效的SVM算法。
- 溫馨提示:
1: 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2: 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3.本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 裝配圖網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2020高考化學(xué)熱門專題:原理綜合透題型析課件
- 現(xiàn)代中國(guó)的教育說課稿課件
- 蒸餾和熔點(diǎn)沸點(diǎn)的測(cè)定和溫度計(jì)的校正
- 臨時(shí)起搏器的護(hù)理
- 恒成實(shí)業(yè)網(wǎng)絡(luò)推廣方案
- 勿為小惡優(yōu)秀課件-粵教版
- 人教版初中地理七年級(jí)上冊(cè)人口與人種課件7
- 誡子書課件文檔
- 軟件測(cè)試計(jì)劃書與測(cè)試用例編寫課件
- 人教版五年級(jí)數(shù)學(xué)上冊(cè)課件3小數(shù)除法第2課時(shí)除數(shù)是整數(shù)的小數(shù)除法課件
- 太白酒2002年全國(guó)推廣營(yíng)銷企劃案
- 滬教版小學(xué)語文三年級(jí)上冊(cè)《小狗杜克》課件1
- 我們的情感世界課件7-人教版
- 擔(dān)保產(chǎn)品案例講解及其風(fēng)險(xiǎn)控制設(shè)計(jì)(含法律相關(guān)規(guī)范)
- 【部編版】四年級(jí)語文上冊(cè)《2.走月亮》ppt課件