機(jī)械專業(yè)外文文獻(xiàn)翻譯-外文翻譯---不完整測(cè)量數(shù)據(jù)的概念建構(gòu) 中文版
《機(jī)械專業(yè)外文文獻(xiàn)翻譯-外文翻譯---不完整測(cè)量數(shù)據(jù)的概念建構(gòu) 中文版》由會(huì)員分享,可在線閱讀,更多相關(guān)《機(jī)械專業(yè)外文文獻(xiàn)翻譯-外文翻譯---不完整測(cè)量數(shù)據(jù)的概念建構(gòu) 中文版(12頁(yè)珍藏版)》請(qǐng)?jiān)谘b配圖網(wǎng)上搜索。
不完整測(cè)量數(shù)據(jù)的概念建構(gòu) 王壽宏,王海 摘要 : 對(duì)資料挖掘來(lái)說(shuō),未經(jīng)加工的調(diào)查數(shù)據(jù)通常是不完整的。資料挖掘中缺失數(shù)據(jù)的問(wèn)題在知識(shí)發(fā)現(xiàn)過(guò)程中常被忽略。這篇文章介紹了在不完整調(diào)查數(shù)據(jù)中資料挖掘的基礎(chǔ)概念,以及計(jì)劃知識(shí)發(fā)現(xiàn)中的咨詢過(guò)程,和在調(diào)查資料挖掘咨詢功能在概念解釋上的發(fā)展趨勢(shì)。這篇文章通過(guò)一個(gè)事例,論證了通過(guò)使用人工智力工具譬如自組織映射,不完整數(shù)據(jù)的概念解釋可以完成。 數(shù)據(jù)挖掘就是分析數(shù)據(jù)以圖從中找出有用模型的過(guò)程。而數(shù)據(jù)挖掘與傳統(tǒng)的 統(tǒng)計(jì)分析有所不同,因?yàn)閿?shù)據(jù)挖掘的目的是找出對(duì)數(shù)據(jù)所有 者或數(shù)據(jù)挖掘員有價(jià) 值而又確定的關(guān)系。鑒于數(shù)據(jù)的維數(shù)和數(shù)據(jù)量本身的巨大,傳統(tǒng)的的統(tǒng)計(jì)分析方 法在數(shù)據(jù)挖掘時(shí)有其局限性。為滿足數(shù)據(jù)挖掘的最新需要,在數(shù)據(jù)挖掘領(lǐng)域里面 已經(jīng)廣泛采用基于人 數(shù)據(jù)挖掘時(shí)有很多非統(tǒng)計(jì)技術(shù)?;?經(jīng)網(wǎng)絡(luò)的自組織映射 (是其中一種比較有前途的方法。基于集群技術(shù)的 對(duì)其他方法來(lái)說(shuō)有優(yōu)勢(shì)。通常數(shù)據(jù)挖掘技術(shù)處理一些十分高維的數(shù)據(jù),也就是說(shuō)做數(shù)據(jù)挖掘的數(shù)據(jù)庫(kù)通常是由很多變量決定的?!熬S數(shù)災(zāi)難”使得對(duì)數(shù)據(jù)關(guān)系的統(tǒng)計(jì)分析變得毫無(wú)意義,這也使得 統(tǒng)計(jì)方法變得無(wú)能為力了。然而 而被認(rèn)為是處理多維數(shù)據(jù)的有效方法。更為重要的是 種特色是其他任何數(shù)據(jù)分析方法都不具備的。它允許數(shù)據(jù)挖掘者分析該問(wèn)題域中的集群。 測(cè)量只是數(shù)據(jù)采集中的一種普通數(shù)據(jù)獲取方法。在數(shù)據(jù)挖掘的中,我們得到的調(diào)研數(shù)據(jù)集通常很難滿足每個(gè)變量都有填寫(xiě)完全的觀測(cè)結(jié)果。一般地,被調(diào)查者只部分地完成調(diào)研和問(wèn)卷調(diào)查的內(nèi)容。當(dāng)事實(shí)上我們無(wú)法再次面向被調(diào)查者完成調(diào)研和問(wèn)卷調(diào)查的全部?jī)?nèi)容時(shí),我們并不知道缺失數(shù)據(jù)的嚴(yán)重性 ,但這是數(shù)據(jù)掘中有待發(fā)現(xiàn)的最重要部分之一。事實(shí)上,在知識(shí)工程領(lǐng)域缺失數(shù)據(jù)是一個(gè)重要而具有爭(zhēng)議的問(wèn)題。 通過(guò)集群分析在挖掘由不完整數(shù)據(jù)構(gòu)成的調(diào)查數(shù)據(jù)庫(kù)過(guò)程中,缺失數(shù)據(jù)的類 型及缺失數(shù)據(jù)對(duì)數(shù)據(jù)挖掘的潛在影響是一門(mén)學(xué)問(wèn)。例如,數(shù)據(jù)挖掘者通常希望能 知道集群分析的可信程度;一些有價(jià)值的類型通常是什么時(shí)候和怎樣丟失的;以 及丟失有價(jià)值數(shù)據(jù)的時(shí)候哪些變量與之有關(guān)系。這些有價(jià)值東西在缺失數(shù)據(jù)集部 分被充分發(fā)掘之后才能發(fā)現(xiàn)。 這篇文章討論了知識(shí)發(fā)現(xiàn)中在發(fā)掘調(diào)研數(shù)據(jù)庫(kù)過(guò)程中數(shù)據(jù)缺失的問(wèn)題,并介 紹了概念解釋的概 念基礎(chǔ),以及建議設(shè)立基于 下部分是這樣安排的:第二部分討論數(shù)據(jù)缺失與數(shù)據(jù)挖掘的關(guān)系問(wèn)題;第三部分介紹數(shù)據(jù)挖掘中 四部分說(shuō)明了挖掘不完整數(shù)據(jù)的 4個(gè)概念的知識(shí)發(fā)現(xiàn);并提供了應(yīng)用 五部分建立用于操控 六部分介紹一個(gè)例子,該例子應(yīng)用咨詢工具對(duì)一個(gè)學(xué)生判斷測(cè)量的數(shù)據(jù)集進(jìn)行熟練操作 后,第七部分作了結(jié)束語(yǔ)。 2 數(shù)據(jù)缺失問(wèn)題 不完整數(shù)據(jù)集普遍存在于數(shù)據(jù)挖掘中。數(shù)據(jù)缺失的解決辦法有許多 種 ,其中對(duì)付不完整數(shù)據(jù)的一種方便辦法是將那些已記錄沒(méi)有價(jià)值的數(shù)據(jù)集排除掉。然而這忽略了這些記錄中潛在的有用信息。萬(wàn)一缺失數(shù)據(jù)的比重較大,從篩選過(guò)的數(shù)據(jù)中得出的結(jié)論就會(huì)有偏頗或引起誤導(dǎo)。 另一種處理丟失數(shù)據(jù)的簡(jiǎn)單方法是用一類通用的“未知”來(lái)代替所有丟失數(shù) 據(jù)項(xiàng)。數(shù)據(jù)挖掘中,不確定的“未知”通常在丟失數(shù)據(jù)項(xiàng)中引起混亂和誤解。 對(duì)付缺失數(shù)據(jù)的第三種辦法是排除數(shù)據(jù)域中沒(méi)有價(jià)值的數(shù)據(jù)。對(duì)于時(shí)序數(shù)列,可觀察到的相鄰數(shù)據(jù)點(diǎn)可以插補(bǔ)。一般情況下,數(shù)據(jù)域中預(yù)期值可用于統(tǒng)計(jì)測(cè)量。然而,數(shù)據(jù)挖掘中,調(diào)研數(shù)據(jù)類型通 常是隊(duì)、類,有多項(xiàng)選擇的,二進(jìn)制的。這些例子中,插補(bǔ)及特殊缺失數(shù)據(jù)變量的使用通常是不夠的。更為重要的是, 研究表明,解決缺失數(shù)據(jù)的有效辦法應(yīng)該總是獨(dú)立于問(wèn)題之外去研究。 新近,發(fā)現(xiàn)損缺失數(shù)據(jù)集的合計(jì)概念方向有了精確的方法。這些方法與傳統(tǒng) 逼近法處理缺失數(shù)據(jù)截然不同,它著眼于缺失數(shù)據(jù)的整體,而不是個(gè)別缺失的價(jià) 值。這些方法的這個(gè)高級(jí)特征使不完整數(shù)據(jù)的數(shù)據(jù)挖掘得以加強(qiáng)。然而這些統(tǒng)計(jì) 方法有其局限性。首先,得假定缺失價(jià)值存在于隨機(jī)方式或者新遵循一定的分配 儀式。這些關(guān)于數(shù)據(jù)分配嚴(yán)格假定通常是無(wú)效的,特別對(duì)不完 善數(shù)據(jù)的測(cè)定。第 二,這些數(shù)學(xué)模型通常是數(shù)據(jù)驅(qū)動(dòng),而不是“問(wèn)題領(lǐng)域驅(qū)動(dòng)”。實(shí)際上,由于數(shù) 據(jù)挖掘的目標(biāo)常常與具體問(wèn)題域有關(guān)聯(lián),一個(gè)單獨(dú)普通概念建構(gòu)算法不足以應(yīng)付 數(shù)據(jù)挖掘的多樣目標(biāo)。 數(shù)據(jù)庫(kù)的知識(shí)發(fā)現(xiàn)是鑒別有效的、新奇的、有潛在作用并最終可以理解的數(shù) 據(jù)模式的有實(shí)際意義的過(guò)程。根據(jù)這個(gè)定義,這項(xiàng)研究強(qiáng)調(diào)利用不完整數(shù)據(jù)進(jìn)行 數(shù)據(jù)挖掘概念構(gòu)建的兩個(gè)方面。首先,利用不完整數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘中,有效、 新奇、有用的標(biāo)準(zhǔn)隨問(wèn)題而定。那就是,一個(gè)數(shù)據(jù)模式不單獨(dú)依賴于該模式估計(jì) 的統(tǒng)計(jì)力,也依賴于數(shù)據(jù)挖掘者。第二, 通過(guò)對(duì)建立于計(jì)算機(jī)和人類認(rèn)識(shí)理論的 組合空間的啟發(fā)式研究,可以完成基于不完整數(shù)據(jù)的概念建構(gòu)。人機(jī)協(xié)作進(jìn)行概 念建構(gòu)就是在數(shù)據(jù)挖掘者和計(jì)算機(jī)之間發(fā)掘出新奇、似是而非、有用的、相關(guān)的 和有趣味性與缺失數(shù)據(jù)相關(guān)的知識(shí)的人機(jī)交互式過(guò)程。 照我們看來(lái),數(shù)據(jù)挖掘與傳統(tǒng)統(tǒng)計(jì)在處理缺失數(shù)據(jù)方面有很多不同。 (1)數(shù)據(jù)挖掘試圖從數(shù)據(jù)中去發(fā)掘出無(wú)疑的、潛在的有用模式,是由于數(shù)據(jù)挖掘者的新奇目標(biāo)在于缺失數(shù)據(jù)而不在于估計(jì)個(gè)別缺失數(shù)據(jù)的價(jià)值。 (2)數(shù)據(jù)挖掘是人類知識(shí)發(fā)現(xiàn)環(huán)道中心環(huán)節(jié)工具 ,該過(guò)程是通過(guò)人機(jī)交互 而認(rèn) 識(shí)到由集合水平上缺失數(shù)據(jù)引起的沖擊,更甚于僅用基于未經(jīng)證實(shí)的假設(shè)的數(shù)學(xué) 方法得出的結(jié)論。 映射組織( 假如有一個(gè)很大多維集調(diào)研的例子,通常就會(huì)有很大一部分觀察資料丟失 價(jià)值,然而并非所有的缺失數(shù)據(jù)都引起數(shù)據(jù)挖掘者的興趣。因此,對(duì)于一個(gè)有巨 大數(shù)據(jù)來(lái)說(shuō),任何簡(jiǎn)單的強(qiáng)力搜索缺失數(shù)據(jù)的方法都是不可行,而且,當(dāng)數(shù)據(jù)挖 掘者通過(guò)數(shù)據(jù)挖掘僅為了找出問(wèn)題或者發(fā)展概念時(shí)該方法是沒(méi)有用的。為明確問(wèn) 題或創(chuàng)建概念,數(shù)據(jù)挖掘者需要一種工具來(lái)觀察可利用數(shù)據(jù)與缺失數(shù)據(jù)的確定模 式。 由于自映射組織( 流行的 此在群集分組中廣泛應(yīng)用。更為重要的是, 數(shù)據(jù)挖掘者提供數(shù)據(jù)的可視化,用來(lái)觀察多維數(shù)據(jù)。研究表明, 別是, 用在多變量測(cè)量數(shù)據(jù)的集群分析。這個(gè)研究更進(jìn)一步,把完整數(shù)據(jù)的概念建構(gòu)是為了研究缺失數(shù)據(jù)的模式,如同這些缺失數(shù)據(jù)對(duì)基于完整數(shù)據(jù)的挖掘結(jié)果的潛在沖擊。下面例子說(shuō)明, 通過(guò)無(wú)人監(jiān)督(競(jìng)爭(zhēng)的)學(xué)習(xí)過(guò)程 ,學(xué)會(huì)一定有用的特征, 以及把多維數(shù)據(jù)繪制到低維圖片,這樣數(shù)據(jù)挖掘者可觀測(cè)到集群圖片。圖 1描述了研究中應(yīng)用二層 層節(jié)點(diǎn)(輸入節(jié)點(diǎn))通過(guò)采樣數(shù)據(jù)點(diǎn)接收輸入數(shù)值。高層節(jié)點(diǎn)(輸出節(jié)點(diǎn))在無(wú)人監(jiān)督學(xué)習(xí)后回饋輸入的組織映象。每個(gè)低層節(jié)點(diǎn)都經(jīng)過(guò)一個(gè)可變聯(lián)接權(quán)量,聯(lián)結(jié)到每個(gè)高層節(jié)點(diǎn)。 始時(shí)聯(lián)結(jié)承載較小隨機(jī)數(shù)學(xué)。輸入節(jié)點(diǎn)接收由采樣數(shù)據(jù)點(diǎn)引入的輸入代表向量。輸入向量經(jīng)過(guò)聯(lián)接傳送到輸出節(jié)點(diǎn)。激活的輸出節(jié)點(diǎn)依賴于輸入。 在勝者通吃的競(jìng)爭(zhēng)制度中,與輸入向量有最相似的權(quán)量的輸出節(jié)點(diǎn)被激活。在學(xué)習(xí)階段,權(quán)量依照 權(quán)量更新僅存在于激活的輸出節(jié)點(diǎn)以及拓?fù)溧忺c(diǎn)(如圖 1)。在這種一維空間輸出事例中,我們假定了一個(gè)線性鄰域。該鄰域開(kāi)始很大,尺寸隨時(shí)間慢慢減小。因?yàn)閷W(xué)習(xí)速度將趨于零,學(xué)習(xí)進(jìn)程也將最終集于一點(diǎn)。 引入足夠的輸入向量后,權(quán)量將指定群集以便本地群集密度函數(shù)趨于接近輸 入向量的密度函數(shù)。由于共享相似拓?fù)涞墓?jié)點(diǎn)對(duì)相似輸入敏感,所以權(quán)量得組織。因而 時(shí),在預(yù)先并不了解 聚類中心的情況下,也體現(xiàn)真實(shí)自映射組織聚類。讀者可到 12章中看更詳細(xì)內(nèi)容。 4、不完整數(shù)據(jù)的概念建構(gòu) 這篇文章中,不完整數(shù)據(jù)的概念建構(gòu)通過(guò)兩個(gè)階段來(lái)完成的。首先, 示了引入聚類的數(shù)據(jù)的不同尋常的模式。基于這些聚類,數(shù)據(jù)挖掘者能鑒別出明確的數(shù)據(jù)模式,并清晰說(shuō)清楚問(wèn)題。其次,與正被討論的聚類有關(guān)聯(lián)的缺失價(jià)值的不完整數(shù)據(jù),構(gòu)造出新概念。這一段中,數(shù)據(jù)挖掘者估計(jì)了缺失數(shù)據(jù)對(duì)問(wèn)題鑒別以及發(fā)展與缺失數(shù)據(jù)相關(guān)的知識(shí)的沖擊。第一階段的任務(wù)跟大部分 篇文章 集中目標(biāo)于第二階段,并計(jì)劃了不完整數(shù)據(jù)數(shù)據(jù)挖掘的概念建構(gòu)的方法。下一步,我們建造四個(gè)概念作為不完整數(shù)據(jù)數(shù)據(jù)挖掘的知識(shí)發(fā)現(xiàn)。如同本文后面所講的,通過(guò)人協(xié)作和基于些概念能夠建造出來(lái)。 靠性 依照正被調(diào)查的問(wèn)題,可靠性概念顯示了缺失數(shù)據(jù)的范圍。有兩個(gè)指數(shù)應(yīng)用 于該概念。 S/ 使用的聚類鑒定的完整價(jià)值的數(shù)據(jù)采樣的數(shù)量。顯然,值越高,聚類的觀測(cè)可靠性越低。 i)/CV(i) i)是變量 V(i)是使用的聚類鑒定的采樣變量 i 的數(shù)值。再則,根據(jù)變量 i, i)/CV(i)的值越大,聚類的觀測(cè)可靠性越低。 匿 隱匿的概念揭示一次觀測(cè)結(jié)果的值在一定范圍內(nèi)變化意味著將在另一個(gè)變量中丟失價(jià)值。 i)|x(j)=(a,b) i)是變量 x(j)是變量 ( a,b)是 x(j)的值的范圍。 索引揭示了測(cè)量疑問(wèn)的不確定答案的程度,例如“未知”和 “中立的”,或者組織缺失數(shù)據(jù)的意圖,例如“不想告訴”。 求運(yùn)算 反求運(yùn)算的概念揭示了變量同時(shí)更可能缺失值。 i,j)/ i) i,j)是變量 i 和 j 的漏測(cè)值 , i)是變量 個(gè)概念揭示兩個(gè)變量的漏測(cè)值的相互關(guān)系。 i,j)/ i)的值越大,漏測(cè)值之間的相互關(guān)系越緊密。 件效應(yīng) 條件效應(yīng)這個(gè)概念揭示了聚類鑒別的潛在變化,若缺失價(jià)值已完成。 P? | )(=k P? 是數(shù)據(jù)挖掘者感覺(jué)到的聚類的變化量, )(代表變量 i 的所有漏測(cè)值,而 k 是測(cè)量中可能出現(xiàn) 的可能值。特別地,k={p}, 刻度的最大值, 刻度的最小值,而 漏測(cè)值來(lái)說(shuō),賦予 據(jù)挖掘者可能觀測(cè)到聚類的變化,然后重新限定問(wèn)題。 簡(jiǎn)言之,不完整數(shù)據(jù)的概念建構(gòu)是一門(mén)學(xué)問(wèn)的發(fā)展過(guò)程。不完整數(shù)據(jù)中建造一個(gè)新概念,需要數(shù)據(jù)挖掘者去明確建構(gòu)中的特別問(wèn)題。漏測(cè)值的四個(gè)概念是可靠性、隱匿性、求反運(yùn)算及條件效應(yīng)。下一步我們逐步展開(kāi)不完整數(shù)據(jù)概念建構(gòu)中的質(zhì)疑。我們質(zhì)疑的目的是使數(shù)據(jù)挖掘者能夠通過(guò)使用 而建造 出新的與問(wèn)題相關(guān)的概念。 5、概念建構(gòu)的詢問(wèn)處理 結(jié)構(gòu)化查詢語(yǔ)言( 種查詢工具具有特征,這種標(biāo)準(zhǔn)查詢語(yǔ)言常用于相關(guān)數(shù)據(jù)庫(kù)管理系統(tǒng)。對(duì)于數(shù)據(jù)挖掘,由于數(shù)據(jù)庫(kù)信息檢索的最終目標(biāo)是通過(guò)應(yīng)用多變技術(shù)的明確表達(dá)的知識(shí),創(chuàng)造一種單純的標(biāo)準(zhǔn)查詢語(yǔ)言能滿足數(shù)據(jù)挖掘的各個(gè)目的是不太可能的。然而,為了維持人機(jī)協(xié)作高效運(yùn)轉(zhuǎn),數(shù)據(jù)挖掘中可視化詢問(wèn)處理很必要。這個(gè)研究通過(guò)基于 展一套查詢函數(shù)來(lái)幫助數(shù)據(jù)挖掘者建造與缺失數(shù)據(jù)相關(guān)的概念。 基于 這使資料庫(kù)、 序與詢問(wèn)處理有可能整合為一個(gè)單純環(huán)境。應(yīng)用微軟的 靠電子表格,數(shù)據(jù)得以儲(chǔ)存;通過(guò)宏指令( 序得以執(zhí)行;圖形函數(shù)支持?jǐn)?shù)據(jù)可視化;宏指令也使得查詢處理函數(shù)能夠運(yùn)行。圖 2描述了系統(tǒng)結(jié)構(gòu)的技術(shù)細(xì)節(jié)。解決了基于 軟件問(wèn)題,系統(tǒng)結(jié)構(gòu)變得簡(jiǎn)單而易于執(zhí)行。然而,從實(shí)際應(yīng)用的觀點(diǎn)來(lái)看,軟件系統(tǒng)限制了數(shù)據(jù)挖掘中數(shù)據(jù)庫(kù)的規(guī)模。 七組查詢函數(shù)已發(fā)展起來(lái),對(duì)應(yīng)于上一節(jié)所描述數(shù)據(jù)挖掘中的四個(gè)概念以及一般操作函數(shù)。通過(guò)圖形用戶界面,數(shù)據(jù)挖掘者使用詢問(wèn)處理系統(tǒng)。 得完整數(shù)據(jù)的聚類 數(shù)據(jù)挖掘者使用查詢函數(shù)來(lái)觀測(cè)聚類及鑒定不用懷疑的完整價(jià)值數(shù)據(jù)集模式?;谀切┚垲?,數(shù)據(jù)挖掘者明確問(wèn)題所在。數(shù)據(jù)挖掘者能夠選擇適合 設(shè)置拓?fù)浜?類的數(shù)量非常依賴于自然數(shù)據(jù)和 數(shù)間的復(fù)雜關(guān)系。然而,通過(guò)減少 據(jù)挖掘者通常能夠減少聚類的數(shù)量;反之亦然。 應(yīng)用這個(gè)查詢函數(shù),數(shù)據(jù)挖掘者能夠描繪所查詢的 于一個(gè)聚類的邊界線在圖中通常是模糊不清的,對(duì)聚類的描繪只能基于他或她對(duì)聚類的感知。在內(nèi)部, 對(duì)應(yīng)觀測(cè)采樣,輪廓與聚類的 使電腦程序追溯聚類到數(shù)據(jù)成為可能。查詢函數(shù)返回該聚類的變量的值的范圍。 查詢是為了保存和更正的 一般操作,如同設(shè)置數(shù)據(jù)樣值的參數(shù)、變量。數(shù)據(jù)挖掘者能夠把一系列的 明 據(jù)挖掘者想知道的是觀測(cè)到的聚類的可靠性如何。這個(gè)查詢?cè)试S數(shù)據(jù)挖掘者去查明 訓(xùn)所用變量。如果 據(jù)挖掘者能夠發(fā)現(xiàn)個(gè)別變量的可靠性,如下面所述的。 明 (i)/CV(i) 數(shù)據(jù)挖掘者可能對(duì)某一變量感興趣。應(yīng)用這個(gè)查詢,他能夠根據(jù)這個(gè)別的變量來(lái)核查聚類的觀測(cè)是否可靠。 查明 (i)/x(j)=(a,b) 該查詢函數(shù)能夠讓數(shù)據(jù)挖掘者查明一個(gè)變量的缺失值與別一變量的值的范圍之間的相互關(guān)系。這種關(guān)系提供如數(shù)值什么時(shí)候會(huì)丟失之類的信息。應(yīng)用該查詢,數(shù)據(jù)挖掘者詳細(xì)查明兩個(gè)變量如缺失值之間可能的相互關(guān)系、已一個(gè)變量知值的范圍及在其他變量中發(fā)現(xiàn)有缺失值的觀測(cè)的數(shù)量。 查明 (I,j)/ i) 該查詢函數(shù)能夠讓數(shù)據(jù)挖掘者找出兩個(gè)變量間缺失值的 相互聯(lián)系。應(yīng)用該查詢,數(shù)據(jù)挖掘者首先選擇兩個(gè)與問(wèn)題相關(guān)的變量進(jìn)行調(diào)查,然后查明這兩個(gè)變量可能總共多久一次丟失值。 查明 )(| ? =k 該查詢函數(shù)允許數(shù)據(jù)挖掘者用假定值代替缺失值,及觀察聚類的變化。假定值可能是最大與最小值中間的任何數(shù)。與返回詳細(xì)數(shù)據(jù)不同,查詢函數(shù)返回多樣的映射以便數(shù)據(jù)挖掘者用不同的 于假定分析試驗(yàn),數(shù)據(jù)挖掘者能夠在感知缺失值在確定問(wèn)題中的沖擊。 6、用一個(gè)例子來(lái)學(xué)習(xí)概念建構(gòu) 這一節(jié)中我們用一個(gè)例子來(lái)闡明不完整測(cè)量數(shù)據(jù) 的概念建構(gòu)中基于 查詢系統(tǒng)的應(yīng)用。學(xué)生的教師調(diào)查法在大學(xué)中廣泛應(yīng)用于估評(píng)教授的教學(xué)質(zhì)量。研究中沿用的數(shù)據(jù)來(lái)自加拿大大學(xué)一個(gè)學(xué)生對(duì)教師調(diào)查法(附件 A)。在這個(gè)例子中二十一個(gè)問(wèn)題描述了一個(gè)教師的表現(xiàn)特征。每個(gè)問(wèn)題都有五個(gè)等級(jí)的答案讓學(xué)生回答。一個(gè)問(wèn)題得高分表明問(wèn)題的答案是積極的。這些問(wèn)題的加權(quán)平均數(shù)由聯(lián)系于評(píng)價(jià)教學(xué)效果的多種數(shù)據(jù)組成。學(xué)校教學(xué)中心的一個(gè)任務(wù)是了解教學(xué)中的問(wèn)題,以便采取相應(yīng)方法(例如,教學(xué)研究會(huì)及研究所)去攻克這些問(wèn)題。 由于二十個(gè)問(wèn)題與一個(gè)班級(jí)學(xué)期教學(xué)效果評(píng)估相關(guān),二十個(gè)變量組成 后一個(gè)問(wèn)題與教師分級(jí)相關(guān)。研究中,該變量用于與低效教學(xué)相關(guān)的選擇,而這些教學(xué)基于該問(wèn)題全部測(cè)量數(shù)據(jù)的中間值。 表 1 概念建構(gòu)的例子 聚類 (采樣 %) 問(wèn)題相關(guān)變量 基于完整數(shù)據(jù)的問(wèn)題鑒別 不完整數(shù)據(jù)的概念建構(gòu) 1 (生測(cè)試結(jié)果需要更 多令人信服的解釋 測(cè)試和分配不能夠?qū)? 學(xué)生提供反饋?zhàn)饔? 對(duì)即時(shí)分級(jí)不滿意的學(xué)生, 通常對(duì)他們能否得到對(duì) 工作有益注解漠不關(guān)心 2 (該更好規(guī)劃測(cè)試和分配 對(duì)課程學(xué)習(xí)經(jīng)驗(yàn)忽略看法 的學(xué)生通常對(duì)適當(dāng)測(cè)試或 者布置規(guī)劃漠不關(guān)心 3 (V1,能很好描述困難概念;特 別是,課本沒(méi)有給出太多幫 助時(shí) 雖然 缺失值率最高, 缺失值對(duì)問(wèn)題鑒定不具 嚴(yán)重沖擊 收集 3823 個(gè)無(wú)效教學(xué)質(zhì)量觀測(cè)采樣數(shù)據(jù)后可確認(rèn)這個(gè)學(xué)校的教學(xué)問(wèn)題。這些數(shù)據(jù)中, 2788個(gè)是完整的。 用 300 個(gè) 200個(gè)初始化領(lǐng)域節(jié)點(diǎn)后,初始學(xué)習(xí)率是 2000個(gè)學(xué)習(xí)疊代后, 個(gè)聚類表明有一組存在低值,該值在進(jìn)一步分析后排除幾乎所有變量后得出的。三個(gè)聚類有蘊(yùn)含意義。 根據(jù)聚類分析,發(fā)現(xiàn)接收到低值的變量 v1, 較特別,與無(wú)效教學(xué)有關(guān),如表 1中前三行所述。 然后不完整數(shù)據(jù)用于建造該問(wèn)題的新概念。 1: 雖然觀測(cè)資料的不完整率達(dá)對(duì)整個(gè)測(cè)量來(lái)說(shuō)高達(dá) 37%,根據(jù)關(guān)系密切的變量( v1, 這說(shuō)明最初識(shí)別的問(wèn)題通常有效的。 2: i)/ )(失值率最高是 這說(shuō)明這變量(例如,無(wú)用的課本和教學(xué)材料)指示的無(wú)效教學(xué)的可靠性可能不如其他相關(guān)變量可靠。 3: )(|)( (a,b) 然而, 缺失值來(lái) 自觀測(cè)函數(shù) x([1,3]。這說(shuō)明不滿意即時(shí)分級(jí)通常對(duì)他們能否收到對(duì)他們工作有益意見(jiàn)漠不關(guān)心。 4: )(|),( M 然而 14(|)19,14( M =密相聯(lián)在一塊。這說(shuō)明忽略課程學(xué)習(xí)經(jīng)驗(yàn)的看法的學(xué)生,通常對(duì)測(cè)試或分配要適當(dāng)計(jì)劃漠不關(guān)心。 )(| ? =k 這個(gè)例子中, 失值最高 (達(dá) 。數(shù)據(jù)挖掘者可能 想了解缺失數(shù)據(jù)的潛在沖擊。在完整數(shù)據(jù)中, 最小值是 1,最大值是 5, 概率分布是{, , , , }。設(shè)置好的試驗(yàn)數(shù)據(jù)用來(lái)為 完整數(shù)據(jù)中應(yīng)用相同的 撲,假定分析試驗(yàn)是引導(dǎo)。 如圖 3 所示,這個(gè)例子的全部的結(jié)論是, 這個(gè)例子中,缺失值新的概念建構(gòu)在表 1的第四欄中總結(jié)出來(lái)了。 這個(gè)例子闡述了被提議的概念 建構(gòu)方法的使用,并提供一個(gè)提議方案的實(shí)驗(yàn)試驗(yàn)。容易看出,這個(gè)例子研究的數(shù)據(jù)挖掘的數(shù)值范圍相當(dāng)小。一般來(lái)說(shuō),比起這個(gè)例子來(lái),數(shù)據(jù)挖掘應(yīng)用于在規(guī)模和維數(shù)大得多的數(shù)據(jù)集。 7. 結(jié)論 在數(shù)據(jù)挖掘領(lǐng)域,不完整數(shù)據(jù)通常受到不公正對(duì)待。這篇文章提議不完整數(shù)據(jù)的概念建構(gòu),并提及了四個(gè)種類的缺失值概念。對(duì)于問(wèn)題鑒別、數(shù)據(jù)隱藏意圖、兩個(gè)變量的缺失值求反運(yùn)算以及缺失數(shù)據(jù)的條件效應(yīng),這些是可靠的。由于 被選作概念建構(gòu)的工具。基于 類分析,這篇文章接著建議七類查詢函數(shù)來(lái)建構(gòu)不完整 數(shù)據(jù)概念。使用這些查詢函數(shù),數(shù)據(jù)挖掘者能夠建構(gòu)與數(shù)據(jù)挖掘問(wèn)題鑒別相關(guān)的新的概念。雖然與真實(shí)事例不同,但它已被證明,概念建構(gòu)的模式能更好用在知識(shí)發(fā)現(xiàn)方面。 知識(shí)發(fā)現(xiàn)在數(shù)據(jù)庫(kù)是個(gè)正在成長(zhǎng)的領(lǐng)域。一般來(lái)說(shuō),知識(shí)發(fā)現(xiàn)開(kāi)始于原始的問(wèn)題鑒別。然而問(wèn)題鑒別典型地證實(shí)為數(shù)據(jù)庫(kù)和一般統(tǒng)計(jì)算法力所不及的。在知識(shí)發(fā)現(xiàn)過(guò)程中,必須建造新的概念使數(shù)據(jù)不那么神秘。總之,不完整數(shù)據(jù)的概念建構(gòu)為知識(shí)發(fā)展提供有效的技術(shù),因而,基于數(shù)據(jù)細(xì)節(jié)問(wèn)題領(lǐng)域和挖掘者的對(duì)缺失數(shù)據(jù)的感知,他能夠說(shuō)明數(shù)據(jù)挖掘的結(jié)果。以后的工作包括在數(shù)據(jù)庫(kù)系統(tǒng)主機(jī)上執(zhí) 行軟件系統(tǒng),并進(jìn)一步評(píng)估被提議在更大范圍的數(shù)據(jù)集的方法。
- 1.請(qǐng)仔細(xì)閱讀文檔,確保文檔完整性,對(duì)于不預(yù)覽、不比對(duì)內(nèi)容而直接下載帶來(lái)的問(wèn)題本站不予受理。
- 2.下載的文檔,不會(huì)出現(xiàn)我們的網(wǎng)址水印。
- 3、該文檔所得收入(下載+內(nèi)容+預(yù)覽)歸上傳者、原創(chuàng)作者;如果您是本文檔原作者,請(qǐng)點(diǎn)此認(rèn)領(lǐng)!既往收益都?xì)w您。
下載文檔到電腦,查找使用更方便
5 積分
下載 |
- 配套講稿:
如PPT文件的首頁(yè)顯示word圖標(biāo),表示該P(yáng)PT已包含配套word講稿。雙擊word圖標(biāo)可打開(kāi)word文檔。
- 特殊限制:
部分文檔作品中含有的國(guó)旗、國(guó)徽等圖片,僅作為作品整體效果示例展示,禁止商用。設(shè)計(jì)者僅對(duì)作品中獨(dú)創(chuàng)性部分享有著作權(quán)。
- 關(guān) 鍵 詞:
- 機(jī)械 專業(yè) 外文 文獻(xiàn) 翻譯 完整 測(cè)量 數(shù)據(jù) 概念 建構(gòu) 中文版
鏈接地址:http://www.820124.com/p-16929.html