數(shù)據(jù)挖掘在學(xué)科建設(shè)中的應(yīng)用研究.doc
《數(shù)據(jù)挖掘在學(xué)科建設(shè)中的應(yīng)用研究.doc》由會(huì)員分享,可在線閱讀,更多相關(guān)《數(shù)據(jù)挖掘在學(xué)科建設(shè)中的應(yīng)用研究.doc(9頁珍藏版)》請(qǐng)?jiān)谘b配圖網(wǎng)上搜索。
數(shù)據(jù)挖掘在學(xué)科建設(shè)中的應(yīng)用研究 摘要:隨著高校教學(xué)改革進(jìn)程的加快,校園信息的積累越來越豐富,本文結(jié)合教學(xué)管理具體要求,通過設(shè)計(jì)學(xué)院某門課程的在線答疑建立的一個(gè)“隨訪信息庫”,對(duì)在線答疑學(xué)生進(jìn)行跟蹤訪問,記錄在線答疑的數(shù)據(jù),然后通過設(shè)計(jì)合適教學(xué)管理決策需求的數(shù)據(jù)倉庫模型設(shè)計(jì)和數(shù)據(jù)處理方法,對(duì)“隨訪信息庫”進(jìn)行數(shù)據(jù)挖掘,建立了完備、正確、無冗余的教學(xué)管理系統(tǒng)數(shù)據(jù)倉庫模型——一個(gè)有價(jià)值和指導(dǎo)意義的“學(xué)科建設(shè)指導(dǎo)庫”。教師通過查詢“學(xué)科建設(shè)指導(dǎo)庫”中的信息資料,可以了解某門課中某個(gè)問題的解決方式、解決方法或解決方案,并結(jié)合教師自己的教學(xué)經(jīng)驗(yàn),形成解決問題的切實(shí)方案,最終達(dá)到便于教學(xué)經(jīng)驗(yàn)的總結(jié)和提高教學(xué)質(zhì)量的目的,對(duì)以后的教學(xué)改革方案的實(shí)施有重要的指導(dǎo)意義,為后期進(jìn)行決策分析提供有效的支持和依據(jù),從理論和實(shí)踐上提供一套行之有效的方法,為高校全面進(jìn)行數(shù)據(jù)倉庫建設(shè)、數(shù)據(jù)挖掘研究與開發(fā)提供參考。 關(guān)鍵詞:數(shù)據(jù)挖掘; 教改; 教學(xué)改革; 數(shù)據(jù)倉庫模型; 數(shù)據(jù)倉庫; 教學(xué)管理; 學(xué)科建設(shè) 中圖分類號(hào):tp 312.1 文獻(xiàn)標(biāo)識(shí)碼:a 文章編號(hào):1006-3315(2012)09-125-002 一、引言 數(shù)據(jù)挖掘技術(shù)作為一個(gè)多學(xué)科交叉的新興學(xué)科,在研究領(lǐng)域等得到了越來越多的應(yīng)用,尤其在需要進(jìn)行信息分析的領(lǐng)域得到了十分廣泛的應(yīng)用。隨著科學(xué)技術(shù)的飛速發(fā)展,如何提高高等學(xué)校教學(xué)質(zhì)量,以適應(yīng)新形式發(fā)展已成為一個(gè)刻不容緩的問題,而提高教學(xué)質(zhì)量,改善教學(xué)環(huán)境則是改善高等教學(xué)的關(guān)鍵。高校教學(xué)管理中每天都會(huì)有海量數(shù)據(jù)產(chǎn)生,面對(duì)如此海量的數(shù)據(jù),目前的教學(xué)管理系統(tǒng)只是做一些查詢、更新、統(tǒng)計(jì)、打印報(bào)表等操作,并沒有完全發(fā)揮信息技術(shù)的潛能,即沒有從大量數(shù)據(jù)中挖掘所隱含的規(guī)律,從而應(yīng)用這些規(guī)律去指導(dǎo)教師的日常工作。因此,如何利用數(shù)據(jù)挖掘技術(shù)從這些數(shù)據(jù)信息中發(fā)現(xiàn)有益的知識(shí),利用信息化手段來為教師進(jìn)行決策支持服務(wù),提高教學(xué)質(zhì)量以適應(yīng)新形勢(shì)發(fā)展,不但可以提高教師的教學(xué)水平,還可以帶來更多的好處。 二、數(shù)據(jù)挖掘的相關(guān)知識(shí) 1.數(shù)據(jù)倉庫 數(shù)據(jù)庫系統(tǒng)作為數(shù)據(jù)管理手段,主要用于事物處理。在目前的計(jì)算機(jī)處理能力上,直接使用事務(wù)處理環(huán)境來支持決策是行不通的。近幾年,隨著數(shù)據(jù)庫技術(shù)的應(yīng)用和發(fā)展,人們嘗試對(duì)數(shù)據(jù)庫中的數(shù)據(jù)進(jìn)行再加工,形成一個(gè)綜合的、面向分析的環(huán)境,以更好地支持決策分析,數(shù)據(jù)倉庫(data warehouse簡(jiǎn)稱dw)正是為了構(gòu)建這種新的分析處理環(huán)境而出現(xiàn)的一種數(shù)據(jù)存儲(chǔ)和組織技術(shù)。數(shù)據(jù)倉庫彌補(bǔ)了原有數(shù)據(jù)庫的缺點(diǎn),將原來以單一數(shù)據(jù)庫為中心的數(shù)據(jù)環(huán)境發(fā)展為一種新環(huán)境:體系化環(huán)境。數(shù)據(jù)庫要建立在一個(gè)較全面和完善的信息應(yīng)用基礎(chǔ)上,用于支持高層決策分析。 2.數(shù)據(jù)挖掘的概念 數(shù)據(jù)挖掘[1-2]是指從數(shù)據(jù)庫中提取出隱含的人們事先未知的、潛在的有用信息和知識(shí),所提取的知識(shí)可以表示為概念規(guī)則、規(guī)律、模式等形式,它具備有效性、新穎性、潛在有用性及最終可理解性,即發(fā)現(xiàn)的知識(shí)可接受、可理解、可運(yùn)用,最好能用自然語言表達(dá)發(fā)現(xiàn)的結(jié)果。處理的原始數(shù)據(jù)可以是結(jié)構(gòu)化的,如關(guān)系數(shù)據(jù)庫中的數(shù)據(jù);也可以是半結(jié)構(gòu)化的,如文本、圖形、圖象數(shù)據(jù);甚至是分布在網(wǎng)絡(luò)上的web數(shù)據(jù)和異構(gòu)型數(shù)據(jù)。獲取的知識(shí)可用于信息管理、查詢優(yōu)化、決策支持、過程控制等,還可以用于數(shù)據(jù)自身的維護(hù)。因此,數(shù)據(jù)挖掘是一個(gè)介于統(tǒng)計(jì)學(xué)、模式識(shí)別、人工智能、機(jī)器學(xué)習(xí)、數(shù)據(jù)庫技術(shù)以及高性能并行計(jì)算等領(lǐng)域的交叉新學(xué)科。我國學(xué)者在這個(gè)領(lǐng)域也已開展了很多研究,主要來自計(jì)算機(jī)科學(xué)及相關(guān)領(lǐng)域。 3.數(shù)據(jù)挖掘的過程[4] 數(shù)據(jù)挖掘使用一定的算法,從實(shí)際應(yīng)用數(shù)據(jù)中挖掘出未知、有價(jià)值的模式或規(guī)律等知識(shí),整個(gè)過程由數(shù)據(jù)預(yù)處理、數(shù)據(jù)挖掘、模式評(píng)估、鞏固知識(shí)和運(yùn)用知識(shí)等步驟組成。 3.1數(shù)據(jù)預(yù)處理。數(shù)據(jù)挖掘的處理對(duì)象是數(shù)據(jù),這些數(shù)據(jù)一般存儲(chǔ)在數(shù)據(jù)庫系統(tǒng)中,是長期積累的結(jié)果。但是往往不太適合直接對(duì)這些數(shù)據(jù)進(jìn)行知識(shí)挖掘。需要先清除數(shù)據(jù)噪聲和與挖掘主題明顯無關(guān)的數(shù)據(jù),其次將來自多數(shù)據(jù)源中的相關(guān)數(shù)據(jù)源組合并,最后將數(shù)據(jù)轉(zhuǎn)換為易于進(jìn)行數(shù)據(jù)挖掘的數(shù)據(jù)存儲(chǔ)形式,這就是數(shù)據(jù)預(yù)處理。數(shù)據(jù)預(yù)處理是數(shù)據(jù)在進(jìn)入數(shù)據(jù)倉庫系統(tǒng)之前的處理過程,在這個(gè)過程中,需要將來自關(guān)系數(shù)據(jù)庫、實(shí)時(shí)數(shù)據(jù)庫或者文件系統(tǒng)等多個(gè)外部數(shù)據(jù)源的數(shù)據(jù)進(jìn)行有效的抽取、清理、轉(zhuǎn)化和綜合,檢查數(shù)據(jù)的完整性、一致性等質(zhì)量指標(biāo),對(duì)其中的噪音數(shù)據(jù)、空值等進(jìn)行處理,最后存入數(shù)據(jù)倉庫。數(shù)據(jù)預(yù)處理是數(shù)據(jù)挖掘的第一步,它是整個(gè)過程中很重要的一步,數(shù)據(jù)預(yù)處理是否合適將影響到數(shù)據(jù)挖掘的效率、準(zhǔn)確率以及最終模式的有效性。 3.2數(shù)據(jù)挖掘。數(shù)據(jù)挖掘就是根據(jù)數(shù)據(jù)挖掘的目標(biāo),選取相應(yīng)的算法及參數(shù),分析準(zhǔn)備好的數(shù)據(jù),產(chǎn)生一個(gè)特定的模式或數(shù)據(jù)集,從而得到可能形成知識(shí)的模式模型。 學(xué)院教學(xué)管理數(shù)據(jù)主要存儲(chǔ)在關(guān)系型數(shù)據(jù)庫中,大量的數(shù)據(jù)和數(shù)據(jù)模型都是反映歷屆學(xué)生的學(xué)習(xí)情況和教師的教學(xué)任務(wù)、教學(xué)計(jì)劃以及教師教案等,已開發(fā)的數(shù)據(jù)庫系統(tǒng)基本上是面向事物處理的簡(jiǎn)單的管理信息系統(tǒng)。隨著學(xué)校對(duì)決策信息需求的日益廣泛、復(fù)雜和迫切,這些傳統(tǒng)的數(shù)據(jù)庫系統(tǒng)存在的問題也越來越明顯:(1)原有數(shù)據(jù)庫系統(tǒng)是面向oltp而不是面向olap的;(2)原有數(shù)據(jù)庫系統(tǒng)難以適應(yīng)各類對(duì)象數(shù)據(jù)粒度的不同要求。 在數(shù)據(jù)倉庫中,系統(tǒng)體系結(jié)構(gòu)是關(guān)鍵,要成功地實(shí)施數(shù)據(jù)倉庫,首先應(yīng)該擬訂適合本校特點(diǎn)的數(shù)據(jù)倉庫系統(tǒng)框架,一個(gè)真正實(shí)用、有效、靈活的數(shù)據(jù)倉庫系統(tǒng)體系結(jié)構(gòu)的建立是十分必要的。在對(duì)教務(wù)系統(tǒng)進(jìn)行深入調(diào)研和需求分析的基礎(chǔ)上,針對(duì)教務(wù)管理自身的特點(diǎn),給出一個(gè)比較適合本校教務(wù)管理的數(shù)據(jù)倉庫體系結(jié)構(gòu),該結(jié)構(gòu)由一個(gè)集中式數(shù)據(jù)倉庫(即中央教務(wù)數(shù)據(jù)倉庫)、分布式數(shù)據(jù)集市(即部門學(xué)院級(jí)數(shù)據(jù)倉庫)和個(gè)人級(jí)數(shù)據(jù)倉庫相結(jié)合。如圖1所示。 (1)中央數(shù)據(jù)倉庫。中央數(shù)據(jù)倉庫的目標(biāo)是進(jìn)行決策支持,它是支持管理決策過程的、面向主題的、集成的、穩(wěn)定的、時(shí)變的數(shù)據(jù)集合,它面向主題組織數(shù)據(jù),每個(gè)主題對(duì)應(yīng)一個(gè)客觀分析領(lǐng)域,它可以為輔助決策分析集成多個(gè)部門、不同系統(tǒng)的大量數(shù)據(jù)。 為了滿足不同應(yīng)用對(duì)數(shù)據(jù)庫的不同處理深度的要求,數(shù)據(jù)倉庫中的多重粒度是必不可少的,其數(shù)據(jù)倉庫中的數(shù)據(jù)組織結(jié)構(gòu)分為四個(gè)級(jí)別,即早期細(xì)節(jié)級(jí)、當(dāng)前細(xì)節(jié)級(jí)、輕度綜合級(jí)和高度綜合級(jí)。早期細(xì)節(jié)級(jí)保存歷史詳細(xì)數(shù)據(jù),一般保存4~5年的歷史數(shù)據(jù)。當(dāng)前細(xì)節(jié)級(jí)保存來自集成器的當(dāng)前細(xì)節(jié)數(shù)據(jù),為單位當(dāng)年的詳細(xì)數(shù)據(jù)。詳細(xì)數(shù)據(jù)經(jīng)進(jìn)一步匯總,以綜合的數(shù)據(jù)進(jìn)入輕度綜合級(jí)和高度綜合級(jí)。隨著時(shí)間的推移,由時(shí)間控制機(jī)制將當(dāng)前細(xì)節(jié)級(jí)的老化數(shù)據(jù)轉(zhuǎn)入早期細(xì)節(jié)(即轉(zhuǎn)化為歷史數(shù)據(jù))。 (2)數(shù)據(jù)集市。數(shù)據(jù)集市(data marts)是一種更小、更集中的院、系級(jí)數(shù)據(jù)倉庫(departmental data warehouse),它具有傳統(tǒng)意義上的數(shù)據(jù)倉庫的四個(gè)基本特征,它是按照某一特定的決策支持需求而組織起來的、針對(duì)特定主題的數(shù)據(jù)倉庫。 (3)個(gè)人倉庫。高層管理的主要任務(wù)是進(jìn)行戰(zhàn)略決策,需要進(jìn)行復(fù)雜的分析加工,個(gè)人級(jí)數(shù)據(jù)倉庫面向這一層。針對(duì)學(xué)校各個(gè)院級(jí)對(duì)數(shù)據(jù)訪問的局部性,有必要為數(shù)據(jù)倉庫十分頻繁的關(guān)鍵業(yè)務(wù)部門建立自己的數(shù)據(jù)集市,以便節(jié)省開支,提高響應(yīng)速度;對(duì)于一般通用業(yè)務(wù)的分析決策應(yīng)用,建立一個(gè)通用的數(shù)據(jù)集市,并且建立一個(gè)學(xué)校高層管理人員使用的個(gè)人級(jí)數(shù)據(jù)倉庫,以支持學(xué)校的宏觀戰(zhàn)略決策。這樣既可以提高解決分析效率,又便于對(duì)中央數(shù)據(jù)倉庫進(jìn)行有效的維護(hù)。 3.3模式評(píng)估。由挖掘算法產(chǎn)生的模式或規(guī)律,存在無實(shí)際意義或無實(shí)用價(jià)值的情況,也存在不能準(zhǔn)確反映數(shù)據(jù)的真實(shí)意義的情況,甚至在某些情況下與事實(shí)相反,因此需要對(duì)其進(jìn)行評(píng)估,從挖掘結(jié)果中篩選出有意義的模式規(guī)律。在此過程中,為了取得更為有效的知識(shí),可能會(huì)返回前面的某一處理步驟中以反復(fù)提取,從而提取出更有效的知識(shí)。 3.4鞏固知識(shí)。完成對(duì)知識(shí)的一致性檢查,確保發(fā)現(xiàn)的知識(shí)與已知可信的知識(shí)不發(fā)生抵觸。 3.5運(yùn)用知識(shí)。發(fā)現(xiàn)知識(shí)的目的是運(yùn)用。運(yùn)用知識(shí)有兩種方法:一種是直接運(yùn)用知識(shí)來決策;另一種是要求對(duì)新的數(shù)據(jù)運(yùn)用知識(shí),由此可能產(chǎn)生新的問題,而需要對(duì)知識(shí)做進(jìn)一步的優(yōu)化。 三、數(shù)據(jù)挖掘在學(xué)科建設(shè)中的應(yīng)用 隨著學(xué)科建設(shè)工作的開展,隨訪工作量的日益加大,如何設(shè)計(jì)完善的隨訪系統(tǒng)是科學(xué)、準(zhǔn)確地做好隨訪工作的前提和保障。根據(jù)“原始資料庫”運(yùn)用適當(dāng)?shù)乃惴ㄟM(jìn)行信息的清理,把其中對(duì)學(xué)科建設(shè)無效的數(shù)據(jù)清理掉,然后通過各種隨訪手段進(jìn)行隨訪,建立起一個(gè)能對(duì)隨訪自動(dòng)處理的“在線隨訪答疑庫”。 1.“原始資料庫”的作用 本文以電子在線答疑系統(tǒng)的數(shù)據(jù)為“原始資料庫”,保存在web數(shù)據(jù)庫中,接收學(xué)生們對(duì)學(xué)科的咨詢,甚至對(duì)課題的求解方法、方案及求解步驟;教師們對(duì)學(xué)科建設(shè)的看法及建議、問題的解答等數(shù)據(jù),“原始資料庫”還包含學(xué)生的基本資料,任課教師信息,授課情況,學(xué)生反映情況等數(shù)據(jù)信息,這些信息可以通過網(wǎng)站的形式收集,然后存取并存儲(chǔ)到相應(yīng)的學(xué)院數(shù)據(jù)庫中形成“原始資料庫”的一部分。從中挖掘出學(xué)生對(duì)該學(xué)科可能普遍感興趣并遇到的問題,教師如何引導(dǎo)學(xué)生正確處理并解決,并將問題及解決方案存到相應(yīng)的數(shù)據(jù)倉庫或數(shù)據(jù)集市。 2.“隨訪信息庫”的作用[3] 通過對(duì)“原始資料庫”中的數(shù)據(jù)清理,建立一個(gè)“隨訪數(shù)據(jù)庫”,其建立流程如圖2所示,用于教師、學(xué)生等對(duì)學(xué)科建設(shè)的跟蹤調(diào)查。將“原始資料庫”中清理后的數(shù)據(jù)信息納入“隨訪信息庫”中是對(duì)教改信息資源的二次開發(fā),“隨訪信息庫”中主要有學(xué)生的基本資料,學(xué)生的學(xué)習(xí)情況,學(xué)生的反映情況等數(shù)據(jù)信息。 在“隨訪數(shù)據(jù)庫”的基礎(chǔ)之上,進(jìn)一步進(jìn)行有價(jià)值的信息挖掘,建立一個(gè)學(xué)科建設(shè)的“指導(dǎo)信息庫”。 3.“在線隨訪答疑庫”的作用 “在線隨訪答疑庫”的學(xué)生的基本資料和“隨訪信息庫”中的學(xué)生的基本資料相一致。學(xué)院教學(xué)信息系統(tǒng)蘊(yùn)藏著大量數(shù)據(jù),全部調(diào)用既不可能,也無功效,所以通過現(xiàn)代的數(shù)據(jù)挖掘技術(shù)將“隨訪信息庫”和“原始資料庫”結(jié)合,進(jìn)行數(shù)據(jù)分析、清理和挖掘,得出一個(gè)個(gè)具有代表性和指導(dǎo)意義的教學(xué)案例,并將其添加到“教學(xué)案例庫”中,逐漸形成一個(gè)大規(guī)模的、有輔導(dǎo)價(jià)值的學(xué)院教輔“指導(dǎo)信息庫”,使得日后教師、學(xué)生等有所借鑒,最終形成信息的共享。其工作過程如圖3所示: 四、結(jié)束語 如何通過分析原始資料庫中的信息,即在傳統(tǒng)教學(xué)管理系統(tǒng)數(shù)據(jù)庫基礎(chǔ)上,對(duì)數(shù)據(jù)進(jìn)行清理,消除噪聲和不一致,整合存放在不同數(shù)據(jù)庫和文件中的數(shù)據(jù);設(shè)計(jì)合理的系統(tǒng)模型,提取相關(guān)數(shù)據(jù),采用合適的數(shù)據(jù)挖掘技術(shù)和數(shù)據(jù)預(yù)處理算法,建立完備、正確、無冗余的適合教學(xué)管理的數(shù)據(jù)倉庫,基于所建立的數(shù)據(jù)倉庫,結(jié)合學(xué)科建設(shè)的具體應(yīng)用要求,設(shè)計(jì)交互性良好的用戶界面,將分析結(jié)果用可視化和知識(shí)表示技術(shù)表示出來,從中提取對(duì)學(xué)科建設(shè)有用的信息(新知識(shí)),發(fā)現(xiàn)教學(xué)環(huán)節(jié)中的弱點(diǎn),制定有益于學(xué)科建設(shè)的策略和戰(zhàn)術(shù),為以后進(jìn)行決策分析提供有效的支持和依據(jù),通過本文的研究,從理論和實(shí)踐上找出一套行之有效的方法,為高校全面進(jìn)行數(shù)據(jù)倉庫建設(shè)、數(shù)據(jù)挖掘研究與開發(fā)提供參考,為教學(xué)以及科學(xué)研究提供方便和研究?jī)r(jià)值是本文的研究重點(diǎn)。 參考文獻(xiàn): [1]范明,孟小峰.數(shù)據(jù)挖掘概念與技術(shù)[m],北京:機(jī)械工業(yè)出版社,2001 [2]康曉東.基于數(shù)據(jù)倉庫的數(shù)據(jù)挖掘技術(shù)[m],北京:機(jī)械工業(yè)出版社,2004 [3]李雄偉.數(shù)據(jù)挖掘技術(shù)在醫(yī)療中的應(yīng)用研究,信息化縱橫,2009年第16期 [4]李琳等.數(shù)據(jù)挖掘在教學(xué)質(zhì)量分析中的應(yīng)用研究,衡陽師范學(xué)院學(xué)報(bào),2009年6月,第30卷第3期- 1.請(qǐng)仔細(xì)閱讀文檔,確保文檔完整性,對(duì)于不預(yù)覽、不比對(duì)內(nèi)容而直接下載帶來的問題本站不予受理。
- 2.下載的文檔,不會(huì)出現(xiàn)我們的網(wǎng)址水印。
- 3、該文檔所得收入(下載+內(nèi)容+預(yù)覽)歸上傳者、原創(chuàng)作者;如果您是本文檔原作者,請(qǐng)點(diǎn)此認(rèn)領(lǐng)!既往收益都?xì)w您。
下載文檔到電腦,查找使用更方便
9.9 積分
下載 |
- 配套講稿:
如PPT文件的首頁顯示word圖標(biāo),表示該P(yáng)PT已包含配套word講稿。雙擊word圖標(biāo)可打開word文檔。
- 特殊限制:
部分文檔作品中含有的國旗、國徽等圖片,僅作為作品整體效果示例展示,禁止商用。設(shè)計(jì)者僅對(duì)作品中獨(dú)創(chuàng)性部分享有著作權(quán)。
- 關(guān) 鍵 詞:
- 數(shù)據(jù) 挖掘 學(xué)科建設(shè) 中的 應(yīng)用 研究
鏈接地址:http://www.820124.com/p-8316449.html