數(shù)據(jù)挖掘在學(xué)科建設(shè)中的應(yīng)用研究.doc
《數(shù)據(jù)挖掘在學(xué)科建設(shè)中的應(yīng)用研究.doc》由會員分享,可在線閱讀,更多相關(guān)《數(shù)據(jù)挖掘在學(xué)科建設(shè)中的應(yīng)用研究.doc(9頁珍藏版)》請在裝配圖網(wǎng)上搜索。
數(shù)據(jù)挖掘在學(xué)科建設(shè)中的應(yīng)用研究 摘要:隨著高校教學(xué)改革進程的加快,校園信息的積累越來越豐富,本文結(jié)合教學(xué)管理具體要求,通過設(shè)計學(xué)院某門課程的在線答疑建立的一個“隨訪信息庫”,對在線答疑學(xué)生進行跟蹤訪問,記錄在線答疑的數(shù)據(jù),然后通過設(shè)計合適教學(xué)管理決策需求的數(shù)據(jù)倉庫模型設(shè)計和數(shù)據(jù)處理方法,對“隨訪信息庫”進行數(shù)據(jù)挖掘,建立了完備、正確、無冗余的教學(xué)管理系統(tǒng)數(shù)據(jù)倉庫模型——一個有價值和指導(dǎo)意義的“學(xué)科建設(shè)指導(dǎo)庫”。教師通過查詢“學(xué)科建設(shè)指導(dǎo)庫”中的信息資料,可以了解某門課中某個問題的解決方式、解決方法或解決方案,并結(jié)合教師自己的教學(xué)經(jīng)驗,形成解決問題的切實方案,最終達到便于教學(xué)經(jīng)驗的總結(jié)和提高教學(xué)質(zhì)量的目的,對以后的教學(xué)改革方案的實施有重要的指導(dǎo)意義,為后期進行決策分析提供有效的支持和依據(jù),從理論和實踐上提供一套行之有效的方法,為高校全面進行數(shù)據(jù)倉庫建設(shè)、數(shù)據(jù)挖掘研究與開發(fā)提供參考。 關(guān)鍵詞:數(shù)據(jù)挖掘; 教改; 教學(xué)改革; 數(shù)據(jù)倉庫模型; 數(shù)據(jù)倉庫; 教學(xué)管理; 學(xué)科建設(shè) 中圖分類號:tp 312.1 文獻標(biāo)識碼:a 文章編號:1006-3315(2012)09-125-002 一、引言 數(shù)據(jù)挖掘技術(shù)作為一個多學(xué)科交叉的新興學(xué)科,在研究領(lǐng)域等得到了越來越多的應(yīng)用,尤其在需要進行信息分析的領(lǐng)域得到了十分廣泛的應(yīng)用。隨著科學(xué)技術(shù)的飛速發(fā)展,如何提高高等學(xué)校教學(xué)質(zhì)量,以適應(yīng)新形式發(fā)展已成為一個刻不容緩的問題,而提高教學(xué)質(zhì)量,改善教學(xué)環(huán)境則是改善高等教學(xué)的關(guān)鍵。高校教學(xué)管理中每天都會有海量數(shù)據(jù)產(chǎn)生,面對如此海量的數(shù)據(jù),目前的教學(xué)管理系統(tǒng)只是做一些查詢、更新、統(tǒng)計、打印報表等操作,并沒有完全發(fā)揮信息技術(shù)的潛能,即沒有從大量數(shù)據(jù)中挖掘所隱含的規(guī)律,從而應(yīng)用這些規(guī)律去指導(dǎo)教師的日常工作。因此,如何利用數(shù)據(jù)挖掘技術(shù)從這些數(shù)據(jù)信息中發(fā)現(xiàn)有益的知識,利用信息化手段來為教師進行決策支持服務(wù),提高教學(xué)質(zhì)量以適應(yīng)新形勢發(fā)展,不但可以提高教師的教學(xué)水平,還可以帶來更多的好處。 二、數(shù)據(jù)挖掘的相關(guān)知識 1.數(shù)據(jù)倉庫 數(shù)據(jù)庫系統(tǒng)作為數(shù)據(jù)管理手段,主要用于事物處理。在目前的計算機處理能力上,直接使用事務(wù)處理環(huán)境來支持決策是行不通的。近幾年,隨著數(shù)據(jù)庫技術(shù)的應(yīng)用和發(fā)展,人們嘗試對數(shù)據(jù)庫中的數(shù)據(jù)進行再加工,形成一個綜合的、面向分析的環(huán)境,以更好地支持決策分析,數(shù)據(jù)倉庫(data warehouse簡稱dw)正是為了構(gòu)建這種新的分析處理環(huán)境而出現(xiàn)的一種數(shù)據(jù)存儲和組織技術(shù)。數(shù)據(jù)倉庫彌補了原有數(shù)據(jù)庫的缺點,將原來以單一數(shù)據(jù)庫為中心的數(shù)據(jù)環(huán)境發(fā)展為一種新環(huán)境:體系化環(huán)境。數(shù)據(jù)庫要建立在一個較全面和完善的信息應(yīng)用基礎(chǔ)上,用于支持高層決策分析。 2.數(shù)據(jù)挖掘的概念 數(shù)據(jù)挖掘[1-2]是指從數(shù)據(jù)庫中提取出隱含的人們事先未知的、潛在的有用信息和知識,所提取的知識可以表示為概念規(guī)則、規(guī)律、模式等形式,它具備有效性、新穎性、潛在有用性及最終可理解性,即發(fā)現(xiàn)的知識可接受、可理解、可運用,最好能用自然語言表達發(fā)現(xiàn)的結(jié)果。處理的原始數(shù)據(jù)可以是結(jié)構(gòu)化的,如關(guān)系數(shù)據(jù)庫中的數(shù)據(jù);也可以是半結(jié)構(gòu)化的,如文本、圖形、圖象數(shù)據(jù);甚至是分布在網(wǎng)絡(luò)上的web數(shù)據(jù)和異構(gòu)型數(shù)據(jù)。獲取的知識可用于信息管理、查詢優(yōu)化、決策支持、過程控制等,還可以用于數(shù)據(jù)自身的維護。因此,數(shù)據(jù)挖掘是一個介于統(tǒng)計學(xué)、模式識別、人工智能、機器學(xué)習(xí)、數(shù)據(jù)庫技術(shù)以及高性能并行計算等領(lǐng)域的交叉新學(xué)科。我國學(xué)者在這個領(lǐng)域也已開展了很多研究,主要來自計算機科學(xué)及相關(guān)領(lǐng)域。 3.數(shù)據(jù)挖掘的過程[4] 數(shù)據(jù)挖掘使用一定的算法,從實際應(yīng)用數(shù)據(jù)中挖掘出未知、有價值的模式或規(guī)律等知識,整個過程由數(shù)據(jù)預(yù)處理、數(shù)據(jù)挖掘、模式評估、鞏固知識和運用知識等步驟組成。 3.1數(shù)據(jù)預(yù)處理。數(shù)據(jù)挖掘的處理對象是數(shù)據(jù),這些數(shù)據(jù)一般存儲在數(shù)據(jù)庫系統(tǒng)中,是長期積累的結(jié)果。但是往往不太適合直接對這些數(shù)據(jù)進行知識挖掘。需要先清除數(shù)據(jù)噪聲和與挖掘主題明顯無關(guān)的數(shù)據(jù),其次將來自多數(shù)據(jù)源中的相關(guān)數(shù)據(jù)源組合并,最后將數(shù)據(jù)轉(zhuǎn)換為易于進行數(shù)據(jù)挖掘的數(shù)據(jù)存儲形式,這就是數(shù)據(jù)預(yù)處理。數(shù)據(jù)預(yù)處理是數(shù)據(jù)在進入數(shù)據(jù)倉庫系統(tǒng)之前的處理過程,在這個過程中,需要將來自關(guān)系數(shù)據(jù)庫、實時數(shù)據(jù)庫或者文件系統(tǒng)等多個外部數(shù)據(jù)源的數(shù)據(jù)進行有效的抽取、清理、轉(zhuǎn)化和綜合,檢查數(shù)據(jù)的完整性、一致性等質(zhì)量指標(biāo),對其中的噪音數(shù)據(jù)、空值等進行處理,最后存入數(shù)據(jù)倉庫。數(shù)據(jù)預(yù)處理是數(shù)據(jù)挖掘的第一步,它是整個過程中很重要的一步,數(shù)據(jù)預(yù)處理是否合適將影響到數(shù)據(jù)挖掘的效率、準確率以及最終模式的有效性。 3.2數(shù)據(jù)挖掘。數(shù)據(jù)挖掘就是根據(jù)數(shù)據(jù)挖掘的目標(biāo),選取相應(yīng)的算法及參數(shù),分析準備好的數(shù)據(jù),產(chǎn)生一個特定的模式或數(shù)據(jù)集,從而得到可能形成知識的模式模型。 學(xué)院教學(xué)管理數(shù)據(jù)主要存儲在關(guān)系型數(shù)據(jù)庫中,大量的數(shù)據(jù)和數(shù)據(jù)模型都是反映歷屆學(xué)生的學(xué)習(xí)情況和教師的教學(xué)任務(wù)、教學(xué)計劃以及教師教案等,已開發(fā)的數(shù)據(jù)庫系統(tǒng)基本上是面向事物處理的簡單的管理信息系統(tǒng)。隨著學(xué)校對決策信息需求的日益廣泛、復(fù)雜和迫切,這些傳統(tǒng)的數(shù)據(jù)庫系統(tǒng)存在的問題也越來越明顯:(1)原有數(shù)據(jù)庫系統(tǒng)是面向oltp而不是面向olap的;(2)原有數(shù)據(jù)庫系統(tǒng)難以適應(yīng)各類對象數(shù)據(jù)粒度的不同要求。 在數(shù)據(jù)倉庫中,系統(tǒng)體系結(jié)構(gòu)是關(guān)鍵,要成功地實施數(shù)據(jù)倉庫,首先應(yīng)該擬訂適合本校特點的數(shù)據(jù)倉庫系統(tǒng)框架,一個真正實用、有效、靈活的數(shù)據(jù)倉庫系統(tǒng)體系結(jié)構(gòu)的建立是十分必要的。在對教務(wù)系統(tǒng)進行深入調(diào)研和需求分析的基礎(chǔ)上,針對教務(wù)管理自身的特點,給出一個比較適合本校教務(wù)管理的數(shù)據(jù)倉庫體系結(jié)構(gòu),該結(jié)構(gòu)由一個集中式數(shù)據(jù)倉庫(即中央教務(wù)數(shù)據(jù)倉庫)、分布式數(shù)據(jù)集市(即部門學(xué)院級數(shù)據(jù)倉庫)和個人級數(shù)據(jù)倉庫相結(jié)合。如圖1所示。 (1)中央數(shù)據(jù)倉庫。中央數(shù)據(jù)倉庫的目標(biāo)是進行決策支持,它是支持管理決策過程的、面向主題的、集成的、穩(wěn)定的、時變的數(shù)據(jù)集合,它面向主題組織數(shù)據(jù),每個主題對應(yīng)一個客觀分析領(lǐng)域,它可以為輔助決策分析集成多個部門、不同系統(tǒng)的大量數(shù)據(jù)。 為了滿足不同應(yīng)用對數(shù)據(jù)庫的不同處理深度的要求,數(shù)據(jù)倉庫中的多重粒度是必不可少的,其數(shù)據(jù)倉庫中的數(shù)據(jù)組織結(jié)構(gòu)分為四個級別,即早期細節(jié)級、當(dāng)前細節(jié)級、輕度綜合級和高度綜合級。早期細節(jié)級保存歷史詳細數(shù)據(jù),一般保存4~5年的歷史數(shù)據(jù)。當(dāng)前細節(jié)級保存來自集成器的當(dāng)前細節(jié)數(shù)據(jù),為單位當(dāng)年的詳細數(shù)據(jù)。詳細數(shù)據(jù)經(jīng)進一步匯總,以綜合的數(shù)據(jù)進入輕度綜合級和高度綜合級。隨著時間的推移,由時間控制機制將當(dāng)前細節(jié)級的老化數(shù)據(jù)轉(zhuǎn)入早期細節(jié)(即轉(zhuǎn)化為歷史數(shù)據(jù))。 (2)數(shù)據(jù)集市。數(shù)據(jù)集市(data marts)是一種更小、更集中的院、系級數(shù)據(jù)倉庫(departmental data warehouse),它具有傳統(tǒng)意義上的數(shù)據(jù)倉庫的四個基本特征,它是按照某一特定的決策支持需求而組織起來的、針對特定主題的數(shù)據(jù)倉庫。 (3)個人倉庫。高層管理的主要任務(wù)是進行戰(zhàn)略決策,需要進行復(fù)雜的分析加工,個人級數(shù)據(jù)倉庫面向這一層。針對學(xué)校各個院級對數(shù)據(jù)訪問的局部性,有必要為數(shù)據(jù)倉庫十分頻繁的關(guān)鍵業(yè)務(wù)部門建立自己的數(shù)據(jù)集市,以便節(jié)省開支,提高響應(yīng)速度;對于一般通用業(yè)務(wù)的分析決策應(yīng)用,建立一個通用的數(shù)據(jù)集市,并且建立一個學(xué)校高層管理人員使用的個人級數(shù)據(jù)倉庫,以支持學(xué)校的宏觀戰(zhàn)略決策。這樣既可以提高解決分析效率,又便于對中央數(shù)據(jù)倉庫進行有效的維護。 3.3模式評估。由挖掘算法產(chǎn)生的模式或規(guī)律,存在無實際意義或無實用價值的情況,也存在不能準確反映數(shù)據(jù)的真實意義的情況,甚至在某些情況下與事實相反,因此需要對其進行評估,從挖掘結(jié)果中篩選出有意義的模式規(guī)律。在此過程中,為了取得更為有效的知識,可能會返回前面的某一處理步驟中以反復(fù)提取,從而提取出更有效的知識。 3.4鞏固知識。完成對知識的一致性檢查,確保發(fā)現(xiàn)的知識與已知可信的知識不發(fā)生抵觸。 3.5運用知識。發(fā)現(xiàn)知識的目的是運用。運用知識有兩種方法:一種是直接運用知識來決策;另一種是要求對新的數(shù)據(jù)運用知識,由此可能產(chǎn)生新的問題,而需要對知識做進一步的優(yōu)化。 三、數(shù)據(jù)挖掘在學(xué)科建設(shè)中的應(yīng)用 隨著學(xué)科建設(shè)工作的開展,隨訪工作量的日益加大,如何設(shè)計完善的隨訪系統(tǒng)是科學(xué)、準確地做好隨訪工作的前提和保障。根據(jù)“原始資料庫”運用適當(dāng)?shù)乃惴ㄟM行信息的清理,把其中對學(xué)科建設(shè)無效的數(shù)據(jù)清理掉,然后通過各種隨訪手段進行隨訪,建立起一個能對隨訪自動處理的“在線隨訪答疑庫”。 1.“原始資料庫”的作用 本文以電子在線答疑系統(tǒng)的數(shù)據(jù)為“原始資料庫”,保存在web數(shù)據(jù)庫中,接收學(xué)生們對學(xué)科的咨詢,甚至對課題的求解方法、方案及求解步驟;教師們對學(xué)科建設(shè)的看法及建議、問題的解答等數(shù)據(jù),“原始資料庫”還包含學(xué)生的基本資料,任課教師信息,授課情況,學(xué)生反映情況等數(shù)據(jù)信息,這些信息可以通過網(wǎng)站的形式收集,然后存取并存儲到相應(yīng)的學(xué)院數(shù)據(jù)庫中形成“原始資料庫”的一部分。從中挖掘出學(xué)生對該學(xué)科可能普遍感興趣并遇到的問題,教師如何引導(dǎo)學(xué)生正確處理并解決,并將問題及解決方案存到相應(yīng)的數(shù)據(jù)倉庫或數(shù)據(jù)集市。 2.“隨訪信息庫”的作用[3] 通過對“原始資料庫”中的數(shù)據(jù)清理,建立一個“隨訪數(shù)據(jù)庫”,其建立流程如圖2所示,用于教師、學(xué)生等對學(xué)科建設(shè)的跟蹤調(diào)查。將“原始資料庫”中清理后的數(shù)據(jù)信息納入“隨訪信息庫”中是對教改信息資源的二次開發(fā),“隨訪信息庫”中主要有學(xué)生的基本資料,學(xué)生的學(xué)習(xí)情況,學(xué)生的反映情況等數(shù)據(jù)信息。 在“隨訪數(shù)據(jù)庫”的基礎(chǔ)之上,進一步進行有價值的信息挖掘,建立一個學(xué)科建設(shè)的“指導(dǎo)信息庫”。 3.“在線隨訪答疑庫”的作用 “在線隨訪答疑庫”的學(xué)生的基本資料和“隨訪信息庫”中的學(xué)生的基本資料相一致。學(xué)院教學(xué)信息系統(tǒng)蘊藏著大量數(shù)據(jù),全部調(diào)用既不可能,也無功效,所以通過現(xiàn)代的數(shù)據(jù)挖掘技術(shù)將“隨訪信息庫”和“原始資料庫”結(jié)合,進行數(shù)據(jù)分析、清理和挖掘,得出一個個具有代表性和指導(dǎo)意義的教學(xué)案例,并將其添加到“教學(xué)案例庫”中,逐漸形成一個大規(guī)模的、有輔導(dǎo)價值的學(xué)院教輔“指導(dǎo)信息庫”,使得日后教師、學(xué)生等有所借鑒,最終形成信息的共享。其工作過程如圖3所示: 四、結(jié)束語 如何通過分析原始資料庫中的信息,即在傳統(tǒng)教學(xué)管理系統(tǒng)數(shù)據(jù)庫基礎(chǔ)上,對數(shù)據(jù)進行清理,消除噪聲和不一致,整合存放在不同數(shù)據(jù)庫和文件中的數(shù)據(jù);設(shè)計合理的系統(tǒng)模型,提取相關(guān)數(shù)據(jù),采用合適的數(shù)據(jù)挖掘技術(shù)和數(shù)據(jù)預(yù)處理算法,建立完備、正確、無冗余的適合教學(xué)管理的數(shù)據(jù)倉庫,基于所建立的數(shù)據(jù)倉庫,結(jié)合學(xué)科建設(shè)的具體應(yīng)用要求,設(shè)計交互性良好的用戶界面,將分析結(jié)果用可視化和知識表示技術(shù)表示出來,從中提取對學(xué)科建設(shè)有用的信息(新知識),發(fā)現(xiàn)教學(xué)環(huán)節(jié)中的弱點,制定有益于學(xué)科建設(shè)的策略和戰(zhàn)術(shù),為以后進行決策分析提供有效的支持和依據(jù),通過本文的研究,從理論和實踐上找出一套行之有效的方法,為高校全面進行數(shù)據(jù)倉庫建設(shè)、數(shù)據(jù)挖掘研究與開發(fā)提供參考,為教學(xué)以及科學(xué)研究提供方便和研究價值是本文的研究重點。 參考文獻: [1]范明,孟小峰.數(shù)據(jù)挖掘概念與技術(shù)[m],北京:機械工業(yè)出版社,2001 [2]康曉東.基于數(shù)據(jù)倉庫的數(shù)據(jù)挖掘技術(shù)[m],北京:機械工業(yè)出版社,2004 [3]李雄偉.數(shù)據(jù)挖掘技術(shù)在醫(yī)療中的應(yīng)用研究,信息化縱橫,2009年第16期 [4]李琳等.數(shù)據(jù)挖掘在教學(xué)質(zhì)量分析中的應(yīng)用研究,衡陽師范學(xué)院學(xué)報,2009年6月,第30卷第3期- 1.請仔細閱讀文檔,確保文檔完整性,對于不預(yù)覽、不比對內(nèi)容而直接下載帶來的問題本站不予受理。
- 2.下載的文檔,不會出現(xiàn)我們的網(wǎng)址水印。
- 3、該文檔所得收入(下載+內(nèi)容+預(yù)覽)歸上傳者、原創(chuàng)作者;如果您是本文檔原作者,請點此認領(lǐng)!既往收益都歸您。
下載文檔到電腦,查找使用更方便
9.9 積分
下載 |
- 配套講稿:
如PPT文件的首頁顯示word圖標(biāo),表示該PPT已包含配套word講稿。雙擊word圖標(biāo)可打開word文檔。
- 特殊限制:
部分文檔作品中含有的國旗、國徽等圖片,僅作為作品整體效果示例展示,禁止商用。設(shè)計者僅對作品中獨創(chuàng)性部分享有著作權(quán)。
- 關(guān) 鍵 詞:
- 數(shù)據(jù) 挖掘 學(xué)科建設(shè) 中的 應(yīng)用 研究
鏈接地址:http://www.820124.com/p-8316449.html