數(shù)據(jù)挖掘相關(guān)論文[特選材料]
《數(shù)據(jù)挖掘相關(guān)論文[特選材料]》由會(huì)員分享,可在線閱讀,更多相關(guān)《數(shù)據(jù)挖掘相關(guān)論文[特選材料](12頁珍藏版)》請(qǐng)?jiān)谘b配圖網(wǎng)上搜索。
1、 數(shù)據(jù)挖掘論文題 目:數(shù)據(jù)挖掘技術(shù)在電子商務(wù)中的應(yīng)用 系 別: 計(jì)算機(jī)學(xué)院 專 業(yè): 11網(wǎng)絡(luò)工程1班 學(xué)生姓名: 黃坤 學(xué) 號(hào): 1110322111 指導(dǎo)教師: 江南 2014年 11月06 日 數(shù)據(jù)挖掘技術(shù)在電子商務(wù)中的應(yīng)用一、研究原因電子商務(wù)在現(xiàn)代商務(wù)活動(dòng)中的正變得日趨重要,隨著大數(shù)據(jù)時(shí)代的到來,商務(wù)信息顯得尤為重要,在電子商務(wù)中誰掌握了有利的市場(chǎng)信息,誰就能在這個(gè)競(jìng)爭(zhēng)激烈電商行業(yè)中占據(jù)絕對(duì)的優(yōu)勢(shì)。而數(shù)據(jù)挖掘技術(shù)是獲取信息的最有效的技術(shù)工具。本文討論了數(shù)據(jù)挖掘的主要方法,具體闡述了數(shù)據(jù)挖掘技術(shù)在電子商務(wù)中的作用及應(yīng)用。在信息經(jīng)濟(jì)時(shí)代,對(duì)企業(yè)來說,誰對(duì)市場(chǎng)變化反應(yīng)速度快,誰將在激烈的市場(chǎng)
2、競(jìng)爭(zhēng)中占據(jù)有利的地位,競(jìng)爭(zhēng)的結(jié)果最終將促使企業(yè)價(jià)值從市場(chǎng)競(jìng)爭(zhēng)輸家轉(zhuǎn)移到贏家,這樣就使企業(yè)面臨一個(gè)問題:如何才能把大量的數(shù)據(jù)資源,轉(zhuǎn)化成自身價(jià)值呢?要想使數(shù)據(jù)真正成為一個(gè)公司的資源,只有充分利用它為公司自身的業(yè)務(wù)決策和戰(zhàn)略發(fā)展服務(wù)才行,否則大量的數(shù)據(jù)可能成為包袱,甚至成為垃圾。因此,面對(duì)“人們被數(shù)據(jù)淹沒,人們卻饑餓于知識(shí)”的挑戰(zhàn),數(shù)據(jù)挖掘和知識(shí)發(fā)現(xiàn)(DMKD)技術(shù)應(yīng)運(yùn)而生,并得以蓬勃發(fā)展,越來越顯示出其強(qiáng)大的生命力。二、2.1 國內(nèi)研究現(xiàn)狀KDD(從數(shù)據(jù)庫中發(fā)現(xiàn)知識(shí))一詞首次出現(xiàn)在1989年8月舉行的第11屆國際聯(lián)合人工智能學(xué)術(shù)會(huì)議上。迄今為止,由美國人工智能協(xié)會(huì)主辦的KDD已經(jīng)召開了7次,規(guī)模
3、由原來的專題討論會(huì)發(fā)展到國際學(xué)術(shù)大會(huì),人數(shù)由二三十人到七八百人,論文收錄比例從2X1到6X1,研究重點(diǎn)也逐漸從發(fā)現(xiàn)方法轉(zhuǎn)向系統(tǒng)應(yīng)用,并且注重多種發(fā)現(xiàn)策略和技術(shù)的集成,以及多種學(xué)科之間的相互滲透。其他內(nèi)容的專題會(huì)議也把數(shù)據(jù)挖掘和知識(shí)發(fā)現(xiàn)列為議題之一,成為當(dāng)前計(jì)算機(jī)科學(xué)界的一大熱點(diǎn)。此外,數(shù)據(jù)庫、人工智能、信息處理、知識(shí)工程等領(lǐng)域的國際學(xué)術(shù)刊物也紛紛開辟了KDD專題或?qū)?EEE的Knowledge and Data Engineering 會(huì)刊領(lǐng)先在1993年出版了KDD技術(shù)???所發(fā)表的5篇論文代表了當(dāng)時(shí)KDD研究的最新成果和動(dòng)態(tài),較全面地論述了KDD 系統(tǒng)方法論、發(fā)現(xiàn)結(jié)果的評(píng)價(jià)、KDD系統(tǒng)
4、設(shè)計(jì)的邏輯方法,集中討論了鑒于數(shù)據(jù)庫的動(dòng)態(tài)性冗余、高噪聲和不確定性、空值等問題,KDD系統(tǒng)與其它傳統(tǒng)的機(jī)器學(xué)習(xí)、專家系統(tǒng)、人工神經(jīng)網(wǎng)絡(luò)、數(shù)理統(tǒng)計(jì)分析系統(tǒng)的聯(lián)系和區(qū)別,以及相應(yīng)的基本對(duì)策。6篇論文摘要展示了KDD在從建立分子模型到設(shè)計(jì)制造業(yè)的具體應(yīng)用。不僅如此,由美國人工智能學(xué)會(huì)主辦的KDD國際研討會(huì)規(guī)模由原來的專題討論會(huì)發(fā)展到國際學(xué)術(shù)大會(huì),研究重點(diǎn)也逐漸從發(fā)現(xiàn)方向轉(zhuǎn)向系統(tǒng)應(yīng)用,注重多重發(fā)現(xiàn)策略和技術(shù)集成,以及多種學(xué)科之間的相互滲透,并且有很多學(xué)校和科研機(jī)構(gòu)也正投入大量資金進(jìn)行數(shù)據(jù)挖掘技術(shù)的進(jìn)一步開發(fā)和深入研究。國內(nèi)對(duì)數(shù)據(jù)挖掘的研究稍晚,沒有形成整體力量。但是國內(nèi)的高校,例如清華大學(xué)、中科院計(jì)算
5、機(jī)技術(shù)研究所等,都已開展了不同程度的知識(shí)發(fā)現(xiàn)的基礎(chǔ)理論及其應(yīng)用研究。其中,北京系統(tǒng)工程研究所對(duì)模糊方法在知識(shí)發(fā)現(xiàn)中的應(yīng)用進(jìn)行了較深入的研究。與國外相比,我國對(duì)數(shù)據(jù)挖掘領(lǐng)域的研究仍處于初級(jí)階段,絕大多數(shù)工作集中于局部算法設(shè)計(jì),進(jìn)行綜合的系統(tǒng)集成設(shè)計(jì)卻寥寥無幾。由于核心技術(shù)的欠缺,使得數(shù)據(jù)挖掘在國內(nèi)一些領(lǐng)域只是初步應(yīng)用,如銀行、金融、GIS等領(lǐng)域。所以研究數(shù)據(jù)挖掘技術(shù),并將其應(yīng)用到科研、經(jīng)濟(jì)、教育等領(lǐng)域的重要性是可見一斑的。電子商務(wù)(E-Commerce)是以指利用電子數(shù)據(jù)交換(Electronic Data Interchange,EDI)、電子郵件(E-mail)、電子資金轉(zhuǎn)賬(Electro
6、nic Funds Transfer,EFT)和Internet等主要技術(shù)在個(gè)人、企業(yè)和國家之間進(jìn)行無紙化的信息交換,包括商品信息及其訂購信息、資金信息及其支付信息、安全及其認(rèn)證信息等,即以現(xiàn)代信息技術(shù)為手段,以經(jīng)濟(jì)效益為中心的現(xiàn)代化商業(yè)運(yùn)轉(zhuǎn)模式。其最終目標(biāo)是實(shí)現(xiàn)商務(wù)活動(dòng)的網(wǎng)絡(luò)化、自動(dòng)化與智能化。隨著Internet的迅速發(fā)展,電子商務(wù)的應(yīng)用不斷深入。在電子商務(wù)應(yīng)用系統(tǒng)中,相關(guān)的用戶數(shù)據(jù)日益增多,數(shù)據(jù)挖掘技術(shù)具有從大量復(fù)雜數(shù)據(jù)中發(fā)現(xiàn)特定規(guī)律的能力。商業(yè)電子化的趨勢(shì)不僅為客戶提供了便利的交易方式和廣泛的選擇,同時(shí)也為商家提供了更加深入了解客戶需求信息和購物行為特征的可能性。2.2 數(shù)據(jù)挖掘技術(shù)2
7、.2.1 統(tǒng)計(jì)技術(shù)統(tǒng)計(jì)技術(shù)對(duì)數(shù)據(jù)集進(jìn)行挖掘的主要思想是:統(tǒng)計(jì)的方法對(duì)給定的數(shù)據(jù)集合假定了一個(gè)分步或者概率的模型(比如一個(gè)正態(tài)分布),然后根據(jù)模型采用相應(yīng)的方法進(jìn)行挖掘。2.2.2 關(guān)聯(lián)規(guī)則數(shù)據(jù)關(guān)聯(lián)是數(shù)據(jù)庫中存在的一類很重要的可以發(fā)現(xiàn)的知識(shí)。若兩個(gè)或者多個(gè)變量的取值之間存在某種規(guī)律性,就成為關(guān)聯(lián)。關(guān)聯(lián)可分為簡(jiǎn)單關(guān)聯(lián),時(shí)序關(guān)聯(lián),因果關(guān)聯(lián)。關(guān)聯(lián)分析的目的是找出數(shù)據(jù)庫中隱含的關(guān)聯(lián)網(wǎng),優(yōu)勢(shì)并不知道數(shù)據(jù)庫中的關(guān)聯(lián)函數(shù),即使知道也是不確定的,因此關(guān)聯(lián)分析生成的規(guī)則帶有可信度。2.2.3 基于歷史的分析MBR(Memory-based Reasoning)MBR的本質(zhì)是:現(xiàn)根據(jù)經(jīng)驗(yàn)知識(shí)尋找相似情況,然后再將這
8、些情況的信息應(yīng)用于當(dāng)前的例子中。使用的三個(gè)問題是:尋找確定的歷史數(shù)據(jù);決定表示歷史數(shù)據(jù)的最有效方法;決定距離函數(shù)、聯(lián)合函數(shù)和鄰近的數(shù)量。2.2.4 遺傳算法GA(Genetic Aigorithms)該算法是基于進(jìn)化理論,并采用遺傳結(jié)合、遺傳變異及自然選擇等方法優(yōu)化結(jié)果。主要思想是:根據(jù)適者生存的原則,形成由當(dāng)前群體中最適合的規(guī)則組成新的群體,以及這些規(guī)則的后代。規(guī)則的適合度(Fitness)是對(duì)訓(xùn)練樣本分類準(zhǔn)確性的評(píng)估。2.2.5 聚集檢測(cè)將物理或者抽象對(duì)象的集合,分組成為由類似的對(duì)象組成的多個(gè)類的過程被成為聚類。在由聚類生成的數(shù)據(jù)對(duì)象集合中,這些對(duì)象具有相似性,并與其他集合中的對(duì)象具有相異
9、性。這種相異度是根據(jù)描述對(duì)象的屬性值來計(jì)算的,距離是經(jīng)常被采用的度量方法。2.2.6 連接分析它的基本理論是圖論,圖論的思想是尋找一個(gè)可以得出好的結(jié)果但不是完美結(jié)果的算法。這種不完美但是可行的思想模式,可以使之運(yùn)用到更廣的用戶群中。2.2.7 決策樹決策樹是能夠被看成一棵樹的預(yù)測(cè)模型。樹的每個(gè)分支都是一個(gè)分類的問題,內(nèi)部節(jié)點(diǎn)表示在一個(gè)屬性上的測(cè)試,樹葉代表類或者分布。決策樹算法是目前應(yīng)用最廣泛的歸納推理算法之一,是一種逼近離散值函數(shù)的方法,也可將它看作是一個(gè)布爾函數(shù)。它是以實(shí)例為基礎(chǔ)的歸納學(xué)習(xí)算法,通過對(duì)一組訓(xùn)練數(shù)據(jù)的學(xué)習(xí),構(gòu)造出決策樹形式的只是表示,在決策樹的內(nèi)節(jié)點(diǎn)進(jìn)行屬性值的比較并根據(jù)不同
10、的屬性值判斷從該節(jié)點(diǎn)向下的分枝,從而在決策樹葉節(jié)點(diǎn)得到結(jié)論。所以從根到葉節(jié)點(diǎn)的一條路徑就對(duì)應(yīng)著一條規(guī)則,整棵決策樹就對(duì)應(yīng)著一組吸取表達(dá)式規(guī)則。2.2.8 神經(jīng)網(wǎng)絡(luò)神經(jīng)網(wǎng)絡(luò)是指由大量神經(jīng)元互聯(lián)而成的網(wǎng)絡(luò),類似于服務(wù)器互聯(lián)而成的因特網(wǎng)。它主要由“神經(jīng)元”的互聯(lián),或按組織的結(jié)點(diǎn)構(gòu)成。通常神經(jīng)網(wǎng)絡(luò)模型由三個(gè)層次組成:輸入層,中間層,輸出層。在神經(jīng)元求得輸入值后,再匯總計(jì)算總輸入值;由過濾機(jī)比較總輸出值,確定網(wǎng)絡(luò)的輸出值??梢酝ㄟ^模擬判斷,來不斷修正計(jì)算的“權(quán)值”來達(dá)到學(xué)習(xí)的目的,增加判斷的正確性。2.2.9 粗糙集粗糙值是一種研究不確定性問題的工具,它根據(jù)已有的給定問題的知識(shí),對(duì)問題論域進(jìn)行劃分,然后
11、對(duì)劃分后的每個(gè)組成部分確定其對(duì)某個(gè)概念的支持程度。它用于從數(shù)據(jù)庫中發(fā)現(xiàn)分類規(guī)則的基本思路是將數(shù)據(jù)庫中的屬性分為條件屬性和結(jié)論屬性。對(duì)數(shù)據(jù)庫中的元組根據(jù)各個(gè)屬性不同的屬性值分成相應(yīng)的子集,然后對(duì)條件屬性劃分的子集與結(jié)論屬性劃分的子集之間上下近似關(guān)系生成判定規(guī)則。2.2.10 回歸分析回歸分析分為線性回歸、多元回歸和非線性回歸。線性回歸中,數(shù)據(jù)是用直線建模;多元回歸是線性回歸的擴(kuò)展,涉及多個(gè)預(yù)測(cè)變量。非線性回歸是在基本線性模型上添加多個(gè)項(xiàng)式項(xiàng)形成為線性回歸模型。1. 數(shù)據(jù)挖掘階段分析數(shù)據(jù)挖掘階段作為整個(gè)項(xiàng)目的重中之重,通常數(shù)據(jù)挖掘的流程包括項(xiàng)目理解、數(shù)據(jù)理解、數(shù)據(jù)準(zhǔn)備、建立模型、模型評(píng)估和模型發(fā)布
12、等。3.1 項(xiàng)目理解階段此階段主要確定項(xiàng)目目標(biāo),訂立項(xiàng)目成功的標(biāo)準(zhǔn),完成項(xiàng)目形勢(shì)評(píng)估及制定項(xiàng)目執(zhí)行計(jì)劃等等。項(xiàng)目成功的標(biāo)準(zhǔn)是模型的準(zhǔn)確率達(dá)到多少、純度達(dá)到多少等,而形式評(píng)估則主要對(duì)項(xiàng)目實(shí)施未來可能遇到的問題作一個(gè)簡(jiǎn)單的評(píng)估,業(yè)務(wù)及行業(yè)規(guī)則不斷變化,模型在應(yīng)用過程中會(huì)遇到各種問題等。至于項(xiàng)目計(jì)劃則是對(duì)整個(gè)項(xiàng)目需要的時(shí)間,資源作一個(gè)整體的規(guī)劃把控。除此之外,此階段還需要對(duì)相關(guān)專業(yè)術(shù)語進(jìn)行解釋說明等。3.2 數(shù)據(jù)理解和數(shù)據(jù)準(zhǔn)備數(shù)據(jù)挖掘?qū)?shù)據(jù)的依賴性非常高,為了能夠?qū)崿F(xiàn)數(shù)據(jù)挖掘的目標(biāo),要求收集的數(shù)據(jù)足夠全,質(zhì)量盡量高。通常在這個(gè)階段花費(fèi)的時(shí)間占整個(gè)項(xiàng)目的一半還多。原始數(shù)據(jù)采集完后,還需要對(duì)數(shù)據(jù)進(jìn)行描述
13、和處理,比如進(jìn)一步探查已選變量與目標(biāo)變量之間是否存在關(guān)系,各變量數(shù)據(jù)的基本探查,如空值數(shù)目、唯一值數(shù)目、最小最大值的統(tǒng)計(jì)以及數(shù)據(jù)質(zhì)量檢驗(yàn)等。數(shù)據(jù)準(zhǔn)備數(shù)據(jù)集描述清洗數(shù)據(jù)構(gòu)造數(shù)據(jù)選擇數(shù)據(jù)格式化數(shù)據(jù)整合數(shù)據(jù) 3.3 建立模型階段數(shù)據(jù)挖掘項(xiàng)目的建立模型都要經(jīng)過三個(gè)階段:建立模型,測(cè)試并調(diào)整模型,應(yīng)用模型。建立模型,就得選擇相應(yīng)的建模技術(shù),可能應(yīng)用到?jīng)Q策樹、神經(jīng)網(wǎng)絡(luò)及回歸分析等統(tǒng)計(jì)技術(shù),在項(xiàng)目運(yùn)營的各個(gè)階段,數(shù)據(jù)不同,運(yùn)營宣傳方式也不同,這就可能利用模型的組合,各個(gè)項(xiàng)目階段采用不同的模型進(jìn)行預(yù)測(cè)分析。3.4 模型評(píng)估階段模型的應(yīng)用通常需要較長周期的檢驗(yàn)才能準(zhǔn)確的評(píng)估其是否滿足商業(yè)標(biāo)準(zhǔn),在傳統(tǒng)行業(yè),這個(gè)評(píng)
14、估通常在模型應(yīng)用一年后作出。此外,對(duì)于設(shè)計(jì)的模型,不但要評(píng)估模型的準(zhǔn)確性和通用性,還要努力找出相關(guān)商業(yè)理由解釋說明模型的欠缺,把生成的結(jié)果與建模初訂立的標(biāo)準(zhǔn)進(jìn)行對(duì)比,同時(shí)根據(jù)目前的狀況對(duì)數(shù)據(jù)倉庫變量做適當(dāng)?shù)男拚{(diào)整,以滿足日常數(shù)據(jù)分析需要。數(shù)據(jù)挖掘運(yùn)營分析調(diào)研驗(yàn)證3.5 模型發(fā)布階段在模型通過評(píng)估滿足商業(yè)目標(biāo)情況后,進(jìn)入模型發(fā)布階段。模型發(fā)布階段的內(nèi)容主要包括相關(guān)模型檢測(cè)和維護(hù)計(jì)劃(常規(guī)調(diào)整和適應(yīng)性的調(diào)整),以確保模型的準(zhǔn)確預(yù)測(cè)和預(yù)警。同時(shí),還要利用模型指導(dǎo)日常運(yùn)營發(fā)布相關(guān)數(shù)據(jù)分析報(bào)告。確定研究目標(biāo)提出策略意見分析數(shù)據(jù)現(xiàn)象與目標(biāo)的關(guān)聯(lián)找出真實(shí)原因2. 數(shù)據(jù)挖掘技術(shù)在電子商務(wù)中的應(yīng)用4.1電子商
15、務(wù)中數(shù)據(jù)挖掘技術(shù)的適用價(jià)值目前對(duì)于數(shù)據(jù)挖掘的對(duì)象和使用的方法層出不窮,隨著電子商務(wù)的興起,電子商務(wù)將是未來數(shù)據(jù)挖掘的主要發(fā)展方向之一,它在各種商業(yè)領(lǐng)域都存在廣泛的使用價(jià)值。4.1.1客戶細(xì)分隨著以客戶為中心的經(jīng)營理念不斷深入人心,分析客戶、了解客戶并引導(dǎo)客戶的需求己成為企業(yè)經(jīng)營的重要課題。通過對(duì)電子商務(wù)系統(tǒng)收集的交易數(shù)據(jù)進(jìn)行分析,可以按各種客戶指標(biāo)(如自然屬性、收入貢獻(xiàn)交易額、價(jià)值度等)對(duì)客戶分類,然后確定不同類型客戶的行為模式以便采取相應(yīng)的營銷措施促使企業(yè)利潤的最大化。4.1.2客戶獲得比如通過數(shù)據(jù)挖掘可以發(fā)現(xiàn)購買某種商品的消費(fèi)者是男性還是女性,學(xué)歷、收入如何,有什么愛好,是什么職業(yè)等等。甚
16、至可以發(fā)現(xiàn)不同的人在購買該種商品的相關(guān)商品后多長時(shí)間有可能購買該種商品,以及什么樣的人會(huì)購買什么型號(hào)的該種商品等等。也許很多因素表面上看起來和購買該種商品不存在任何聯(lián)系,但數(shù)據(jù)挖掘的結(jié)果卻證明他們之間有聯(lián)系。在采用了數(shù)據(jù)挖掘后,針對(duì)目標(biāo)客戶發(fā)送的廣告的有效性和回應(yīng)率將得到大幅度的提高,推銷的成本將大大降低。4.1.3客戶保持?jǐn)?shù)據(jù)挖掘可以把你大量的客戶分成不同的類,在每個(gè)類里的客戶擁有相似的屬性,而不同類里的客戶的屬性也不同。你完全可以做到給不同類的客戶提供完全不同的服務(wù)來提高客戶的滿意度。數(shù)據(jù)挖掘還可以發(fā)現(xiàn)具有哪些特征的客戶有可能流失,這樣挽留客戶的措施將具有針對(duì)性,挽留客戶的費(fèi)用將下降。4.
17、2數(shù)據(jù)挖掘技術(shù)在電子商務(wù)推薦系統(tǒng)的具體應(yīng)用數(shù)據(jù)挖掘技術(shù)應(yīng)用于電子商務(wù)方方面面,在這里以電子商務(wù)活動(dòng)中推薦系統(tǒng)應(yīng)用數(shù)據(jù)挖掘技術(shù)為案列進(jìn)行簡(jiǎn)單分析。4.2.1推薦系統(tǒng)在電子商務(wù)活動(dòng)中的作用一般說來,推薦系統(tǒng)在電子商務(wù)活動(dòng)中的作用可以歸納為以下幾點(diǎn):(1)把瀏覽者轉(zhuǎn)變成購買者己有明確購物目標(biāo)的客戶也許可以借助檢索系統(tǒng)找到自己需要的東西,但對(duì)于大多數(shù)只是四處逛逛看一看的沖浪者,或是對(duì)自己的需要比較模糊的購買者,很難有耐心在幾十頁長的商品目錄逐項(xiàng)查找是否有自己感興趣的東西。而推薦系統(tǒng)通過合適的推薦,可以將一個(gè)瀏覽者變?yōu)橘徺I者。(2)提高電子商務(wù)系統(tǒng)的交叉銷售能力電子商務(wù)推薦系統(tǒng)在用戶購買過程中向用戶提供
18、其它有價(jià)值的商品推薦,用戶能夠從提供的推薦列表中購買自己確實(shí)需要但在購買過程中沒有想到的商品,從而有效提高電子商務(wù)系統(tǒng)的交叉銷售。例如站點(diǎn)可以根據(jù)客戶當(dāng)前購物車中的物品向他們推薦一些和這些己選購的物品相關(guān)的物品。如果有一個(gè)比較好的推薦系統(tǒng),則企業(yè)的平均定購量就可能增加。(3)提高客戶對(duì)電子商務(wù)網(wǎng)站忠誠度與傳統(tǒng)的商務(wù)模式相比,電子商務(wù)系統(tǒng)使得用戶擁有越來越多的選擇,用戶更換商家及其方便,只需要一兩次鼠標(biāo)的點(diǎn)擊就可以在不同電子商務(wù)系統(tǒng)之間跳轉(zhuǎn)。電子商務(wù)推薦系統(tǒng)分析用戶的購買習(xí)慣,根據(jù)用戶需求向用戶提供有價(jià)值的商品推薦。如果電子商務(wù)推薦系統(tǒng)的推薦質(zhì)量很高,用戶可以很容易找到自己想要的商品,那么用戶會(huì)
19、再次訪問這個(gè)網(wǎng)站,并會(huì)推薦給其他人,這對(duì)于網(wǎng)站來說是一個(gè)很大的優(yōu)勢(shì)。4.2.2數(shù)據(jù)挖掘技術(shù)應(yīng)用于推薦系統(tǒng)具體表現(xiàn)數(shù)據(jù)挖掘是在大型數(shù)據(jù)存儲(chǔ)庫中,自動(dòng)地發(fā)現(xiàn)有用信息的過程。數(shù)據(jù)挖掘技術(shù)用來探查大型數(shù)據(jù)庫,發(fā)現(xiàn)先前未知的有用模式。電子商務(wù)推薦系統(tǒng)將數(shù)據(jù)挖掘技術(shù)運(yùn)用到電子商務(wù)領(lǐng)域,以數(shù)據(jù)挖掘?yàn)榛A(chǔ)衍生出許多算法。(1)基于關(guān)聯(lián)規(guī)則的推薦算法關(guān)聯(lián)規(guī)則是數(shù)據(jù)挖掘技術(shù)的一種,該技術(shù)挖掘發(fā)現(xiàn)大量數(shù)據(jù)中項(xiàng)集之間有趣的關(guān)聯(lián)或相關(guān)聯(lián)系。關(guān)聯(lián)規(guī)則挖掘的一個(gè)典型例子就是購物籃分析。該過程通過發(fā)現(xiàn)顧客放入其購物籃中不同商品之間的聯(lián)系,分析顧客的購買習(xí)慣。通過了解哪些商品頻繁地被顧客同時(shí)購買,這種關(guān)聯(lián)的發(fā)現(xiàn)可以幫助商家制定
20、營銷策略。關(guān)聯(lián)規(guī)則的挖掘是一個(gè)兩步過程:首先,找出所有頻繁項(xiàng)集。這些項(xiàng)集出現(xiàn)的頻繁性至少和預(yù)定義的最小支持計(jì)數(shù)一樣。其次,由頻繁項(xiàng)集產(chǎn)生強(qiáng)關(guān)聯(lián)規(guī)則。這些規(guī)則必須滿足最小支持度和最小置信度。關(guān)聯(lián)規(guī)則挖掘算法的瓶頸出現(xiàn)在第一步。由于第一步需要反復(fù)掃描交易數(shù)據(jù)庫,所以增加了系統(tǒng)的開銷,降低了系統(tǒng)性能。例如:Aprior算法是一種最有影響的挖掘關(guān)聯(lián)規(guī)則頻繁項(xiàng)集的算法。該算法使用一種稱為逐層搜索的迭代方法尋找頻繁項(xiàng)集,它開創(chuàng)性地使用基于支持度的剪枝技術(shù),系統(tǒng)地控制候選項(xiàng)集指數(shù)增長。它缺點(diǎn)就是由于數(shù)據(jù)庫數(shù)據(jù)的增多,需要多次掃描數(shù)據(jù)庫,這樣便影響了系統(tǒng)的性能。(2)基于內(nèi)同的推薦算法基于內(nèi)容的推薦系統(tǒng)的產(chǎn)生
21、根源于信息檢索與信息過濾。其具體是根據(jù)項(xiàng)之間的相似性來進(jìn)行推薦的,先用機(jī)器學(xué)習(xí)等技術(shù)分析用戶已經(jīng)評(píng)分的項(xiàng)的內(nèi)容,建立用戶檔案,然后從項(xiàng)集中選擇與用戶檔案相似的項(xiàng),再從中根據(jù)評(píng)分選擇一定的項(xiàng)推薦給用戶,最后根據(jù)用戶的反饋信息修正推薦?;趦?nèi)容得推薦技術(shù)具有一定的局限性。首先,資源內(nèi)容必須以機(jī)器可以理解的格式表示,而很多信息例如圖像、視頻等多媒體信息是很難做到這一點(diǎn)的;其次,資源內(nèi)容的分析范圍比較小,不能提供較多的建議;再次,基于內(nèi)容的推薦不能從質(zhì)量、樣式、審美等角度對(duì)項(xiàng)進(jìn)行過濾。(3)協(xié)同過濾推薦算法協(xié)同過濾是在信息過濾和信息系統(tǒng)中正迅速成為一項(xiàng)很受歡迎的技術(shù)。與傳統(tǒng)的基于內(nèi)容過濾直接分析內(nèi)容進(jìn)行推薦不同,協(xié)同過濾分析用戶興趣,在用戶群中找到指定用戶的相似(興趣)用戶,綜合這些相似用戶對(duì)某一信息的評(píng)價(jià),形成系統(tǒng)對(duì)該指定用戶對(duì)此信息的喜好程度預(yù)測(cè)。三、總結(jié)數(shù)據(jù)挖掘是指按企業(yè)既定業(yè)務(wù)目標(biāo),對(duì)大量的企業(yè)數(shù)據(jù)進(jìn)行探索和分析,揭示隱藏的、未知的或驗(yàn)證已知的規(guī)律性,并進(jìn)一步將其模型化的先進(jìn)有效的方法。電子商務(wù)是現(xiàn)代信息技術(shù)發(fā)展的必然結(jié)果,也是未來商業(yè)運(yùn)作模式的必然選擇。企業(yè)數(shù)據(jù)量日益龐大,其中真正有價(jià)值的信息卻很少,利用數(shù)據(jù)挖掘技術(shù),從大量的數(shù)據(jù)中經(jīng)過深層分析,獲得有利于商業(yè)運(yùn)作、提高競(jìng)爭(zhēng)力的信息,發(fā)揮企業(yè)的獨(dú)特優(yōu)勢(shì),促進(jìn)管理創(chuàng)新和技術(shù)創(chuàng)新。12材料a
- 溫馨提示:
1: 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2: 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3.本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 裝配圖網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 安全評(píng)價(jià)師基礎(chǔ)知識(shí)教程
- 19、雪孩子(教育精品)
- “綠色建筑”研討會(huì)
- 2022年浙教初中數(shù)學(xué)七上《絕對(duì)值》課件6
- 2022年北師大版小學(xué)數(shù)學(xué)《快樂的動(dòng)物》課件
- 中考語文課件中考語文議論文構(gòu)思課件
- 《己亥雜詩》教學(xué)課件
- 職場(chǎng)禮儀培訓(xùn)教材(PPT 33頁)
- 百分?jǐn)?shù)的認(rèn)識(shí)課件 (2)(教育精品)
- 2623求二次函數(shù)的表達(dá)式
- 三年級(jí)語文上冊(cè) 第三單元期末總復(fù)習(xí)課件 新人教版 (1038)
- 招聘選拔與培養(yǎng)
- 《鄒忌諷齊王納諫》課件
- 中職 CAXA電子圖板繪圖教程(2007版)(第2版)第9章電子課件(電子教案)
- 必修2近代工業(yè)的艱難起步課件