《數據挖掘相關論文[特選材料]》由會員分享,可在線閱讀,更多相關《數據挖掘相關論文[特選材料](12頁珍藏版)》請在裝配圖網上搜索。
1、 數據挖掘論文題 目:數據挖掘技術在電子商務中的應用 系 別: 計算機學院 專 業(yè): 11網絡工程1班 學生姓名: 黃坤 學 號: 1110322111 指導教師: 江南 2014年 11月06 日 數據挖掘技術在電子商務中的應用一、研究原因電子商務在現代商務活動中的正變得日趨重要,隨著大數據時代的到來,商務信息顯得尤為重要,在電子商務中誰掌握了有利的市場信息,誰就能在這個競爭激烈電商行業(yè)中占據絕對的優(yōu)勢。而數據挖掘技術是獲取信息的最有效的技術工具。本文討論了數據挖掘的主要方法,具體闡述了數據挖掘技術在電子商務中的作用及應用。在信息經濟時代,對企業(yè)來說,誰對市場變化反應速度快,誰將在激烈的市場
2、競爭中占據有利的地位,競爭的結果最終將促使企業(yè)價值從市場競爭輸家轉移到贏家,這樣就使企業(yè)面臨一個問題:如何才能把大量的數據資源,轉化成自身價值呢?要想使數據真正成為一個公司的資源,只有充分利用它為公司自身的業(yè)務決策和戰(zhàn)略發(fā)展服務才行,否則大量的數據可能成為包袱,甚至成為垃圾。因此,面對“人們被數據淹沒,人們卻饑餓于知識”的挑戰(zhàn),數據挖掘和知識發(fā)現(DMKD)技術應運而生,并得以蓬勃發(fā)展,越來越顯示出其強大的生命力。二、2.1 國內研究現狀KDD(從數據庫中發(fā)現知識)一詞首次出現在1989年8月舉行的第11屆國際聯合人工智能學術會議上。迄今為止,由美國人工智能協(xié)會主辦的KDD已經召開了7次,規(guī)模
3、由原來的專題討論會發(fā)展到國際學術大會,人數由二三十人到七八百人,論文收錄比例從2X1到6X1,研究重點也逐漸從發(fā)現方法轉向系統(tǒng)應用,并且注重多種發(fā)現策略和技術的集成,以及多種學科之間的相互滲透。其他內容的專題會議也把數據挖掘和知識發(fā)現列為議題之一,成為當前計算機科學界的一大熱點。此外,數據庫、人工智能、信息處理、知識工程等領域的國際學術刊物也紛紛開辟了KDD專題或??EEE的Knowledge and Data Engineering 會刊領先在1993年出版了KDD技術???所發(fā)表的5篇論文代表了當時KDD研究的最新成果和動態(tài),較全面地論述了KDD 系統(tǒng)方法論、發(fā)現結果的評價、KDD系統(tǒng)
4、設計的邏輯方法,集中討論了鑒于數據庫的動態(tài)性冗余、高噪聲和不確定性、空值等問題,KDD系統(tǒng)與其它傳統(tǒng)的機器學習、專家系統(tǒng)、人工神經網絡、數理統(tǒng)計分析系統(tǒng)的聯系和區(qū)別,以及相應的基本對策。6篇論文摘要展示了KDD在從建立分子模型到設計制造業(yè)的具體應用。不僅如此,由美國人工智能學會主辦的KDD國際研討會規(guī)模由原來的專題討論會發(fā)展到國際學術大會,研究重點也逐漸從發(fā)現方向轉向系統(tǒng)應用,注重多重發(fā)現策略和技術集成,以及多種學科之間的相互滲透,并且有很多學校和科研機構也正投入大量資金進行數據挖掘技術的進一步開發(fā)和深入研究。國內對數據挖掘的研究稍晚,沒有形成整體力量。但是國內的高校,例如清華大學、中科院計算
5、機技術研究所等,都已開展了不同程度的知識發(fā)現的基礎理論及其應用研究。其中,北京系統(tǒng)工程研究所對模糊方法在知識發(fā)現中的應用進行了較深入的研究。與國外相比,我國對數據挖掘領域的研究仍處于初級階段,絕大多數工作集中于局部算法設計,進行綜合的系統(tǒng)集成設計卻寥寥無幾。由于核心技術的欠缺,使得數據挖掘在國內一些領域只是初步應用,如銀行、金融、GIS等領域。所以研究數據挖掘技術,并將其應用到科研、經濟、教育等領域的重要性是可見一斑的。電子商務(E-Commerce)是以指利用電子數據交換(Electronic Data Interchange,EDI)、電子郵件(E-mail)、電子資金轉賬(Electro
6、nic Funds Transfer,EFT)和Internet等主要技術在個人、企業(yè)和國家之間進行無紙化的信息交換,包括商品信息及其訂購信息、資金信息及其支付信息、安全及其認證信息等,即以現代信息技術為手段,以經濟效益為中心的現代化商業(yè)運轉模式。其最終目標是實現商務活動的網絡化、自動化與智能化。隨著Internet的迅速發(fā)展,電子商務的應用不斷深入。在電子商務應用系統(tǒng)中,相關的用戶數據日益增多,數據挖掘技術具有從大量復雜數據中發(fā)現特定規(guī)律的能力。商業(yè)電子化的趨勢不僅為客戶提供了便利的交易方式和廣泛的選擇,同時也為商家提供了更加深入了解客戶需求信息和購物行為特征的可能性。2.2 數據挖掘技術2
7、.2.1 統(tǒng)計技術統(tǒng)計技術對數據集進行挖掘的主要思想是:統(tǒng)計的方法對給定的數據集合假定了一個分步或者概率的模型(比如一個正態(tài)分布),然后根據模型采用相應的方法進行挖掘。2.2.2 關聯規(guī)則數據關聯是數據庫中存在的一類很重要的可以發(fā)現的知識。若兩個或者多個變量的取值之間存在某種規(guī)律性,就成為關聯。關聯可分為簡單關聯,時序關聯,因果關聯。關聯分析的目的是找出數據庫中隱含的關聯網,優(yōu)勢并不知道數據庫中的關聯函數,即使知道也是不確定的,因此關聯分析生成的規(guī)則帶有可信度。2.2.3 基于歷史的分析MBR(Memory-based Reasoning)MBR的本質是:現根據經驗知識尋找相似情況,然后再將這
8、些情況的信息應用于當前的例子中。使用的三個問題是:尋找確定的歷史數據;決定表示歷史數據的最有效方法;決定距離函數、聯合函數和鄰近的數量。2.2.4 遺傳算法GA(Genetic Aigorithms)該算法是基于進化理論,并采用遺傳結合、遺傳變異及自然選擇等方法優(yōu)化結果。主要思想是:根據適者生存的原則,形成由當前群體中最適合的規(guī)則組成新的群體,以及這些規(guī)則的后代。規(guī)則的適合度(Fitness)是對訓練樣本分類準確性的評估。2.2.5 聚集檢測將物理或者抽象對象的集合,分組成為由類似的對象組成的多個類的過程被成為聚類。在由聚類生成的數據對象集合中,這些對象具有相似性,并與其他集合中的對象具有相異
9、性。這種相異度是根據描述對象的屬性值來計算的,距離是經常被采用的度量方法。2.2.6 連接分析它的基本理論是圖論,圖論的思想是尋找一個可以得出好的結果但不是完美結果的算法。這種不完美但是可行的思想模式,可以使之運用到更廣的用戶群中。2.2.7 決策樹決策樹是能夠被看成一棵樹的預測模型。樹的每個分支都是一個分類的問題,內部節(jié)點表示在一個屬性上的測試,樹葉代表類或者分布。決策樹算法是目前應用最廣泛的歸納推理算法之一,是一種逼近離散值函數的方法,也可將它看作是一個布爾函數。它是以實例為基礎的歸納學習算法,通過對一組訓練數據的學習,構造出決策樹形式的只是表示,在決策樹的內節(jié)點進行屬性值的比較并根據不同
10、的屬性值判斷從該節(jié)點向下的分枝,從而在決策樹葉節(jié)點得到結論。所以從根到葉節(jié)點的一條路徑就對應著一條規(guī)則,整棵決策樹就對應著一組吸取表達式規(guī)則。2.2.8 神經網絡神經網絡是指由大量神經元互聯而成的網絡,類似于服務器互聯而成的因特網。它主要由“神經元”的互聯,或按組織的結點構成。通常神經網絡模型由三個層次組成:輸入層,中間層,輸出層。在神經元求得輸入值后,再匯總計算總輸入值;由過濾機比較總輸出值,確定網絡的輸出值??梢酝ㄟ^模擬判斷,來不斷修正計算的“權值”來達到學習的目的,增加判斷的正確性。2.2.9 粗糙集粗糙值是一種研究不確定性問題的工具,它根據已有的給定問題的知識,對問題論域進行劃分,然后
11、對劃分后的每個組成部分確定其對某個概念的支持程度。它用于從數據庫中發(fā)現分類規(guī)則的基本思路是將數據庫中的屬性分為條件屬性和結論屬性。對數據庫中的元組根據各個屬性不同的屬性值分成相應的子集,然后對條件屬性劃分的子集與結論屬性劃分的子集之間上下近似關系生成判定規(guī)則。2.2.10 回歸分析回歸分析分為線性回歸、多元回歸和非線性回歸。線性回歸中,數據是用直線建模;多元回歸是線性回歸的擴展,涉及多個預測變量。非線性回歸是在基本線性模型上添加多個項式項形成為線性回歸模型。1. 數據挖掘階段分析數據挖掘階段作為整個項目的重中之重,通常數據挖掘的流程包括項目理解、數據理解、數據準備、建立模型、模型評估和模型發(fā)布
12、等。3.1 項目理解階段此階段主要確定項目目標,訂立項目成功的標準,完成項目形勢評估及制定項目執(zhí)行計劃等等。項目成功的標準是模型的準確率達到多少、純度達到多少等,而形式評估則主要對項目實施未來可能遇到的問題作一個簡單的評估,業(yè)務及行業(yè)規(guī)則不斷變化,模型在應用過程中會遇到各種問題等。至于項目計劃則是對整個項目需要的時間,資源作一個整體的規(guī)劃把控。除此之外,此階段還需要對相關專業(yè)術語進行解釋說明等。3.2 數據理解和數據準備數據挖掘對數據的依賴性非常高,為了能夠實現數據挖掘的目標,要求收集的數據足夠全,質量盡量高。通常在這個階段花費的時間占整個項目的一半還多。原始數據采集完后,還需要對數據進行描述
13、和處理,比如進一步探查已選變量與目標變量之間是否存在關系,各變量數據的基本探查,如空值數目、唯一值數目、最小最大值的統(tǒng)計以及數據質量檢驗等。數據準備數據集描述清洗數據構造數據選擇數據格式化數據整合數據 3.3 建立模型階段數據挖掘項目的建立模型都要經過三個階段:建立模型,測試并調整模型,應用模型。建立模型,就得選擇相應的建模技術,可能應用到決策樹、神經網絡及回歸分析等統(tǒng)計技術,在項目運營的各個階段,數據不同,運營宣傳方式也不同,這就可能利用模型的組合,各個項目階段采用不同的模型進行預測分析。3.4 模型評估階段模型的應用通常需要較長周期的檢驗才能準確的評估其是否滿足商業(yè)標準,在傳統(tǒng)行業(yè),這個評
14、估通常在模型應用一年后作出。此外,對于設計的模型,不但要評估模型的準確性和通用性,還要努力找出相關商業(yè)理由解釋說明模型的欠缺,把生成的結果與建模初訂立的標準進行對比,同時根據目前的狀況對數據倉庫變量做適當的修正調整,以滿足日常數據分析需要。數據挖掘運營分析調研驗證3.5 模型發(fā)布階段在模型通過評估滿足商業(yè)目標情況后,進入模型發(fā)布階段。模型發(fā)布階段的內容主要包括相關模型檢測和維護計劃(常規(guī)調整和適應性的調整),以確保模型的準確預測和預警。同時,還要利用模型指導日常運營發(fā)布相關數據分析報告。確定研究目標提出策略意見分析數據現象與目標的關聯找出真實原因2. 數據挖掘技術在電子商務中的應用4.1電子商
15、務中數據挖掘技術的適用價值目前對于數據挖掘的對象和使用的方法層出不窮,隨著電子商務的興起,電子商務將是未來數據挖掘的主要發(fā)展方向之一,它在各種商業(yè)領域都存在廣泛的使用價值。4.1.1客戶細分隨著以客戶為中心的經營理念不斷深入人心,分析客戶、了解客戶并引導客戶的需求己成為企業(yè)經營的重要課題。通過對電子商務系統(tǒng)收集的交易數據進行分析,可以按各種客戶指標(如自然屬性、收入貢獻交易額、價值度等)對客戶分類,然后確定不同類型客戶的行為模式以便采取相應的營銷措施促使企業(yè)利潤的最大化。4.1.2客戶獲得比如通過數據挖掘可以發(fā)現購買某種商品的消費者是男性還是女性,學歷、收入如何,有什么愛好,是什么職業(yè)等等。甚
16、至可以發(fā)現不同的人在購買該種商品的相關商品后多長時間有可能購買該種商品,以及什么樣的人會購買什么型號的該種商品等等。也許很多因素表面上看起來和購買該種商品不存在任何聯系,但數據挖掘的結果卻證明他們之間有聯系。在采用了數據挖掘后,針對目標客戶發(fā)送的廣告的有效性和回應率將得到大幅度的提高,推銷的成本將大大降低。4.1.3客戶保持數據挖掘可以把你大量的客戶分成不同的類,在每個類里的客戶擁有相似的屬性,而不同類里的客戶的屬性也不同。你完全可以做到給不同類的客戶提供完全不同的服務來提高客戶的滿意度。數據挖掘還可以發(fā)現具有哪些特征的客戶有可能流失,這樣挽留客戶的措施將具有針對性,挽留客戶的費用將下降。4.
17、2數據挖掘技術在電子商務推薦系統(tǒng)的具體應用數據挖掘技術應用于電子商務方方面面,在這里以電子商務活動中推薦系統(tǒng)應用數據挖掘技術為案列進行簡單分析。4.2.1推薦系統(tǒng)在電子商務活動中的作用一般說來,推薦系統(tǒng)在電子商務活動中的作用可以歸納為以下幾點:(1)把瀏覽者轉變成購買者己有明確購物目標的客戶也許可以借助檢索系統(tǒng)找到自己需要的東西,但對于大多數只是四處逛逛看一看的沖浪者,或是對自己的需要比較模糊的購買者,很難有耐心在幾十頁長的商品目錄逐項查找是否有自己感興趣的東西。而推薦系統(tǒng)通過合適的推薦,可以將一個瀏覽者變?yōu)橘徺I者。(2)提高電子商務系統(tǒng)的交叉銷售能力電子商務推薦系統(tǒng)在用戶購買過程中向用戶提供
18、其它有價值的商品推薦,用戶能夠從提供的推薦列表中購買自己確實需要但在購買過程中沒有想到的商品,從而有效提高電子商務系統(tǒng)的交叉銷售。例如站點可以根據客戶當前購物車中的物品向他們推薦一些和這些己選購的物品相關的物品。如果有一個比較好的推薦系統(tǒng),則企業(yè)的平均定購量就可能增加。(3)提高客戶對電子商務網站忠誠度與傳統(tǒng)的商務模式相比,電子商務系統(tǒng)使得用戶擁有越來越多的選擇,用戶更換商家及其方便,只需要一兩次鼠標的點擊就可以在不同電子商務系統(tǒng)之間跳轉。電子商務推薦系統(tǒng)分析用戶的購買習慣,根據用戶需求向用戶提供有價值的商品推薦。如果電子商務推薦系統(tǒng)的推薦質量很高,用戶可以很容易找到自己想要的商品,那么用戶會
19、再次訪問這個網站,并會推薦給其他人,這對于網站來說是一個很大的優(yōu)勢。4.2.2數據挖掘技術應用于推薦系統(tǒng)具體表現數據挖掘是在大型數據存儲庫中,自動地發(fā)現有用信息的過程。數據挖掘技術用來探查大型數據庫,發(fā)現先前未知的有用模式。電子商務推薦系統(tǒng)將數據挖掘技術運用到電子商務領域,以數據挖掘為基礎衍生出許多算法。(1)基于關聯規(guī)則的推薦算法關聯規(guī)則是數據挖掘技術的一種,該技術挖掘發(fā)現大量數據中項集之間有趣的關聯或相關聯系。關聯規(guī)則挖掘的一個典型例子就是購物籃分析。該過程通過發(fā)現顧客放入其購物籃中不同商品之間的聯系,分析顧客的購買習慣。通過了解哪些商品頻繁地被顧客同時購買,這種關聯的發(fā)現可以幫助商家制定
20、營銷策略。關聯規(guī)則的挖掘是一個兩步過程:首先,找出所有頻繁項集。這些項集出現的頻繁性至少和預定義的最小支持計數一樣。其次,由頻繁項集產生強關聯規(guī)則。這些規(guī)則必須滿足最小支持度和最小置信度。關聯規(guī)則挖掘算法的瓶頸出現在第一步。由于第一步需要反復掃描交易數據庫,所以增加了系統(tǒng)的開銷,降低了系統(tǒng)性能。例如:Aprior算法是一種最有影響的挖掘關聯規(guī)則頻繁項集的算法。該算法使用一種稱為逐層搜索的迭代方法尋找頻繁項集,它開創(chuàng)性地使用基于支持度的剪枝技術,系統(tǒng)地控制候選項集指數增長。它缺點就是由于數據庫數據的增多,需要多次掃描數據庫,這樣便影響了系統(tǒng)的性能。(2)基于內同的推薦算法基于內容的推薦系統(tǒng)的產生
21、根源于信息檢索與信息過濾。其具體是根據項之間的相似性來進行推薦的,先用機器學習等技術分析用戶已經評分的項的內容,建立用戶檔案,然后從項集中選擇與用戶檔案相似的項,再從中根據評分選擇一定的項推薦給用戶,最后根據用戶的反饋信息修正推薦?;趦热莸猛扑]技術具有一定的局限性。首先,資源內容必須以機器可以理解的格式表示,而很多信息例如圖像、視頻等多媒體信息是很難做到這一點的;其次,資源內容的分析范圍比較小,不能提供較多的建議;再次,基于內容的推薦不能從質量、樣式、審美等角度對項進行過濾。(3)協(xié)同過濾推薦算法協(xié)同過濾是在信息過濾和信息系統(tǒng)中正迅速成為一項很受歡迎的技術。與傳統(tǒng)的基于內容過濾直接分析內容進行推薦不同,協(xié)同過濾分析用戶興趣,在用戶群中找到指定用戶的相似(興趣)用戶,綜合這些相似用戶對某一信息的評價,形成系統(tǒng)對該指定用戶對此信息的喜好程度預測。三、總結數據挖掘是指按企業(yè)既定業(yè)務目標,對大量的企業(yè)數據進行探索和分析,揭示隱藏的、未知的或驗證已知的規(guī)律性,并進一步將其模型化的先進有效的方法。電子商務是現代信息技術發(fā)展的必然結果,也是未來商業(yè)運作模式的必然選擇。企業(yè)數據量日益龐大,其中真正有價值的信息卻很少,利用數據挖掘技術,從大量的數據中經過深層分析,獲得有利于商業(yè)運作、提高競爭力的信息,發(fā)揮企業(yè)的獨特優(yōu)勢,促進管理創(chuàng)新和技術創(chuàng)新。12材料a