《基于興趣的電子商務(wù)數(shù)據(jù)挖掘技術(shù)的研究.docx》由會(huì)員分享,可在線閱讀,更多相關(guān)《基于興趣的電子商務(wù)數(shù)據(jù)挖掘技術(shù)的研究.docx(3頁(yè)珍藏版)》請(qǐng)?jiān)谘b配圖網(wǎng)上搜索。
1、基于興趣的電子商務(wù)數(shù)據(jù)挖掘技術(shù)的研究摘要 本文對(duì)電子商務(wù)Web頁(yè)數(shù)據(jù)挖掘技術(shù)做了全面分析,對(duì)于個(gè)性化電子商務(wù)網(wǎng)站中難以發(fā)現(xiàn)用戶興趣行為特征問(wèn)題,給出了Web頁(yè)面關(guān)聯(lián)算法。利用數(shù)據(jù)倉(cāng)庫(kù)技術(shù)可有效挖掘用戶興趣特征,從而指導(dǎo)電子商務(wù)網(wǎng)站資源的組織和分配,為商務(wù)型網(wǎng)站的投資者和建立者提供正確的盈利導(dǎo)向。 關(guān)鍵詞 電子商務(wù)數(shù)據(jù)挖掘興趣特征 數(shù)據(jù)挖掘技術(shù)是隨著數(shù)據(jù)庫(kù)技術(shù)和人工智能技術(shù)發(fā)展起來(lái)的一種新型的交叉信息技術(shù)。無(wú)論是B2B、B2C還是B2G電子商務(wù)模式,商品的采購(gòu)者都需要通過(guò)Web方式與商品的供應(yīng)商及其合作者之間建立信息流的交互,面向電子商務(wù)的數(shù)據(jù)挖掘的特點(diǎn)就是從Web數(shù)據(jù)庫(kù)中,運(yùn)用關(guān)聯(lián)、分類、聚類
2、等技術(shù)手段,從中提取出可以指導(dǎo)市場(chǎng)策略的有用數(shù)據(jù)。它基于“消費(fèi)者過(guò)去的行為預(yù)示著其今后的消費(fèi)傾向”的原理,通過(guò)收集、分析和處理從網(wǎng)上獲取的有關(guān)消費(fèi)者消費(fèi)行為的數(shù)據(jù),從潛在的、隱含的、事先不知的狀態(tài),經(jīng)過(guò)提取、洗滌、加工變?yōu)闈摿薮蟮膬r(jià)值信息,從而實(shí)現(xiàn)網(wǎng)絡(luò)營(yíng)銷的目的,確定特定消費(fèi)群體或個(gè)體的消費(fèi)習(xí)慣、愛(ài)好、傾向,進(jìn)而預(yù)示出消費(fèi)者下一步的消費(fèi)行為,有針對(duì)性地提供服務(wù)。 一、電子商務(wù)Web數(shù)據(jù)挖掘技術(shù) 1.電子商務(wù)Web數(shù)據(jù)挖掘技術(shù)的分類 電子商務(wù)Web數(shù)據(jù)挖掘一般可分為三個(gè)部分:內(nèi)容挖掘、結(jié)構(gòu)挖掘、用法挖掘。Web內(nèi)容挖掘有兩種策略:直接挖掘文檔內(nèi)容和在其他檢索工具搜索的基礎(chǔ)上進(jìn)行改進(jìn)。Web結(jié)構(gòu)
3、挖掘是從WWW上的組織結(jié)構(gòu)和鏈接關(guān)系中推導(dǎo)知識(shí)。Web用法挖掘的主要目標(biāo)是從Web的訪問(wèn)記錄中抽取感興趣的模式。大多數(shù)基于數(shù)據(jù)庫(kù)的數(shù)據(jù)挖掘方法均可作用于電子商務(wù)Web數(shù)據(jù)挖掘。 在研究以電子商務(wù)網(wǎng)上購(gòu)物為應(yīng)用背景的工作時(shí)發(fā)現(xiàn)。商家在Web上建立自己的在線商品目錄,顧客(即用戶)通過(guò)瀏覽器可以瀏覽商品目錄、實(shí)現(xiàn)網(wǎng)上訂購(gòu)甚至網(wǎng)上支付等。用戶與商家的Web服務(wù)器間交互的過(guò)程信息(包括用戶的登錄信息、用戶的瀏覽記錄)以及用戶的個(gè)人簡(jiǎn)要信息等,都能以日志文件或顧客數(shù)據(jù)庫(kù)的形式存在,從中找出規(guī)律性,對(duì)商家的市場(chǎng)銷售是至關(guān)重要的;從大量顧客數(shù)據(jù)及日志數(shù)據(jù)中,應(yīng)用到計(jì)算機(jī)并行處理、神經(jīng)元網(wǎng)絡(luò)、模型化算法和其他
4、信息處理技術(shù)手段,挖掘出有意義的用戶訪問(wèn)模式及相關(guān)的潛在顧客群,從中可得到商家用于向特定消費(fèi)群體或個(gè)體進(jìn)行定向營(yíng)銷的決策信息。同時(shí)有效地對(duì)這些Web日志進(jìn)行定量分析,揭示其中的關(guān)聯(lián)關(guān)系、時(shí)序關(guān)系、頁(yè)面類屬關(guān)系、客戶類屬關(guān)系和頻繁訪問(wèn)路徑、頻繁訪問(wèn)頁(yè)面等,不但可為優(yōu)化Web站點(diǎn)拓?fù)浣Y(jié)構(gòu)提供參考,而且還可為企業(yè)更有效地確認(rèn)目標(biāo)市場(chǎng)、改進(jìn)決策獲得更大的競(jìng)爭(zhēng)優(yōu)勢(shì)提供幫助。 2.電子商務(wù)Web數(shù)據(jù)挖掘模型構(gòu)建和基本流程 電子商務(wù)Web服務(wù)器自動(dòng)收集客戶瀏覽信息并保存在訪問(wèn)日志、引用日志和代理日志中。典型的電子商務(wù)Web服務(wù)器日志文件包括以下信息:IP地址,請(qǐng)求時(shí)間,方法(如get),被請(qǐng)求文件的URL,
5、HTTP版本號(hào),返回碼,傳輸字節(jié)數(shù),引用頁(yè)的URL和代理。 電子商務(wù)Web挖掘,首先對(duì)日志文件進(jìn)行預(yù)處理,預(yù)處理主要由兩部分構(gòu)成:數(shù)據(jù)清洗(data cleaning)和事務(wù)識(shí)別(transaction identification)。包括對(duì)Web日志進(jìn)行清洗、過(guò)濾和轉(zhuǎn)換以及無(wú)關(guān)記錄的剔除,判斷是否有重要的訪問(wèn)沒(méi)有被記錄,并從中抽取感興趣的數(shù)據(jù);并將URL、資源的類型、大小、請(qǐng)求的時(shí)間、在資源上停留的時(shí)間、請(qǐng)求者的Internet域名、用戶、服務(wù)器狀態(tài)作為數(shù)據(jù)cube的維數(shù)變量;再將對(duì)模塊、頁(yè)面和文件請(qǐng)求次數(shù),來(lái)自不同Internet域請(qǐng)求次數(shù)、事件、會(huì)話、帶寬、錯(cuò)誤次數(shù)、不同瀏覽器種類、用戶
6、所在組織作為度量變量建立data cube;而將文件、圖像腳本及多媒體等其他文件轉(zhuǎn)換成可用于Web使用挖掘的數(shù)據(jù)格式,從而可將數(shù)據(jù)挖掘技術(shù)用于Web流量分析、典型的事件序列分析和用戶行為模式分析及事務(wù)分析。 定義函數(shù)log=ip,uid,url,time表示電子商務(wù)Web服務(wù)器日志。其中,ip,uid,url,time分別標(biāo)識(shí)客戶ip、客戶id、客戶請(qǐng)求的url和瀏覽時(shí)間。 在經(jīng)過(guò)數(shù)據(jù)預(yù)處理階段后,即可針對(duì)電子商務(wù)中不同的挖掘目標(biāo)可以采用不同的數(shù)據(jù)挖掘方法,選擇數(shù)據(jù)挖掘模式,如統(tǒng)計(jì)分析、關(guān)聯(lián)規(guī)則、時(shí)序模式、路徑分析(path analysis)及聚類、分類技術(shù)。 進(jìn)行實(shí)際的挖掘操作的要點(diǎn)有:首
7、先決定如何產(chǎn)生假設(shè);選擇合適的工具;發(fā)掘知識(shí)的操作;證實(shí)發(fā)現(xiàn)的知識(shí)。 二、基于興趣的關(guān)聯(lián)算法在電子商務(wù)中的Web挖掘應(yīng)用 關(guān)聯(lián)分析是尋找在同一個(gè)事件中出現(xiàn)的不同項(xiàng)的相關(guān)性,比如在一次購(gòu)買活動(dòng)中所買不同商品的相關(guān)性。序列模式與此類似,它尋找的是事件之間時(shí)間上的相關(guān)性,假設(shè)I=i1 ,i2 ,im 是所有項(xiàng)的集合, 相當(dāng)于商品的所有種類的集合,D是所有事務(wù)的集合, 也即數(shù)據(jù)庫(kù)中記錄的集合, 事務(wù)T=t1 ,t2 , ,tn,tiI, 相當(dāng)于交易中的商品列表。設(shè)X是一個(gè)I中項(xiàng)的集合,如果XTk,那么稱交易Tk包含項(xiàng)集X,若X,Y為項(xiàng)集,XI, YI,并且XY=,則形如X=Y的表達(dá)式稱為關(guān)聯(lián)規(guī)則。 計(jì)
8、算方法: 交易數(shù)據(jù)集中同時(shí)包含X和Y的交易數(shù)與所有交易數(shù)之比: support(XY)=P(XY)=|T:XYT,TD|/|D|100%(其中|D|是交易數(shù)據(jù)集D中的所有交易數(shù)),給定一個(gè)交易集 D, 挖掘關(guān)聯(lián)規(guī)則問(wèn)題就是產(chǎn)生支持度和可信度分別大于用戶給定的最小支持度 (minsupp)和最小確信度(minconf)的關(guān)聯(lián)規(guī)則。當(dāng)規(guī)則的確信度和支持度分別大于minsupp、minconf 時(shí),我們認(rèn)為規(guī)則是有效的,稱為強(qiáng)關(guān)聯(lián)規(guī)則。當(dāng)數(shù)據(jù)項(xiàng)集X的支持度大于minsupp時(shí), 稱X為高頻數(shù)據(jù)項(xiàng)集。 關(guān)聯(lián)規(guī)則發(fā)現(xiàn)任務(wù)的本質(zhì)是要在數(shù)據(jù)庫(kù)中發(fā)現(xiàn)強(qiáng)關(guān)聯(lián)規(guī)則。在電子商務(wù)中關(guān)聯(lián)規(guī)則的發(fā)現(xiàn)也就是要找到客戶對(duì)網(wǎng)站
9、上各種文件之間訪問(wèn)的相互聯(lián)系。例如,用關(guān)聯(lián)規(guī)則發(fā)現(xiàn)技術(shù),我們可以找到以下的相關(guān)性:40%的客戶訪問(wèn)頁(yè)面/company/product1時(shí),也訪問(wèn)了/company/product2。30%的客戶在訪問(wèn)/company/special時(shí),在/company/product1進(jìn)行了在線定購(gòu)。利用這些相關(guān)性,可以更好的組織站點(diǎn),實(shí)施有效的市場(chǎng)策略。 三、數(shù)據(jù)挖掘技術(shù)的工具 隨著電子商務(wù)和數(shù)據(jù)庫(kù)技術(shù)的發(fā)展,越來(lái)越多的公司、廠家開(kāi)始開(kāi)發(fā)數(shù)據(jù)挖掘工具。如Oracle公司通過(guò)從Thinking Machine公司獲得Darwin產(chǎn)品來(lái)增強(qiáng)其數(shù)據(jù)挖掘功能;IBM公司的Intelligent Miner提供了基于DB2的數(shù)據(jù)挖掘能力,提供了支持C+類和方法的API(應(yīng)用程序接口);SAS公司推出的SASEM(Enterprise Miner)數(shù)據(jù)挖掘軟件可以對(duì)Oracle、Informix、Sybase、DB2的數(shù)據(jù)集進(jìn)行操作。Accrue公司更是推出了一個(gè)綜合性Web數(shù)據(jù)挖掘工具,能夠?qū)W(wǎng)站的運(yùn)行狀況進(jìn)行深入、細(xì)致和準(zhǔn)確的分析。 四、小結(jié) 電子商務(wù)Web數(shù)據(jù)挖掘很好地解決了從數(shù)據(jù)到知識(shí)轉(zhuǎn)化的問(wèn)題,為我國(guó)的商務(wù)網(wǎng)站個(gè)性化定制提供了技術(shù)的可行性,并為網(wǎng)站實(shí)現(xiàn)經(jīng)濟(jì)效益提供了一條發(fā)展的新路。