《數(shù)據(jù)挖掘技術》PPT課件
《《數(shù)據(jù)挖掘技術》PPT課件》由會員分享,可在線閱讀,更多相關《《數(shù)據(jù)挖掘技術》PPT課件(176頁珍藏版)》請在裝配圖網(wǎng)上搜索。
1、信息管理與信息系統(tǒng)專業(yè)課程課程第三講第三講 數(shù)據(jù)挖掘技術數(shù)據(jù)挖掘技術-國民經濟和社會的信息化國民經濟和社會的信息化數(shù)據(jù)挖掘數(shù)據(jù)挖掘數(shù)據(jù)庫越來越大數(shù)據(jù)庫越來越大有價值的知識有價值的知識可怕的數(shù)據(jù)可怕的數(shù)據(jù) 苦惱:淹沒在數(shù)據(jù)中;不能制定合適的決策!n模式模式n趨勢趨勢n事實事實n關系關系n模型模型n關聯(lián)規(guī)則關聯(lián)規(guī)則n序列序列n目標市場目標市場n資金分配資金分配n貿易選擇貿易選擇n在哪兒做廣告在哪兒做廣告n銷售的地理位置銷售的地理位置n金融金融n經濟經濟n政府政府nPOS.n人口統(tǒng)計人口統(tǒng)計n生命周期生命周期l1989 IJCAI會議:數(shù)據(jù)庫中的知識發(fā)現(xiàn)討論專題Knowledge Discovery
2、 in Databases(G.Piatetsky-Shapiro and W.Frawley,1991)l1991-1994 KDD討論專題Advances in Knowledge Discovery and Data Mining(U.Fayyad,G.Piatetsky-Shapiro,P.Smyth,and R.Uthurusamy,1996)l1995-1998 KDD國際會議(KDD95-98)Journal of Data Mining and Knowledge Discovery(1997)l1998 ACM SIGKDD,SIGKDD1999-2002 會議,以及SIGK
3、DD Explorationsl數(shù)據(jù)挖掘方面更多的國際會議PAKDD,PKDD,SIAM-Data Mining,(IEEE)ICDM,DaWaK,SPIE-DM,etc.l技術分類 預言(Predication):用歷史預測未來 描述(Description):了解數(shù)據(jù)中潛在的規(guī)律l數(shù)據(jù)挖掘技術 關聯(lián)分析 序列模式 分類(預言)聚集 異常檢測礦山(數(shù)據(jù))挖掘工具(算法)金子(知識)分類條件1分類條件2分類條件3類1類2類3類4代代特征特征數(shù)據(jù)挖掘算法數(shù)據(jù)挖掘算法集成集成分布計算分布計算模型模型數(shù)據(jù)模型數(shù)據(jù)模型第一代第一代數(shù)據(jù)挖掘作為數(shù)據(jù)挖掘作為一個獨立的應一個獨立的應用用支持一個或者支持一個
4、或者多個算法多個算法 獨立的系獨立的系統(tǒng)統(tǒng)單個機單個機器器向量數(shù)據(jù)向量數(shù)據(jù)第二代第二代和數(shù)據(jù)庫以及和數(shù)據(jù)庫以及數(shù)據(jù)倉庫集成數(shù)據(jù)倉庫集成多個算法:能夠多個算法:能夠挖掘一次不能放挖掘一次不能放進內存的數(shù)據(jù)進內存的數(shù)據(jù)數(shù)據(jù)管理系數(shù)據(jù)管理系統(tǒng),包括數(shù)統(tǒng),包括數(shù)據(jù)庫和數(shù)據(jù)據(jù)庫和數(shù)據(jù)倉庫倉庫同質同質/局局部區(qū)域部區(qū)域的計算的計算機群集機群集有些系統(tǒng)支有些系統(tǒng)支持對象、文持對象、文本、和連續(xù)本、和連續(xù)的媒體數(shù)據(jù)的媒體數(shù)據(jù)第三代第三代和預言模型和預言模型系統(tǒng)集成系統(tǒng)集成 多個算法多個算法數(shù)據(jù)管理和數(shù)據(jù)管理和預言模型系預言模型系統(tǒng)統(tǒng)intranet/extranet網(wǎng)網(wǎng)絡計算絡計算支持半結構支持半結構化 數(shù)
5、據(jù) 和化 數(shù) 據(jù) 和webweb數(shù)據(jù)數(shù)據(jù)第四代第四代和移動數(shù)據(jù)和移動數(shù)據(jù)/各種計算數(shù)各種計算數(shù)據(jù)聯(lián)合據(jù)聯(lián)合 多個算法多個算法數(shù)據(jù)管理、數(shù)據(jù)管理、預言模型、預言模型、移動系統(tǒng)移動系統(tǒng)移動和各移動和各種計算設種計算設備備普 遍 存 在普 遍 存 在的 計 算 模的 計 算 模型型訓練數(shù)據(jù)集NAME RANKYEARS TENUREDMikeAssistant Prof3noMaryAssistant Prof7yesBill Professor2yesJimAssociate Prof7yesDaveAssistant Prof6noAnneAssociate Prof3no分類算法IF rank
6、=professorOR years 6THEN tenured=yes 分類規(guī)則分類規(guī)則測試集NAMERANKYEARS TENUREDTomAssistant Prof2noMerlisa Associate Prof7noGeorge Professor5yesJoseph Assistant Prof7yes未知數(shù)據(jù)(Jeff,Professor,4)Tenured?)()()|()|(DPhPhDPDhP 線性回歸和多元回歸 非線性回歸211)()(SiiiSiixxyyxxxy npx.nfx.n1x.ipx.ifx.i1x.1px.1fx.11x 0.)2,()1,(:)2,3(
7、).ndnd0dd(3,10d(2,1)0.).211nffffxx(xn m|)|.|(|121fnffffffmxmxmxnsffififsmx zqqppqqjxixjxixjxixjid)|.|(|),(2211|.|),(2211ppjxixjxixjxixjid)|.|(|),(2222211ppjxixjxixjxixjid11fififMrz,.,1fifMr)(1)()(1),(fijpffijfijpfdjid11fifMrzif交易ID購買的商品2000A,B,C1000A,C4000A,D5000B,E,F買尿布的客買尿布的客戶戶二者都買二者都買的客戶的客戶買啤酒的客戶
8、買啤酒的客戶交易ID購買商品2000A,B,C1000A,C4000A,D5000B,E,F頻繁項集支持度A75%B50%C50%A,C50%最小值尺度 50%最小可信度 50%食品面包牛奶脫脂奶光明統(tǒng)一酸奶白黃TID ItemsT1111,121,211,221T2111,211,222,323T3112,122,221,411T4111,121T5111,122,211,221,413牛奶牛奶support=10%酸奶酸奶 support=6%脫脂奶脫脂奶support=4%層層 1min_sup=5%層層 2min_sup=5%酸奶酸奶 support=6%脫脂奶脫脂奶 support=
9、4%層層 1min_sup=5%層層 2min_sup=3%牛奶牛奶support=10%n空間關系的層次:n“g_close_to”:鄰近,接觸,交叉,包含n先搜索粗糙的關系然后再精化(income)(age)()(buys)(age,income)(age,buys)(income,buys)(age,income,buys)age(X,”30-34”)income(X,”24K-48K”)buys(X,”high resolution TV”)價格($)等寬(寬度$10)等深(深度 2)基于距離70,107,207,72011,2022,5020,222221,3051,5350,535
10、031,405141,505351,60)1(),()(11 NNXtXtdistXSdjiNiNjXXdCdX0)(0sCX關聯(lián)規(guī)則可視化關聯(lián)規(guī)則可視化Using Plane Graph關聯(lián)規(guī)則可視化關聯(lián)規(guī)則可視化Using Rule Graphl序列序列是序列是序列的子序列的子序列l(wèi)序列序列是長度為是長度為3的序列模式的序列模式代代特征特征數(shù)據(jù)挖掘算法數(shù)據(jù)挖掘算法集成集成分布計算分布計算模型模型數(shù)據(jù)模型數(shù)據(jù)模型第一第一代代作為一個獨作為一個獨立的應用立的應用支持一個或者支持一個或者多個算法多個算法 獨立的系統(tǒng)獨立的系統(tǒng)單個機器單個機器向量數(shù)據(jù)向量數(shù)據(jù)第二第二代代和數(shù)據(jù)庫以和數(shù)據(jù)庫以及數(shù)據(jù)倉
11、庫及數(shù)據(jù)倉庫集成集成多個算法:能多個算法:能夠挖掘一次不夠挖掘一次不能放進內存的能放進內存的數(shù)據(jù)數(shù)據(jù)數(shù)據(jù)管理系數(shù)據(jù)管理系統(tǒng),包括數(shù)統(tǒng),包括數(shù)據(jù)庫和數(shù)據(jù)據(jù)庫和數(shù)據(jù)倉庫倉庫同質、局同質、局部區(qū)域的部區(qū)域的計算機群計算機群集集有些系統(tǒng)支持有些系統(tǒng)支持對象對象,文本和文本和連續(xù)的媒體數(shù)連續(xù)的媒體數(shù)據(jù)據(jù)第三第三代代和預言模型和預言模型系統(tǒng)集成系統(tǒng)集成 多個算法多個算法數(shù)據(jù)管理和數(shù)據(jù)管理和預言模型系預言模型系統(tǒng)統(tǒng)intranet/extranet網(wǎng)網(wǎng)絡計算絡計算支持半結構化支持半結構化數(shù)據(jù)和數(shù)據(jù)和webweb數(shù)數(shù)據(jù)據(jù)第四第四代代和移動數(shù)據(jù)和移動數(shù)據(jù)/各種計算設各種計算設備的數(shù)據(jù)聯(lián)備的數(shù)據(jù)聯(lián)合合 多個算法多
12、個算法數(shù)據(jù)管理、數(shù)據(jù)管理、預言模型、預言模型、移動系統(tǒng)移動系統(tǒng)移動和各移動和各種計算設種計算設備備普遍存在的計普遍存在的計算模型算模型 第一代數(shù)據(jù)挖掘軟件l特點 支持一個或少數(shù)幾個數(shù)據(jù)挖掘算法 挖掘向量數(shù)據(jù)(vector-valued data)數(shù)據(jù)一般一次性調進內存進行處理 典型的系統(tǒng)如Salford Systems公司早期的CART系統(tǒng)(www.salford-)l缺陷 如果數(shù)據(jù)足夠大,并且頻繁的變化,這就需要利用數(shù)據(jù)庫或者數(shù)據(jù)倉庫技術進行管理,第一代系統(tǒng)顯然不能滿足需求。第一代數(shù)據(jù)挖掘軟件第一代數(shù)據(jù)挖掘軟件CBA 新加坡國立大學?;陉P聯(lián)規(guī)則的分類算法,能從關系數(shù)據(jù)或者交易數(shù)據(jù)中挖掘關聯(lián)
13、規(guī)則,使用關聯(lián)規(guī)則進行分類和預測第二代數(shù)據(jù)挖掘軟件第二代數(shù)據(jù)挖掘軟件l特點 與數(shù)據(jù)庫管理系統(tǒng)(DBMS)集成 支持數(shù)據(jù)庫和數(shù)據(jù)倉庫,和它們具有高性能的接口,具有高的可擴展性 能夠挖掘大數(shù)據(jù)集、以及更復雜的數(shù)據(jù)集 通過支持數(shù)據(jù)挖掘模式(data mining schema)和數(shù)據(jù)挖掘查詢語言增加系統(tǒng)的靈活性 典型的系統(tǒng)如DBMiner,能通過DMQL挖掘語言進行挖掘操作l缺陷 只注重模型的生成,如何和預言模型系統(tǒng)集成導致了第三代數(shù)據(jù)挖掘系統(tǒng)的開發(fā)第二代數(shù)據(jù)挖掘軟件第二代數(shù)據(jù)挖掘軟件 DBMiner第二代軟件第二代軟件 SAS Enterprise Miner第三代數(shù)據(jù)挖掘軟件第三代數(shù)據(jù)挖掘軟件l
14、特點 和預言模型系統(tǒng)之間能夠無縫的集成,使得由數(shù)據(jù)挖掘軟件產生的模型的變化能夠及時反映到預言模型系統(tǒng)中 由數(shù)據(jù)挖掘軟件產生的預言模型能夠自動地被操作型系統(tǒng)吸收,從而與操作型系統(tǒng)中的預言模型相聯(lián)合提供決策支持的功能 能夠挖掘網(wǎng)絡環(huán)境下(Internet/Extranet)的分布式和高度異質的數(shù)據(jù),并且能夠有效地和操作型系統(tǒng)集成l缺陷不能支持移動環(huán)境第三代軟件第三代軟件 SPSS Clementine第四代數(shù)據(jù)挖掘軟件第四代數(shù)據(jù)挖掘軟件l特點 目前移動計算越發(fā)顯得重要,將數(shù)據(jù)挖掘和移動計算相結合是當前的一個研究領域。第四代軟件能夠挖掘嵌入式系統(tǒng)、移動系統(tǒng)、和普遍存在(ubiquitous)計算設備
15、產生的各種類型的數(shù)據(jù)第四代數(shù)據(jù)挖掘原型或商業(yè)系統(tǒng)尚未見報導,PKDD2001上Kargupta發(fā)表了一篇在移動環(huán)境下挖掘決策樹的論文,Kargupta是馬里蘭巴爾的摩州立大學(University of Maryland Baltimore County)正在研制的CAREER數(shù)據(jù)挖掘項目的負責人,該項目研究期限是2001年4月到2006年4月,目的是開發(fā)挖掘分布式和異質數(shù)據(jù)(Ubiquitous設備)的第四代數(shù)據(jù)挖掘系統(tǒng)。l 第一代系統(tǒng)與第二代相比因為不具有和數(shù)據(jù)管理系統(tǒng)之間有效的接口,所以在數(shù)據(jù)預處理方面有一定缺陷 l 第三、四代系統(tǒng)強調預測模型的使用和操作型環(huán)境的部署 l 第二代系統(tǒng)提供
16、數(shù)據(jù)管理系統(tǒng)和數(shù)據(jù)挖掘系統(tǒng)之間的有效接口 l 第三代系統(tǒng)另外還提供數(shù)據(jù)挖掘系統(tǒng)和預言模型系統(tǒng)之間的有效的接口 l 目前,隨著新的挖掘算法的研究和開發(fā),第一代數(shù)據(jù)挖掘系統(tǒng)仍然會出現(xiàn),第二代系統(tǒng)是商業(yè)軟件的主流,部分第二代系統(tǒng)開發(fā)商開始研制相應的第三代數(shù)據(jù)挖掘系統(tǒng),比如 IBM Intelligent Score Service。第四代數(shù)據(jù)挖掘原型或商業(yè)系統(tǒng)尚未見報導 l 獨立的數(shù)據(jù)挖掘軟件l 橫向的數(shù)據(jù)挖掘工具集l 縱向的數(shù)據(jù)挖掘解決方案獨立的數(shù)據(jù)挖掘軟件(獨立的數(shù)據(jù)挖掘軟件(95年以前)年以前)l特點 獨立的數(shù)據(jù)挖掘軟件對應第一代系統(tǒng),出現(xiàn)在數(shù)據(jù)挖掘技術發(fā)展早期,研究人員開發(fā)出一種新型的數(shù)據(jù)挖
17、掘算法,就形成一個軟件。這類軟件要求用戶對具體的算法和數(shù)據(jù)挖掘技術有相當?shù)牧私?,還要負責大量的數(shù)據(jù)預處理工作。比如C4.5決策樹,平行坐標可視化(parallel-coordinate visualization)。橫向的數(shù)據(jù)挖掘工具集(橫向的數(shù)據(jù)挖掘工具集(95年開始)年開始)l發(fā)展原因 隨著數(shù)據(jù)挖掘應用的發(fā)展,人們逐漸認識到數(shù)據(jù)挖掘軟件需要和以下三個方面緊密結合:1)數(shù)據(jù)庫和數(shù)據(jù)倉庫;2)多種類型的數(shù)據(jù)挖掘算法;3)數(shù)據(jù)清洗、轉換等預處理工作。隨著數(shù)據(jù)量的增加,需要利用數(shù)據(jù)庫或者數(shù)據(jù)倉庫技術進行管理,所以數(shù)據(jù)挖掘系統(tǒng)與數(shù)據(jù)庫和數(shù)據(jù)倉庫結合是自然的發(fā)展?,F(xiàn)實領域的問題是多種多樣的,一種或少數(shù)
18、數(shù)據(jù)挖掘算法難以解決 挖掘的數(shù)據(jù)通常不符合算法的要求,需要有數(shù)據(jù)清洗、轉換等數(shù)據(jù)預處理的配合,才能得出有價值的模型橫向的數(shù)據(jù)挖掘工具集(橫向的數(shù)據(jù)挖掘工具集(95年開始)年開始)l發(fā)展過程 隨著這些需求的出現(xiàn),1995年左右軟件開發(fā)商開始提供稱之為“工具集”的數(shù)據(jù)挖掘軟件l特點 此類工具集的特點是提供多種數(shù)據(jù)挖掘算法 包括數(shù)據(jù)的轉換和可視化 由于此類工具并非面向特定的應用,是通用的算法集合,可以稱之為橫向的數(shù)據(jù)挖掘工具(Horizontal Data Mining Tools)由于此類工具并非面向特定的應用,是通用的算法集合,所以稱之為橫向的數(shù)據(jù)挖掘工具 典型的橫向工具有IBM Intelli
19、gent Miner、SPSS的Clementine、SAS的Enterprise Miner、SGI的MineSet、Oracle Darwin等 橫向的數(shù)據(jù)挖掘工具集(橫向的數(shù)據(jù)挖掘工具集(95年開始)年開始)IBM Intelligent MinerSPSS的的ClementineSAS的的Enterprise MinerSGI的的MineSetOracle Darwin縱向的數(shù)據(jù)挖掘解決方案(縱向的數(shù)據(jù)挖掘解決方案(99年開始)年開始)l發(fā)展原因 隨著橫向的數(shù)據(jù)挖掘工具的使用日漸廣泛,人們也發(fā)現(xiàn)這類工具只有精通數(shù)數(shù)據(jù)挖掘算法的專家才能熟練使用,如果對算法不了解,難以得出好的模型 從19
20、99年開始,大量的數(shù)據(jù)挖掘工具研制者開始提供縱向的數(shù)據(jù)挖掘解決方案(Vertical Solution),即針對特定的應用提供完整的數(shù)據(jù)挖掘方案 對于縱向的解決方案,數(shù)據(jù)挖掘技術的應用多數(shù)還是為了解決某些特定的難題,而嵌入在應用系統(tǒng)中縱向的數(shù)據(jù)挖掘解決方案(縱向的數(shù)據(jù)挖掘解決方案(99年開始)年開始)在證券系統(tǒng)中嵌入神經網(wǎng)絡預測功能 在欺詐檢測系統(tǒng)中嵌入欺詐行為的分類/識別模型 在客戶關系管理系統(tǒng)中嵌入客戶成簇/分類功能或客戶行為分析功能 在機器維護系統(tǒng)中嵌入監(jiān)/檢測或識別難以定性的設備故障功能 在數(shù)據(jù)庫營銷中嵌入選擇最可能購買產品的客戶功能 在機場管理系統(tǒng)中嵌入旅客人數(shù)預測、貨運優(yōu)化功能 在
21、基因分析系統(tǒng)中嵌入DNA識別功能 在制造/生產系統(tǒng)中嵌入質量控制功能等縱向的數(shù)據(jù)挖掘解決方案(縱向的數(shù)據(jù)挖掘解決方案(99年開始)年開始)KD1(主要用于零售業(yè))(主要用于零售業(yè))Options&Choice(主要用于保險業(yè)主要用于保險業(yè))HNC(欺詐行為偵測)(欺詐行為偵測)Unica Model 1(主要用于市場營銷主要用于市場營銷)各行業(yè)電子商務網(wǎng)站各行業(yè)電子商務網(wǎng)站算算法法層層商商業(yè)業(yè)邏邏輯輯層層行行業(yè)業(yè)應應用用層層商業(yè)應用商業(yè)應用商業(yè)模型商業(yè)模型挖掘算法挖掘算法CRM產品推薦產品推薦客戶細分客戶細分客戶流失客戶流失客戶利潤客戶利潤客戶響應客戶響應關聯(lián)規(guī)則、序列模式、分類、聚集、神經元
22、網(wǎng)絡、偏差分析關聯(lián)規(guī)則、序列模式、分類、聚集、神經元網(wǎng)絡、偏差分析WEB挖掘挖掘網(wǎng)站結構優(yōu)化網(wǎng)站結構優(yōu)化網(wǎng)頁推薦網(wǎng)頁推薦商品推薦商品推薦。基因挖掘基因挖掘基因表達路徑分析基因表達路徑分析基因表達相似性分析基因表達相似性分析基因表達共發(fā)生分析基因表達共發(fā)生分析。銀行銀行電信電信零售零售保險保險制藥制藥生物信息生物信息科學研究科學研究。相關行業(yè)相關行業(yè)情況概覽 2002年9月,Amazon上關于數(shù)據(jù)挖掘的書有251本()目前有數(shù)百個數(shù)據(jù)挖掘軟件產品()數(shù)據(jù)挖掘應用相對廣泛 l國內大部分處于科研階段 各大學和科研機構從事數(shù)據(jù)挖掘算法的研究 國內著作的數(shù)據(jù)挖掘方面的書較少(翻譯的有)數(shù)據(jù)挖掘討論組()
23、l有一些公司在國外產品基礎上開發(fā)的特定的應用 IBM Intelligent Miner SAS Enterprise Minerl自主知識產權的數(shù)據(jù)挖掘軟件 復旦德門()等l銀行 美國銀行家協(xié)會(ABA)預測數(shù)據(jù)倉庫和數(shù)據(jù)挖掘技術在美國商業(yè)銀行的應用增長率是14.9。分析客戶使用分銷渠道的情況和分銷渠道的容量;建立利潤評測模型;客戶關系優(yōu)化;風險控制等l電子商務 網(wǎng)上商品推薦;個性化網(wǎng)頁;自適應網(wǎng)站l生物制藥、基因研究 DNA序列查詢和匹配;識別基因序列的共發(fā)生性 l電信 欺詐甄別;客戶流失l保險、零售。數(shù)據(jù)數(shù)據(jù)挖掘挖掘客戶分析析基分因其他其他保險客戶保險客戶證券客戶證券客戶銀行客戶銀行客戶
24、電信客戶電信客戶零售客戶零售客戶信用卡信用卡儲蓄卡儲蓄卡存折存折按揭按揭借貸借貸人類基因植物基因動物基因特殊群體基因基因序列基因序列基因表達譜基因表達譜基因功能基因功能基因制藥基因制藥 .為什么沒有廣泛使用?l數(shù)據(jù)挖掘正在快速的發(fā)展 技術的研究和開發(fā)已經走在很前沿的地方 數(shù)據(jù)挖掘應用面已經擴充了很多l(xiāng)但是仍然沒有希望的高,為什么?希望在多少年內達到數(shù)十億元的盈利?是一種增值服務(Not bread-and-butter)不能認為高不可攀,所以不去過問 是一門年輕的技術,需要和實際結合,解決現(xiàn)實問題國內應用存在的問題l 數(shù)據(jù)積累不充分、不全面l 業(yè)務模型構建困難l 缺少有經驗的實施者Debt$4
25、0KQ QQ QQ QQ QI II I1 12 23 34 45 56 6factor 1factor 2factor n神經網(wǎng)絡神經網(wǎng)絡 Neural NetworksNeural Networks聚類分析聚類分析 ClusteringClusteringOpenAccntAdd NewProductDecreaseUsage?Time序列分析序列分析 Sequence AnalysisSequence Analysis決策樹決策樹 Decision TreesDecision Trees 傾向性分析 客戶保留 客戶生命周期管理 目標市場 價格彈性分析 客戶細分 市場細分 傾向性分析 客戶
26、保留 目標市場 欺詐檢測關聯(lián)分析關聯(lián)分析 AssociationAssociation 市場組合分析 套裝產品分析 目錄設計 交叉銷售 聚集(聚集(Cluster)聚集是把整個數(shù)據(jù)庫分成不同的群組。它的目的聚集是把整個數(shù)據(jù)庫分成不同的群組。它的目的是要群與群之間差別很明顯,而同一個群之間的數(shù)是要群與群之間差別很明顯,而同一個群之間的數(shù)據(jù)盡量相似。據(jù)盡量相似。常用技術:神經元網(wǎng)絡、常用技術:神經元網(wǎng)絡、K均值、最近鄰均值、最近鄰客戶消費異常行為分析模型l客戶分析業(yè)務模型 交叉銷售 客戶響應 客戶流失 客戶利潤l信用卡分析業(yè)務模型 客戶信用等級評估 客戶透支分析 客戶利潤分析 客戶消費行為分析 客
27、戶消費異常行為分析MISERPCRME_BusinessCDW客戶數(shù)據(jù)倉庫數(shù)據(jù)挖掘算法庫模型庫組件庫組件庫產品推薦客戶細分客戶流失客戶利潤客戶響應行業(yè)應用知識CIASCIASCIASCIASCIASCIAS應用服務器應用服務器應用服務器應用服務器應用服務器應用服務器信息系統(tǒng)信息系統(tǒng)信息系統(tǒng)信息系統(tǒng)信息系統(tǒng)信息系統(tǒng) 行業(yè)分析行業(yè)分析行業(yè)分析行業(yè)分析行業(yè)分析行業(yè)分析客戶響應模型客戶響應模型基本概念基本概念用哪一種數(shù)據(jù)挖掘技術實現(xiàn)?用哪一種數(shù)據(jù)挖掘技術實現(xiàn)?l 與數(shù)據(jù)庫數(shù)據(jù)倉庫系統(tǒng)集成l 與預言模型系統(tǒng)集成 l 挖掘各種復雜類型的數(shù)據(jù)l 與應用相結合 l 研制和開發(fā)數(shù)據(jù)挖掘標準 l 支持移動環(huán)境生產
28、過程工藝參數(shù) 1(連續(xù)型時間序列)工藝參數(shù) 2(離散型時間序列)產品質量(離散型時間序列)質量檢驗!t0t1t2t3T預熱階段加熱階段均熱階段TT1T2T3vx1x2x3質量檢驗!0 x預熱區(qū)加熱區(qū)均熱區(qū)t0t1t2t3質量檢驗!TT1T3T2生產過程生產過程X:工藝參數(shù)時間序列Y:質量檢測結果tXtYttx1(t)y1y2y3x2(t)x3(t)XY1,2,(),)iiinx ty樣本111(),)x ty樣本222(),)x ty樣本333(),)x tyT1T2T3vx1x2x3tT3T2T10質量檢驗!0T1T2T3Ttt1x1/vt2x2/vt3x3/v0質量檢驗!t1t2t3T1T
29、3T2質量檢驗!tT3T2T10t1t2t3質量檢驗!T組裝前t0t1t2t3T組裝后樣本模式抽取1,2,(),)iiinx ty1,2,(,)iiinm y數(shù)據(jù)挖掘數(shù)據(jù)挖掘生產歷史數(shù)據(jù)質量問題分析 尋找質量事故的原因(質量分析):相關分析問題:發(fā)生質量事故后,分析導致該事故的可能原因。這也是一種離線應用。避免質量事故的發(fā)生(質量預測):設計驗證問題:設計新的工藝參數(shù)組合時,質量模型用于根據(jù)工藝參數(shù)的設計值驗證是否會導致質量問題。這是一種離線的應用。質量模型質量模型工藝設計數(shù)據(jù)產品質量預測數(shù)據(jù)挖掘數(shù)據(jù)挖掘1,2,(,)iiinm y質量分類模型數(shù)據(jù)挖掘數(shù)據(jù)挖掘1,2,(,)iiinm y質量分析結論煙道T燃料噴嘴鋼錠翻板爐膛爐壁FGHF 燃料流量T 爐膛溫度G 翻板開度H 煙氣成分預熱段加熱段均熱段00.51.01.52.0tT80012001600002000典型加熱工藝
- 溫馨提示:
1: 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2: 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
3.本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
5. 裝配圖網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。