基于數(shù)據(jù)挖掘的商業(yè)銀行個人信用風(fēng)險評估平臺設(shè)計與實(shí)現(xiàn)[共69頁]
《基于數(shù)據(jù)挖掘的商業(yè)銀行個人信用風(fēng)險評估平臺設(shè)計與實(shí)現(xiàn)[共69頁]》由會員分享,可在線閱讀,更多相關(guān)《基于數(shù)據(jù)挖掘的商業(yè)銀行個人信用風(fēng)險評估平臺設(shè)計與實(shí)現(xiàn)[共69頁](70頁珍藏版)》請在裝配圖網(wǎng)上搜索。
1、 畢業(yè)設(shè)計(論文) 論 文 題 目: 基于數(shù)據(jù)挖掘的商業(yè)銀行個人信用風(fēng)險評估平臺設(shè)計與實(shí)現(xiàn) 學(xué) 生 姓 名: 學(xué) 生 學(xué) 號: 專 業(yè) 班 級: 學(xué) 院 名 稱: 指 導(dǎo) 老 師: 學(xué) 院 院 長: 2016年05月27日 基于數(shù)據(jù)挖掘的商業(yè)銀行個人信用風(fēng)險評估平臺設(shè)計與實(shí)現(xiàn) 摘 要 計算機(jī)技術(shù)和信息技術(shù)的不斷發(fā)展,帶給我們便利的同時也帶來一系列問題,其中一個問題是數(shù)據(jù)量的爆炸式增長以及數(shù)據(jù)之間的關(guān)系愈發(fā)復(fù)
2、雜,如何對這些海量的數(shù)據(jù)進(jìn)行處理,發(fā)掘隱藏在數(shù)據(jù)中潛在的理論價值和實(shí)際價值也成為生活中各個領(lǐng)域關(guān)注的焦點(diǎn)。 隨著我國經(jīng)濟(jì)的不斷發(fā)展,城市和農(nóng)村居民的收入和消費(fèi)水平有著顯著提升,個人信貸業(yè)務(wù)已經(jīng)成為商業(yè)銀行主營業(yè)務(wù)之一,但目前我國商業(yè)銀行在個人信用風(fēng)險評估方面存在著不足。因此,研究如何利用數(shù)據(jù)挖掘技術(shù)從銀行現(xiàn)有的客戶數(shù)據(jù)中分析客戶的信用風(fēng)險,具有重要的理論價值和實(shí)際意義。 本文首先對數(shù)據(jù)挖掘的概念、發(fā)展現(xiàn)狀進(jìn)行了介紹。其次對數(shù)據(jù)挖掘的算法進(jìn)行了介紹,分析了本系統(tǒng)會用到的數(shù)據(jù)挖掘的算法。然后,結(jié)合商業(yè)銀行在客戶信用風(fēng)險評估方面遇到的問題進(jìn)行了需求分析。在此基礎(chǔ)上,提出了基于BP神經(jīng)網(wǎng)絡(luò)以及決策
3、樹算法的商業(yè)銀行個人信用風(fēng)險評估模型,為商業(yè)銀行個人信用風(fēng)險評估提供了可行的解決方案。 關(guān)鍵詞:數(shù)據(jù)挖掘;BP神經(jīng)網(wǎng)絡(luò);決策樹;信用風(fēng)險 Design and Implementation of Commercial Banks Credit Risk Assessment Based on Data Mining Abstract The development of computer technology and information technology bring us convenience, but also broug
4、ht a series of problems, one of the problems is the relationship between the amount of data as well as the explosive growth of data between the more and more complex, and how these massive data processing discover hidden potential data theoretic value and practical value has become the focus of atte
5、ntion in all areas of life. As China's economy continues to develop, income and consumption level of urban and rural residents has significantly improved, consumer credit business has become one of the main business of commercial banks, commercial banks in China but there is a lack of personal cred
6、it risk assessment. Therefore, studying how to use data mining techniques to analyze customer credit risk from the bank's existing customer data, has important theoretical and practical significance. Firstly, the concept, development status data mining are introduced. Secondly, the data mining algo
7、rithms are introduced, we analyzed the system will use data mining algorithms. Then, combined with problems encountered by commercial banks in customer credit risk assessment needs analysis. On this basis, the proposed individual credit risk assessment model based on BP neural network and decision t
8、ree algorithm based commercial bank, and the proposed model has been improved and validated commercial bank personal credit risk provides a feasible solution program evaluation. Key Words: Data mining; BP neural network; decision tree; Credit Risk 目錄 第1章 緒論 1 1.1研究背景和研究意義 1 1.1.1研究背
9、景 1 1.1.2研究意義 3 1.2國內(nèi)外研究綜述 4 1.2.1數(shù)據(jù)挖掘研究現(xiàn)狀 4 1.2.2商業(yè)銀行信用風(fēng)險研究現(xiàn)狀 6 1.3論文的主要工作和內(nèi)容結(jié)構(gòu) 7 第2章 數(shù)據(jù)挖掘算法及相關(guān)技術(shù) 9 2.1數(shù)據(jù)挖掘的概念 9 2.2數(shù)據(jù)挖掘的過程 9 2.3數(shù)據(jù)挖掘的常用算法 10 2.3.1人工神經(jīng)網(wǎng)絡(luò) 11 2.3.2決策樹 11 2.3.3遺傳算法 12 2.3.4近鄰算法 13 2.3.5 k-means算法 13 2.4小結(jié) 14 第3章 基于BP神經(jīng)網(wǎng)絡(luò)算法的個人信用風(fēng)險評估 15 3.1神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)機(jī)理和機(jī)構(gòu) 15 3.1.1感知器
10、的學(xué)習(xí)結(jié)構(gòu) 15 3.1.2梯度下降法算法 17 3.1.3反向傳播(BP)算法 19 3.2實(shí)驗(yàn)數(shù)據(jù)的結(jié)構(gòu)及預(yù)處理 22 3.2.1數(shù)據(jù)預(yù)處理 25 3.2.2數(shù)據(jù)指標(biāo)選取 26 3.3基于BP神經(jīng)網(wǎng)絡(luò)的信用風(fēng)險評估方法模型 29 3.3.1網(wǎng)絡(luò)的構(gòu)建及訓(xùn)練 29 3.3.2模型測試結(jié)果 30 3.4小結(jié) 33 第4章 基于決策樹算法的個人信用風(fēng)險評估 34 4.1 決策樹算法概述 34 4.1.1 ID3算法 34 4.1.2 C4.5算法與C5.0算法 37 4.2 基于C5.0算法的決策樹方法個人信用風(fēng)險評估模型 39 4.2.1 數(shù)據(jù)采集 39 4.2
11、.2 數(shù)據(jù)變換 40 4.2.3 決策樹的構(gòu)建 43 4.2.4 評估模型及模型優(yōu)化 48 4.3小結(jié) 50 第5章 基于數(shù)據(jù)挖掘的個人信用風(fēng)險評估系統(tǒng)的實(shí)現(xiàn) 51 5.1 開發(fā)環(huán)境的搭建 51 5.1.1 R語言開發(fā)環(huán)境搭建 51 5.1.2 Shiny Server安裝與配置 52 5.2 模塊關(guān)鍵功能實(shí)現(xiàn) 53 5.2.1 基于BP神經(jīng)網(wǎng)絡(luò)算法評估客戶信用風(fēng)險的實(shí)現(xiàn) 54 5.2.2 基于決策樹絡(luò)算法評估客戶信用風(fēng)險的實(shí)現(xiàn) 56 5.3小結(jié) 58 總結(jié)與展望 59 致謝 60 參考文獻(xiàn) 61
12、 第1章 緒論 本章首先介紹了以數(shù)據(jù)挖掘算法和技術(shù)為基礎(chǔ)的商業(yè)銀行個人信用風(fēng)險分析的研究背景和研究意義。隨著社會經(jīng)濟(jì)的發(fā)展和國民消費(fèi)水平及觀念的提升,個人信貸市場已經(jīng)成為銀行業(yè)的主營業(yè)務(wù)之一,銀行的客戶數(shù)據(jù)量規(guī)模十分龐大,用數(shù)據(jù)挖掘技術(shù)從這些海量數(shù)據(jù)中發(fā)現(xiàn)科學(xué)有效的個人信用風(fēng)險評估和預(yù)測模型具有重要的理論意義和實(shí)際價值。 1.1研究背景和研究意義 2010年9月12日,國際清算銀行(BIS)的巴塞爾銀行業(yè)條例和監(jiān)督委員會的常設(shè)委員會——“巴塞爾委員會”宣布,各方代表就《巴塞爾協(xié)議III》的內(nèi)容達(dá)成一致?!栋腿麪枀f(xié)議III》將商業(yè)銀行的風(fēng)險分為
13、信用風(fēng)險、市場風(fēng)險和操作風(fēng)險,其中信用風(fēng)險是銀行面臨的主要風(fēng)險[1]。而個人信貸風(fēng)險又是銀行信用風(fēng)險中的主要組成部分,銀行具有高水平的信用風(fēng)險管理制度決定了其穩(wěn)定的運(yùn)行,因此,為滿足銀行自身運(yùn)營要求和提高自身風(fēng)險管理水平,商業(yè)銀行加快建設(shè)個人信貸風(fēng)險評估系統(tǒng)具有重要的現(xiàn)實(shí)意義。 1.1.1研究背景 從風(fēng)險管理控制來說,金融體系的風(fēng)險管理有著十分悠久的歷史,隨著社會經(jīng)濟(jì)以及全球經(jīng)濟(jì)一體化的發(fā)展,在風(fēng)險管理方面,其理論和實(shí)踐都取得了很大進(jìn)展。國外對金融風(fēng)險管理比較深入,近幾年發(fā)現(xiàn)了層出不窮的各種理論和模型,例如:資本資產(chǎn)定價理論、套利定價理論、Credit Metrics模型、KVM
14、模型等[2]。在實(shí)踐中這些理論和模型取得了巨大成功,因而刺激了西方金融市場的發(fā)展,反過來,西方金融市場的發(fā)展又對金融風(fēng)險理論研究提出了新的要求。 縱觀世界銀行業(yè)的發(fā)展,20世紀(jì)70年代,銀行的經(jīng)營環(huán)境相對比較穩(wěn)定,其穩(wěn)定的原因是多方面的。其中,法律監(jiān)管制度對銀行業(yè)的穩(wěn)定發(fā)展起到了決定性的作用,那時,銀行業(yè)的主要經(jīng)營業(yè)務(wù)比較單一,僅限于存款貸款業(yè)務(wù),外部競爭有限,銀行具有穩(wěn)定的高額的利潤。法律監(jiān)管關(guān)注的重點(diǎn)是銀行業(yè)的安全發(fā)展和對貨幣創(chuàng)造能力的控制,并且法律在監(jiān)管銀行業(yè)經(jīng)營范圍的同時,也從各個反面大大降低了銀行業(yè)所承擔(dān)的風(fēng)險。 從20世紀(jì)70年代至今,銀行業(yè)掀起了深刻的變革浪潮,在推動銀行業(yè)變
15、革的因素中,有三個因素顯得尤為重要: 第一,金融市場職能的日益膨脹,由于國際資本市場在深度和廣度上的快速發(fā)展,一大部分企業(yè)選擇發(fā)行股票和債券在市場上籌措企業(yè)的發(fā)展資金,這導(dǎo)致了金融非中介化的快速發(fā)展,這些變化給金融市場的參與者,尤其是銀行業(yè),帶來了新的機(jī)遇,機(jī)遇與挑戰(zhàn)并存,因此也帶來了新的挑戰(zhàn)。 第二,金融管制的放松,隨著金融市場的不斷發(fā)展與金融制度的自我完善,一些舊的金融管制制度開始改變甚至消失。原有監(jiān)管制度的改編和消失,使得政府或者金融監(jiān)管部門不能像過去那樣利用分業(yè)管理制度來控制風(fēng)險行為[3]。因此,這些監(jiān)管部門開始重新制定能夠保障金融業(yè)安全的監(jiān)管規(guī)則。新的規(guī)則主要是由國際清算銀行負(fù)責(zé)
16、制定,然后各國的政府將其應(yīng)用到國內(nèi)金融業(yè)中去。 第三,金融行業(yè)競爭日益加劇。金融管制的放松大大拓寬了銀行所能提供的產(chǎn)品和服務(wù)的范圍。各種新產(chǎn)品,比如金融衍生工具和期權(quán)、期貨等的產(chǎn)生,傳統(tǒng)的商業(yè)銀行開始積極探索新的市場機(jī)會,研究開發(fā)新的產(chǎn)品的服務(wù),非傳統(tǒng)業(yè)務(wù)的比重迅速增加。增值性服務(wù),比如交易咨詢、資產(chǎn)并購、項目融資、信用卡、衍生工具等獲得飛速的發(fā)展。通過涉足新的領(lǐng)域和開發(fā)新的金融產(chǎn)品,銀行業(yè)需要承擔(dān)新類型的風(fēng)險。 銀行業(yè)的變革使得銀行業(yè)飛速的發(fā)展,但同時也帶來了新的風(fēng)險。風(fēng)險的增加是由新競爭出現(xiàn)、產(chǎn)品的創(chuàng)新、銀行主營業(yè)務(wù)的轉(zhuǎn)型和創(chuàng)新、市場波動的加劇以及金融機(jī)構(gòu)業(yè)務(wù)范圍限制的解除帶來的。所以
17、隨著銀行業(yè)的發(fā)展,銀行業(yè)需要承擔(dān)更多的風(fēng)險,風(fēng)險管理顯得尤為重要。 從數(shù)據(jù)挖掘技術(shù)來說,數(shù)據(jù)挖掘起始于20世紀(jì)下半葉,是在當(dāng)時多個學(xué)科發(fā)展的基礎(chǔ)上發(fā)展起來的。數(shù)據(jù)庫技術(shù)日益發(fā)展,大大提高了數(shù)據(jù)的存儲與處理能力。但是與之而來的是數(shù)據(jù)的不斷積累,龐大的數(shù)據(jù)使得傳統(tǒng)的增刪改查功能無法滿足人們對數(shù)據(jù)的需求,急因需要發(fā)展更好的數(shù)據(jù)處理技術(shù)去挖掘龐大數(shù)據(jù)背后隱藏的信息。與此同時,與此同時,進(jìn)入21世紀(jì)以來,人工智能技術(shù)進(jìn)入飛速發(fā)展階段,Google公司的AlphaGo產(chǎn)品等標(biāo)志著人工智能革命的興起,從此機(jī)器學(xué)習(xí)將應(yīng)用到現(xiàn)實(shí)領(lǐng)域。因此,人們將兩者結(jié)合起來,存儲數(shù)據(jù)使用數(shù)據(jù)庫管理系統(tǒng),使用數(shù)據(jù)挖掘技術(shù)進(jìn)行數(shù)
18、據(jù)分析,并且嘗試挖掘隱藏在數(shù)據(jù)背后的知識[4]。這兩者的結(jié)合促生了一門新的學(xué)科,即數(shù)據(jù)庫中的知識發(fā)現(xiàn)(Knowledge Discovery in Databases,KDD)。而數(shù)據(jù)挖掘(Data Mining)則是知識發(fā)現(xiàn)(KDD)的核心部分,它指的是從數(shù)據(jù)集合中自動抽取隱藏在數(shù)據(jù)中的那些有用信息的非平凡過程,進(jìn)入21世紀(jì),數(shù)據(jù)挖掘已經(jīng)成為一門比較成熟的交叉學(xué)科,并且數(shù)據(jù)挖掘技術(shù)也伴隨著信息技術(shù)的發(fā)展日益成熟起來。將數(shù)據(jù)挖掘技術(shù)應(yīng)用到銀行信用風(fēng)險分析成為了可能。 1.1.2研究意義 信用風(fēng)險是最古老的風(fēng)險,而且在潛在損失的規(guī)模方面也許是最重要的風(fēng)險。目前,信用風(fēng)險的評價正沿著幾
19、個方向發(fā)展:第一,對貸款組合信用風(fēng)險的評價;第二,對市場工具信用風(fēng)險的評價;第三,對信用風(fēng)險的VAR值的計算;第四,貸款組合管理。 信用風(fēng)險,是指因借款人發(fā)生違約或借款人信用等級下降產(chǎn)生損失的風(fēng)險[5]。風(fēng)險的“量”是貸款的余額,風(fēng)險的“質(zhì)”是指發(fā)生違約的可能性和在違約發(fā)生時減少損失的擔(dān)保措施。本篇研究的商業(yè)銀行個人信用風(fēng)險主要指的是客戶的違約風(fēng)險。一般使用商業(yè)銀行一定時期內(nèi)客戶違約發(fā)生的概率來進(jìn)行衡量違約風(fēng)險的。借款人的信用等級決定商業(yè)銀行客戶的違約風(fēng)險取,而商業(yè)銀行客戶的信用等級受多個因素的影響,如客戶的工作情況、居住環(huán)境、收入水平等。不能直接對違約概率進(jìn)行測量,但可以用客戶以往的信用歷
20、史數(shù)據(jù)多客戶的違約概率進(jìn)行評估。 數(shù)據(jù)挖掘是指從大量的資料中自動搜索隱藏于其中的有著特殊關(guān)聯(lián)性的信息的過程。在商業(yè)銀行的計算機(jī)存儲中,存在未使用的海量數(shù)據(jù)并且它們還在快速增長,這些數(shù)據(jù)就像待挖掘的金礦。數(shù)據(jù)挖掘技術(shù)可以使我們很容易的從海量數(shù)據(jù)中提取出可以表示成規(guī)則邏輯或者可視化的數(shù)據(jù)模型,比傳統(tǒng)意義上的統(tǒng)計學(xué)更加以人為本[6]。對商業(yè)銀行而言,數(shù)據(jù)挖掘的目標(biāo),是使商業(yè)銀行更了解客戶,以增進(jìn)它在信貸、銷售、顧客服務(wù)營運(yùn)上的表現(xiàn),查覺無法直接從數(shù)據(jù)上看得出來的潛在規(guī)則或行為模式。 1.2國內(nèi)外研究綜述 自從提出數(shù)據(jù)挖掘的概念以來,國內(nèi)外的許多廠商相繼推出了自己的數(shù)據(jù)挖掘相關(guān)產(chǎn)品,例如
21、IBM Intelligent Miner、SPSS Clementine、MSMiner等。隨著廠商不斷推出自己的產(chǎn)品,數(shù)據(jù)挖掘的服務(wù)質(zhì)量和可靠性越來越受到重視。目前,國內(nèi)外的廠商和學(xué)者都已經(jīng)對此展開了研究,下面對它們的國內(nèi)外現(xiàn)狀分別進(jìn)行研究。 1.2.1數(shù)據(jù)挖掘研究現(xiàn)狀 近年來,數(shù)據(jù)庫技術(shù)領(lǐng)域中的重要研究領(lǐng)域?yàn)橹R發(fā)現(xiàn)(KDD)與DM。第十一屆國際人工智能會議于1989年8月在國底特律市召開,在這次大會上參會者正式提出了知識發(fā)現(xiàn)(KDD)一詞[7]。隨著計算機(jī)技術(shù)的日益發(fā)展,數(shù)據(jù)挖掘技術(shù)的研究也不斷突破,目前已經(jīng)取得了豐碩的成果?,F(xiàn)在主要是從三個方面:理論和技術(shù)以及應(yīng)用對知識發(fā)
22、現(xiàn)(KDD)進(jìn)行研究。國內(nèi)外大部分學(xué)者目前的研究方法是采用多種方法與理論并行。眾多計算機(jī)行業(yè)的公司以及高校研究所等研究機(jī)構(gòu)十分重視數(shù)據(jù)挖掘技術(shù)的研究,Google和微軟等已經(jīng)在全球范圍內(nèi)開設(shè)了研究中心。無可否認(rèn)的是美國是全世界數(shù)據(jù)挖掘技術(shù)發(fā)展最繁榮的國家,并占據(jù)著數(shù)據(jù)挖掘技術(shù)研究的核心位置[8]。 隨著數(shù)據(jù)量的指數(shù)級增加,各個行業(yè)的商業(yè)公司以及政府機(jī)構(gòu)等對數(shù)據(jù)挖掘軟件的市場需求量也飛速增加,因此眾多計算機(jī)行業(yè)的國際知名公司都紛紛加入到了數(shù)據(jù)挖掘軟件開發(fā)研究的行列中來,目前數(shù)據(jù)挖掘軟件市場上已經(jīng)存在一大批比較成熟、先是實(shí)用價值比較高的優(yōu)秀產(chǎn)品。下面列舉的是目前為止比較主流的數(shù)據(jù)挖掘系統(tǒng): (
23、1) IBM Intelligent Miner:IBM Intelligent Miner的主要功能包含展現(xiàn)數(shù)據(jù)庫的挖掘過程,能夠統(tǒng)計函數(shù)和查看函數(shù)并解釋挖掘結(jié)果,挖掘結(jié)果可視化展示等。IBM Intelligent Miner能夠從企業(yè)的海量數(shù)據(jù)集中檢驗(yàn)并提取高價值的知識,包括企業(yè)的交易數(shù)據(jù),信用卡,ATM(Automatic Teller Machine),電子商務(wù)應(yīng)用, 或呼叫中心等。數(shù)據(jù)分析專家和商業(yè)領(lǐng)域?qū)<夷軌虬l(fā)現(xiàn)隱藏在海量數(shù)據(jù)背后的其他傳統(tǒng)分析工具不能發(fā)現(xiàn)的知識。IBM Intelligent Miner不但提供了實(shí)用的數(shù)據(jù)挖掘技術(shù)和工具來支持知識發(fā)現(xiàn)過程,而且還提供了數(shù)據(jù)挖掘應(yīng)
24、用服務(wù)支持與數(shù)據(jù)挖掘急速定制應(yīng)用的發(fā)展。 (2) Knowledge Studio: Knowledge Studio提供了先進(jìn)的預(yù)測建模功能,包括先進(jìn)的記分卡的發(fā)展,線性和Logistic回歸,決策樹,神經(jīng)網(wǎng)絡(luò)和無監(jiān)督學(xué)習(xí)技術(shù),如聚類分析和多因子分析。 (3) Cognos Scenario:Cognos Scenario是一種數(shù)據(jù)挖掘結(jié)果高度可視化的一種工具,該軟件能夠在很短的響應(yīng)時間內(nèi)對數(shù)據(jù)進(jìn)行高效的挖掘與分析。 (4) IBM SPSS Modeler:IBM SPSS Modeler是一個廣泛的預(yù)測性分析平臺,旨在智能預(yù)測由個人、組、系統(tǒng)和企業(yè)作出的決定。通過提供一系列先進(jìn)的
25、算法以及包括文本分析,實(shí)體分析,決策管理和優(yōu)化技術(shù),SPSS Modeler可幫助企業(yè)與個人始終如一地做出正確的決定。 除這些工具之外,Unica公司開發(fā)的Affinium Model,美國Insightful公司研究開發(fā)的I-Miner,加拿大Simon Fraser大學(xué)研究開發(fā)的DBMiner等也是常用的市場占有率比較高的數(shù)據(jù)挖掘軟件。 在數(shù)據(jù)挖掘技術(shù)這一領(lǐng)域,國內(nèi)公司和研究機(jī)構(gòu)對數(shù)據(jù)挖掘技術(shù)的研究與國外相比起步比較遲并且尚不成熟,目前正處于比較初級的發(fā)展階段[9]。國內(nèi)數(shù)據(jù)挖掘技術(shù)的發(fā)展主要有:研究并構(gòu)建模糊系統(tǒng)知識模型,研究并構(gòu)建模糊系統(tǒng)辨識方法;在研究分類技術(shù)中,嘗試構(gòu)建其集合理
26、論體系,能夠讓其實(shí)現(xiàn)日益增長的大量數(shù)據(jù)的挖掘處理;將模糊集理論以及粗糙集理論兩個理論相結(jié)合來研究知識發(fā)現(xiàn);研究并開發(fā)智能的專家系統(tǒng);研究并開發(fā)中文文本挖掘的實(shí)現(xiàn)技術(shù)以及其理論模型;利用數(shù)據(jù)挖掘技術(shù)概念來進(jìn)行文本的挖掘。我國也有不少新興的數(shù)據(jù)挖掘軟件: (1) DMiner:DMiner是由復(fù)旦德門軟件公司開發(fā)的一個數(shù)據(jù)挖掘系統(tǒng),這個系統(tǒng)是基于數(shù)據(jù)倉庫的對企業(yè)的經(jīng)營、客戶和財務(wù)等多個數(shù)據(jù)源進(jìn)行數(shù)據(jù)挖掘。業(yè)務(wù)作為德門數(shù)據(jù)倉庫實(shí)施方案的需求重點(diǎn),設(shè)計在技術(shù)領(lǐng)先與開放標(biāo)準(zhǔn)的基礎(chǔ)之上,并且能與數(shù)據(jù)倉庫的解決方案能夠融合,為現(xiàn)代企業(yè)提供一個開放的、可靠的與可擴(kuò)展性的和高性能決策支持系統(tǒng)。 (2) MS
27、Miner:MSMiner主要包括任務(wù)處理引擎和數(shù)據(jù)挖掘任務(wù)模型編輯兩個模塊,用戶在任務(wù)模型編輯模塊可以使用一種可視化的方法來選擇算法和數(shù)據(jù)源,然后使用選擇的數(shù)據(jù)挖掘算法和數(shù)據(jù)源來構(gòu)建合適的模型。解釋執(zhí)行各個步驟以及對數(shù)據(jù)挖掘任務(wù)則由任務(wù)處理引擎來負(fù)責(zé)處理,然后得到可視化的數(shù)據(jù)挖掘結(jié)果。數(shù)據(jù)挖掘結(jié)果經(jīng)過評估后就可以存入數(shù)據(jù)倉庫然后以報表和可視化方式輸出。 目前國內(nèi)的數(shù)據(jù)挖掘技術(shù)產(chǎn)業(yè)相對國外來說還處于起步階段,從事數(shù)據(jù)挖掘技術(shù)研究的人員主要集中在各大高校和研究所以及互聯(lián)網(wǎng)公司的研發(fā)中心,大多數(shù)關(guān)于數(shù)據(jù)挖掘技術(shù)研究項目的資金是由政府提供,數(shù)據(jù)挖掘技術(shù)的相關(guān)算法和理論方面為其主要的研究方向[10]
28、。開發(fā)研究的數(shù)據(jù)挖掘相關(guān)的軟件產(chǎn)品暫時沒有得到國際主流市場的認(rèn)可。 1.2.2商業(yè)銀行信用風(fēng)險研究現(xiàn)狀 各國對商業(yè)銀行信用風(fēng)險的管理不盡相同,相對來說發(fā)達(dá)國家的風(fēng)險管理比較成熟,發(fā)展中國家的風(fēng)險管理則相對落后,水平有較大差異。但各國監(jiān)管當(dāng)局和商業(yè)銀行本身都在試圖通過實(shí)施外部監(jiān)管和內(nèi)部評級等方法來提高信用風(fēng)險管理的能力這一點(diǎn)是一致的。因此,研究國際活躍銀行的風(fēng)險管理機(jī)制,提高我國風(fēng)險管理水平,是一個非常重要的現(xiàn)實(shí)課題。 隨著金融市場的不斷發(fā)展,金融衍生品的日益更新,金融風(fēng)險程度的不斷提高,促進(jìn)了銀行業(yè)風(fēng)險管理及風(fēng)險防范方法的不斷完善。 1.內(nèi)部評級方法。內(nèi)部評級法是國際清算銀行頒
29、布的《新巴塞爾資本協(xié)議》中銀行信用風(fēng)險部分的核心內(nèi)容。內(nèi)部評級法是現(xiàn)在國際清算銀行對銀行業(yè)風(fēng)險管理和風(fēng)險防范的一個重要的手段。內(nèi)部評級法對特定貸款進(jìn)行信用評級的一個辦法,其主要依據(jù)是根據(jù)借款人如果不能正常履行還款責(zé)任而對銀行造成的損失風(fēng)險[11]。內(nèi)部評級方法的風(fēng)險評級是商業(yè)銀行評估信貸風(fēng)險的重要指標(biāo),因此風(fēng)險評級多用于商業(yè)銀行信貸的風(fēng)險管理,風(fēng)險評級包含對貸款受理的評估、評估貸款組合和撰寫風(fēng)險管理報告,對存款準(zhǔn)備金充足性進(jìn)行分析,商業(yè)銀行利潤及信貸利率定價分析,作為風(fēng)險管理的重要參數(shù)來構(gòu)建信貸組合的風(fēng)險管理模型等。傳統(tǒng)的風(fēng)險管理的缺點(diǎn)是外部評級機(jī)構(gòu)通常不能得到的客戶信息,從而很難對客戶進(jìn)行評
30、估,而內(nèi)部評級方法克服了這一缺點(diǎn),從而商業(yè)銀行不會過多地依賴外部信用評級機(jī)構(gòu)對客戶信貸風(fēng)險的評估。 2.VaR風(fēng)險度量方法。VaR從數(shù)學(xué)統(tǒng)計的意義上來講是一個數(shù)字,VaR指商業(yè)銀行或者金融機(jī)構(gòu)等面臨市場波動時其在風(fēng)險狀態(tài)的價值。即在指定的置信水平和特定的時間段內(nèi),計算出的預(yù)期的最大損失的絕對值或者相對值[12]。持有期的長短、置信區(qū)間的大小以及觀察期間的長短這三個系數(shù)是構(gòu)建一個資產(chǎn)組合的VaR值的模型必須首先確定的三個系數(shù)。 VaR主要應(yīng)用于金融風(fēng)險控制。目前已有超過一千家的銀行和保險公司以及投資基金等公司采用構(gòu)建VaR模型來對風(fēng)險管理進(jìn)行防范和管理。每個交易員或交易單位利用VaR方法都能進(jìn)
31、行風(fēng)險控制以便確切地了解他們進(jìn)行的金融交易有多大風(fēng)險,還能夠?yàn)槊總€交易員或交易單位設(shè)置一個VaR閥值來預(yù)防度較大金融風(fēng)險的出現(xiàn)。商業(yè)銀行等金融機(jī)構(gòu)如果執(zhí)行嚴(yán)格的VaR管理也許可以避開重大虧損。 3.投資組合管理。投資組合管理是指投資管理人以實(shí)現(xiàn)分散風(fēng)險、提高效率的投資目的按照資產(chǎn)的投資組合理論對資產(chǎn)進(jìn)行多元化管理的一種風(fēng)險管理手段[13]。投資組合理論和資本資產(chǎn)定價模型以及APT模型等理論構(gòu)成了現(xiàn)代投資組合理論。它們的發(fā)展使現(xiàn)代投資管理日益朝著系統(tǒng)化、科學(xué)化和組合化的方向發(fā)展并極大地改變了過去主要依賴傳統(tǒng)投資管理實(shí)踐的手段。 由于我國商業(yè)銀行風(fēng)險管理發(fā)展較晚,存在著商業(yè)銀行重報表數(shù)據(jù)輕
32、實(shí)踐,信貸審批流程不合理,信貸監(jiān)管環(huán)節(jié)責(zé)任不明確,大部分商業(yè)銀行的貸款審批權(quán)利還是由銀行行長一人掌控,商業(yè)銀行對企業(yè)的評估沒有公開透明化,甚至存在內(nèi)幕交易,評估后的結(jié)果也是只用本行內(nèi)部信貸額度的確立,沒有對其他金融機(jī)構(gòu)或者社會進(jìn)行公開等缺點(diǎn),我國商業(yè)銀行存在的這些不足都反映出我國銀行業(yè)信貸風(fēng)險管理手段落后以及信用風(fēng)險管理體制不健全[14]。并且我國商業(yè)銀行通常是負(fù)責(zé)信貸風(fēng)險管理的人員主要是信貸部門的,信貸人員對貸款的風(fēng)險狀況進(jìn)行評估后定期向其上級匯報,這種傳統(tǒng)的評估模式存在很大漏洞,完全不能滿足商業(yè)銀行對風(fēng)險控制要求的時效性;并且在商業(yè)銀行中信用風(fēng)險決策制度制定的不合理,很多商業(yè)銀行的信貸人員
33、同時負(fù)責(zé)信貸前調(diào)查和信貸審批等本應(yīng)遵守職位分離原則的多個職位,這種身兼數(shù)職起不到互相監(jiān)督互相補(bǔ)充的作用從而使得風(fēng)險漏洞出現(xiàn)時,信貸負(fù)責(zé)人員由于各種原因不會及時對風(fēng)險進(jìn)行管控制,可能會導(dǎo)致信貸違約的產(chǎn)生。 1.3論文的主要工作和內(nèi)容結(jié)構(gòu) 本文內(nèi)容分為五章,主要的工作如下所述: 第1章為緒論,主要介紹本課題的應(yīng)用背景、國內(nèi)外研究現(xiàn)狀以及本系統(tǒng)的研究意義,以及論文的組織結(jié)構(gòu)。 第2章為 數(shù)據(jù)挖掘算法及相關(guān)技術(shù),主要對數(shù)據(jù)挖掘算法做了介紹,并且對系統(tǒng)要用到的數(shù)據(jù)挖掘技術(shù)做了梳理,并分別對每項技術(shù)做了詳細(xì)介紹,闡明各項技術(shù)選擇的重要性。 第3章為基于BP神經(jīng)網(wǎng)絡(luò)算法的商業(yè)銀行客戶信用風(fēng)
34、險評估,首先介紹了BP神經(jīng)網(wǎng)絡(luò)算法的基本原理,然后介紹了如何用BP神經(jīng)網(wǎng)絡(luò)算法實(shí)現(xiàn)對商業(yè)銀行客戶信用風(fēng)險進(jìn)行評估。 第4章為基于決策樹算法的商業(yè)銀行客戶信用風(fēng)險評估,首先介紹了決策樹算法的基本原理,然后介紹了如何用決策樹算法實(shí)現(xiàn)對商業(yè)銀行客戶信用風(fēng)險進(jìn)行評估。 第5章為基于數(shù)據(jù)挖掘技術(shù)的商業(yè)銀行客戶信用風(fēng)險評估系統(tǒng)的實(shí)現(xiàn),本章主要從軟件的實(shí)際出發(fā),依據(jù)第3章和第4章的算法設(shè)計,介紹了基于數(shù)據(jù)挖掘技術(shù)的商業(yè)銀行客戶信用風(fēng)險評估系統(tǒng)的主要模塊的具體實(shí)現(xiàn)方法與成果。 第2章 數(shù)據(jù)挖掘算法及相關(guān)技術(shù) 數(shù)
35、據(jù)挖掘是一種通過分析海量數(shù)據(jù)來揭示數(shù)據(jù)之間的關(guān)系、趨勢和模式的技術(shù),是一門融合了人工智能,數(shù)據(jù)庫技術(shù),模式識別,機(jī)器學(xué)習(xí),數(shù)據(jù)可視化與統(tǒng)計學(xué)等多個領(lǐng)域和技術(shù)的交叉性學(xué)科,本章首先是對數(shù)據(jù)挖掘算法及相關(guān)技術(shù)進(jìn)行了介紹,然后對常用的數(shù)據(jù)挖掘算法進(jìn)行了比較。 2.1數(shù)據(jù)挖掘的概念 計算機(jī)技術(shù)的飛速發(fā)展顯著的增強(qiáng)了社會各個領(lǐng)域的產(chǎn)生和采集數(shù)據(jù)的能力,我們生活的每時每刻都會產(chǎn)生海量的數(shù)據(jù)。數(shù)據(jù)的爆炸性增長激勵數(shù)據(jù)分析技術(shù)的發(fā)展,以幫助我們方便智能的從大量數(shù)據(jù)中發(fā)現(xiàn)對我們有價值的信息和知識。這種技術(shù)的發(fā)展導(dǎo)致一個被稱為數(shù)據(jù)挖掘技術(shù)的計算機(jī)前沿學(xué)科的產(chǎn)生。數(shù)據(jù)挖掘通常被成為數(shù)據(jù)中的知識發(fā)現(xiàn)(KD
36、D),是一種方便高效自動地提取知識的模式,這些知識隱藏在大型數(shù)據(jù)庫,數(shù)據(jù)倉庫,Web,其他大量信息庫或者數(shù)據(jù)流中。 數(shù)據(jù)挖掘作為一個學(xué)術(shù)領(lǐng)域,橫跨多個學(xué)科,涵蓋了統(tǒng)計學(xué)、數(shù)學(xué)、機(jī)器學(xué)習(xí)和數(shù)據(jù)庫等,如圖2.1-1所示??梢杂枚喾N方法定義。術(shù)語“數(shù)據(jù)挖掘”本身實(shí)際意義上也不能完全表達(dá)其主要含義,數(shù)據(jù)挖掘命名為“從數(shù)據(jù)中挖掘知識”更為貼切準(zhǔn)確。數(shù)據(jù)挖掘在廣義上的定義是:數(shù)據(jù)挖掘指的是從海量數(shù)據(jù)中挖掘知識與有趣模式的一個過程。通常情況下數(shù)據(jù)源包括Web、數(shù)據(jù)倉庫、數(shù)據(jù)庫、以及其他的數(shù)據(jù)存儲庫或者傳遞入系統(tǒng)的動態(tài)數(shù)據(jù)[15]。 2.2數(shù)據(jù)挖掘的過程 數(shù)據(jù)挖掘通常需要有業(yè)務(wù)理解、數(shù)據(jù)采集、數(shù)
37、據(jù)準(zhǔn)備、建模、結(jié)果評估、部署6個步驟。 業(yè)務(wù)理解:從業(yè)務(wù)角度來看對數(shù)據(jù)挖掘進(jìn)行了解項目的目標(biāo)和要求,然后將這些知識轉(zhuǎn)化數(shù)據(jù)挖掘問題的定義和設(shè)計,以實(shí)現(xiàn)目標(biāo)的初步計劃。 數(shù)據(jù)采集:開始收集數(shù)據(jù)和熟悉數(shù)據(jù),找出數(shù)據(jù)存在的問題,及時發(fā)現(xiàn)有用的數(shù)據(jù),或者檢測有趣的子集,以形成對隱藏信息的假設(shè)。 圖2.1-1 數(shù)據(jù)挖掘及相關(guān)領(lǐng)域 數(shù)據(jù)準(zhǔn)備:包括從初始的原始數(shù)據(jù)構(gòu)建最終的數(shù)據(jù)集(被送入建模工具的數(shù)據(jù))所需的所有步驟。任務(wù)包括改造和建模的數(shù)據(jù)清理。 建模:選擇和應(yīng)用各種建模技術(shù),用校準(zhǔn)工具參數(shù)確立最佳值。通常情況下,存在針對相同數(shù)據(jù)挖掘問題的幾種不同技術(shù)。某些技術(shù)具有數(shù)據(jù)形式上的具
38、體要求。因此,需要對數(shù)據(jù)進(jìn)行處理。 結(jié)果評估:徹底評估模型,并審查執(zhí)行構(gòu)建模型,以確定它正確地實(shí)現(xiàn)業(yè)務(wù)目標(biāo)的步驟。確定是否存在還沒有被充分考慮一些重要的問題。在此階段結(jié)束時,達(dá)到對使用的數(shù)據(jù)挖掘結(jié)果的展示。 部署:組織和顯示數(shù)據(jù)挖掘的結(jié)果。部署可以為生成報告或執(zhí)行一個可重復(fù)的數(shù)據(jù)挖掘過程。 2.3數(shù)據(jù)挖掘的常用算法 聚類、回歸分析與分類、偏差分析、Web頁挖掘和關(guān)聯(lián)規(guī)則以及變化等方法是采用數(shù)據(jù)挖掘算法進(jìn)行建模等經(jīng)常的方法, 它們分別從不同的角度對數(shù)據(jù)進(jìn)行挖掘。常用的數(shù)據(jù)挖掘技術(shù)算法有:人工神經(jīng)網(wǎng)絡(luò)、決策樹、遺傳算法、近鄰算法、粗糙集方法、模糊集方法、統(tǒng)計分析方法和規(guī)則推導(dǎo)等。
39、 2.3.1人工神經(jīng)網(wǎng)絡(luò) 人工神經(jīng)網(wǎng)絡(luò)算法模擬生物神經(jīng)網(wǎng)絡(luò),是一類模式匹配算法。人工神經(jīng)網(wǎng)絡(luò)算法反映人腦結(jié)構(gòu)及功能的一種抽象數(shù)學(xué)模型,一個人工神經(jīng)網(wǎng)絡(luò)是由大量神經(jīng)元節(jié)點(diǎn)互連而成的復(fù)雜網(wǎng)絡(luò),用以模擬人類發(fā)現(xiàn)知識和進(jìn)行知識表示與存儲以及利用知識進(jìn)行推理的行為[16]。通常用于解決分類和回歸問題。人工神經(jīng)網(wǎng)絡(luò)是機(jī)器學(xué)習(xí)的一個龐大的分支,有幾百種不同的算法。重要的人工神經(jīng)網(wǎng)絡(luò)算法包括:感知器神經(jīng)網(wǎng)絡(luò)(Perceptron Neural Network), 反向傳遞(Back Propagation), Hopfield網(wǎng)絡(luò),自組織映射(Self-Organizing Map, SOM)。學(xué)習(xí)
40、矢量量化(Learning Vector Quantization, LVQ)等。 2.3.2決策樹 決策樹是對給定的數(shù)據(jù)按照一系列規(guī)則進(jìn)行分類的過程。直觀看上去,決策樹分類器就像判斷模塊和終止塊組成的流程圖,終止塊表示分類結(jié)果(也就是樹的葉子)。判斷模塊表示對一個特征取值的判斷(該特征有幾個值,判斷模塊就有幾個分支)。如果不考慮效率等,那么樣本所有特征的判斷級聯(lián)起來終會將某一個樣本分到一個類終止塊上。實(shí)際上,樣本所有特征中有一些特征在分類時起到?jīng)Q定性作用,決策樹的構(gòu)造過程就是找到這些具有決定性作用的特征,根據(jù)其決定性程度來構(gòu)造一個倒立的樹--決定性作用最大的那個特征作為根節(jié)點(diǎn),
41、然后遞歸找到各分支下子數(shù)據(jù)集中次大的決定性特征,直至子數(shù)據(jù)集中所有數(shù)據(jù)都屬于同一類[17]。所以,構(gòu)造決策樹的過程本質(zhì)上就是根據(jù)數(shù)據(jù)特征將數(shù)據(jù)集分類的遞歸過程,需要確定的第一個問題就是當(dāng)前數(shù)據(jù)集上哪個特征在劃分?jǐn)?shù)據(jù)分類時起決定性作用。 為了得到出理想的結(jié)果并找到?jīng)Q定性的特征值,可以對給定數(shù)據(jù)集中包含的特征逐個進(jìn)行評估,然后找到使數(shù)據(jù)集分類最理想的特征。找到這些特征并根據(jù)找到的特征值進(jìn)行分類使得原始數(shù)據(jù)集被劃分為幾個數(shù)據(jù)子集。需要重復(fù)劃分?jǐn)?shù)據(jù)子集的過程當(dāng)數(shù)據(jù)子集內(nèi)的數(shù)據(jù)不屬于同一類型時。采用相同的方法來劃分?jǐn)?shù)據(jù)子集的直到一個數(shù)據(jù)子集內(nèi)(葉子節(jié)點(diǎn))具有相同類型的數(shù)據(jù)。 2.3.3遺傳算法
42、 遺傳算法是機(jī)器學(xué)習(xí)的模型,遺傳算法是借鑒自然界自然遺傳和選擇機(jī)制的隨機(jī)化的一種搜索算法。遺傳算法是解決其鮮為人知的一個問題的最佳途徑之一,是一個非常普遍的算法,因此會在任何搜索空間工作[18]。遺傳算法對給定的問題使用選擇和進(jìn)化的原則,產(chǎn)生了多種解決方案。遺傳算法在每一次的迭代過程中都會有一個備選的解,利用遺傳算子按某種指標(biāo)從所有的解中選取較優(yōu)的個體然后進(jìn)行重新組合,重新組合后會產(chǎn)生新的備選解,一直重復(fù)此過程直到滿足某種收斂指標(biāo)。 GA的組成: (1)編碼(產(chǎn)生初始種群): 基因在一定能夠意義上包含了它所代表的問題的解?;虻木幋a方式有很多,這也取決于要解決的問題本身。常見的編碼方
43、式有二進(jìn)制編碼、互換編碼、屬性編碼等。 (2) 適應(yīng)度函數(shù): 適應(yīng)度函數(shù)是遺傳算法中對個體的值的評估,解的質(zhì)量和適應(yīng)度函數(shù)的值成正比[19]。適應(yīng)度函數(shù)是遺傳算法中進(jìn)行自然選擇的唯一標(biāo)準(zhǔn),適應(yīng)度函數(shù)的制定應(yīng)該結(jié)合求解的具體問題本身的實(shí)際要求而確定。 (3) 遺傳算子: 遺傳算法中對個體進(jìn)行篩選的方法是通過選擇計算來完成的:適應(yīng)度和被遺傳到下一代的概率成正比,即一個個體的適應(yīng)度越高,則這個個體被遺傳到下一代的概率越大,反之,一個個體的適應(yīng)度越低則說明該個體被遺傳到下一代的概率越低。從初代群體中選取一些個體遺傳到下一代群體是通過選擇操作實(shí)現(xiàn)的。 (4) 運(yùn)行參數(shù): GA運(yùn)行時選擇的參數(shù)
44、應(yīng)該視解決的具體問題而定,到目前為止,還沒有一個適用于GA所有應(yīng)用領(lǐng)域的關(guān)于算法參數(shù)的理論。 2.3.4近鄰算法 K最近鄰(k-Nearest Neighbor,KNN)分類算法,是最簡單的機(jī)器學(xué)習(xí)算法之一同時也是理論上比較完善的算法。K最近鄰分類算法的思想是通過計算新數(shù)據(jù)與訓(xùn)練數(shù)據(jù)特征值之間的距離,根據(jù)計算出的距離選取K(K>=1)個距離最近的鄰居進(jìn)行分類[20]。KNN算法中選出的鄰居必須是已經(jīng)得到精確分類的對象。該方法根據(jù)樣本數(shù)據(jù)中最鄰近的一個或多個樣本的類別去劃分待分樣本所屬。 假設(shè)給定的訓(xùn)練數(shù)據(jù)集的很大,K-近鄰算法必須使用大量的存儲空間來保存全部數(shù)據(jù)集。同時,
45、K-近鄰算法必須計算數(shù)據(jù)集中的每個數(shù)據(jù)的距離值,當(dāng)數(shù)據(jù)集比較大時,K-近鄰算法計算每個數(shù)據(jù)的距離值可能非常耗時。另一個不足是它沒有辦法給出數(shù)據(jù)的任何基礎(chǔ)結(jié)構(gòu)信息,因此也沒有方法了解平均樣本具有什么特征。 2.3.5 k-means算法 k-means算法是一個把n的對象根據(jù)他們的屬性分為k(k < n)個分割的聚類算法。k平均聚類發(fā)明于1956年, 該算法最常見的形式是采用被稱為勞埃德算法(Lloyd algorithm)的迭代式改進(jìn)探索法[21]。勞埃德算法和k平均通常是緊密聯(lián)系的,但是在實(shí)際應(yīng)用中,勞埃德算法是解決k平均問題的啟發(fā)式法則,對于某些起始點(diǎn)和重心的組合,勞埃德算法可
46、能實(shí)際上收斂于錯誤的結(jié)果(上面函數(shù)中存在的不同的最優(yōu)解) 雖然存在變異,但是勞埃德算法仍舊保持流行,因?yàn)樗趯?shí)際中收斂非常快。實(shí)際上,觀察發(fā)現(xiàn)迭代次數(shù)遠(yuǎn)遠(yuǎn)少于點(diǎn)的數(shù)量。然而最近,David Arthur和Sergei Vassilvitskii提出存在特定的點(diǎn)集使得k平均算法花費(fèi)超多項式時間達(dá)到收斂。近似的k平均算法已經(jīng)被設(shè)計用于原始數(shù)據(jù)子集的計算。 k平均算法從算法的表現(xiàn)上來說并不保證肯定能夠得到對問題的全局最優(yōu)解,初始化的分組通常會決定最終解的質(zhì)量。由于k平均算法的計算速度比較迅速,所以通常情況下經(jīng)常選擇使用多次k平均算法來得到對問題的全局最優(yōu)解。 k平均算法的一個缺點(diǎn)是分組的數(shù)目,
47、因?yàn)橐话闱闆r下分組的數(shù)目k是作為輸入?yún)?shù)的,所以不科學(xué)的輸入?yún)?shù)k會返回和實(shí)際偏差較大的結(jié)果。此外,k平均算法基于均方誤差是計算群組分散度的最佳參數(shù)這個假設(shè)。 2.4小結(jié) 主要對數(shù)據(jù)挖掘技術(shù)做了介紹,并且對系統(tǒng)要用到的數(shù)據(jù)挖掘技術(shù)做了說明,并分別對每項技術(shù)做了詳細(xì)介紹,闡明各項技術(shù)選擇的重要性。 第3章 基于BP神經(jīng)網(wǎng)絡(luò)算法的個人信用風(fēng)險評估 本章主要介紹基于BP神經(jīng)網(wǎng)絡(luò)算法的商業(yè)銀行客戶信用風(fēng)險評估,首先介紹了BP神經(jīng)網(wǎng)絡(luò)算法的基本原理,然后介紹了如何用BP神經(jīng)網(wǎng)絡(luò)算法實(shí)現(xiàn)對商
48、業(yè)銀行客戶信用風(fēng)險進(jìn)行評估。 3.1神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)機(jī)理和機(jī)構(gòu) 在神經(jīng)網(wǎng)絡(luò)算法中占有舉足輕重地位的是學(xué)習(xí)方法。隨著數(shù)據(jù)挖掘及神經(jīng)網(wǎng)絡(luò)算法的不斷發(fā)展,學(xué)習(xí)算法也隨之不斷更新進(jìn)步。自從上個世紀(jì)40年代Hebb提出了被稱為Hebb定律”的突觸學(xué)習(xí)的模型之后,眾多學(xué)者和專家在此基礎(chǔ)上相繼提出了多種滿足不同需求的學(xué)習(xí)算法。在這眾多的學(xué)習(xí)算法中,影響力比較大且在實(shí)際應(yīng)用價值比較高的當(dāng)屬Rumelhart等在上個世紀(jì)90年代提出的誤差反向傳播(error BackPropagation)算法。 3.1.1感知器的學(xué)習(xí)結(jié)構(gòu) 神經(jīng)網(wǎng)絡(luò)中最經(jīng)典的學(xué)習(xí)方法是感知器的學(xué)習(xí),目前感知器的學(xué)習(xí)在控制
49、上應(yīng)用的是多層前饋網(wǎng)絡(luò),學(xué)習(xí)采用的算法是誤差反向傳播(error BackPropagation)算法,誤差反向傳播(BP)算法是一個有教師的學(xué)習(xí)算法。圖3.1-1表示有教師的學(xué)習(xí)算法。有教師的學(xué)習(xí)算法由輸入部、訓(xùn)練部以及輸出部三個部分組成。 將輸入樣本X輸入輸入部并由輸入部傳遞給訓(xùn)練部,神經(jīng)網(wǎng)絡(luò)的權(quán)系數(shù)W是由訓(xùn)練部負(fù)責(zé)調(diào)整的,神經(jīng)網(wǎng)絡(luò)的權(quán)系數(shù)W調(diào)整完成后傳遞給輸出部并由輸出部輸出計算的結(jié)果。神經(jīng)網(wǎng)絡(luò)的權(quán)系數(shù)W是由教師信號與實(shí)際輸出的結(jié)果進(jìn)行比較得出的誤差來確定的。 圖3.1-2表示學(xué)習(xí)機(jī)構(gòu)的結(jié)構(gòu)。在圖3.1-2中,Xl ,X2 ,…,Xn 這些表示輸入樣本信號,而神經(jīng)網(wǎng)絡(luò)中權(quán)系數(shù)用W1
50、,W2 ,…,Wn 來表示。 圖3.1-1 神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)系統(tǒng)框架圖 Xi 作為輸入樣本的信號可以用“0”或“1”離散的值來表示。u通過在輸入樣本信號中神經(jīng)網(wǎng)絡(luò)中權(quán)系數(shù)Wn的作用下產(chǎn)生輸出結(jié)果 ∑WiXi,如公式3.1-1所示: u=∑WiXi=W1X1+W2X2+…+WnXn 3.1-1 圖3.1-2 學(xué)習(xí)機(jī)構(gòu) 誤差信號e的產(chǎn)生是把期望輸出信號Y(t)和u進(jìn)行比較而產(chǎn)生的。神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)過程要重復(fù)很多次(甚至達(dá)萬次級)因而是比較費(fèi)時的。耗時的主要因素在于一個多參數(shù)修改系統(tǒng)來確定神經(jīng)網(wǎng)絡(luò)的權(quán)系數(shù)W 。因此提高神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)速度并且盡可能減少神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)重復(fù)
51、次數(shù)是是神經(jīng)網(wǎng)絡(luò)算法中的關(guān)鍵所在。 3.1.2梯度下降法算法 梯度下降法算法是最優(yōu)化算法的一種,通常也被稱為最速下降法。梯度下降法一般是基于這樣的觀察:如果實(shí)值函數(shù)F(x)在點(diǎn)a處可微且有定義,那么函數(shù)F(x)在a點(diǎn)沿著梯度相反的方向 -F(a)下降最快[22]。 由于反向傳播算法需要使用梯度下降法來計算平方誤差函數(shù)對網(wǎng)絡(luò)權(quán)重的導(dǎo)數(shù)。先假設(shè)對于一個輸出神經(jīng)元平方誤差函數(shù)如公式3.1-2所示。 3.1-2 E 為神經(jīng)元的平方誤差。 t 為給定數(shù)據(jù)樣本的訓(xùn)練樣本的目標(biāo)輸出。 y 為BP神經(jīng)網(wǎng)絡(luò)輸出神經(jīng)元的輸出的實(shí)際結(jié)果。 因?yàn)橐窒⒎殖鰜淼闹笖?shù),所以要加入系數(shù)1/2。
52、接下來,這個表達(dá)式會乘以一個給定的隨機(jī)的學(xué)習(xí)速率,所以在這里乘上一個常系數(shù)是對結(jié)果是沒有影響的。 對每個神經(jīng)元j的輸出Oj可以定義如公式3.1-3所示。 3.1-3 之前神經(jīng)元的輸出OK的加權(quán)和是通向一個神經(jīng)元的輸入netj得出的。若該神經(jīng)元輸出層后的第一層,輸入層的輸出OK就是網(wǎng)絡(luò)的輸入XK。該神經(jīng)元的輸入數(shù)量是 n。變量Wij反應(yīng)神經(jīng)元i和神經(jīng)元j之間的權(quán)重關(guān)系。激活函數(shù)一般情況下是可微的非線性函數(shù)[23]。邏輯函數(shù)(公式3.1-4)經(jīng)常被用作激活函數(shù): 3.1-4 邏輯函數(shù)的導(dǎo)數(shù)的形式如公式3.1-5: 3.1-5 得出誤差對權(quán)重的偏導(dǎo)數(shù)是連續(xù)使用兩次鏈?zhǔn)椒▌t(3
53、.1-6)計算得到的: 3.1-6 上式中右邊的最后一項只有加權(quán)和netj取決于Wij,因此: 3.1-7 所以假定使用邏輯函數(shù)的情況下神經(jīng)元 j的輸出對其輸入的導(dǎo)數(shù)就是激活函數(shù)的偏導(dǎo)數(shù)(3.1-8): 3.1-8 上面的推導(dǎo)說明了為什么反向傳播的激活函數(shù)必須是可微的。如果神經(jīng)元全部都在輸出層中 3.1-9 并且此時Oj= y 直接計算出第一項。但假設(shè) j 是不全部在輸出層中,而是在網(wǎng)絡(luò)中隨意的一內(nèi)層內(nèi),求 E 關(guān)于Oj的導(dǎo)數(shù)就變得比較困難。把E作為一個輸入函數(shù),這個輸入函數(shù)的輸入對象是來自神經(jīng)元 j 的所有神經(jīng)元 L=u,v,w...。 3.1-10
54、然后關(guān)于函數(shù)Oj求全微分,求出Oj全微分很容易得到這個導(dǎo)數(shù)的遞歸表達(dá)式(3.1-11): 3.1-11 同理,如果知道全部的關(guān)于下一層或者更接近輸出神經(jīng)元的那一層的輸出 OL的導(dǎo)數(shù),就可以根據(jù) OL的導(dǎo)數(shù)計算Oj的導(dǎo)數(shù)。并且把這兩個導(dǎo)數(shù)放在一起(3.1-12)。 3.1-12 其中 3.1-13 計算 Wij如果要使用梯度下降法,必須指定一個學(xué)習(xí)速率阿爾法。原本的權(quán)重上的權(quán)重的變化等于學(xué)習(xí)速率與梯度的乘積乘以 -1(3.1-140。 3.1-14 上市之所以乘以-1 是的原因是要更新的不是誤差極大值的方向,而是函數(shù)極小值的方向。 3.1.3反向傳播(B
55、P)算法 反向傳播算法是“誤差反向傳播”算法的簡稱,反向傳播算法是一種和最優(yōu)化方法,通常情況下是梯度下降法相結(jié)合應(yīng)用的,反向傳播算法通常被作為訓(xùn)練人工神經(jīng)網(wǎng)絡(luò)的算法。反向傳播算法計算神經(jīng)網(wǎng)絡(luò)中所有權(quán)重?fù)p失函數(shù)的梯度。計算得出的梯度會傳遞給最優(yōu)化的方法,然后最優(yōu)化的方法以最小化損失函數(shù)用來更新權(quán)值。反向傳播算法通常被認(rèn)為是一種有監(jiān)督式的學(xué)習(xí)方法,但是反向傳播算法有時也用在一些無監(jiān)督的網(wǎng)絡(luò)中[24]。 BP神經(jīng)網(wǎng)絡(luò)算法的實(shí)現(xiàn)步驟如圖3.1-3所示。首先是網(wǎng)絡(luò)初始化,要對權(quán)值和閾值進(jìn)行初始化,對權(quán)值和閾值進(jìn)行初始化即是給輸入層到隱藏層各單元之間連接權(quán)值以及隱藏層到輸出層之間連接權(quán)值,輸出層閾
56、值和隱含層的閾值一般情況下隨機(jī)賦予一個介于零和一之間的小數(shù)[25]。然后是選取訓(xùn)練樣本及對選取的訓(xùn)練樣本的預(yù)處理,跟據(jù)研究的目的,需要提供訓(xùn)練樣本X=(x1,x2……xm),與此同時還要提供相對應(yīng)的檢驗(yàn)樣本D=(d1,d2……dm)。因?yàn)锽P神經(jīng)網(wǎng)絡(luò)各層的學(xué)習(xí)算法存在差異性,且BP神經(jīng)網(wǎng)絡(luò)各層所用的激活函數(shù)也可能不同,有必要在樣本輸入之前要對選取的輸入樣本作歸一化處理。第三步是樣本計算輸出,輸入層節(jié)點(diǎn)接收訓(xùn)練樣本xi的值后會逐個計算每層神經(jīng)元的實(shí)際輸出,直到輸出層結(jié)果收斂到較為理想的結(jié)果。然后輸出層會將輸出結(jié)果進(jìn)行還原處理,還原處理后會得到實(shí)際值,用得到的實(shí)際值計算其與檢驗(yàn)樣本D(期望輸出)之
57、間的偏差,如果偏差在可接受范圍以內(nèi),就得到訓(xùn)練好的BP神經(jīng)網(wǎng)絡(luò),并可以用訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)做下一步的研究工作,如果不滿足要求則繼續(xù)進(jìn)行迭代處理,直到得到理想的結(jié)果為止。接下來是調(diào)整神經(jīng)網(wǎng)絡(luò)各層之間的連接權(quán)值。首先要計算神經(jīng)網(wǎng)絡(luò)各層之間的誤差,得到一個從輸出層節(jié)點(diǎn)到隱含層節(jié)點(diǎn)最后到輸入層節(jié)點(diǎn)的逐層修改前后層之間的權(quán)重。最后返回第三步重新計算直到誤差在可接受范圍以內(nèi)才終止計算。 圖3.1-3 BP神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)算法流程圖 在BP神經(jīng)網(wǎng)絡(luò)算法中,理論已經(jīng)證明網(wǎng)絡(luò)的層數(shù)具有偏差和至少一個S型隱藏層加上一個線性輸出層的網(wǎng)絡(luò)就能夠逼近任何有理函數(shù),雖然增加神經(jīng)網(wǎng)絡(luò)的層數(shù)可以有效的使誤差降低,提
58、高準(zhǔn)確率,但也會使構(gòu)建的神經(jīng)網(wǎng)絡(luò)過度復(fù)雜化。此外不可以使用激活函數(shù)是線性的單層網(wǎng)絡(luò)來進(jìn)行計算,因?yàn)樽赃m應(yīng)線性網(wǎng)絡(luò)的功能要遠(yuǎn)遠(yuǎn)強(qiáng)于單層網(wǎng)絡(luò)解決的功能,并且且自適應(yīng)線性網(wǎng)絡(luò)相對單層網(wǎng)絡(luò)來說運(yùn)算速度更快。網(wǎng)絡(luò)學(xué)習(xí)的結(jié)構(gòu)如圖3.1-4所示。 圖3.1-4 網(wǎng)絡(luò)學(xué)習(xí)結(jié)構(gòu) 神經(jīng)網(wǎng)絡(luò)精度受隱層神經(jīng)元的數(shù)量的影響,一般而言隨著隱藏層數(shù)量的增加神經(jīng)網(wǎng)絡(luò)的訓(xùn)練精度也隨之增加。有時也可以只用一個隱含層但是增加這個隱藏層神經(jīng)元的數(shù)量來提高網(wǎng)絡(luò)的訓(xùn)練精度,只采用一個隱藏層這種辦法比增加隱藏層的層數(shù)在實(shí)現(xiàn)上要比較簡單。通常情況下,采用精度和神經(jīng)網(wǎng)絡(luò)算法訓(xùn)練網(wǎng)絡(luò)的時間來估測神經(jīng)網(wǎng)絡(luò)算法的質(zhì)量。當(dāng)神經(jīng)網(wǎng)絡(luò)算法的神
59、經(jīng)元數(shù)量比較少時,神經(jīng)網(wǎng)絡(luò)網(wǎng)絡(luò)不能很好的學(xué)習(xí)以及訓(xùn)練迭代的次數(shù)也比較多從而導(dǎo)致訓(xùn)練精度不高。但是當(dāng)神經(jīng)網(wǎng)絡(luò)算法使用比較多的神經(jīng)元時,網(wǎng)絡(luò)的功能雖然變得更加強(qiáng)大,卻有可能會出現(xiàn)過擬合現(xiàn)象。所以神經(jīng)網(wǎng)絡(luò)隱藏層神經(jīng)元個數(shù)的選取原則是在能夠?qū)崿F(xiàn)目的的基礎(chǔ)上,適當(dāng)?shù)募由弦粋€或者兩個神經(jīng)元以便加快誤差下降速度即可。在神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)中的學(xué)習(xí)速率一般取0.01?0.8之間的一個小數(shù),因?yàn)檫x取的學(xué)習(xí)速率過大會使系統(tǒng)變得不太穩(wěn)定,而如果選取小的學(xué)習(xí)速率,又會導(dǎo)致收斂太慢從而需要較長的訓(xùn)練時間。 3.2實(shí)驗(yàn)數(shù)據(jù)的結(jié)構(gòu)及預(yù)處理 本實(shí)驗(yàn)采用的數(shù)據(jù)來源于德國某商業(yè)銀行客戶信貸數(shù)據(jù)記錄,該表記錄了1000條客
60、戶信貸數(shù)據(jù),該表的數(shù)據(jù)結(jié)構(gòu)定義如表3.2-1所示。 表3.2-1 序號 變量名稱 變量釋義 變量類型 變量描述 1 ID 屬性編號 整型 ... 2 check_acc 現(xiàn)有支票的賬戶狀況 類數(shù)據(jù) 1 : ... < 0 DM 2 : 0 <= ... < 200 DM 3 : ... >= 200 DM / 4 : 無支票賬戶 3 duration 每月信用期長 類數(shù)據(jù) ... 4 cre_history 信用歷史 類數(shù)據(jù)
61、A30 : no credits taken/all credits paid back duly A31 : all credits at this bank paid back duly A32 : existing credits paid back duly till now A33 : delay in paying off in the past A34 : critical account/other credits existing (not at this bank) (續(xù)表) 序號 變量名稱 變量釋義 變量類型 變量描述
62、 5 purpose 使用目的 類數(shù)據(jù) A40 : car (new) A41 : car (used) A42 : furniture/equipment A43 : radio/television A44 : domestic appliances A45 : repairs A46 : education A47 : (vacation - does not exist?) A48 : retraining A49 : business A410 : others 6 cre_amoun
63、t 信用額度 整型 ... 7 sav_ account 儲蓄賬戶金額 類數(shù)據(jù) A61 : ... < 100 DM A62 : 100 <= ... < 500 DM A63 : 500 <= ... < 1000 DM A64 : .. >= 1000 DM A65 : unknown/ no savings account 8 pre_emp 目前就業(yè)情況 類數(shù)據(jù) A71 : unemployed A72
64、 : ... < 1 year A73 : 1 <= ... < 4 years A74 : 4 <= ... < 7 years A75 : .. >= 7 years (續(xù)表) 序號 變量名稱 變量釋義 變量類型 變量描述 9 sex_status 性別和婚姻狀況 類數(shù)據(jù) A91 : male : divorced/separated A92 :female :divorced/separated/married A93 : male : single A94 : male : mar
65、ried/widowed A95 : female : single 10 deb_guar 是否擁有共同賬戶人或著擔(dān)保人 類數(shù)據(jù) A101 : none A102 : co-applicant A103 : guarantor 11 pre_res 目前居住地(年) 整型 ... 12 property 財產(chǎn)狀況 類數(shù)據(jù) A121 : real estate A122 : if not A121 : building society savings agreement/life insurance A12
66、3 : if not A121/A122 : car or other, not in attribute 6 A124 : unknown / no property 13 age 年齡 整型 ... 14 other_install 其他的貸款情況 類數(shù)據(jù) A141 : bank A142 : stores A143 : none (續(xù)表) 序號 變量名稱 變量釋義 變量類型 變量描述 15 housing 房子擁有狀況 類數(shù)據(jù) A151 : rent A152 : own A153 : for free 16 existing_credit 客戶信用卡的數(shù)量 整型 ... 17 job 工作狀況 類數(shù)據(jù) A171 : unemployed/ unskilled - non-resident A172 : unskilled - resident A173 : skilled employee / offici
- 溫馨提示:
1: 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2: 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3.本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 裝配圖網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- Storytime (2)
- 【四清導(dǎo)航】秋八年級數(shù)學(xué)上冊 3.3 一元一次不等式(第3課時)課件 (新版)浙教版
- 海淀區(qū)域P4P實(shí)操診斷課件
- 三年級記事作文指導(dǎo)
- 醫(yī)院內(nèi)感染的預(yù)防和控制
- 機(jī)械設(shè)計第十章習(xí)題
- 華泰汽車“全心服務(wù)_貼心關(guān)懷”管理知識分析方案
- Unit 11 Lesson 2 What's the matter 課件 1
- 創(chuàng)業(yè)大賽設(shè)計中財務(wù)分析方法與技巧
- 從現(xiàn)在開始課件 (4)(精品)
- 蛋白質(zhì)促降解與氨基酸代謝
- (精品)電視原理第1章1
- 術(shù)中病情觀察小講課
- 日系汽車研發(fā)質(zhì)量管控
- 6Sigma的管理理論(ppt 30頁)