基于數(shù)據(jù)挖掘的商業(yè)銀行個(gè)人信用風(fēng)險(xiǎn)評(píng)估平臺(tái)設(shè)計(jì)與實(shí)現(xiàn)[共69頁(yè)]
《基于數(shù)據(jù)挖掘的商業(yè)銀行個(gè)人信用風(fēng)險(xiǎn)評(píng)估平臺(tái)設(shè)計(jì)與實(shí)現(xiàn)[共69頁(yè)]》由會(huì)員分享,可在線閱讀,更多相關(guān)《基于數(shù)據(jù)挖掘的商業(yè)銀行個(gè)人信用風(fēng)險(xiǎn)評(píng)估平臺(tái)設(shè)計(jì)與實(shí)現(xiàn)[共69頁(yè)](70頁(yè)珍藏版)》請(qǐng)?jiān)谘b配圖網(wǎng)上搜索。
1、 畢業(yè)設(shè)計(jì)(論文) 論 文 題 目: 基于數(shù)據(jù)挖掘的商業(yè)銀行個(gè)人信用風(fēng)險(xiǎn)評(píng)估平臺(tái)設(shè)計(jì)與實(shí)現(xiàn) 學(xué) 生 姓 名: 學(xué) 生 學(xué) 號(hào): 專 業(yè) 班 級(jí): 學(xué) 院 名 稱: 指 導(dǎo) 老 師: 學(xué) 院 院 長(zhǎng): 2016年05月27日 基于數(shù)據(jù)挖掘的商業(yè)銀行個(gè)人信用風(fēng)險(xiǎn)評(píng)估平臺(tái)設(shè)計(jì)與實(shí)現(xiàn) 摘 要 計(jì)算機(jī)技術(shù)和信息技術(shù)的不斷發(fā)展,帶給我們便利的同時(shí)也帶來(lái)一系列問(wèn)題,其中一個(gè)問(wèn)題是數(shù)據(jù)量的爆炸式增長(zhǎng)以及數(shù)據(jù)之間的關(guān)系愈發(fā)復(fù)
2、雜,如何對(duì)這些海量的數(shù)據(jù)進(jìn)行處理,發(fā)掘隱藏在數(shù)據(jù)中潛在的理論價(jià)值和實(shí)際價(jià)值也成為生活中各個(gè)領(lǐng)域關(guān)注的焦點(diǎn)。 隨著我國(guó)經(jīng)濟(jì)的不斷發(fā)展,城市和農(nóng)村居民的收入和消費(fèi)水平有著顯著提升,個(gè)人信貸業(yè)務(wù)已經(jīng)成為商業(yè)銀行主營(yíng)業(yè)務(wù)之一,但目前我國(guó)商業(yè)銀行在個(gè)人信用風(fēng)險(xiǎn)評(píng)估方面存在著不足。因此,研究如何利用數(shù)據(jù)挖掘技術(shù)從銀行現(xiàn)有的客戶數(shù)據(jù)中分析客戶的信用風(fēng)險(xiǎn),具有重要的理論價(jià)值和實(shí)際意義。 本文首先對(duì)數(shù)據(jù)挖掘的概念、發(fā)展現(xiàn)狀進(jìn)行了介紹。其次對(duì)數(shù)據(jù)挖掘的算法進(jìn)行了介紹,分析了本系統(tǒng)會(huì)用到的數(shù)據(jù)挖掘的算法。然后,結(jié)合商業(yè)銀行在客戶信用風(fēng)險(xiǎn)評(píng)估方面遇到的問(wèn)題進(jìn)行了需求分析。在此基礎(chǔ)上,提出了基于BP神經(jīng)網(wǎng)絡(luò)以及決策
3、樹(shù)算法的商業(yè)銀行個(gè)人信用風(fēng)險(xiǎn)評(píng)估模型,為商業(yè)銀行個(gè)人信用風(fēng)險(xiǎn)評(píng)估提供了可行的解決方案。 關(guān)鍵詞:數(shù)據(jù)挖掘;BP神經(jīng)網(wǎng)絡(luò);決策樹(shù);信用風(fēng)險(xiǎn) Design and Implementation of Commercial Banks Credit Risk Assessment Based on Data Mining Abstract The development of computer technology and information technology bring us convenience, but also broug
4、ht a series of problems, one of the problems is the relationship between the amount of data as well as the explosive growth of data between the more and more complex, and how these massive data processing discover hidden potential data theoretic value and practical value has become the focus of atte
5、ntion in all areas of life. As China's economy continues to develop, income and consumption level of urban and rural residents has significantly improved, consumer credit business has become one of the main business of commercial banks, commercial banks in China but there is a lack of personal cred
6、it risk assessment. Therefore, studying how to use data mining techniques to analyze customer credit risk from the bank's existing customer data, has important theoretical and practical significance. Firstly, the concept, development status data mining are introduced. Secondly, the data mining algo
7、rithms are introduced, we analyzed the system will use data mining algorithms. Then, combined with problems encountered by commercial banks in customer credit risk assessment needs analysis. On this basis, the proposed individual credit risk assessment model based on BP neural network and decision t
8、ree algorithm based commercial bank, and the proposed model has been improved and validated commercial bank personal credit risk provides a feasible solution program evaluation. Key Words: Data mining; BP neural network; decision tree; Credit Risk 目錄 第1章 緒論 1 1.1研究背景和研究意義 1 1.1.1研究背
9、景 1 1.1.2研究意義 3 1.2國(guó)內(nèi)外研究綜述 4 1.2.1數(shù)據(jù)挖掘研究現(xiàn)狀 4 1.2.2商業(yè)銀行信用風(fēng)險(xiǎn)研究現(xiàn)狀 6 1.3論文的主要工作和內(nèi)容結(jié)構(gòu) 7 第2章 數(shù)據(jù)挖掘算法及相關(guān)技術(shù) 9 2.1數(shù)據(jù)挖掘的概念 9 2.2數(shù)據(jù)挖掘的過(guò)程 9 2.3數(shù)據(jù)挖掘的常用算法 10 2.3.1人工神經(jīng)網(wǎng)絡(luò) 11 2.3.2決策樹(shù) 11 2.3.3遺傳算法 12 2.3.4近鄰算法 13 2.3.5 k-means算法 13 2.4小結(jié) 14 第3章 基于BP神經(jīng)網(wǎng)絡(luò)算法的個(gè)人信用風(fēng)險(xiǎn)評(píng)估 15 3.1神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)機(jī)理和機(jī)構(gòu) 15 3.1.1感知器
10、的學(xué)習(xí)結(jié)構(gòu) 15 3.1.2梯度下降法算法 17 3.1.3反向傳播(BP)算法 19 3.2實(shí)驗(yàn)數(shù)據(jù)的結(jié)構(gòu)及預(yù)處理 22 3.2.1數(shù)據(jù)預(yù)處理 25 3.2.2數(shù)據(jù)指標(biāo)選取 26 3.3基于BP神經(jīng)網(wǎng)絡(luò)的信用風(fēng)險(xiǎn)評(píng)估方法模型 29 3.3.1網(wǎng)絡(luò)的構(gòu)建及訓(xùn)練 29 3.3.2模型測(cè)試結(jié)果 30 3.4小結(jié) 33 第4章 基于決策樹(shù)算法的個(gè)人信用風(fēng)險(xiǎn)評(píng)估 34 4.1 決策樹(shù)算法概述 34 4.1.1 ID3算法 34 4.1.2 C4.5算法與C5.0算法 37 4.2 基于C5.0算法的決策樹(shù)方法個(gè)人信用風(fēng)險(xiǎn)評(píng)估模型 39 4.2.1 數(shù)據(jù)采集 39 4.2
11、.2 數(shù)據(jù)變換 40 4.2.3 決策樹(shù)的構(gòu)建 43 4.2.4 評(píng)估模型及模型優(yōu)化 48 4.3小結(jié) 50 第5章 基于數(shù)據(jù)挖掘的個(gè)人信用風(fēng)險(xiǎn)評(píng)估系統(tǒng)的實(shí)現(xiàn) 51 5.1 開(kāi)發(fā)環(huán)境的搭建 51 5.1.1 R語(yǔ)言開(kāi)發(fā)環(huán)境搭建 51 5.1.2 Shiny Server安裝與配置 52 5.2 模塊關(guān)鍵功能實(shí)現(xiàn) 53 5.2.1 基于BP神經(jīng)網(wǎng)絡(luò)算法評(píng)估客戶信用風(fēng)險(xiǎn)的實(shí)現(xiàn) 54 5.2.2 基于決策樹(shù)絡(luò)算法評(píng)估客戶信用風(fēng)險(xiǎn)的實(shí)現(xiàn) 56 5.3小結(jié) 58 總結(jié)與展望 59 致謝 60 參考文獻(xiàn) 61
12、 第1章 緒論 本章首先介紹了以數(shù)據(jù)挖掘算法和技術(shù)為基礎(chǔ)的商業(yè)銀行個(gè)人信用風(fēng)險(xiǎn)分析的研究背景和研究意義。隨著社會(huì)經(jīng)濟(jì)的發(fā)展和國(guó)民消費(fèi)水平及觀念的提升,個(gè)人信貸市場(chǎng)已經(jīng)成為銀行業(yè)的主營(yíng)業(yè)務(wù)之一,銀行的客戶數(shù)據(jù)量規(guī)模十分龐大,用數(shù)據(jù)挖掘技術(shù)從這些海量數(shù)據(jù)中發(fā)現(xiàn)科學(xué)有效的個(gè)人信用風(fēng)險(xiǎn)評(píng)估和預(yù)測(cè)模型具有重要的理論意義和實(shí)際價(jià)值。 1.1研究背景和研究意義 2010年9月12日,國(guó)際清算銀行(BIS)的巴塞爾銀行業(yè)條例和監(jiān)督委員會(huì)的常設(shè)委員會(huì)——“巴塞爾委員會(huì)”宣布,各方代表就《巴塞爾協(xié)議III》的內(nèi)容達(dá)成一致。《巴塞爾協(xié)議III》將商業(yè)銀行的風(fēng)險(xiǎn)分為
13、信用風(fēng)險(xiǎn)、市場(chǎng)風(fēng)險(xiǎn)和操作風(fēng)險(xiǎn),其中信用風(fēng)險(xiǎn)是銀行面臨的主要風(fēng)險(xiǎn)[1]。而個(gè)人信貸風(fēng)險(xiǎn)又是銀行信用風(fēng)險(xiǎn)中的主要組成部分,銀行具有高水平的信用風(fēng)險(xiǎn)管理制度決定了其穩(wěn)定的運(yùn)行,因此,為滿足銀行自身運(yùn)營(yíng)要求和提高自身風(fēng)險(xiǎn)管理水平,商業(yè)銀行加快建設(shè)個(gè)人信貸風(fēng)險(xiǎn)評(píng)估系統(tǒng)具有重要的現(xiàn)實(shí)意義。 1.1.1研究背景 從風(fēng)險(xiǎn)管理控制來(lái)說(shuō),金融體系的風(fēng)險(xiǎn)管理有著十分悠久的歷史,隨著社會(huì)經(jīng)濟(jì)以及全球經(jīng)濟(jì)一體化的發(fā)展,在風(fēng)險(xiǎn)管理方面,其理論和實(shí)踐都取得了很大進(jìn)展。國(guó)外對(duì)金融風(fēng)險(xiǎn)管理比較深入,近幾年發(fā)現(xiàn)了層出不窮的各種理論和模型,例如:資本資產(chǎn)定價(jià)理論、套利定價(jià)理論、Credit Metrics模型、KVM
14、模型等[2]。在實(shí)踐中這些理論和模型取得了巨大成功,因而刺激了西方金融市場(chǎng)的發(fā)展,反過(guò)來(lái),西方金融市場(chǎng)的發(fā)展又對(duì)金融風(fēng)險(xiǎn)理論研究提出了新的要求。 縱觀世界銀行業(yè)的發(fā)展,20世紀(jì)70年代,銀行的經(jīng)營(yíng)環(huán)境相對(duì)比較穩(wěn)定,其穩(wěn)定的原因是多方面的。其中,法律監(jiān)管制度對(duì)銀行業(yè)的穩(wěn)定發(fā)展起到了決定性的作用,那時(shí),銀行業(yè)的主要經(jīng)營(yíng)業(yè)務(wù)比較單一,僅限于存款貸款業(yè)務(wù),外部競(jìng)爭(zhēng)有限,銀行具有穩(wěn)定的高額的利潤(rùn)。法律監(jiān)管關(guān)注的重點(diǎn)是銀行業(yè)的安全發(fā)展和對(duì)貨幣創(chuàng)造能力的控制,并且法律在監(jiān)管銀行業(yè)經(jīng)營(yíng)范圍的同時(shí),也從各個(gè)反面大大降低了銀行業(yè)所承擔(dān)的風(fēng)險(xiǎn)。 從20世紀(jì)70年代至今,銀行業(yè)掀起了深刻的變革浪潮,在推動(dòng)銀行業(yè)變
15、革的因素中,有三個(gè)因素顯得尤為重要: 第一,金融市場(chǎng)職能的日益膨脹,由于國(guó)際資本市場(chǎng)在深度和廣度上的快速發(fā)展,一大部分企業(yè)選擇發(fā)行股票和債券在市場(chǎng)上籌措企業(yè)的發(fā)展資金,這導(dǎo)致了金融非中介化的快速發(fā)展,這些變化給金融市場(chǎng)的參與者,尤其是銀行業(yè),帶來(lái)了新的機(jī)遇,機(jī)遇與挑戰(zhàn)并存,因此也帶來(lái)了新的挑戰(zhàn)。 第二,金融管制的放松,隨著金融市場(chǎng)的不斷發(fā)展與金融制度的自我完善,一些舊的金融管制制度開(kāi)始改變甚至消失。原有監(jiān)管制度的改編和消失,使得政府或者金融監(jiān)管部門不能像過(guò)去那樣利用分業(yè)管理制度來(lái)控制風(fēng)險(xiǎn)行為[3]。因此,這些監(jiān)管部門開(kāi)始重新制定能夠保障金融業(yè)安全的監(jiān)管規(guī)則。新的規(guī)則主要是由國(guó)際清算銀行負(fù)責(zé)
16、制定,然后各國(guó)的政府將其應(yīng)用到國(guó)內(nèi)金融業(yè)中去。 第三,金融行業(yè)競(jìng)爭(zhēng)日益加劇。金融管制的放松大大拓寬了銀行所能提供的產(chǎn)品和服務(wù)的范圍。各種新產(chǎn)品,比如金融衍生工具和期權(quán)、期貨等的產(chǎn)生,傳統(tǒng)的商業(yè)銀行開(kāi)始積極探索新的市場(chǎng)機(jī)會(huì),研究開(kāi)發(fā)新的產(chǎn)品的服務(wù),非傳統(tǒng)業(yè)務(wù)的比重迅速增加。增值性服務(wù),比如交易咨詢、資產(chǎn)并購(gòu)、項(xiàng)目融資、信用卡、衍生工具等獲得飛速的發(fā)展。通過(guò)涉足新的領(lǐng)域和開(kāi)發(fā)新的金融產(chǎn)品,銀行業(yè)需要承擔(dān)新類型的風(fēng)險(xiǎn)。 銀行業(yè)的變革使得銀行業(yè)飛速的發(fā)展,但同時(shí)也帶來(lái)了新的風(fēng)險(xiǎn)。風(fēng)險(xiǎn)的增加是由新競(jìng)爭(zhēng)出現(xiàn)、產(chǎn)品的創(chuàng)新、銀行主營(yíng)業(yè)務(wù)的轉(zhuǎn)型和創(chuàng)新、市場(chǎng)波動(dòng)的加劇以及金融機(jī)構(gòu)業(yè)務(wù)范圍限制的解除帶來(lái)的。所以
17、隨著銀行業(yè)的發(fā)展,銀行業(yè)需要承擔(dān)更多的風(fēng)險(xiǎn),風(fēng)險(xiǎn)管理顯得尤為重要。 從數(shù)據(jù)挖掘技術(shù)來(lái)說(shuō),數(shù)據(jù)挖掘起始于20世紀(jì)下半葉,是在當(dāng)時(shí)多個(gè)學(xué)科發(fā)展的基礎(chǔ)上發(fā)展起來(lái)的。數(shù)據(jù)庫(kù)技術(shù)日益發(fā)展,大大提高了數(shù)據(jù)的存儲(chǔ)與處理能力。但是與之而來(lái)的是數(shù)據(jù)的不斷積累,龐大的數(shù)據(jù)使得傳統(tǒng)的增刪改查功能無(wú)法滿足人們對(duì)數(shù)據(jù)的需求,急因需要發(fā)展更好的數(shù)據(jù)處理技術(shù)去挖掘龐大數(shù)據(jù)背后隱藏的信息。與此同時(shí),與此同時(shí),進(jìn)入21世紀(jì)以來(lái),人工智能技術(shù)進(jìn)入飛速發(fā)展階段,Google公司的AlphaGo產(chǎn)品等標(biāo)志著人工智能革命的興起,從此機(jī)器學(xué)習(xí)將應(yīng)用到現(xiàn)實(shí)領(lǐng)域。因此,人們將兩者結(jié)合起來(lái),存儲(chǔ)數(shù)據(jù)使用數(shù)據(jù)庫(kù)管理系統(tǒng),使用數(shù)據(jù)挖掘技術(shù)進(jìn)行數(shù)
18、據(jù)分析,并且嘗試挖掘隱藏在數(shù)據(jù)背后的知識(shí)[4]。這兩者的結(jié)合促生了一門新的學(xué)科,即數(shù)據(jù)庫(kù)中的知識(shí)發(fā)現(xiàn)(Knowledge Discovery in Databases,KDD)。而數(shù)據(jù)挖掘(Data Mining)則是知識(shí)發(fā)現(xiàn)(KDD)的核心部分,它指的是從數(shù)據(jù)集合中自動(dòng)抽取隱藏在數(shù)據(jù)中的那些有用信息的非平凡過(guò)程,進(jìn)入21世紀(jì),數(shù)據(jù)挖掘已經(jīng)成為一門比較成熟的交叉學(xué)科,并且數(shù)據(jù)挖掘技術(shù)也伴隨著信息技術(shù)的發(fā)展日益成熟起來(lái)。將數(shù)據(jù)挖掘技術(shù)應(yīng)用到銀行信用風(fēng)險(xiǎn)分析成為了可能。 1.1.2研究意義 信用風(fēng)險(xiǎn)是最古老的風(fēng)險(xiǎn),而且在潛在損失的規(guī)模方面也許是最重要的風(fēng)險(xiǎn)。目前,信用風(fēng)險(xiǎn)的評(píng)價(jià)正沿著幾
19、個(gè)方向發(fā)展:第一,對(duì)貸款組合信用風(fēng)險(xiǎn)的評(píng)價(jià);第二,對(duì)市場(chǎng)工具信用風(fēng)險(xiǎn)的評(píng)價(jià);第三,對(duì)信用風(fēng)險(xiǎn)的VAR值的計(jì)算;第四,貸款組合管理。 信用風(fēng)險(xiǎn),是指因借款人發(fā)生違約或借款人信用等級(jí)下降產(chǎn)生損失的風(fēng)險(xiǎn)[5]。風(fēng)險(xiǎn)的“量”是貸款的余額,風(fēng)險(xiǎn)的“質(zhì)”是指發(fā)生違約的可能性和在違約發(fā)生時(shí)減少損失的擔(dān)保措施。本篇研究的商業(yè)銀行個(gè)人信用風(fēng)險(xiǎn)主要指的是客戶的違約風(fēng)險(xiǎn)。一般使用商業(yè)銀行一定時(shí)期內(nèi)客戶違約發(fā)生的概率來(lái)進(jìn)行衡量違約風(fēng)險(xiǎn)的。借款人的信用等級(jí)決定商業(yè)銀行客戶的違約風(fēng)險(xiǎn)取,而商業(yè)銀行客戶的信用等級(jí)受多個(gè)因素的影響,如客戶的工作情況、居住環(huán)境、收入水平等。不能直接對(duì)違約概率進(jìn)行測(cè)量,但可以用客戶以往的信用歷
20、史數(shù)據(jù)多客戶的違約概率進(jìn)行評(píng)估。 數(shù)據(jù)挖掘是指從大量的資料中自動(dòng)搜索隱藏于其中的有著特殊關(guān)聯(lián)性的信息的過(guò)程。在商業(yè)銀行的計(jì)算機(jī)存儲(chǔ)中,存在未使用的海量數(shù)據(jù)并且它們還在快速增長(zhǎng),這些數(shù)據(jù)就像待挖掘的金礦。數(shù)據(jù)挖掘技術(shù)可以使我們很容易的從海量數(shù)據(jù)中提取出可以表示成規(guī)則邏輯或者可視化的數(shù)據(jù)模型,比傳統(tǒng)意義上的統(tǒng)計(jì)學(xué)更加以人為本[6]。對(duì)商業(yè)銀行而言,數(shù)據(jù)挖掘的目標(biāo),是使商業(yè)銀行更了解客戶,以增進(jìn)它在信貸、銷售、顧客服務(wù)營(yíng)運(yùn)上的表現(xiàn),查覺(jué)無(wú)法直接從數(shù)據(jù)上看得出來(lái)的潛在規(guī)則或行為模式。 1.2國(guó)內(nèi)外研究綜述 自從提出數(shù)據(jù)挖掘的概念以來(lái),國(guó)內(nèi)外的許多廠商相繼推出了自己的數(shù)據(jù)挖掘相關(guān)產(chǎn)品,例如
21、IBM Intelligent Miner、SPSS Clementine、MSMiner等。隨著廠商不斷推出自己的產(chǎn)品,數(shù)據(jù)挖掘的服務(wù)質(zhì)量和可靠性越來(lái)越受到重視。目前,國(guó)內(nèi)外的廠商和學(xué)者都已經(jīng)對(duì)此展開(kāi)了研究,下面對(duì)它們的國(guó)內(nèi)外現(xiàn)狀分別進(jìn)行研究。 1.2.1數(shù)據(jù)挖掘研究現(xiàn)狀 近年來(lái),數(shù)據(jù)庫(kù)技術(shù)領(lǐng)域中的重要研究領(lǐng)域?yàn)橹R(shí)發(fā)現(xiàn)(KDD)與DM。第十一屆國(guó)際人工智能會(huì)議于1989年8月在國(guó)底特律市召開(kāi),在這次大會(huì)上參會(huì)者正式提出了知識(shí)發(fā)現(xiàn)(KDD)一詞[7]。隨著計(jì)算機(jī)技術(shù)的日益發(fā)展,數(shù)據(jù)挖掘技術(shù)的研究也不斷突破,目前已經(jīng)取得了豐碩的成果。現(xiàn)在主要是從三個(gè)方面:理論和技術(shù)以及應(yīng)用對(duì)知識(shí)發(fā)
22、現(xiàn)(KDD)進(jìn)行研究。國(guó)內(nèi)外大部分學(xué)者目前的研究方法是采用多種方法與理論并行。眾多計(jì)算機(jī)行業(yè)的公司以及高校研究所等研究機(jī)構(gòu)十分重視數(shù)據(jù)挖掘技術(shù)的研究,Google和微軟等已經(jīng)在全球范圍內(nèi)開(kāi)設(shè)了研究中心。無(wú)可否認(rèn)的是美國(guó)是全世界數(shù)據(jù)挖掘技術(shù)發(fā)展最繁榮的國(guó)家,并占據(jù)著數(shù)據(jù)挖掘技術(shù)研究的核心位置[8]。 隨著數(shù)據(jù)量的指數(shù)級(jí)增加,各個(gè)行業(yè)的商業(yè)公司以及政府機(jī)構(gòu)等對(duì)數(shù)據(jù)挖掘軟件的市場(chǎng)需求量也飛速增加,因此眾多計(jì)算機(jī)行業(yè)的國(guó)際知名公司都紛紛加入到了數(shù)據(jù)挖掘軟件開(kāi)發(fā)研究的行列中來(lái),目前數(shù)據(jù)挖掘軟件市場(chǎng)上已經(jīng)存在一大批比較成熟、先是實(shí)用價(jià)值比較高的優(yōu)秀產(chǎn)品。下面列舉的是目前為止比較主流的數(shù)據(jù)挖掘系統(tǒng): (
23、1) IBM Intelligent Miner:IBM Intelligent Miner的主要功能包含展現(xiàn)數(shù)據(jù)庫(kù)的挖掘過(guò)程,能夠統(tǒng)計(jì)函數(shù)和查看函數(shù)并解釋挖掘結(jié)果,挖掘結(jié)果可視化展示等。IBM Intelligent Miner能夠從企業(yè)的海量數(shù)據(jù)集中檢驗(yàn)并提取高價(jià)值的知識(shí),包括企業(yè)的交易數(shù)據(jù),信用卡,ATM(Automatic Teller Machine),電子商務(wù)應(yīng)用, 或呼叫中心等。數(shù)據(jù)分析專家和商業(yè)領(lǐng)域?qū)<夷軌虬l(fā)現(xiàn)隱藏在海量數(shù)據(jù)背后的其他傳統(tǒng)分析工具不能發(fā)現(xiàn)的知識(shí)。IBM Intelligent Miner不但提供了實(shí)用的數(shù)據(jù)挖掘技術(shù)和工具來(lái)支持知識(shí)發(fā)現(xiàn)過(guò)程,而且還提供了數(shù)據(jù)挖掘應(yīng)
24、用服務(wù)支持與數(shù)據(jù)挖掘急速定制應(yīng)用的發(fā)展。 (2) Knowledge Studio: Knowledge Studio提供了先進(jìn)的預(yù)測(cè)建模功能,包括先進(jìn)的記分卡的發(fā)展,線性和Logistic回歸,決策樹(shù),神經(jīng)網(wǎng)絡(luò)和無(wú)監(jiān)督學(xué)習(xí)技術(shù),如聚類分析和多因子分析。 (3) Cognos Scenario:Cognos Scenario是一種數(shù)據(jù)挖掘結(jié)果高度可視化的一種工具,該軟件能夠在很短的響應(yīng)時(shí)間內(nèi)對(duì)數(shù)據(jù)進(jìn)行高效的挖掘與分析。 (4) IBM SPSS Modeler:IBM SPSS Modeler是一個(gè)廣泛的預(yù)測(cè)性分析平臺(tái),旨在智能預(yù)測(cè)由個(gè)人、組、系統(tǒng)和企業(yè)作出的決定。通過(guò)提供一系列先進(jìn)的
25、算法以及包括文本分析,實(shí)體分析,決策管理和優(yōu)化技術(shù),SPSS Modeler可幫助企業(yè)與個(gè)人始終如一地做出正確的決定。 除這些工具之外,Unica公司開(kāi)發(fā)的Affinium Model,美國(guó)Insightful公司研究開(kāi)發(fā)的I-Miner,加拿大Simon Fraser大學(xué)研究開(kāi)發(fā)的DBMiner等也是常用的市場(chǎng)占有率比較高的數(shù)據(jù)挖掘軟件。 在數(shù)據(jù)挖掘技術(shù)這一領(lǐng)域,國(guó)內(nèi)公司和研究機(jī)構(gòu)對(duì)數(shù)據(jù)挖掘技術(shù)的研究與國(guó)外相比起步比較遲并且尚不成熟,目前正處于比較初級(jí)的發(fā)展階段[9]。國(guó)內(nèi)數(shù)據(jù)挖掘技術(shù)的發(fā)展主要有:研究并構(gòu)建模糊系統(tǒng)知識(shí)模型,研究并構(gòu)建模糊系統(tǒng)辨識(shí)方法;在研究分類技術(shù)中,嘗試構(gòu)建其集合理
26、論體系,能夠讓其實(shí)現(xiàn)日益增長(zhǎng)的大量數(shù)據(jù)的挖掘處理;將模糊集理論以及粗糙集理論兩個(gè)理論相結(jié)合來(lái)研究知識(shí)發(fā)現(xiàn);研究并開(kāi)發(fā)智能的專家系統(tǒng);研究并開(kāi)發(fā)中文文本挖掘的實(shí)現(xiàn)技術(shù)以及其理論模型;利用數(shù)據(jù)挖掘技術(shù)概念來(lái)進(jìn)行文本的挖掘。我國(guó)也有不少新興的數(shù)據(jù)挖掘軟件: (1) DMiner:DMiner是由復(fù)旦德門軟件公司開(kāi)發(fā)的一個(gè)數(shù)據(jù)挖掘系統(tǒng),這個(gè)系統(tǒng)是基于數(shù)據(jù)倉(cāng)庫(kù)的對(duì)企業(yè)的經(jīng)營(yíng)、客戶和財(cái)務(wù)等多個(gè)數(shù)據(jù)源進(jìn)行數(shù)據(jù)挖掘。業(yè)務(wù)作為德門數(shù)據(jù)倉(cāng)庫(kù)實(shí)施方案的需求重點(diǎn),設(shè)計(jì)在技術(shù)領(lǐng)先與開(kāi)放標(biāo)準(zhǔn)的基礎(chǔ)之上,并且能與數(shù)據(jù)倉(cāng)庫(kù)的解決方案能夠融合,為現(xiàn)代企業(yè)提供一個(gè)開(kāi)放的、可靠的與可擴(kuò)展性的和高性能決策支持系統(tǒng)。 (2) MS
27、Miner:MSMiner主要包括任務(wù)處理引擎和數(shù)據(jù)挖掘任務(wù)模型編輯兩個(gè)模塊,用戶在任務(wù)模型編輯模塊可以使用一種可視化的方法來(lái)選擇算法和數(shù)據(jù)源,然后使用選擇的數(shù)據(jù)挖掘算法和數(shù)據(jù)源來(lái)構(gòu)建合適的模型。解釋執(zhí)行各個(gè)步驟以及對(duì)數(shù)據(jù)挖掘任務(wù)則由任務(wù)處理引擎來(lái)負(fù)責(zé)處理,然后得到可視化的數(shù)據(jù)挖掘結(jié)果。數(shù)據(jù)挖掘結(jié)果經(jīng)過(guò)評(píng)估后就可以存入數(shù)據(jù)倉(cāng)庫(kù)然后以報(bào)表和可視化方式輸出。 目前國(guó)內(nèi)的數(shù)據(jù)挖掘技術(shù)產(chǎn)業(yè)相對(duì)國(guó)外來(lái)說(shuō)還處于起步階段,從事數(shù)據(jù)挖掘技術(shù)研究的人員主要集中在各大高校和研究所以及互聯(lián)網(wǎng)公司的研發(fā)中心,大多數(shù)關(guān)于數(shù)據(jù)挖掘技術(shù)研究項(xiàng)目的資金是由政府提供,數(shù)據(jù)挖掘技術(shù)的相關(guān)算法和理論方面為其主要的研究方向[10]
28、。開(kāi)發(fā)研究的數(shù)據(jù)挖掘相關(guān)的軟件產(chǎn)品暫時(shí)沒(méi)有得到國(guó)際主流市場(chǎng)的認(rèn)可。 1.2.2商業(yè)銀行信用風(fēng)險(xiǎn)研究現(xiàn)狀 各國(guó)對(duì)商業(yè)銀行信用風(fēng)險(xiǎn)的管理不盡相同,相對(duì)來(lái)說(shuō)發(fā)達(dá)國(guó)家的風(fēng)險(xiǎn)管理比較成熟,發(fā)展中國(guó)家的風(fēng)險(xiǎn)管理則相對(duì)落后,水平有較大差異。但各國(guó)監(jiān)管當(dāng)局和商業(yè)銀行本身都在試圖通過(guò)實(shí)施外部監(jiān)管和內(nèi)部評(píng)級(jí)等方法來(lái)提高信用風(fēng)險(xiǎn)管理的能力這一點(diǎn)是一致的。因此,研究國(guó)際活躍銀行的風(fēng)險(xiǎn)管理機(jī)制,提高我國(guó)風(fēng)險(xiǎn)管理水平,是一個(gè)非常重要的現(xiàn)實(shí)課題。 隨著金融市場(chǎng)的不斷發(fā)展,金融衍生品的日益更新,金融風(fēng)險(xiǎn)程度的不斷提高,促進(jìn)了銀行業(yè)風(fēng)險(xiǎn)管理及風(fēng)險(xiǎn)防范方法的不斷完善。 1.內(nèi)部評(píng)級(jí)方法。內(nèi)部評(píng)級(jí)法是國(guó)際清算銀行頒
29、布的《新巴塞爾資本協(xié)議》中銀行信用風(fēng)險(xiǎn)部分的核心內(nèi)容。內(nèi)部評(píng)級(jí)法是現(xiàn)在國(guó)際清算銀行對(duì)銀行業(yè)風(fēng)險(xiǎn)管理和風(fēng)險(xiǎn)防范的一個(gè)重要的手段。內(nèi)部評(píng)級(jí)法對(duì)特定貸款進(jìn)行信用評(píng)級(jí)的一個(gè)辦法,其主要依據(jù)是根據(jù)借款人如果不能正常履行還款責(zé)任而對(duì)銀行造成的損失風(fēng)險(xiǎn)[11]。內(nèi)部評(píng)級(jí)方法的風(fēng)險(xiǎn)評(píng)級(jí)是商業(yè)銀行評(píng)估信貸風(fēng)險(xiǎn)的重要指標(biāo),因此風(fēng)險(xiǎn)評(píng)級(jí)多用于商業(yè)銀行信貸的風(fēng)險(xiǎn)管理,風(fēng)險(xiǎn)評(píng)級(jí)包含對(duì)貸款受理的評(píng)估、評(píng)估貸款組合和撰寫風(fēng)險(xiǎn)管理報(bào)告,對(duì)存款準(zhǔn)備金充足性進(jìn)行分析,商業(yè)銀行利潤(rùn)及信貸利率定價(jià)分析,作為風(fēng)險(xiǎn)管理的重要參數(shù)來(lái)構(gòu)建信貸組合的風(fēng)險(xiǎn)管理模型等。傳統(tǒng)的風(fēng)險(xiǎn)管理的缺點(diǎn)是外部評(píng)級(jí)機(jī)構(gòu)通常不能得到的客戶信息,從而很難對(duì)客戶進(jìn)行評(píng)
30、估,而內(nèi)部評(píng)級(jí)方法克服了這一缺點(diǎn),從而商業(yè)銀行不會(huì)過(guò)多地依賴外部信用評(píng)級(jí)機(jī)構(gòu)對(duì)客戶信貸風(fēng)險(xiǎn)的評(píng)估。 2.VaR風(fēng)險(xiǎn)度量方法。VaR從數(shù)學(xué)統(tǒng)計(jì)的意義上來(lái)講是一個(gè)數(shù)字,VaR指商業(yè)銀行或者金融機(jī)構(gòu)等面臨市場(chǎng)波動(dòng)時(shí)其在風(fēng)險(xiǎn)狀態(tài)的價(jià)值。即在指定的置信水平和特定的時(shí)間段內(nèi),計(jì)算出的預(yù)期的最大損失的絕對(duì)值或者相對(duì)值[12]。持有期的長(zhǎng)短、置信區(qū)間的大小以及觀察期間的長(zhǎng)短這三個(gè)系數(shù)是構(gòu)建一個(gè)資產(chǎn)組合的VaR值的模型必須首先確定的三個(gè)系數(shù)。 VaR主要應(yīng)用于金融風(fēng)險(xiǎn)控制。目前已有超過(guò)一千家的銀行和保險(xiǎn)公司以及投資基金等公司采用構(gòu)建VaR模型來(lái)對(duì)風(fēng)險(xiǎn)管理進(jìn)行防范和管理。每個(gè)交易員或交易單位利用VaR方法都能進(jìn)
31、行風(fēng)險(xiǎn)控制以便確切地了解他們進(jìn)行的金融交易有多大風(fēng)險(xiǎn),還能夠?yàn)槊總€(gè)交易員或交易單位設(shè)置一個(gè)VaR閥值來(lái)預(yù)防度較大金融風(fēng)險(xiǎn)的出現(xiàn)。商業(yè)銀行等金融機(jī)構(gòu)如果執(zhí)行嚴(yán)格的VaR管理也許可以避開(kāi)重大虧損。 3.投資組合管理。投資組合管理是指投資管理人以實(shí)現(xiàn)分散風(fēng)險(xiǎn)、提高效率的投資目的按照資產(chǎn)的投資組合理論對(duì)資產(chǎn)進(jìn)行多元化管理的一種風(fēng)險(xiǎn)管理手段[13]。投資組合理論和資本資產(chǎn)定價(jià)模型以及APT模型等理論構(gòu)成了現(xiàn)代投資組合理論。它們的發(fā)展使現(xiàn)代投資管理日益朝著系統(tǒng)化、科學(xué)化和組合化的方向發(fā)展并極大地改變了過(guò)去主要依賴傳統(tǒng)投資管理實(shí)踐的手段。 由于我國(guó)商業(yè)銀行風(fēng)險(xiǎn)管理發(fā)展較晚,存在著商業(yè)銀行重報(bào)表數(shù)據(jù)輕
32、實(shí)踐,信貸審批流程不合理,信貸監(jiān)管環(huán)節(jié)責(zé)任不明確,大部分商業(yè)銀行的貸款審批權(quán)利還是由銀行行長(zhǎng)一人掌控,商業(yè)銀行對(duì)企業(yè)的評(píng)估沒(méi)有公開(kāi)透明化,甚至存在內(nèi)幕交易,評(píng)估后的結(jié)果也是只用本行內(nèi)部信貸額度的確立,沒(méi)有對(duì)其他金融機(jī)構(gòu)或者社會(huì)進(jìn)行公開(kāi)等缺點(diǎn),我國(guó)商業(yè)銀行存在的這些不足都反映出我國(guó)銀行業(yè)信貸風(fēng)險(xiǎn)管理手段落后以及信用風(fēng)險(xiǎn)管理體制不健全[14]。并且我國(guó)商業(yè)銀行通常是負(fù)責(zé)信貸風(fēng)險(xiǎn)管理的人員主要是信貸部門的,信貸人員對(duì)貸款的風(fēng)險(xiǎn)狀況進(jìn)行評(píng)估后定期向其上級(jí)匯報(bào),這種傳統(tǒng)的評(píng)估模式存在很大漏洞,完全不能滿足商業(yè)銀行對(duì)風(fēng)險(xiǎn)控制要求的時(shí)效性;并且在商業(yè)銀行中信用風(fēng)險(xiǎn)決策制度制定的不合理,很多商業(yè)銀行的信貸人員
33、同時(shí)負(fù)責(zé)信貸前調(diào)查和信貸審批等本應(yīng)遵守職位分離原則的多個(gè)職位,這種身兼數(shù)職起不到互相監(jiān)督互相補(bǔ)充的作用從而使得風(fēng)險(xiǎn)漏洞出現(xiàn)時(shí),信貸負(fù)責(zé)人員由于各種原因不會(huì)及時(shí)對(duì)風(fēng)險(xiǎn)進(jìn)行管控制,可能會(huì)導(dǎo)致信貸違約的產(chǎn)生。 1.3論文的主要工作和內(nèi)容結(jié)構(gòu) 本文內(nèi)容分為五章,主要的工作如下所述: 第1章為緒論,主要介紹本課題的應(yīng)用背景、國(guó)內(nèi)外研究現(xiàn)狀以及本系統(tǒng)的研究意義,以及論文的組織結(jié)構(gòu)。 第2章為 數(shù)據(jù)挖掘算法及相關(guān)技術(shù),主要對(duì)數(shù)據(jù)挖掘算法做了介紹,并且對(duì)系統(tǒng)要用到的數(shù)據(jù)挖掘技術(shù)做了梳理,并分別對(duì)每項(xiàng)技術(shù)做了詳細(xì)介紹,闡明各項(xiàng)技術(shù)選擇的重要性。 第3章為基于BP神經(jīng)網(wǎng)絡(luò)算法的商業(yè)銀行客戶信用風(fēng)
34、險(xiǎn)評(píng)估,首先介紹了BP神經(jīng)網(wǎng)絡(luò)算法的基本原理,然后介紹了如何用BP神經(jīng)網(wǎng)絡(luò)算法實(shí)現(xiàn)對(duì)商業(yè)銀行客戶信用風(fēng)險(xiǎn)進(jìn)行評(píng)估。 第4章為基于決策樹(shù)算法的商業(yè)銀行客戶信用風(fēng)險(xiǎn)評(píng)估,首先介紹了決策樹(shù)算法的基本原理,然后介紹了如何用決策樹(shù)算法實(shí)現(xiàn)對(duì)商業(yè)銀行客戶信用風(fēng)險(xiǎn)進(jìn)行評(píng)估。 第5章為基于數(shù)據(jù)挖掘技術(shù)的商業(yè)銀行客戶信用風(fēng)險(xiǎn)評(píng)估系統(tǒng)的實(shí)現(xiàn),本章主要從軟件的實(shí)際出發(fā),依據(jù)第3章和第4章的算法設(shè)計(jì),介紹了基于數(shù)據(jù)挖掘技術(shù)的商業(yè)銀行客戶信用風(fēng)險(xiǎn)評(píng)估系統(tǒng)的主要模塊的具體實(shí)現(xiàn)方法與成果。 第2章 數(shù)據(jù)挖掘算法及相關(guān)技術(shù) 數(shù)
35、據(jù)挖掘是一種通過(guò)分析海量數(shù)據(jù)來(lái)揭示數(shù)據(jù)之間的關(guān)系、趨勢(shì)和模式的技術(shù),是一門融合了人工智能,數(shù)據(jù)庫(kù)技術(shù),模式識(shí)別,機(jī)器學(xué)習(xí),數(shù)據(jù)可視化與統(tǒng)計(jì)學(xué)等多個(gè)領(lǐng)域和技術(shù)的交叉性學(xué)科,本章首先是對(duì)數(shù)據(jù)挖掘算法及相關(guān)技術(shù)進(jìn)行了介紹,然后對(duì)常用的數(shù)據(jù)挖掘算法進(jìn)行了比較。 2.1數(shù)據(jù)挖掘的概念 計(jì)算機(jī)技術(shù)的飛速發(fā)展顯著的增強(qiáng)了社會(huì)各個(gè)領(lǐng)域的產(chǎn)生和采集數(shù)據(jù)的能力,我們生活的每時(shí)每刻都會(huì)產(chǎn)生海量的數(shù)據(jù)。數(shù)據(jù)的爆炸性增長(zhǎng)激勵(lì)數(shù)據(jù)分析技術(shù)的發(fā)展,以幫助我們方便智能的從大量數(shù)據(jù)中發(fā)現(xiàn)對(duì)我們有價(jià)值的信息和知識(shí)。這種技術(shù)的發(fā)展導(dǎo)致一個(gè)被稱為數(shù)據(jù)挖掘技術(shù)的計(jì)算機(jī)前沿學(xué)科的產(chǎn)生。數(shù)據(jù)挖掘通常被成為數(shù)據(jù)中的知識(shí)發(fā)現(xiàn)(KD
36、D),是一種方便高效自動(dòng)地提取知識(shí)的模式,這些知識(shí)隱藏在大型數(shù)據(jù)庫(kù),數(shù)據(jù)倉(cāng)庫(kù),Web,其他大量信息庫(kù)或者數(shù)據(jù)流中。 數(shù)據(jù)挖掘作為一個(gè)學(xué)術(shù)領(lǐng)域,橫跨多個(gè)學(xué)科,涵蓋了統(tǒng)計(jì)學(xué)、數(shù)學(xué)、機(jī)器學(xué)習(xí)和數(shù)據(jù)庫(kù)等,如圖2.1-1所示??梢杂枚喾N方法定義。術(shù)語(yǔ)“數(shù)據(jù)挖掘”本身實(shí)際意義上也不能完全表達(dá)其主要含義,數(shù)據(jù)挖掘命名為“從數(shù)據(jù)中挖掘知識(shí)”更為貼切準(zhǔn)確。數(shù)據(jù)挖掘在廣義上的定義是:數(shù)據(jù)挖掘指的是從海量數(shù)據(jù)中挖掘知識(shí)與有趣模式的一個(gè)過(guò)程。通常情況下數(shù)據(jù)源包括Web、數(shù)據(jù)倉(cāng)庫(kù)、數(shù)據(jù)庫(kù)、以及其他的數(shù)據(jù)存儲(chǔ)庫(kù)或者傳遞入系統(tǒng)的動(dòng)態(tài)數(shù)據(jù)[15]。 2.2數(shù)據(jù)挖掘的過(guò)程 數(shù)據(jù)挖掘通常需要有業(yè)務(wù)理解、數(shù)據(jù)采集、數(shù)
37、據(jù)準(zhǔn)備、建模、結(jié)果評(píng)估、部署6個(gè)步驟。 業(yè)務(wù)理解:從業(yè)務(wù)角度來(lái)看對(duì)數(shù)據(jù)挖掘進(jìn)行了解項(xiàng)目的目標(biāo)和要求,然后將這些知識(shí)轉(zhuǎn)化數(shù)據(jù)挖掘問(wèn)題的定義和設(shè)計(jì),以實(shí)現(xiàn)目標(biāo)的初步計(jì)劃。 數(shù)據(jù)采集:開(kāi)始收集數(shù)據(jù)和熟悉數(shù)據(jù),找出數(shù)據(jù)存在的問(wèn)題,及時(shí)發(fā)現(xiàn)有用的數(shù)據(jù),或者檢測(cè)有趣的子集,以形成對(duì)隱藏信息的假設(shè)。 圖2.1-1 數(shù)據(jù)挖掘及相關(guān)領(lǐng)域 數(shù)據(jù)準(zhǔn)備:包括從初始的原始數(shù)據(jù)構(gòu)建最終的數(shù)據(jù)集(被送入建模工具的數(shù)據(jù))所需的所有步驟。任務(wù)包括改造和建模的數(shù)據(jù)清理。 建模:選擇和應(yīng)用各種建模技術(shù),用校準(zhǔn)工具參數(shù)確立最佳值。通常情況下,存在針對(duì)相同數(shù)據(jù)挖掘問(wèn)題的幾種不同技術(shù)。某些技術(shù)具有數(shù)據(jù)形式上的具
38、體要求。因此,需要對(duì)數(shù)據(jù)進(jìn)行處理。 結(jié)果評(píng)估:徹底評(píng)估模型,并審查執(zhí)行構(gòu)建模型,以確定它正確地實(shí)現(xiàn)業(yè)務(wù)目標(biāo)的步驟。確定是否存在還沒(méi)有被充分考慮一些重要的問(wèn)題。在此階段結(jié)束時(shí),達(dá)到對(duì)使用的數(shù)據(jù)挖掘結(jié)果的展示。 部署:組織和顯示數(shù)據(jù)挖掘的結(jié)果。部署可以為生成報(bào)告或執(zhí)行一個(gè)可重復(fù)的數(shù)據(jù)挖掘過(guò)程。 2.3數(shù)據(jù)挖掘的常用算法 聚類、回歸分析與分類、偏差分析、Web頁(yè)挖掘和關(guān)聯(lián)規(guī)則以及變化等方法是采用數(shù)據(jù)挖掘算法進(jìn)行建模等經(jīng)常的方法, 它們分別從不同的角度對(duì)數(shù)據(jù)進(jìn)行挖掘。常用的數(shù)據(jù)挖掘技術(shù)算法有:人工神經(jīng)網(wǎng)絡(luò)、決策樹(shù)、遺傳算法、近鄰算法、粗糙集方法、模糊集方法、統(tǒng)計(jì)分析方法和規(guī)則推導(dǎo)等。
39、 2.3.1人工神經(jīng)網(wǎng)絡(luò) 人工神經(jīng)網(wǎng)絡(luò)算法模擬生物神經(jīng)網(wǎng)絡(luò),是一類模式匹配算法。人工神經(jīng)網(wǎng)絡(luò)算法反映人腦結(jié)構(gòu)及功能的一種抽象數(shù)學(xué)模型,一個(gè)人工神經(jīng)網(wǎng)絡(luò)是由大量神經(jīng)元節(jié)點(diǎn)互連而成的復(fù)雜網(wǎng)絡(luò),用以模擬人類發(fā)現(xiàn)知識(shí)和進(jìn)行知識(shí)表示與存儲(chǔ)以及利用知識(shí)進(jìn)行推理的行為[16]。通常用于解決分類和回歸問(wèn)題。人工神經(jīng)網(wǎng)絡(luò)是機(jī)器學(xué)習(xí)的一個(gè)龐大的分支,有幾百種不同的算法。重要的人工神經(jīng)網(wǎng)絡(luò)算法包括:感知器神經(jīng)網(wǎng)絡(luò)(Perceptron Neural Network), 反向傳遞(Back Propagation), Hopfield網(wǎng)絡(luò),自組織映射(Self-Organizing Map, SOM)。學(xué)習(xí)
40、矢量量化(Learning Vector Quantization, LVQ)等。 2.3.2決策樹(shù) 決策樹(shù)是對(duì)給定的數(shù)據(jù)按照一系列規(guī)則進(jìn)行分類的過(guò)程。直觀看上去,決策樹(shù)分類器就像判斷模塊和終止塊組成的流程圖,終止塊表示分類結(jié)果(也就是樹(shù)的葉子)。判斷模塊表示對(duì)一個(gè)特征取值的判斷(該特征有幾個(gè)值,判斷模塊就有幾個(gè)分支)。如果不考慮效率等,那么樣本所有特征的判斷級(jí)聯(lián)起來(lái)終會(huì)將某一個(gè)樣本分到一個(gè)類終止塊上。實(shí)際上,樣本所有特征中有一些特征在分類時(shí)起到?jīng)Q定性作用,決策樹(shù)的構(gòu)造過(guò)程就是找到這些具有決定性作用的特征,根據(jù)其決定性程度來(lái)構(gòu)造一個(gè)倒立的樹(shù)--決定性作用最大的那個(gè)特征作為根節(jié)點(diǎn),
41、然后遞歸找到各分支下子數(shù)據(jù)集中次大的決定性特征,直至子數(shù)據(jù)集中所有數(shù)據(jù)都屬于同一類[17]。所以,構(gòu)造決策樹(shù)的過(guò)程本質(zhì)上就是根據(jù)數(shù)據(jù)特征將數(shù)據(jù)集分類的遞歸過(guò)程,需要確定的第一個(gè)問(wèn)題就是當(dāng)前數(shù)據(jù)集上哪個(gè)特征在劃分?jǐn)?shù)據(jù)分類時(shí)起決定性作用。 為了得到出理想的結(jié)果并找到?jīng)Q定性的特征值,可以對(duì)給定數(shù)據(jù)集中包含的特征逐個(gè)進(jìn)行評(píng)估,然后找到使數(shù)據(jù)集分類最理想的特征。找到這些特征并根據(jù)找到的特征值進(jìn)行分類使得原始數(shù)據(jù)集被劃分為幾個(gè)數(shù)據(jù)子集。需要重復(fù)劃分?jǐn)?shù)據(jù)子集的過(guò)程當(dāng)數(shù)據(jù)子集內(nèi)的數(shù)據(jù)不屬于同一類型時(shí)。采用相同的方法來(lái)劃分?jǐn)?shù)據(jù)子集的直到一個(gè)數(shù)據(jù)子集內(nèi)(葉子節(jié)點(diǎn))具有相同類型的數(shù)據(jù)。 2.3.3遺傳算法
42、 遺傳算法是機(jī)器學(xué)習(xí)的模型,遺傳算法是借鑒自然界自然遺傳和選擇機(jī)制的隨機(jī)化的一種搜索算法。遺傳算法是解決其鮮為人知的一個(gè)問(wèn)題的最佳途徑之一,是一個(gè)非常普遍的算法,因此會(huì)在任何搜索空間工作[18]。遺傳算法對(duì)給定的問(wèn)題使用選擇和進(jìn)化的原則,產(chǎn)生了多種解決方案。遺傳算法在每一次的迭代過(guò)程中都會(huì)有一個(gè)備選的解,利用遺傳算子按某種指標(biāo)從所有的解中選取較優(yōu)的個(gè)體然后進(jìn)行重新組合,重新組合后會(huì)產(chǎn)生新的備選解,一直重復(fù)此過(guò)程直到滿足某種收斂指標(biāo)。 GA的組成: (1)編碼(產(chǎn)生初始種群): 基因在一定能夠意義上包含了它所代表的問(wèn)題的解?;虻木幋a方式有很多,這也取決于要解決的問(wèn)題本身。常見(jiàn)的編碼方
43、式有二進(jìn)制編碼、互換編碼、屬性編碼等。 (2) 適應(yīng)度函數(shù): 適應(yīng)度函數(shù)是遺傳算法中對(duì)個(gè)體的值的評(píng)估,解的質(zhì)量和適應(yīng)度函數(shù)的值成正比[19]。適應(yīng)度函數(shù)是遺傳算法中進(jìn)行自然選擇的唯一標(biāo)準(zhǔn),適應(yīng)度函數(shù)的制定應(yīng)該結(jié)合求解的具體問(wèn)題本身的實(shí)際要求而確定。 (3) 遺傳算子: 遺傳算法中對(duì)個(gè)體進(jìn)行篩選的方法是通過(guò)選擇計(jì)算來(lái)完成的:適應(yīng)度和被遺傳到下一代的概率成正比,即一個(gè)個(gè)體的適應(yīng)度越高,則這個(gè)個(gè)體被遺傳到下一代的概率越大,反之,一個(gè)個(gè)體的適應(yīng)度越低則說(shuō)明該個(gè)體被遺傳到下一代的概率越低。從初代群體中選取一些個(gè)體遺傳到下一代群體是通過(guò)選擇操作實(shí)現(xiàn)的。 (4) 運(yùn)行參數(shù): GA運(yùn)行時(shí)選擇的參數(shù)
44、應(yīng)該視解決的具體問(wèn)題而定,到目前為止,還沒(méi)有一個(gè)適用于GA所有應(yīng)用領(lǐng)域的關(guān)于算法參數(shù)的理論。 2.3.4近鄰算法 K最近鄰(k-Nearest Neighbor,KNN)分類算法,是最簡(jiǎn)單的機(jī)器學(xué)習(xí)算法之一同時(shí)也是理論上比較完善的算法。K最近鄰分類算法的思想是通過(guò)計(jì)算新數(shù)據(jù)與訓(xùn)練數(shù)據(jù)特征值之間的距離,根據(jù)計(jì)算出的距離選取K(K>=1)個(gè)距離最近的鄰居進(jìn)行分類[20]。KNN算法中選出的鄰居必須是已經(jīng)得到精確分類的對(duì)象。該方法根據(jù)樣本數(shù)據(jù)中最鄰近的一個(gè)或多個(gè)樣本的類別去劃分待分樣本所屬。 假設(shè)給定的訓(xùn)練數(shù)據(jù)集的很大,K-近鄰算法必須使用大量的存儲(chǔ)空間來(lái)保存全部數(shù)據(jù)集。同時(shí),
45、K-近鄰算法必須計(jì)算數(shù)據(jù)集中的每個(gè)數(shù)據(jù)的距離值,當(dāng)數(shù)據(jù)集比較大時(shí),K-近鄰算法計(jì)算每個(gè)數(shù)據(jù)的距離值可能非常耗時(shí)。另一個(gè)不足是它沒(méi)有辦法給出數(shù)據(jù)的任何基礎(chǔ)結(jié)構(gòu)信息,因此也沒(méi)有方法了解平均樣本具有什么特征。 2.3.5 k-means算法 k-means算法是一個(gè)把n的對(duì)象根據(jù)他們的屬性分為k(k < n)個(gè)分割的聚類算法。k平均聚類發(fā)明于1956年, 該算法最常見(jiàn)的形式是采用被稱為勞埃德算法(Lloyd algorithm)的迭代式改進(jìn)探索法[21]。勞埃德算法和k平均通常是緊密聯(lián)系的,但是在實(shí)際應(yīng)用中,勞埃德算法是解決k平均問(wèn)題的啟發(fā)式法則,對(duì)于某些起始點(diǎn)和重心的組合,勞埃德算法可
46、能實(shí)際上收斂于錯(cuò)誤的結(jié)果(上面函數(shù)中存在的不同的最優(yōu)解) 雖然存在變異,但是勞埃德算法仍舊保持流行,因?yàn)樗趯?shí)際中收斂非???。實(shí)際上,觀察發(fā)現(xiàn)迭代次數(shù)遠(yuǎn)遠(yuǎn)少于點(diǎn)的數(shù)量。然而最近,David Arthur和Sergei Vassilvitskii提出存在特定的點(diǎn)集使得k平均算法花費(fèi)超多項(xiàng)式時(shí)間達(dá)到收斂。近似的k平均算法已經(jīng)被設(shè)計(jì)用于原始數(shù)據(jù)子集的計(jì)算。 k平均算法從算法的表現(xiàn)上來(lái)說(shuō)并不保證肯定能夠得到對(duì)問(wèn)題的全局最優(yōu)解,初始化的分組通常會(huì)決定最終解的質(zhì)量。由于k平均算法的計(jì)算速度比較迅速,所以通常情況下經(jīng)常選擇使用多次k平均算法來(lái)得到對(duì)問(wèn)題的全局最優(yōu)解。 k平均算法的一個(gè)缺點(diǎn)是分組的數(shù)目,
47、因?yàn)橐话闱闆r下分組的數(shù)目k是作為輸入?yún)?shù)的,所以不科學(xué)的輸入?yún)?shù)k會(huì)返回和實(shí)際偏差較大的結(jié)果。此外,k平均算法基于均方誤差是計(jì)算群組分散度的最佳參數(shù)這個(gè)假設(shè)。 2.4小結(jié) 主要對(duì)數(shù)據(jù)挖掘技術(shù)做了介紹,并且對(duì)系統(tǒng)要用到的數(shù)據(jù)挖掘技術(shù)做了說(shuō)明,并分別對(duì)每項(xiàng)技術(shù)做了詳細(xì)介紹,闡明各項(xiàng)技術(shù)選擇的重要性。 第3章 基于BP神經(jīng)網(wǎng)絡(luò)算法的個(gè)人信用風(fēng)險(xiǎn)評(píng)估 本章主要介紹基于BP神經(jīng)網(wǎng)絡(luò)算法的商業(yè)銀行客戶信用風(fēng)險(xiǎn)評(píng)估,首先介紹了BP神經(jīng)網(wǎng)絡(luò)算法的基本原理,然后介紹了如何用BP神經(jīng)網(wǎng)絡(luò)算法實(shí)現(xiàn)對(duì)商
48、業(yè)銀行客戶信用風(fēng)險(xiǎn)進(jìn)行評(píng)估。 3.1神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)機(jī)理和機(jī)構(gòu) 在神經(jīng)網(wǎng)絡(luò)算法中占有舉足輕重地位的是學(xué)習(xí)方法。隨著數(shù)據(jù)挖掘及神經(jīng)網(wǎng)絡(luò)算法的不斷發(fā)展,學(xué)習(xí)算法也隨之不斷更新進(jìn)步。自從上個(gè)世紀(jì)40年代Hebb提出了被稱為Hebb定律”的突觸學(xué)習(xí)的模型之后,眾多學(xué)者和專家在此基礎(chǔ)上相繼提出了多種滿足不同需求的學(xué)習(xí)算法。在這眾多的學(xué)習(xí)算法中,影響力比較大且在實(shí)際應(yīng)用價(jià)值比較高的當(dāng)屬Rumelhart等在上個(gè)世紀(jì)90年代提出的誤差反向傳播(error BackPropagation)算法。 3.1.1感知器的學(xué)習(xí)結(jié)構(gòu) 神經(jīng)網(wǎng)絡(luò)中最經(jīng)典的學(xué)習(xí)方法是感知器的學(xué)習(xí),目前感知器的學(xué)習(xí)在控制
49、上應(yīng)用的是多層前饋網(wǎng)絡(luò),學(xué)習(xí)采用的算法是誤差反向傳播(error BackPropagation)算法,誤差反向傳播(BP)算法是一個(gè)有教師的學(xué)習(xí)算法。圖3.1-1表示有教師的學(xué)習(xí)算法。有教師的學(xué)習(xí)算法由輸入部、訓(xùn)練部以及輸出部三個(gè)部分組成。 將輸入樣本X輸入輸入部并由輸入部傳遞給訓(xùn)練部,神經(jīng)網(wǎng)絡(luò)的權(quán)系數(shù)W是由訓(xùn)練部負(fù)責(zé)調(diào)整的,神經(jīng)網(wǎng)絡(luò)的權(quán)系數(shù)W調(diào)整完成后傳遞給輸出部并由輸出部輸出計(jì)算的結(jié)果。神經(jīng)網(wǎng)絡(luò)的權(quán)系數(shù)W是由教師信號(hào)與實(shí)際輸出的結(jié)果進(jìn)行比較得出的誤差來(lái)確定的。 圖3.1-2表示學(xué)習(xí)機(jī)構(gòu)的結(jié)構(gòu)。在圖3.1-2中,Xl ,X2 ,…,Xn 這些表示輸入樣本信號(hào),而神經(jīng)網(wǎng)絡(luò)中權(quán)系數(shù)用W1
50、,W2 ,…,Wn 來(lái)表示。 圖3.1-1 神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)系統(tǒng)框架圖 Xi 作為輸入樣本的信號(hào)可以用“0”或“1”離散的值來(lái)表示。u通過(guò)在輸入樣本信號(hào)中神經(jīng)網(wǎng)絡(luò)中權(quán)系數(shù)Wn的作用下產(chǎn)生輸出結(jié)果 ∑WiXi,如公式3.1-1所示: u=∑WiXi=W1X1+W2X2+…+WnXn 3.1-1 圖3.1-2 學(xué)習(xí)機(jī)構(gòu) 誤差信號(hào)e的產(chǎn)生是把期望輸出信號(hào)Y(t)和u進(jìn)行比較而產(chǎn)生的。神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)過(guò)程要重復(fù)很多次(甚至達(dá)萬(wàn)次級(jí))因而是比較費(fèi)時(shí)的。耗時(shí)的主要因素在于一個(gè)多參數(shù)修改系統(tǒng)來(lái)確定神經(jīng)網(wǎng)絡(luò)的權(quán)系數(shù)W 。因此提高神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)速度并且盡可能減少神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)重復(fù)
51、次數(shù)是是神經(jīng)網(wǎng)絡(luò)算法中的關(guān)鍵所在。 3.1.2梯度下降法算法 梯度下降法算法是最優(yōu)化算法的一種,通常也被稱為最速下降法。梯度下降法一般是基于這樣的觀察:如果實(shí)值函數(shù)F(x)在點(diǎn)a處可微且有定義,那么函數(shù)F(x)在a點(diǎn)沿著梯度相反的方向 -F(a)下降最快[22]。 由于反向傳播算法需要使用梯度下降法來(lái)計(jì)算平方誤差函數(shù)對(duì)網(wǎng)絡(luò)權(quán)重的導(dǎo)數(shù)。先假設(shè)對(duì)于一個(gè)輸出神經(jīng)元平方誤差函數(shù)如公式3.1-2所示。 3.1-2 E 為神經(jīng)元的平方誤差。 t 為給定數(shù)據(jù)樣本的訓(xùn)練樣本的目標(biāo)輸出。 y 為BP神經(jīng)網(wǎng)絡(luò)輸出神經(jīng)元的輸出的實(shí)際結(jié)果。 因?yàn)橐窒⒎殖鰜?lái)的指數(shù),所以要加入系數(shù)1/2。
52、接下來(lái),這個(gè)表達(dá)式會(huì)乘以一個(gè)給定的隨機(jī)的學(xué)習(xí)速率,所以在這里乘上一個(gè)常系數(shù)是對(duì)結(jié)果是沒(méi)有影響的。 對(duì)每個(gè)神經(jīng)元j的輸出Oj可以定義如公式3.1-3所示。 3.1-3 之前神經(jīng)元的輸出OK的加權(quán)和是通向一個(gè)神經(jīng)元的輸入netj得出的。若該神經(jīng)元輸出層后的第一層,輸入層的輸出OK就是網(wǎng)絡(luò)的輸入XK。該神經(jīng)元的輸入數(shù)量是 n。變量Wij反應(yīng)神經(jīng)元i和神經(jīng)元j之間的權(quán)重關(guān)系。激活函數(shù)一般情況下是可微的非線性函數(shù)[23]。邏輯函數(shù)(公式3.1-4)經(jīng)常被用作激活函數(shù): 3.1-4 邏輯函數(shù)的導(dǎo)數(shù)的形式如公式3.1-5: 3.1-5 得出誤差對(duì)權(quán)重的偏導(dǎo)數(shù)是連續(xù)使用兩次鏈?zhǔn)椒▌t(3
53、.1-6)計(jì)算得到的: 3.1-6 上式中右邊的最后一項(xiàng)只有加權(quán)和netj取決于Wij,因此: 3.1-7 所以假定使用邏輯函數(shù)的情況下神經(jīng)元 j的輸出對(duì)其輸入的導(dǎo)數(shù)就是激活函數(shù)的偏導(dǎo)數(shù)(3.1-8): 3.1-8 上面的推導(dǎo)說(shuō)明了為什么反向傳播的激活函數(shù)必須是可微的。如果神經(jīng)元全部都在輸出層中 3.1-9 并且此時(shí)Oj= y 直接計(jì)算出第一項(xiàng)。但假設(shè) j 是不全部在輸出層中,而是在網(wǎng)絡(luò)中隨意的一內(nèi)層內(nèi),求 E 關(guān)于Oj的導(dǎo)數(shù)就變得比較困難。把E作為一個(gè)輸入函數(shù),這個(gè)輸入函數(shù)的輸入對(duì)象是來(lái)自神經(jīng)元 j 的所有神經(jīng)元 L=u,v,w...。 3.1-10
54、然后關(guān)于函數(shù)Oj求全微分,求出Oj全微分很容易得到這個(gè)導(dǎo)數(shù)的遞歸表達(dá)式(3.1-11): 3.1-11 同理,如果知道全部的關(guān)于下一層或者更接近輸出神經(jīng)元的那一層的輸出 OL的導(dǎo)數(shù),就可以根據(jù) OL的導(dǎo)數(shù)計(jì)算Oj的導(dǎo)數(shù)。并且把這兩個(gè)導(dǎo)數(shù)放在一起(3.1-12)。 3.1-12 其中 3.1-13 計(jì)算 Wij如果要使用梯度下降法,必須指定一個(gè)學(xué)習(xí)速率阿爾法。原本的權(quán)重上的權(quán)重的變化等于學(xué)習(xí)速率與梯度的乘積乘以 -1(3.1-140。 3.1-14 上市之所以乘以-1 是的原因是要更新的不是誤差極大值的方向,而是函數(shù)極小值的方向。 3.1.3反向傳播(B
55、P)算法 反向傳播算法是“誤差反向傳播”算法的簡(jiǎn)稱,反向傳播算法是一種和最優(yōu)化方法,通常情況下是梯度下降法相結(jié)合應(yīng)用的,反向傳播算法通常被作為訓(xùn)練人工神經(jīng)網(wǎng)絡(luò)的算法。反向傳播算法計(jì)算神經(jīng)網(wǎng)絡(luò)中所有權(quán)重?fù)p失函數(shù)的梯度。計(jì)算得出的梯度會(huì)傳遞給最優(yōu)化的方法,然后最優(yōu)化的方法以最小化損失函數(shù)用來(lái)更新權(quán)值。反向傳播算法通常被認(rèn)為是一種有監(jiān)督式的學(xué)習(xí)方法,但是反向傳播算法有時(shí)也用在一些無(wú)監(jiān)督的網(wǎng)絡(luò)中[24]。 BP神經(jīng)網(wǎng)絡(luò)算法的實(shí)現(xiàn)步驟如圖3.1-3所示。首先是網(wǎng)絡(luò)初始化,要對(duì)權(quán)值和閾值進(jìn)行初始化,對(duì)權(quán)值和閾值進(jìn)行初始化即是給輸入層到隱藏層各單元之間連接權(quán)值以及隱藏層到輸出層之間連接權(quán)值,輸出層閾
56、值和隱含層的閾值一般情況下隨機(jī)賦予一個(gè)介于零和一之間的小數(shù)[25]。然后是選取訓(xùn)練樣本及對(duì)選取的訓(xùn)練樣本的預(yù)處理,跟據(jù)研究的目的,需要提供訓(xùn)練樣本X=(x1,x2……xm),與此同時(shí)還要提供相對(duì)應(yīng)的檢驗(yàn)樣本D=(d1,d2……dm)。因?yàn)锽P神經(jīng)網(wǎng)絡(luò)各層的學(xué)習(xí)算法存在差異性,且BP神經(jīng)網(wǎng)絡(luò)各層所用的激活函數(shù)也可能不同,有必要在樣本輸入之前要對(duì)選取的輸入樣本作歸一化處理。第三步是樣本計(jì)算輸出,輸入層節(jié)點(diǎn)接收訓(xùn)練樣本xi的值后會(huì)逐個(gè)計(jì)算每層神經(jīng)元的實(shí)際輸出,直到輸出層結(jié)果收斂到較為理想的結(jié)果。然后輸出層會(huì)將輸出結(jié)果進(jìn)行還原處理,還原處理后會(huì)得到實(shí)際值,用得到的實(shí)際值計(jì)算其與檢驗(yàn)樣本D(期望輸出)之
57、間的偏差,如果偏差在可接受范圍以內(nèi),就得到訓(xùn)練好的BP神經(jīng)網(wǎng)絡(luò),并可以用訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)做下一步的研究工作,如果不滿足要求則繼續(xù)進(jìn)行迭代處理,直到得到理想的結(jié)果為止。接下來(lái)是調(diào)整神經(jīng)網(wǎng)絡(luò)各層之間的連接權(quán)值。首先要計(jì)算神經(jīng)網(wǎng)絡(luò)各層之間的誤差,得到一個(gè)從輸出層節(jié)點(diǎn)到隱含層節(jié)點(diǎn)最后到輸入層節(jié)點(diǎn)的逐層修改前后層之間的權(quán)重。最后返回第三步重新計(jì)算直到誤差在可接受范圍以內(nèi)才終止計(jì)算。 圖3.1-3 BP神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)算法流程圖 在BP神經(jīng)網(wǎng)絡(luò)算法中,理論已經(jīng)證明網(wǎng)絡(luò)的層數(shù)具有偏差和至少一個(gè)S型隱藏層加上一個(gè)線性輸出層的網(wǎng)絡(luò)就能夠逼近任何有理函數(shù),雖然增加神經(jīng)網(wǎng)絡(luò)的層數(shù)可以有效的使誤差降低,提
58、高準(zhǔn)確率,但也會(huì)使構(gòu)建的神經(jīng)網(wǎng)絡(luò)過(guò)度復(fù)雜化。此外不可以使用激活函數(shù)是線性的單層網(wǎng)絡(luò)來(lái)進(jìn)行計(jì)算,因?yàn)樽赃m應(yīng)線性網(wǎng)絡(luò)的功能要遠(yuǎn)遠(yuǎn)強(qiáng)于單層網(wǎng)絡(luò)解決的功能,并且且自適應(yīng)線性網(wǎng)絡(luò)相對(duì)單層網(wǎng)絡(luò)來(lái)說(shuō)運(yùn)算速度更快。網(wǎng)絡(luò)學(xué)習(xí)的結(jié)構(gòu)如圖3.1-4所示。 圖3.1-4 網(wǎng)絡(luò)學(xué)習(xí)結(jié)構(gòu) 神經(jīng)網(wǎng)絡(luò)精度受隱層神經(jīng)元的數(shù)量的影響,一般而言隨著隱藏層數(shù)量的增加神經(jīng)網(wǎng)絡(luò)的訓(xùn)練精度也隨之增加。有時(shí)也可以只用一個(gè)隱含層但是增加這個(gè)隱藏層神經(jīng)元的數(shù)量來(lái)提高網(wǎng)絡(luò)的訓(xùn)練精度,只采用一個(gè)隱藏層這種辦法比增加隱藏層的層數(shù)在實(shí)現(xiàn)上要比較簡(jiǎn)單。通常情況下,采用精度和神經(jīng)網(wǎng)絡(luò)算法訓(xùn)練網(wǎng)絡(luò)的時(shí)間來(lái)估測(cè)神經(jīng)網(wǎng)絡(luò)算法的質(zhì)量。當(dāng)神經(jīng)網(wǎng)絡(luò)算法的神
59、經(jīng)元數(shù)量比較少時(shí),神經(jīng)網(wǎng)絡(luò)網(wǎng)絡(luò)不能很好的學(xué)習(xí)以及訓(xùn)練迭代的次數(shù)也比較多從而導(dǎo)致訓(xùn)練精度不高。但是當(dāng)神經(jīng)網(wǎng)絡(luò)算法使用比較多的神經(jīng)元時(shí),網(wǎng)絡(luò)的功能雖然變得更加強(qiáng)大,卻有可能會(huì)出現(xiàn)過(guò)擬合現(xiàn)象。所以神經(jīng)網(wǎng)絡(luò)隱藏層神經(jīng)元個(gè)數(shù)的選取原則是在能夠?qū)崿F(xiàn)目的的基礎(chǔ)上,適當(dāng)?shù)募由弦粋€(gè)或者兩個(gè)神經(jīng)元以便加快誤差下降速度即可。在神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)中的學(xué)習(xí)速率一般取0.01?0.8之間的一個(gè)小數(shù),因?yàn)檫x取的學(xué)習(xí)速率過(guò)大會(huì)使系統(tǒng)變得不太穩(wěn)定,而如果選取小的學(xué)習(xí)速率,又會(huì)導(dǎo)致收斂太慢從而需要較長(zhǎng)的訓(xùn)練時(shí)間。 3.2實(shí)驗(yàn)數(shù)據(jù)的結(jié)構(gòu)及預(yù)處理 本實(shí)驗(yàn)采用的數(shù)據(jù)來(lái)源于德國(guó)某商業(yè)銀行客戶信貸數(shù)據(jù)記錄,該表記錄了1000條客
60、戶信貸數(shù)據(jù),該表的數(shù)據(jù)結(jié)構(gòu)定義如表3.2-1所示。 表3.2-1 序號(hào) 變量名稱 變量釋義 變量類型 變量描述 1 ID 屬性編號(hào) 整型 ... 2 check_acc 現(xiàn)有支票的賬戶狀況 類數(shù)據(jù) 1 : ... < 0 DM 2 : 0 <= ... < 200 DM 3 : ... >= 200 DM / 4 : 無(wú)支票賬戶 3 duration 每月信用期長(zhǎng) 類數(shù)據(jù) ... 4 cre_history 信用歷史 類數(shù)據(jù)
61、A30 : no credits taken/all credits paid back duly A31 : all credits at this bank paid back duly A32 : existing credits paid back duly till now A33 : delay in paying off in the past A34 : critical account/other credits existing (not at this bank) (續(xù)表) 序號(hào) 變量名稱 變量釋義 變量類型 變量描述
62、 5 purpose 使用目的 類數(shù)據(jù) A40 : car (new) A41 : car (used) A42 : furniture/equipment A43 : radio/television A44 : domestic appliances A45 : repairs A46 : education A47 : (vacation - does not exist?) A48 : retraining A49 : business A410 : others 6 cre_amoun
63、t 信用額度 整型 ... 7 sav_ account 儲(chǔ)蓄賬戶金額 類數(shù)據(jù) A61 : ... < 100 DM A62 : 100 <= ... < 500 DM A63 : 500 <= ... < 1000 DM A64 : .. >= 1000 DM A65 : unknown/ no savings account 8 pre_emp 目前就業(yè)情況 類數(shù)據(jù) A71 : unemployed A72
64、 : ... < 1 year A73 : 1 <= ... < 4 years A74 : 4 <= ... < 7 years A75 : .. >= 7 years (續(xù)表) 序號(hào) 變量名稱 變量釋義 變量類型 變量描述 9 sex_status 性別和婚姻狀況 類數(shù)據(jù) A91 : male : divorced/separated A92 :female :divorced/separated/married A93 : male : single A94 : male : mar
65、ried/widowed A95 : female : single 10 deb_guar 是否擁有共同賬戶人或著擔(dān)保人 類數(shù)據(jù) A101 : none A102 : co-applicant A103 : guarantor 11 pre_res 目前居住地(年) 整型 ... 12 property 財(cái)產(chǎn)狀況 類數(shù)據(jù) A121 : real estate A122 : if not A121 : building society savings agreement/life insurance A12
66、3 : if not A121/A122 : car or other, not in attribute 6 A124 : unknown / no property 13 age 年齡 整型 ... 14 other_install 其他的貸款情況 類數(shù)據(jù) A141 : bank A142 : stores A143 : none (續(xù)表) 序號(hào) 變量名稱 變量釋義 變量類型 變量描述 15 housing 房子擁有狀況 類數(shù)據(jù) A151 : rent A152 : own A153 : for free 16 existing_credit 客戶信用卡的數(shù)量 整型 ... 17 job 工作狀況 類數(shù)據(jù) A171 : unemployed/ unskilled - non-resident A172 : unskilled - resident A173 : skilled employee / offici
- 溫馨提示:
1: 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2: 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3.本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 裝配圖網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- Storytime (2)
- 【四清導(dǎo)航】秋八年級(jí)數(shù)學(xué)上冊(cè) 3.3 一元一次不等式(第3課時(shí))課件 (新版)浙教版
- 海淀區(qū)域P4P實(shí)操診斷課件
- 三年級(jí)記事作文指導(dǎo)
- 醫(yī)院內(nèi)感染的預(yù)防和控制
- 機(jī)械設(shè)計(jì)第十章習(xí)題
- 華泰汽車“全心服務(wù)_貼心關(guān)懷”管理知識(shí)分析方案
- Unit 11 Lesson 2 What's the matter 課件 1
- 創(chuàng)業(yè)大賽設(shè)計(jì)中財(cái)務(wù)分析方法與技巧
- 從現(xiàn)在開(kāi)始課件 (4)(精品)
- 蛋白質(zhì)促降解與氨基酸代謝
- (精品)電視原理第1章1
- 術(shù)中病情觀察小講課
- 日系汽車研發(fā)質(zhì)量管控
- 6Sigma的管理理論(ppt 30頁(yè))