美章網 資料文庫 SVM混合集成的信用風險論文范文

SVM混合集成的信用風險論文范文

本站小編為你精心準備了SVM混合集成的信用風險論文參考范文,愿這些范文能點燃您思維的火花,激發您的寫作靈感。歡迎深入閱讀并收藏。

SVM混合集成的信用風險論文

1相關概念

1.1支持向量機支持向量機(SupportVectorMachine,svm)已經成為倍受關注的分類技術。基于結構風險最小化原則,SVM通過求解最優分隔超平面來得到高分類準確率的分類器(圖1)。考慮有數據集Dx,y,i1,2,…,N,N為樣本總數,xRR,x是p維向量,y1,1是二分類問題中的類標。在分類問題中,SVM嘗試找到最小化期望分類誤差的分類器fx。線性分類器fx是一個可以表示成fxsgnwxb的超平面。找到SVM的最優分類器fx的過程等同于優化如下公式(1)中的凸二次規劃問題:其中,C是正規化參數,用于平衡分類器在數據集D中的時間復雜度與分類準確率。上述二次規劃問題可以通過對偶函數求解。基于核方法,用核函數取代上述公式中的內積,可以將線性SVM轉換成更為復雜的非線性SVM。一些典型的核函數如下。

1.2集成學習模型近來的研究表明集成多個分類器的學習模型能取得更高的準確率[8][14]。集成學習模型的核心觀點在于,組合多個分類器從而得到比原始的單個分類器更加準確和有效的集成學習系統。這一思想源于組合多個相對簡單的模式識別設備后出現的性質。集成學習模型通過匯集所有分類器的決策結果,從而得到一個優于所有成員分類器的混合模型。圖2給出了集成學習模型的總體結構,幾個不同組合成員分類器(專家)的輸出被組合成最終的輸出。

1.2.1AdaBoostAdaBoost是集成學習中常見的集成策略,其主要出發點在于,分類器的集成是增量式進行的,每次增加一個組合成員分類器。每個組合成員分類器的訓練集的選擇是基于上一個分類器表現的。在AdaBoost中,訓練集中被錯誤分類的樣本在下一次比被正確分類的樣本有更高的概率被選中。因此,后續訓練會使集成分類器更加注重錯分的樣本,這一方法也使得基于AdaBoost的集成學習模型在許多問題上的性能優于基Bagging的集成學習模型[13]。目前已經有多種不同的AdaBoost算法。在本文的研究中,我們選擇了AdaBoostM1算法[15]作為AdaBoost集成策略。

1.2.2隨機子集模型隨機子集模型(RandomSubspaceMethod,RSM)是由Ho[16]提出的集成策略。RSM同樣是通過改變訓練數據集來達到抽樣的目的。然而,這種改變是基于屬性的。假定訓練樣本XX,X,…,X中的Xi1,…,n是一個p維向量:Xx,x,…,x由p個特征決定。在RSM中,首先從p維的訓練集樣本X中隨機選擇rp個特征。這樣可以得到原來p維特征空間的r維隨機子空間。修正后的訓練數據集XX,X,…,X包含了r維的訓練樣本XX,X,…,Xi1,…,n,其中r個成分xj1,…,r是從訓練集X向量的p個部分xj1,…,p中隨機抽取的(每個訓練樣本被選擇的屬性是相同的)。接下來可以在不同的隨機子空間X中生成不同的組合成員分類器,并使用組合投票方法得到最終結果。

2基于RSA-SVM的信用風險評估模型

為了得到評估準確率更高的信用風險評估模型,本文提出了一種新的被稱作RSA-SVM的混合集成模型來進行信用風險評估,RSA-SVM使用了一種稱作RSA的混合集成策略,并使用SVM作為組合成員分類器。根據文獻[17]對于有效的集成學習模型的定義:“集成學習模型能取得更高預測準確率的充分必要條件為,用于組合的分類器必須是準確和有差異的”。對于第一個條件(準確),我們選擇了SVM作為組合成員分類器。對于第二個條件(多樣),意味著每個組合成員分類器對于問題都有自己獨有的知識,并且相對于其它的組合成員分類器能有不同的預測錯誤。在集成學習中,RSM和AdaBoost是兩種常見的生成不同組合成員分類器,從而提高其多樣性的策略,已有許多應用證明了這兩種策略的有效性[13]。然而,對于AdaBoost,提高多樣性的方式僅僅在于訓練數據集的不同分割方式。為了增加多樣性,本文使用RSM選擇一個屬性子集作為輸入,接下來使用AdaBoost獲取不同的訓練集子集,從而得到了由RSM和AdaBoost兩種流行策略混合而成的集成策略。

2.1模型總體描述

本文提出的RSA-SVM模型的具體步驟算法1所示(對應的子抽樣過程如算法2所示)。算法具體步驟為:1)運行子抽樣過程(算法2),從TR中有放回抽樣得到當前分類器所需的訓練數據集。2)使用RSM對TR的屬性進行隨機抽樣(選取λ比例的屬性),得到新的訓練數據集TR,對TR進行同樣操作得到TR(對應的測試數據集進行同樣操作)。3)在TR上訓練得到組合成員分類器SVM。4)計算SVM在訓練數據集TR上的預測錯誤ε,該ε決定了組合成員分類器SVM在加權組合投票時的權重。5)上述過程重復進行T次,在訓練過程中組合成員分類器的權重根據其正確率變化而變化。6)最終模型的輸出由T個組合成員分類器加權投票決定。RSA與AdaBoost的不同點在于:RSA在AdaBoost的樣本隨機抽取的基礎上增加了屬性的隨機抽取,使得樣本的隨機性增加。RSA與RSM的不同點在于:RSA在RSM的屬性隨機抽取的基礎上增加了樣本的隨機抽取。這樣做的目的同樣是為了增加樣本的隨機性。

2.2時間復雜度分析設n為訓練樣本的個數,d為每個樣本包含的特征數目,T為組合成員分類器的數目。在算法1中,循環總共進行了T次,子抽樣過程的時間復雜度為On,RSM隨機抽樣的時間復雜度為Ond,而預測錯誤和權重的計算的時間復雜度同樣為On,又因為標準支持向量機的時間復雜度是On[18],所以本文提出的RSA-SVM集成模型的時間復雜度。

3實驗

3.1實驗數據集為了驗證混合集成模型RSA-SVM的有效性,本文在UCI機器學習數據庫中常用的兩組公開的信用數據集進行了實證分析,這兩組數據集分別是澳大利亞信用數據(AustralianCredit)和日本信用數據(JapaneseCredit)。下表(表1)給出了兩組數據集的具體內容。其中,對于日本信用數據集,為了避免屬性中定性變量過多帶來的負面影響,我們只使用了15個屬性中的13個屬性A1-A5,A8-A15。在數據屬性處理過程中,有K個類別的定性變量的屬性需要用K-1個布爾屬性來表示。觀察可知,在日本信用數據集中,A6與A7這兩個屬性為類別屬性,且類別數最多。為了避免輸入空間的維度過高,本文不使用A6與A7這兩個屬性,這種數據處理方式同樣可以在文獻[12]中找到。另外,在運行混合集成模型RSA-SVM之前,需要對兩組數據集進行歸一化處理。

3.2評價指標本文實驗選擇了信用風險評估領域常見的三種度量指標作為衡量模型好壞的標準,這三種指標包括平均準確率(Average)、第一類錯誤(TypeIerror)和第二類錯誤(TypeIIerror)。其中,第一類錯誤和第二類錯誤是信用風險評估系統中常見的兩類分類錯誤。對于銀行來說,第一類錯誤將好的客戶分類為壞的客戶并且拒絕該客戶的貸款申請,這樣會降低銀行的利潤。相反的,第二類錯誤將壞的客戶分類為好的客戶并提供貸款,這樣會給銀行帶來損失。研究者通常更重視第二類錯誤,因為通常認為第二類錯誤能給金融機構帶來更嚴重的沖擊。在以往的信用風險評估模型的研究中,SVM通常被認為比ANN更優,因為它的目標函數可以控制第二類錯誤。然而,也不能忽視第一類錯誤在提高銀行收益方面所起到的作用[19]。

3.3實驗結果在本文的實驗過程中,我們使用LIBSVM的二次開發接口進行了二次開發,在Eclipse平臺上使用JAVA語言實現了本文提出的RSA-SVM模型。為了進行對比試驗,本文還實現了基于Bagging的SVM集成學習模型(Bagging-SVM)[13]、隨機子集SVM(RS-SVM)[13]、融合SVM的AdaBoost(AdaBoost-SVM)[13]和RSB-SVM[8]。在兩組公開信用數據集上,采用10-折交叉驗證的方式,實驗比較了RSA-SVM和一些常見的信用風險評估模型的性能。這些常見的信用風險評估模型包括:線性回歸(LR)、邏輯回歸(LOG)、BP神經網絡(BPNN)、標準支持向量機(SVM)、模糊支持向量機(B-FSVM)[20]、模糊近似支持向量機(FPSM)[21]、基于Bagging的SVM集成學習模型(Bagging-SVM)[13]、隨機子集SVM(RS-SVM)[13]、融合SVM的AdaBoost(AdaBoost-SVM)[13]和RSB-SVM[8]。在實驗過程中,組合成員分類器的數目為15[13],隨機子集模型中屬性的抽樣比例為0.9[8]。兩組數據集上的實驗結果如表3、表4所示。表3給出了不同的信用風險評估模型在日本信用數據集上的實驗結果,根據實驗結果可以得到以下結論:1)本文提出的RSA-SVM模型在三種核函數上都取得了最好的實驗結果(取得了前三的排名),這一結果證明了本文提出的模型的有效性;2)集成模型的預測準確率普遍優于單分類器模型,這也說明了在日本信用數據集中,集成多個分類器的集成學習模型能取得更高的預測準確率。表4給出了不同的信用風險評估模型在澳大利亞信用數據集上的實驗結果,根據實驗結果可以得到以下結論:1)本文提出的RSA-SVM模型取得了最好的實驗結果;2)隨機子集SVM(RS-SVM)取得了次優的結果,這說明了隨機子集策略的有效性。綜上所述,在信用風險評估問題中,本文提出的混合集成模型RSA-SVM模型能取得更高的預測準確率,是進行信用風險評估的有效模型。

4總結與展望

信用風險評估已經成為金融機構評估信用風險、增加現金流量、降低可能風險和做出有效決定的主要方法。信用風險評估模型的評估準確率對于金融機構的利潤影響較大,評估準確率僅僅提高一個百分點常常能使金融機構挽回很大的損失。為了得到評估準確率更高的信用風險評估模型,本文提出了一種新的被稱作RSA-SVM的混合集成策略,并使用SVM作為組合成員分類器來進行信用風險評估。實驗在UCI機器學習數據庫中常用的兩組公開的信用數據集上比較了RSA-SVM和一些常見的信用風險評估模型的性能,實驗結果表明混合集成模型RSA-SVM能取得更高的預測準確率,是進行信用風險評估的有效模型。本文以后的研究方向包括以下三個方面:首先,本文只在兩組公開的標準數據集上進行了檢驗,模型在其它數據上的有效性還需要進一步驗證;其次,我們選擇了SVM作為組合成員分類器,模型在其它組合成員分類器(如ANN)上的性能分析也是未來的研究方向;最后,本文模型混合了兩種流行策略(RS和AdaBoost)取得了較好的性能,如何構建其它的混合策略,從而進一步提高分類性能,也是未來的研究方向。

作者:陳云石松潘彥俞立單位:上海財經大學公共經濟與管理學院上海市金融信息技術研究重點實驗室

主站蜘蛛池模板: 欧美亚洲另类视频| 中文字幕在线亚洲精品| 法国性XXXXX极品| 四虎国产精品永久地址99| 好吊色在线观看| 国产美女一级高清免费观看| 一区二区三区电影在线观看| 日日夜夜操视频| 久久综合九色欧美综合狠狠| 欧美日韩成人在线观看| 伊人狠狠色丁香综合尤物| 美女羞羞视频免费网站| 国产免费内射又粗又爽密桃视频| 亚洲五月激情综合图片区| 国产麻豆成av人片在线观看| xxxx俄罗斯大白屁股| 成年人免费网站在线观看| 久久天天躁狠狠躁夜夜av| 极品欧美jiizzhd欧美| 亚洲成人中文字幕| 波多野结衣作品大全| 免费A级毛片AV无码| 精品日本一区二区三区在线观看| 国产亚洲av综合人人澡精品| 四虎a456tncom| 国产精品对白交换视频| 97久久精品人妻人人搡人人玩| 小浪蹄子嗯嗯水挺多啊| 中文字幕一精品亚洲无线一区| 日本免费网站视频www区| 久久综合九色综合97伊人麻豆| 欧洲美女与动zozo| 亚洲国产精品欧美日韩一区二区 | 欧美日韩在线电影| 亚洲色av性色在线观无码| 男女肉粗暴进来动态图| 动漫人物桶动漫人物免费观看 | 天天躁日日躁狠狠躁人妻| 一级成人a免费视频| 成人欧美一区二区三区的电影| 久久91精品国产91久久户|