本站小編為你精心準(zhǔn)備了SVM混合集成的信用風(fēng)險論文參考范文,愿這些范文能點燃您思維的火花,激發(fā)您的寫作靈感。歡迎深入閱讀并收藏。
1相關(guān)概念
1.1支持向量機支持向量機(SupportVectorMachine,svm)已經(jīng)成為倍受關(guān)注的分類技術(shù)。基于結(jié)構(gòu)風(fēng)險最小化原則,SVM通過求解最優(yōu)分隔超平面來得到高分類準(zhǔn)確率的分類器(圖1)。考慮有數(shù)據(jù)集Dx,y,i1,2,…,N,N為樣本總數(shù),xRR,x是p維向量,y1,1是二分類問題中的類標(biāo)。在分類問題中,SVM嘗試找到最小化期望分類誤差的分類器fx。線性分類器fx是一個可以表示成fxsgnwxb的超平面。找到SVM的最優(yōu)分類器fx的過程等同于優(yōu)化如下公式(1)中的凸二次規(guī)劃問題:其中,C是正規(guī)化參數(shù),用于平衡分類器在數(shù)據(jù)集D中的時間復(fù)雜度與分類準(zhǔn)確率。上述二次規(guī)劃問題可以通過對偶函數(shù)求解。基于核方法,用核函數(shù)取代上述公式中的內(nèi)積,可以將線性SVM轉(zhuǎn)換成更為復(fù)雜的非線性SVM。一些典型的核函數(shù)如下。
1.2集成學(xué)習(xí)模型近來的研究表明集成多個分類器的學(xué)習(xí)模型能取得更高的準(zhǔn)確率[8][14]。集成學(xué)習(xí)模型的核心觀點在于,組合多個分類器從而得到比原始的單個分類器更加準(zhǔn)確和有效的集成學(xué)習(xí)系統(tǒng)。這一思想源于組合多個相對簡單的模式識別設(shè)備后出現(xiàn)的性質(zhì)。集成學(xué)習(xí)模型通過匯集所有分類器的決策結(jié)果,從而得到一個優(yōu)于所有成員分類器的混合模型。圖2給出了集成學(xué)習(xí)模型的總體結(jié)構(gòu),幾個不同組合成員分類器(專家)的輸出被組合成最終的輸出。
1.2.1AdaBoostAdaBoost是集成學(xué)習(xí)中常見的集成策略,其主要出發(fā)點在于,分類器的集成是增量式進行的,每次增加一個組合成員分類器。每個組合成員分類器的訓(xùn)練集的選擇是基于上一個分類器表現(xiàn)的。在AdaBoost中,訓(xùn)練集中被錯誤分類的樣本在下一次比被正確分類的樣本有更高的概率被選中。因此,后續(xù)訓(xùn)練會使集成分類器更加注重錯分的樣本,這一方法也使得基于AdaBoost的集成學(xué)習(xí)模型在許多問題上的性能優(yōu)于基Bagging的集成學(xué)習(xí)模型[13]。目前已經(jīng)有多種不同的AdaBoost算法。在本文的研究中,我們選擇了AdaBoostM1算法[15]作為AdaBoost集成策略。
1.2.2隨機子集模型隨機子集模型(RandomSubspaceMethod,RSM)是由Ho[16]提出的集成策略。RSM同樣是通過改變訓(xùn)練數(shù)據(jù)集來達到抽樣的目的。然而,這種改變是基于屬性的。假定訓(xùn)練樣本XX,X,…,X中的Xi1,…,n是一個p維向量:Xx,x,…,x由p個特征決定。在RSM中,首先從p維的訓(xùn)練集樣本X中隨機選擇rp個特征。這樣可以得到原來p維特征空間的r維隨機子空間。修正后的訓(xùn)練數(shù)據(jù)集XX,X,…,X包含了r維的訓(xùn)練樣本XX,X,…,Xi1,…,n,其中r個成分xj1,…,r是從訓(xùn)練集X向量的p個部分xj1,…,p中隨機抽取的(每個訓(xùn)練樣本被選擇的屬性是相同的)。接下來可以在不同的隨機子空間X中生成不同的組合成員分類器,并使用組合投票方法得到最終結(jié)果。
2基于RSA-SVM的信用風(fēng)險評估模型
為了得到評估準(zhǔn)確率更高的信用風(fēng)險評估模型,本文提出了一種新的被稱作RSA-SVM的混合集成模型來進行信用風(fēng)險評估,RSA-SVM使用了一種稱作RSA的混合集成策略,并使用SVM作為組合成員分類器。根據(jù)文獻[17]對于有效的集成學(xué)習(xí)模型的定義:“集成學(xué)習(xí)模型能取得更高預(yù)測準(zhǔn)確率的充分必要條件為,用于組合的分類器必須是準(zhǔn)確和有差異的”。對于第一個條件(準(zhǔn)確),我們選擇了SVM作為組合成員分類器。對于第二個條件(多樣),意味著每個組合成員分類器對于問題都有自己獨有的知識,并且相對于其它的組合成員分類器能有不同的預(yù)測錯誤。在集成學(xué)習(xí)中,RSM和AdaBoost是兩種常見的生成不同組合成員分類器,從而提高其多樣性的策略,已有許多應(yīng)用證明了這兩種策略的有效性[13]。然而,對于AdaBoost,提高多樣性的方式僅僅在于訓(xùn)練數(shù)據(jù)集的不同分割方式。為了增加多樣性,本文使用RSM選擇一個屬性子集作為輸入,接下來使用AdaBoost獲取不同的訓(xùn)練集子集,從而得到了由RSM和AdaBoost兩種流行策略混合而成的集成策略。
2.1模型總體描述
本文提出的RSA-SVM模型的具體步驟算法1所示(對應(yīng)的子抽樣過程如算法2所示)。算法具體步驟為:1)運行子抽樣過程(算法2),從TR中有放回抽樣得到當(dāng)前分類器所需的訓(xùn)練數(shù)據(jù)集。2)使用RSM對TR的屬性進行隨機抽樣(選取λ比例的屬性),得到新的訓(xùn)練數(shù)據(jù)集TR,對TR進行同樣操作得到TR(對應(yīng)的測試數(shù)據(jù)集進行同樣操作)。3)在TR上訓(xùn)練得到組合成員分類器SVM。4)計算SVM在訓(xùn)練數(shù)據(jù)集TR上的預(yù)測錯誤ε,該ε決定了組合成員分類器SVM在加權(quán)組合投票時的權(quán)重。5)上述過程重復(fù)進行T次,在訓(xùn)練過程中組合成員分類器的權(quán)重根據(jù)其正確率變化而變化。6)最終模型的輸出由T個組合成員分類器加權(quán)投票決定。RSA與AdaBoost的不同點在于:RSA在AdaBoost的樣本隨機抽取的基礎(chǔ)上增加了屬性的隨機抽取,使得樣本的隨機性增加。RSA與RSM的不同點在于:RSA在RSM的屬性隨機抽取的基礎(chǔ)上增加了樣本的隨機抽取。這樣做的目的同樣是為了增加樣本的隨機性。
2.2時間復(fù)雜度分析設(shè)n為訓(xùn)練樣本的個數(shù),d為每個樣本包含的特征數(shù)目,T為組合成員分類器的數(shù)目。在算法1中,循環(huán)總共進行了T次,子抽樣過程的時間復(fù)雜度為On,RSM隨機抽樣的時間復(fù)雜度為Ond,而預(yù)測錯誤和權(quán)重的計算的時間復(fù)雜度同樣為On,又因為標(biāo)準(zhǔn)支持向量機的時間復(fù)雜度是On[18],所以本文提出的RSA-SVM集成模型的時間復(fù)雜度。
3實驗
3.1實驗數(shù)據(jù)集為了驗證混合集成模型RSA-SVM的有效性,本文在UCI機器學(xué)習(xí)數(shù)據(jù)庫中常用的兩組公開的信用數(shù)據(jù)集進行了實證分析,這兩組數(shù)據(jù)集分別是澳大利亞信用數(shù)據(jù)(AustralianCredit)和日本信用數(shù)據(jù)(JapaneseCredit)。下表(表1)給出了兩組數(shù)據(jù)集的具體內(nèi)容。其中,對于日本信用數(shù)據(jù)集,為了避免屬性中定性變量過多帶來的負面影響,我們只使用了15個屬性中的13個屬性A1-A5,A8-A15。在數(shù)據(jù)屬性處理過程中,有K個類別的定性變量的屬性需要用K-1個布爾屬性來表示。觀察可知,在日本信用數(shù)據(jù)集中,A6與A7這兩個屬性為類別屬性,且類別數(shù)最多。為了避免輸入空間的維度過高,本文不使用A6與A7這兩個屬性,這種數(shù)據(jù)處理方式同樣可以在文獻[12]中找到。另外,在運行混合集成模型RSA-SVM之前,需要對兩組數(shù)據(jù)集進行歸一化處理。
3.2評價指標(biāo)本文實驗選擇了信用風(fēng)險評估領(lǐng)域常見的三種度量指標(biāo)作為衡量模型好壞的標(biāo)準(zhǔn),這三種指標(biāo)包括平均準(zhǔn)確率(Average)、第一類錯誤(TypeIerror)和第二類錯誤(TypeIIerror)。其中,第一類錯誤和第二類錯誤是信用風(fēng)險評估系統(tǒng)中常見的兩類分類錯誤。對于銀行來說,第一類錯誤將好的客戶分類為壞的客戶并且拒絕該客戶的貸款申請,這樣會降低銀行的利潤。相反的,第二類錯誤將壞的客戶分類為好的客戶并提供貸款,這樣會給銀行帶來損失。研究者通常更重視第二類錯誤,因為通常認為第二類錯誤能給金融機構(gòu)帶來更嚴重的沖擊。在以往的信用風(fēng)險評估模型的研究中,SVM通常被認為比ANN更優(yōu),因為它的目標(biāo)函數(shù)可以控制第二類錯誤。然而,也不能忽視第一類錯誤在提高銀行收益方面所起到的作用[19]。
3.3實驗結(jié)果在本文的實驗過程中,我們使用LIBSVM的二次開發(fā)接口進行了二次開發(fā),在Eclipse平臺上使用JAVA語言實現(xiàn)了本文提出的RSA-SVM模型。為了進行對比試驗,本文還實現(xiàn)了基于Bagging的SVM集成學(xué)習(xí)模型(Bagging-SVM)[13]、隨機子集SVM(RS-SVM)[13]、融合SVM的AdaBoost(AdaBoost-SVM)[13]和RSB-SVM[8]。在兩組公開信用數(shù)據(jù)集上,采用10-折交叉驗證的方式,實驗比較了RSA-SVM和一些常見的信用風(fēng)險評估模型的性能。這些常見的信用風(fēng)險評估模型包括:線性回歸(LR)、邏輯回歸(LOG)、BP神經(jīng)網(wǎng)絡(luò)(BPNN)、標(biāo)準(zhǔn)支持向量機(SVM)、模糊支持向量機(B-FSVM)[20]、模糊近似支持向量機(FPSM)[21]、基于Bagging的SVM集成學(xué)習(xí)模型(Bagging-SVM)[13]、隨機子集SVM(RS-SVM)[13]、融合SVM的AdaBoost(AdaBoost-SVM)[13]和RSB-SVM[8]。在實驗過程中,組合成員分類器的數(shù)目為15[13],隨機子集模型中屬性的抽樣比例為0.9[8]。兩組數(shù)據(jù)集上的實驗結(jié)果如表3、表4所示。表3給出了不同的信用風(fēng)險評估模型在日本信用數(shù)據(jù)集上的實驗結(jié)果,根據(jù)實驗結(jié)果可以得到以下結(jié)論:1)本文提出的RSA-SVM模型在三種核函數(shù)上都取得了最好的實驗結(jié)果(取得了前三的排名),這一結(jié)果證明了本文提出的模型的有效性;2)集成模型的預(yù)測準(zhǔn)確率普遍優(yōu)于單分類器模型,這也說明了在日本信用數(shù)據(jù)集中,集成多個分類器的集成學(xué)習(xí)模型能取得更高的預(yù)測準(zhǔn)確率。表4給出了不同的信用風(fēng)險評估模型在澳大利亞信用數(shù)據(jù)集上的實驗結(jié)果,根據(jù)實驗結(jié)果可以得到以下結(jié)論:1)本文提出的RSA-SVM模型取得了最好的實驗結(jié)果;2)隨機子集SVM(RS-SVM)取得了次優(yōu)的結(jié)果,這說明了隨機子集策略的有效性。綜上所述,在信用風(fēng)險評估問題中,本文提出的混合集成模型RSA-SVM模型能取得更高的預(yù)測準(zhǔn)確率,是進行信用風(fēng)險評估的有效模型。
4總結(jié)與展望
信用風(fēng)險評估已經(jīng)成為金融機構(gòu)評估信用風(fēng)險、增加現(xiàn)金流量、降低可能風(fēng)險和做出有效決定的主要方法。信用風(fēng)險評估模型的評估準(zhǔn)確率對于金融機構(gòu)的利潤影響較大,評估準(zhǔn)確率僅僅提高一個百分點常常能使金融機構(gòu)挽回很大的損失。為了得到評估準(zhǔn)確率更高的信用風(fēng)險評估模型,本文提出了一種新的被稱作RSA-SVM的混合集成策略,并使用SVM作為組合成員分類器來進行信用風(fēng)險評估。實驗在UCI機器學(xué)習(xí)數(shù)據(jù)庫中常用的兩組公開的信用數(shù)據(jù)集上比較了RSA-SVM和一些常見的信用風(fēng)險評估模型的性能,實驗結(jié)果表明混合集成模型RSA-SVM能取得更高的預(yù)測準(zhǔn)確率,是進行信用風(fēng)險評估的有效模型。本文以后的研究方向包括以下三個方面:首先,本文只在兩組公開的標(biāo)準(zhǔn)數(shù)據(jù)集上進行了檢驗,模型在其它數(shù)據(jù)上的有效性還需要進一步驗證;其次,我們選擇了SVM作為組合成員分類器,模型在其它組合成員分類器(如ANN)上的性能分析也是未來的研究方向;最后,本文模型混合了兩種流行策略(RS和AdaBoost)取得了較好的性能,如何構(gòu)建其它的混合策略,從而進一步提高分類性能,也是未來的研究方向。
作者:陳云石松潘彥俞立單位:上海財經(jīng)大學(xué)公共經(jīng)濟與管理學(xué)院上海市金融信息技術(shù)研究重點實驗室