本站小編為你精心準(zhǔn)備了多標(biāo)記學(xué)習(xí)的分類器圈方法參考范文,愿這些范文能點(diǎn)燃您思維的火花,激發(fā)您的寫作靈感。歡迎深入閱讀并收藏。
《軟件學(xué)報(bào)》2015年第十一期
傳統(tǒng)監(jiān)督學(xué)習(xí)假定每個(gè)學(xué)習(xí)對(duì)象只隸屬于一個(gè)概念標(biāo)記,然而在現(xiàn)實(shí)問題中,學(xué)習(xí)對(duì)象通常可同時(shí)與多個(gè)概念標(biāo)記相關(guān).例如,一篇報(bào)道亞洲杯的新聞可能既與“體育”相關(guān),又與“經(jīng)濟(jì)”、“博弈”等相關(guān);一幅攝于巴黎的自然場景照片可能既與“鐵塔”相關(guān),又與“人群”、“花鳥”等相關(guān).多標(biāo)記學(xué)習(xí)(multi-labellearning)對(duì)多標(biāo)記對(duì)象進(jìn)行學(xué)習(xí)是這方面的一個(gè)主流研究領(lǐng)域,目前已在文本分類、圖像標(biāo)注、生物信息學(xué)、個(gè)性化推薦等很多領(lǐng)域取得了應(yīng)用.多標(biāo)記對(duì)象的標(biāo)記存在相關(guān)性,否則,多個(gè)標(biāo)記不會(huì)同時(shí)隸屬于同一個(gè)對(duì)象.事實(shí)上,標(biāo)記之間關(guān)系的發(fā)現(xiàn)與利用是多標(biāo)記學(xué)習(xí)領(lǐng)域的一個(gè)關(guān)鍵問題.理由主要有兩個(gè)方面:一是當(dāng)處理多標(biāo)記對(duì)象時(shí),預(yù)測的輸出結(jié)果不再是一個(gè)二元值(+1或1)而變?yōu)闃?biāo)記的集合,因此,輸出結(jié)果的數(shù)量與標(biāo)記數(shù)量呈指數(shù)增長,必須要通過發(fā)現(xiàn)和利用標(biāo)記關(guān)系來縮減輸出結(jié)果的空間;二是若不考慮標(biāo)記關(guān)系,將多個(gè)標(biāo)記視為獨(dú)立的成分進(jìn)行分類,則將失去豐富的標(biāo)記關(guān)系信息,性能通常不夠理想.
分類器鏈方法(classifierchainsmethod)及其變型是利用標(biāo)記關(guān)系方面的一類有效技術(shù),它將標(biāo)記按照某種次序排成鏈,然后依次對(duì)鏈上的標(biāo)記構(gòu)建分類器,其中,鏈后面的標(biāo)記可利用鏈前面標(biāo)記所學(xué)習(xí)到的分類結(jié)果.雖然分類器鏈方法實(shí)現(xiàn)簡單,但已在很多文獻(xiàn)的實(shí)驗(yàn)報(bào)道中指出,分類器鏈方法利用標(biāo)記關(guān)系取得了比不用標(biāo)記關(guān)系的方法更好的性能.然而,分類器鏈方法的學(xué)習(xí)過程需要預(yù)先給定標(biāo)記的學(xué)習(xí)次序,這個(gè)信息在真實(shí)情況中難以獲得.此外,若次序選擇不當(dāng),分類器鏈方法或許性能提高有限.一種改進(jìn)的辦法是集成分類器鏈方法(ensembleclassifierchainsmethod).它生成多個(gè)標(biāo)記學(xué)習(xí)次序,然后對(duì)多個(gè)次序的結(jié)果加以集成.集成分類器鏈雖然在一定程度上緩解了分類器鏈性能受限的問題,但是標(biāo)記次序的數(shù)量龐大(與標(biāo)記數(shù)目呈階乘增長),集成分類器鏈方法仍面臨次序選擇的困難,性能仍然受限.本文針對(duì)以上問題,提出分類器圈方法(classifiercirclemethod)用于多標(biāo)記學(xué)習(xí).與分類器鏈方法不同,該方法隨機(jī)生成標(biāo)記的學(xué)習(xí)次序,通過構(gòu)建分類器圈結(jié)構(gòu),依次迭代地對(duì)每個(gè)標(biāo)記的分類器進(jìn)行更新.本文方法實(shí)現(xiàn)簡單.實(shí)驗(yàn)結(jié)果表明,本文方法在多個(gè)數(shù)據(jù)集、多種不同數(shù)量的訓(xùn)練樣本設(shè)置下,均取得比分類器鏈方法及一系列經(jīng)典多標(biāo)記方法更好的性能.本文第1節(jié)介紹多標(biāo)記學(xué)習(xí)及相關(guān)工作.第2節(jié)給出本文分類器圈方法.第3節(jié)匯報(bào)實(shí)驗(yàn)結(jié)果.最后,第4節(jié)總結(jié)全文.
1多標(biāo)記學(xué)習(xí)及相關(guān)工作
由于多標(biāo)記學(xué)習(xí)適用于處理很多現(xiàn)實(shí)復(fù)雜對(duì)象,自多標(biāo)記學(xué)習(xí)提出以來,得到很多學(xué)者的關(guān)注,發(fā)展出一系列方法.從利用標(biāo)記關(guān)系的視角,這些方法大致可以分為以下3類:•第1類為一階方法.這類方法不考慮標(biāo)記之間的關(guān)系,將多標(biāo)記學(xué)習(xí)問題分解為多個(gè)獨(dú)立的二類分類問題來解決.這類方法實(shí)現(xiàn)簡單,但其忽略標(biāo)記之間的關(guān)系信息,很多時(shí)候性能并不理想.•第2類為二階方法.這類方法考慮了標(biāo)記對(duì)之間的關(guān)系,如相關(guān)標(biāo)記與非相關(guān)標(biāo)記的排序關(guān)系.這類方法考慮了標(biāo)記關(guān)系,通常可取得比一階方法更好的性能,但它無法利用更復(fù)雜的標(biāo)記關(guān)系.•第3類為高階方法.這類方法通過考慮多個(gè)乃至全部標(biāo)記之間的關(guān)系來構(gòu)建多標(biāo)記決策函數(shù).這類方法有時(shí)可得到更好的學(xué)習(xí)性能[15].從發(fā)現(xiàn)標(biāo)記關(guān)系的視角,多標(biāo)記學(xué)習(xí)方法也可以分為如下兩類:•第1類是利用相關(guān)領(lǐng)域知識(shí)作為先驗(yàn)構(gòu)造出標(biāo)記之間的關(guān)系,如層次關(guān)系等.這種方法得到的標(biāo)記關(guān)系往往準(zhǔn)確且有助于提高性能,但現(xiàn)實(shí)情況中,這種準(zhǔn)確的關(guān)系通常難以獲得.•第2類是通過訓(xùn)練數(shù)據(jù)自動(dòng)發(fā)現(xiàn)標(biāo)記關(guān)系,如統(tǒng)計(jì)規(guī)律[27,28]等.這種方法更貼合現(xiàn)實(shí)任務(wù)的需求,但有時(shí)標(biāo)記關(guān)系選擇不當(dāng)會(huì)導(dǎo)致性能提高受限.值得一提的是,分類器鏈方法是利用標(biāo)記關(guān)系方面的一類簡單而有效的高階多標(biāo)記學(xué)習(xí)方法.該方法的思想是:構(gòu)造一條二類分類器鏈,鏈上每個(gè)節(jié)點(diǎn)對(duì)應(yīng)于一個(gè)標(biāo)記.該方法隨后依次對(duì)鏈上的標(biāo)記構(gòu)建分類器,其中,鏈后面的標(biāo)記可以結(jié)合鏈前面標(biāo)記的學(xué)習(xí)結(jié)果用于學(xué)習(xí)當(dāng)前標(biāo)記.顯然,分類器鏈方法利用到了標(biāo)記之間的關(guān)系,而且分類器鏈方法實(shí)現(xiàn)簡單,在不少實(shí)驗(yàn)報(bào)道中取得了良好的性能.然而,其學(xué)習(xí)過程需要事先給定標(biāo)記的學(xué)習(xí)次序,這個(gè)信息現(xiàn)實(shí)情況下通常難以準(zhǔn)確得到.此外,實(shí)驗(yàn)結(jié)果表明,學(xué)習(xí)次序的選擇會(huì)嚴(yán)重影響最終的學(xué)習(xí)性能.為了緩解這個(gè)困難,Read等人提出了集成分類器鏈方法[13,14].該方法構(gòu)造多條分類器鏈,其中每條分類器鏈對(duì)應(yīng)一個(gè)隨機(jī)選取的標(biāo)記次序.最終,每個(gè)標(biāo)記上的預(yù)測結(jié)果由多個(gè)分類器鏈的投票結(jié)果產(chǎn)生.但標(biāo)記可能的學(xué)習(xí)次序數(shù)量很大(與標(biāo)記數(shù)目呈階乘函數(shù)增長),集成分類器鏈方法很難有效遍歷所有甚至大部分次序,因此它仍存在因次序選擇不當(dāng)而導(dǎo)致性能受限的情況.為了克服以上困難,本文提出分類器圈方法.
2本文分類器圈方法
首先給出多標(biāo)記學(xué)習(xí)的形式化描述.在多標(biāo)記學(xué)習(xí)中,用戶輸入一組訓(xùn)練樣本={(xi,yi)|i=1,2,…,m},其中,x為一個(gè)訓(xùn)練示例;y{+1,1}q為該示例的標(biāo)記向量(labelvector),+1(或1)分別指對(duì)應(yīng)位置的標(biāo)記為該示例的相關(guān)(或不相關(guān))標(biāo)記;m表示訓(xùn)練樣本數(shù)量,q為標(biāo)記總數(shù)量.記=d(或d)為示例輸入空間,多標(biāo)記學(xué)習(xí)的目標(biāo)是:學(xué)到一個(gè)決策函數(shù)h:{+1,1}q,使得對(duì)于任意未見示例z,預(yù)測其相關(guān)標(biāo)記的集合.本文的分類器圈方法與分類器鏈方法最大的不同是:本文方法使用圈結(jié)構(gòu),而不是鏈.具體來說,分類器鏈方法沿著鏈結(jié)構(gòu)遍歷每個(gè)標(biāo)記一次,分類器圈方法考慮沿著圈結(jié)構(gòu)遍歷每個(gè)標(biāo)記若干次.圖1分別給出了分類器鏈方法與本文分類器圈方法的示意圖.直觀上,分類器圈方法沿著標(biāo)記或分類器的圈反復(fù)修正每個(gè)標(biāo)記的分類器,充分利用到了它與每個(gè)標(biāo)記或分類器之間的關(guān)系,避免分類器鏈方法次序選擇不當(dāng)時(shí),鏈前面的標(biāo)記難以利用它與鏈后面標(biāo)記的關(guān)系的情況.此外,由于分類器圈方法具有這個(gè)優(yōu)勢,它對(duì)學(xué)習(xí)次序不敏感,本文方法可隨機(jī)生成標(biāo)記次序.第3節(jié)給出實(shí)驗(yàn)結(jié)果說明隨機(jī)次序與固定次序的性能沒有顯著差異.
3實(shí)驗(yàn)結(jié)果
3.1實(shí)驗(yàn)數(shù)據(jù)本文在6個(gè)多標(biāo)記基準(zhǔn)數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)比較.這些數(shù)據(jù)集來自多標(biāo)記學(xué)習(xí)不同應(yīng)用領(lǐng)域:Medical[29]來自于文本分類,Enron[30]來自于電子郵件分析,Scene[6]來自于圖片分類,Emotions[31]來自于音樂標(biāo)注,Yeast[7]來自于基因功能預(yù)測,Genbase[32]來自于蛋白質(zhì)分類.表1給出數(shù)據(jù)集的統(tǒng)計(jì)信息。
3.2評(píng)價(jià)指標(biāo)本文采用多標(biāo)記學(xué)習(xí)領(lǐng)域兩個(gè)常用的評(píng)價(jià)指標(biāo)1macroF和1microF來衡量方法的預(yù)測性能,值越大性能越好。
3.3比較方法本文比較如下多標(biāo)記方法:1)BR(binaryrelevant)方法[2,21]:該方法不考慮標(biāo)記關(guān)系,獨(dú)立訓(xùn)練每個(gè)標(biāo)記的二類分類器,是一階方法.2)ML-kNN(multi-labelk-nearestneighbor)方法[17]:該方法拓展k近鄰方法用于處理多標(biāo)記學(xué)習(xí)問題.它沒有考慮標(biāo)記間的關(guān)系,屬于一階方法,近鄰個(gè)數(shù)采用文獻(xiàn)的推薦參數(shù)k=10.3)CLR(calibratedlabelrank)方法[18]:該方法考慮相關(guān)標(biāo)記與不相關(guān)標(biāo)記的排序關(guān)系,屬于二階方法.4)CC(classifierchains)方法[13,14],即,分類器鏈方法:該方法考慮多個(gè)標(biāo)記間的關(guān)系,屬于高階方法.5)ECC(ensembleclassifierschains)方法,即,集成分類器鏈方法:與CC類似,屬于高階方法.分類器鏈的集成個(gè)數(shù)采用文獻(xiàn)推薦參數(shù)K=10.6)CCE(classifiercircle)方法,即,本文的分類器圈方法:本文方法考慮了全部標(biāo)記之間的關(guān)系,屬于高階方法.輪數(shù)T固定為5.以上方法的二類分類器采用線性Logistic回歸,線性Logistic回歸采用Liblinear工具包[33]實(shí)現(xiàn).其中,Logistic回歸模型的正則化系數(shù)C根據(jù)5折交叉驗(yàn)證確定.
3.4實(shí)驗(yàn)結(jié)果對(duì)每個(gè)數(shù)據(jù)集,本文隨機(jī)選取80%樣本做訓(xùn)練,余下20%做測試.實(shí)驗(yàn)重復(fù)30次,表2給出平均結(jié)果和標(biāo)準(zhǔn)差,()表示CCE方法顯著優(yōu)(劣)于比較方法(成對(duì)t檢驗(yàn)根據(jù)95%置信度),括號(hào)里的數(shù)字為對(duì)應(yīng)方法性能序(越小性能越好).表中還給出每個(gè)方法的平均序.可見,CCE方法取得了不錯(cuò)的性能,在1macroF與1microF兩個(gè)指標(biāo)上都取得了最小的平均序.CCE方法在3個(gè)數(shù)據(jù)集上取得了最好的1macroF性能,在4個(gè)數(shù)據(jù)集上取得了最好的1microF性能。
4結(jié)束語
利用標(biāo)記關(guān)系來提高學(xué)習(xí)性能,是多標(biāo)記學(xué)習(xí)的關(guān)鍵.分類器鏈方法及其變型是這方面一類經(jīng)典做法,但它依賴于標(biāo)記學(xué)習(xí)次序的選擇.這個(gè)信息現(xiàn)實(shí)情況難以可靠得到,使用不當(dāng)會(huì)使性能提高有限.針對(duì)這個(gè)問題,本文提出了分類器圈方法CCE.CCE通過圈結(jié)構(gòu)迭代訓(xùn)練每個(gè)標(biāo)記的分類器,避免了分類器鏈方法學(xué)習(xí)次序選擇的問題.實(shí)驗(yàn)結(jié)果表明,CCE方法取得了比分類器鏈方法及一系列經(jīng)典多標(biāo)記學(xué)習(xí)方法更好的性能.未來將研究更精確設(shè)置CCE的迭代輪數(shù)(比如經(jīng)驗(yàn)風(fēng)險(xiǎn)不再變化)、將CCE用于大規(guī)模數(shù)據(jù)以及CCE工作的理論基礎(chǔ).
作者:王少博 李宇峰 單位:計(jì)算機(jī)軟件新技術(shù)國家重點(diǎn)實(shí)驗(yàn)室