本站小編為你精心準(zhǔn)備了加權(quán)粗糙樸素貝葉斯算法參考范文,愿這些范文能點(diǎn)燃您思維的火花,激發(fā)您的寫作靈感。歡迎深入閱讀并收藏。
《計(jì)算機(jī)應(yīng)用研究雜志》2015年第五期
1相關(guān)研究
朱敏等在文獻(xiàn)[7]中采用粗糙集來生成樸素貝葉斯網(wǎng)絡(luò)預(yù)測模型的網(wǎng)絡(luò)結(jié)構(gòu)和各節(jié)點(diǎn)的條件概率表,有效去除了樣本數(shù)據(jù)集中的冗余屬性,使得樸素貝葉斯算法更加簡潔有效;孫艷等在文獻(xiàn)[8]中首先利用粗糙集技術(shù)得到網(wǎng)頁分類決策的屬性約簡表,然后通過樸素貝葉斯算法進(jìn)行分類過濾,降低了系統(tǒng)開銷,且過濾準(zhǔn)確度有明顯提高;王純子等在文獻(xiàn)[9]中在基于貝葉斯理論的網(wǎng)絡(luò)攻防對峙模型中引入粗糙集技術(shù),提高了該模型對冗余信息的處理性能,有效縮減了博弈分析中策略空間的規(guī)模。在上述文獻(xiàn)中,通過在貝葉斯算法中引入粗糙集技術(shù),有效消除了冗余屬性,降低了計(jì)算復(fù)雜度,并使貝葉斯算法的分類準(zhǔn)確度大幅上升,但是它們局限于在屬性約簡后直接使用樸素貝葉斯算法對樣本集進(jìn)行分類,而沒有嘗試將粗糙集技術(shù)和加權(quán)樸素貝葉斯模型進(jìn)行結(jié)合。Orhan等人在文獻(xiàn)[10]中采用最小二乘法確定目標(biāo)函數(shù)中的權(quán)向量,并以該權(quán)向量為依據(jù),為各條件屬性賦予相應(yīng)的權(quán)值,使算法的復(fù)雜度有所簡化,但同時(shí)降低了貝葉斯分類器的準(zhǔn)確性;鄧維彬等在文獻(xiàn)[11]中將條件屬性與決策屬性之間的互信息作為衡量條件屬性在分類過程中重要程度的標(biāo)準(zhǔn),并以兩者之間互信息的數(shù)學(xué)期望作為條件屬性的權(quán)值,在一定程度上優(yōu)化了樸素貝葉斯分類器的分類性能;WuJ等在文獻(xiàn)[12]中采用MarkHall所提出的加權(quán)思想作為目標(biāo)函數(shù),并利用差分進(jìn)化法獲取最優(yōu)權(quán)向量,最終建立加權(quán)樸素貝葉斯模型,使貝葉斯分類器的分類準(zhǔn)確性有所提升;TaheriS等在文獻(xiàn)[13]中通過基于準(zhǔn)割線法的局部優(yōu)化技術(shù)為條件屬性確定最優(yōu)權(quán)值,實(shí)驗(yàn)結(jié)果顯示最終的分類性能較之樸素貝葉斯模型有一定程度的提高;EndoT等在文獻(xiàn)[14]中,在以往將Shannon熵做為權(quán)值設(shè)定標(biāo)準(zhǔn)的加權(quán)樸素貝葉斯模型基礎(chǔ)上對其進(jìn)行擴(kuò)展,改為以包含參數(shù)的Renyi熵來確定條件屬性的最優(yōu)權(quán)值,并通過對參數(shù)的調(diào)控對分類精確度進(jìn)行優(yōu)化,為加權(quán)樸素貝葉斯模型的研究提供了一個(gè)新的思路。
上述加權(quán)樸素貝葉斯模型均在不同程度上提高了樸素貝葉斯算法的分類性能,但是該類傳統(tǒng)的加權(quán)方法局限于將權(quán)值作為對條件屬性預(yù)測能力的描述,權(quán)值的大小完全取決于衡量條件屬性的權(quán)重時(shí)所選擇的方法,這在某些情況下會嚴(yán)重影響到樸素貝葉斯方法最終的分類準(zhǔn)確性。例如:假設(shè)兩個(gè)條件屬性ix和i1x之間具有強(qiáng)烈的相互作用,不滿足條件獨(dú)立性假設(shè),為了最大程度上保證樸素貝葉斯方法的準(zhǔn)確率,遵循“加權(quán)平均”的思想,應(yīng)該為ix和i1x賦予較低的權(quán)值,將它們在分類過程中的影響進(jìn)行相應(yīng)降低;但是若ix和i1x在某種衡量權(quán)重的方法(例如互信息)的度量中得值均較高,遵照“預(yù)測能力強(qiáng)則權(quán)值較高”的原則,它們依然會被賦予較高的權(quán)值,其在分類過程中的影響依然會被相應(yīng)放大,反而對最終分類結(jié)果的準(zhǔn)確性增加負(fù)面影響。因此,不同于傳統(tǒng)加權(quán)方法“預(yù)測能力越強(qiáng)權(quán)值越高”的設(shè)定標(biāo)準(zhǔn),本文認(rèn)為權(quán)值最重要的作用不在于對條件屬性在分類過程中的預(yù)測能力加以描述,并據(jù)此對其在分類過程中的作用進(jìn)行相應(yīng)放大或縮小,而在于當(dāng)條件屬性之間存在違反條件獨(dú)立性假設(shè)的情況時(shí),最大程度上減少該類情況對分類準(zhǔn)確性的影響,確保樸素貝葉斯分類器的分類性能。綜上所述,本文提出一種新型加權(quán)粗糙樸素貝葉斯方法,首先利用粗糙集技術(shù)對待分類樣本進(jìn)行屬性約簡,獲得彼此相互獨(dú)立的核心屬性;然后基于約簡后得到的最簡屬性子集,以整個(gè)測試數(shù)據(jù)集|D|作為出發(fā)點(diǎn),以最大化數(shù)據(jù)集的條件似然估計(jì)為標(biāo)準(zhǔn),從整體層面上對條件屬性設(shè)定最優(yōu)權(quán)值。最終獲得一種新型加權(quán)粗糙樸素貝葉斯模型對數(shù)據(jù)集中所包含的對象進(jìn)行分類判斷。
2粗糙集理論及信息約簡
2.1粗糙集相關(guān)定義定義1粗糙集理論中一個(gè)知識系統(tǒng)S可以表示為SU,R,V,F,其中U是對象的集合,也稱為論域,RCD是屬性集合,子集C和D分別稱為條件屬性集和決策屬性集,{|}aVVaC是屬性值的集合,aV表示屬性a的值域,f:URV是一個(gè)信息函數(shù),指定U中每一個(gè)對象x的屬性值.
2.2基于粗糙集的屬性約簡設(shè)知識系統(tǒng)SU,R,V,F中RCD,則知識系統(tǒng)S可以通過TU,R,CD加以表述,TU,R,CD稱作2.2基于粗糙集的屬性約簡設(shè)知識系統(tǒng)SU,R,V,F中RCD,則知識系統(tǒng)S可以通過TU,R,CD加以表述,TU,R,CD稱作決策系統(tǒng),簡稱決策表。如表1所示,就是決策表形式的一個(gè)知識表達(dá)系統(tǒng)。如果從分類系統(tǒng)的條件屬性集中去掉某些屬性并不影響分類效果,則稱這些屬性為冗余屬性,可以將其從屬性集中刪除。而屬性約簡就是從原有的屬性集出發(fā),以分類效果為依據(jù)消除冗余屬性,最終獲取分類系統(tǒng)的最簡屬性子集。本文通過Skowron差別矩陣和屬性選擇的約簡方法[16]對測試數(shù)據(jù)集進(jìn)行屬性約簡.
3樸素貝葉斯分類模型
利用粗糙集技術(shù)對決策表進(jìn)行屬性約簡后,條件屬性集的維度得到大幅降低。根據(jù)前文對決策表約簡后得到的屬性約簡表,進(jìn)一步通過新型加權(quán)方法為條件屬性賦予相應(yīng)的權(quán)值,最終獲取一種新型加權(quán)粗糙樸素貝葉斯模型對數(shù)據(jù)集所包含的對象進(jìn)行分類。
3.1樸素貝葉斯分類算法樸素貝葉斯分類算法以貝葉斯決策理論為基礎(chǔ),在不完全情報(bào)下,對部分未知的狀態(tài)用主觀概率估計(jì),然后用貝葉斯公示對發(fā)生概率進(jìn)行修正,最后再利用期望值和修正概率做出最優(yōu)決策。
3.2加權(quán)樸素貝葉斯分類模型樸素貝葉斯算法以條件獨(dú)立性假設(shè)為基礎(chǔ),但該假設(shè)在實(shí)際應(yīng)用中通常并不成立,因此有學(xué)者提出了條件屬性權(quán)重法,即為不同的條件屬性分別賦予對應(yīng)的權(quán)值,將樸素貝葉斯模型擴(kuò)展為加權(quán)樸素貝葉斯模型.在加權(quán)樸素貝葉斯模型中,最關(guān)鍵的步驟在于如何確定條件屬性所對應(yīng)的權(quán)值。傳統(tǒng)的加權(quán)方法以單個(gè)的條件屬性作為出發(fā)點(diǎn),以條件屬性預(yù)測能力的大小為標(biāo)準(zhǔn)對條件屬性設(shè)定權(quán)值。如本文相關(guān)研究部分所述,該類方法在某些情況下反而會對最終的分類結(jié)果產(chǎn)生負(fù)面影響。因此,本文在為條件屬性設(shè)定最優(yōu)權(quán)值的過程中,不再著眼于根據(jù)條件屬性預(yù)測能力的大小對其在分類過程中的作用進(jìn)行相應(yīng)放大或縮小,而是以整個(gè)數(shù)據(jù)集|D|作為出發(fā)點(diǎn),以最大化數(shù)據(jù)集的條件似然估計(jì)為標(biāo)準(zhǔn)對條件屬性設(shè)定權(quán)值,從最大程度上減小由于條件屬性不滿足條件獨(dú)立性假設(shè)對分類結(jié)果造成的不良影響。為條件屬性計(jì)算最優(yōu)權(quán)值的大致流程如下.
4實(shí)驗(yàn)結(jié)果與分析
樸素貝葉斯分類器(NaïveBayesianClassfier,NBC)在垃圾郵件過濾、模式識別、入侵檢測等多個(gè)領(lǐng)域被廣泛應(yīng)用,為了驗(yàn)證本文所提出的新型加權(quán)粗糙樸素貝葉斯方法的正確性和實(shí)用性,本文選擇在垃圾郵件過濾領(lǐng)域?qū)υ摲椒右詫?shí)際應(yīng)用,并對實(shí)驗(yàn)結(jié)果進(jìn)行相關(guān)分析。本文所有實(shí)驗(yàn)均在WindowsXP下,硬件配置為Pentium42.3GHzCPU,內(nèi)存4GB,硬盤500GB,以MATLAB8.0為實(shí)驗(yàn)環(huán)境。郵件樣本來自中國教育和科研計(jì)算機(jī)網(wǎng)緊急響應(yīng)組(CCERT)提供的中文郵件樣本集(CDSCE,CCERTDataSetsofChineseEmails),該樣本集包含正常郵件9272封,垃圾郵件25088封。從中隨機(jī)抽取5500封郵件構(gòu)建郵件樣本庫,其中包含垃圾郵件3000封,正常郵件2500封。實(shí)驗(yàn)方法采用“十字交叉驗(yàn)證法”,并以召回率、正確率和精確率作為過濾器評價(jià)標(biāo)準(zhǔn).綜合上述實(shí)驗(yàn)結(jié)果可知,(1)使用粗糙集技術(shù)對郵件樣本進(jìn)行屬性約簡后,在三個(gè)評價(jià)標(biāo)準(zhǔn)上NB算法都可以更快地達(dá)到峰值,且曲線變化平緩,無明顯波動。證明基于粗糙集的屬性約簡在不影響最終分類結(jié)果的前提下去除了冗余屬性和噪聲干擾,優(yōu)化了分類性能;(2)MIWNB和REWNB算法在召回率上分別比NB算法提高了1.63%和0.9%,在精確率上分別比NB算法提高了0.61%和1.87%,在準(zhǔn)確率上分別比NB算法提高了1.32%和1.85%。就分類性能而言,以條件屬性的預(yù)測能力為標(biāo)準(zhǔn)設(shè)定權(quán)值的加權(quán)樸素貝葉斯模型只是略優(yōu)于樸素貝葉斯模型;(3)RSBN和RSABD算法同樣采用了粗糙集技術(shù)和樸素貝葉斯方法相結(jié)合的策略,但它們局限于在屬性約簡后直接使用樸素貝葉斯算法對樣本集進(jìn)行分類,而沒有嘗試將樸素貝葉斯模型進(jìn)行加權(quán)處理。在召回率上比MIWNB和REWNB算法的平均值分別提高了1.3%和0.53%;在精確率上比MIWNB和REWNB算法的平均值分別提高了0.71%和1.41%;在準(zhǔn)確率上比MIWNB和REWNB算法的平均值分別提高了1.56%和1.38%。雖然相對于MIWNB和REWNB算法,在分類性能上有所提升,但總體提升幅度不大;(4)本文提出的NWRNB算法由于以最大化數(shù)據(jù)集的條件似然估計(jì)為標(biāo)準(zhǔn),得到的(近似)全局最優(yōu)權(quán)向量更趨合理,在召回率上比NB算法提高了5.5%,比MIWNB和REWNB算法的平均值提高了6.08%,比RSBN和RSABD算法的平均值提高了5.02%;在精確率上比NB提高了7.32%,比MIWNB和REWNB算法的平均值提高了4.23%,比RSBN和RSABD算法的平均值提高了3.35%;在準(zhǔn)確率上比NB算法提高了6.42%,比MIWNB和REWNB算法的平均值提高了4.84%,比RSBN和RSABD算法的平均值提高了3.37%;極大地提高了樸素貝葉斯模型的分類性能。
5結(jié)束語
本文針對待分類數(shù)據(jù)集中存在冗余屬性以及傳統(tǒng)加權(quán)樸素貝葉斯模型沒有從整體層面上考慮權(quán)值對最終分類結(jié)果的影響的問題,提出一種新型加權(quán)粗糙樸素貝葉斯分類方法。在利用粗糙集技術(shù)對樣本進(jìn)行屬性約簡,獲取最優(yōu)條件屬性子集的基礎(chǔ)上,以最大化數(shù)據(jù)集的對數(shù)條件似然估計(jì)為標(biāo)準(zhǔn)設(shè)定權(quán)值,構(gòu)造加權(quán)樸素貝葉斯分類模型。通過在垃圾郵件過濾領(lǐng)域?qū)υ摲椒ㄟM(jìn)行驗(yàn)證,樸素貝葉斯分類器的分類效率得到有效提高,而且分類性能更加優(yōu)越。證明本文所提出的方法不僅可以在不影響最終分類結(jié)果的前提下消除冗余屬性,而且新型加權(quán)方法所獲取的(近似)最優(yōu)權(quán)值較之傳統(tǒng)加權(quán)方法更加合理。除了條件似然函數(shù)(Conditionalloglikehood)以外,其它的一些函數(shù)也可以作為獲取(近似)全局最優(yōu)權(quán)向量的目標(biāo)函數(shù)。比如在支持向量機(jī)(SVM)中常用的鉸鏈損失函數(shù)(HingeLoss)以及在邏輯回歸算法(LogicalisticRegression)中常用的對數(shù)損失函數(shù)(LogLoss)等,而且這些函數(shù)均有其特有的優(yōu)點(diǎn),因此,下一步的研究工作將是通過上述方法獲取(近似)全局最優(yōu)權(quán)向量,并與條件似然函數(shù)進(jìn)行對比。
作者:王輝 黃自威 劉淑芬 單位:河南理工大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院 吉林大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院