本站小編為你精心準備了統(tǒng)計學習框架中文新詞檢測方式參考范文,愿這些范文能點燃您思維的火花,激發(fā)您的寫作靈感。歡迎深入閱讀并收藏。
1引言
詞語是語言信息自動處理的基本單位。為使處理過程順利地進行,必須對大量產(chǎn)生的新詞進行檢測和識別。新詞檢測在句法分析、詞典編纂、機器翻譯以及輿情監(jiān)測等領(lǐng)域都有著重要應(yīng)用。與印歐語言不同,中文沒有特定符號來表示詞語邊界,因此任何相鄰中文字符都有構(gòu)詞的可能性;且書面語中沒有字符形態(tài)變化,這都給中文新詞自動檢測帶來了巨大障礙。目前在中文新詞自動檢測的研究中,主要有基于單字散串和基于高頻重復(fù)模式方法。因后者具有能有效地識別新造詞、對語料依賴程度小、適應(yīng)能力強以及召回率高等特點[1],近年來受到了廣泛關(guān)注,也取得了較多研究成果。
2相關(guān)研究
基于高頻重復(fù)模式的新詞檢測包含2個基本步驟,即高頻重復(fù)模式的提取和候選新詞的過濾。前者從語料中提取重復(fù)模式,構(gòu)造候選新詞集合;后者對候選新詞集合中的非詞垃圾字串進行過濾,以提取新詞。目前大量研究都集中在候選新詞的過濾方面。劉挺等[2]使用滑動窗口來提取局部重復(fù)模式,構(gòu)造候選詞集合,然后應(yīng)用經(jīng)驗函數(shù)來檢測新詞,研究表明,該方法能有效提高中文分詞效果;鄭家恒等[3]使用遞增的n-gram模型提取重復(fù)模式,在此基礎(chǔ)上使用手工編制的提取和過濾規(guī)則(包括常用構(gòu)詞規(guī)則、特殊構(gòu)詞規(guī)則和互斥性字串過濾規(guī)則)從互聯(lián)網(wǎng)語料中提取新詞;鄒剛等[4]在文獻[3]方法的基礎(chǔ)上,使用正則表達式來表示過濾規(guī)則,實現(xiàn)任意長度新詞的檢測;崔世起等[5]將新詞結(jié)構(gòu)分成了不同的組成形式,如1+1、1+2、2+1、1+1+1等(其中1+1表示由2個單字構(gòu)成的2字詞,1+2表示由1個單字和1個雙字詞構(gòu)成的3字詞),并針對不同的組成結(jié)構(gòu)采用特定的處理方法。LuoShengfen等[6]針對2字串,將多種字串的內(nèi)部統(tǒng)計特征,包括出現(xiàn)頻率、互信息、色子系數(shù)等9種特征組成了一個加權(quán)詞語抽取模型,配合左右熵來進行詞語抽取;羅智勇等[7]以支持向量機(SVM)為統(tǒng)計模型,使用左右熵、似然比和相關(guān)頻率比作為特征進行武俠小說中新詞的檢測;賀敏[8,9]在重復(fù)模式提取的基礎(chǔ)上,應(yīng)用外部環(huán)境和內(nèi)部特征相結(jié)合的方法來檢測新詞,研究中主要使用了上下文鄰接分析、位置成詞概率和雙字耦合度,達到了較好的新詞檢測效果。目前的新詞檢測研究主要集中在新特征的挖掘和使用上,但因沒有可靠模型的指導(dǎo),特征選擇還存在一定的盲目性;對特征的使用一般也僅限于單個特征或類型相似特征的簡單組合,尚未考慮將語言知識特征和統(tǒng)計特征等不同類型特征進行有效整合,以實現(xiàn)組合特征的綜合作用和更好的新詞檢測效果。本文在候選新詞集合基礎(chǔ)上,根據(jù)概率論的相關(guān)原理,提出一種新詞檢測的形式化描述模型,用于建立特征和新詞檢測結(jié)果之間的有效聯(lián)系,并提出在新詞檢測中應(yīng)用統(tǒng)計模型作為框架,以有效地整合新詞的語言知識和統(tǒng)計這兩種不同類型的特征,改進和提高新詞檢測效果。
3.1新詞檢測的形式化描述在已經(jīng)取得重復(fù)模式(候選新詞)集合的前提下,新詞檢測的任務(wù)就轉(zhuǎn)化為以重復(fù)模式的各種有效特征作為判別標準。判斷其是否是新詞的過程,實際是在可用特征的基礎(chǔ)上對候選新詞進行標注的過程。根據(jù)概率論的相關(guān)理論,候選新詞標記t∧的最大似然估計可表示為t∧=argmaxt∈{新詞,非新詞}P(t|候選新詞)(1)其中候選新詞的標記結(jié)果集合為{新詞,非新詞}。該式可進一步轉(zhuǎn)化為t∧=argmaxt∈{新詞,非新詞}P(候選新詞|t)P(候選新詞)=argmaxt∈{新詞,非新詞}P(候選新詞|t)(2)新詞本身具有未知性,候選新詞本身和標記之間沒有先驗知識,也就是說候選新詞同標記t之間的條件概率是未知的。如果是已知的,那么這個詞就不能稱之為“候選新詞”了。為了解決這個問題,考慮對候選新詞進行本質(zhì)特征的分解,這樣即可通過本質(zhì)特征與標記t之間的關(guān)系來求解候選新詞整體與標記之間的關(guān)系。但前提是,分解出來的特征要能充分體現(xiàn)候選新詞的本質(zhì)特性。在具體處理時,可用本質(zhì)特征的集合來代表候選新詞。這樣候選新詞與標記t之間的關(guān)系就轉(zhuǎn)化為本質(zhì)特征與標記t之間的關(guān)系,實際上是在候選新詞的本質(zhì)特征與標記t之間建立起了有效的聯(lián)系。根據(jù)以上的論述,新詞檢測過程可進一步描述為t∧=argmaxt∈{新詞,非新詞}P(FS|t)(3)式中,F(xiàn)S表示能代表候選新詞的本質(zhì)特征集合。若根據(jù)上式對候選新詞的特征和標記進行訓練,因特征之間關(guān)系復(fù)雜,難以直接進行特征的訓練和標注。為了解決特征之間的獨立性問題,考慮應(yīng)用有效的統(tǒng)計框架處理以上模型。鑒于條件隨機域模型(CRF)在自然語言處理領(lǐng)域的廣泛應(yīng)用,并且不要求所用特征之間具有獨立性,因而非常適合以上模型的求解,可用之有效地整合能代表候選新詞的各類本質(zhì)特征。
3.2條件隨機域模型(CRF)條件隨機域是一種無向圖模型,對于確定結(jié)點的輸入值,它能夠計算該結(jié)點輸出值上的條件概率,其訓練目標是使得條件概率最大化。設(shè)x=x1…xT為給定的輸入觀察值數(shù)據(jù)序列,也就是無向圖模型中T個輸入結(jié)點上的數(shù)據(jù),比如某個候選重復(fù)模式的所有特征所組成的數(shù)據(jù)序列;定義Y為有限狀態(tài)機的狀態(tài)集合,每個狀態(tài)可以對應(yīng)一個標記;設(shè)y=y(tǒng)1…yT為一個長度與x相等的狀態(tài)序列,即無向圖模型中T個輸出值。在帶有參數(shù)的線性鏈條件隨機域模型的作用下,從給定輸入序列x得到的輸出序列y的條件概率表示為PΛ(y|x)=1ZΛ(x)exp(∑Tt=1∑kλkfk(yt-1,yt,x,t))(4)式中,ZΛ(x)是一個規(guī)范化系數(shù),它確保在給定輸入上所有可能的狀態(tài)序列的概率之和為1。規(guī)范化系數(shù)ZΛ(x)的計算涉及到的狀態(tài)序列數(shù)目非常巨大,一般呈指數(shù)級增長。但在線性鏈模型中,狀態(tài)結(jié)點間沒有閉合路徑,可通過動態(tài)規(guī)劃算法便捷地計算規(guī)范化系數(shù),且尋找最可能狀態(tài)序列的問題也可用動態(tài)規(guī)劃方法加以解決。上式中的fk(yt-1,yt,x,t)表示一個特征函數(shù),其值一般為布爾類型,滿足特定條件時為1,否則為0。比如在新詞檢測中,當所給特征滿足新詞的條件時,該函數(shù)的值為1,不滿足時為0。λk是在訓練中得到的、與每個特征函數(shù)fk相關(guān)的權(quán)重參數(shù)。如果它為較大的正數(shù),則事件更可能發(fā)生;如果為較大負數(shù),則事件傾向于不發(fā)生[10]。條件隨機域模型的主要優(yōu)點是:(1)能夠綜合利用字、詞、詞性等多層次資源,能更好地使用領(lǐng)域知識和標記之間的依賴,充分利用各種語言知識特征和統(tǒng)計特征;(2)該模型對特征沒有獨立性要求,在使用時無需考慮特征之間是否相互獨立,因此可將多個代表候選新詞的本質(zhì)特征放入CRF框架中,以實現(xiàn)各類特征的綜合作用,改善新詞檢測效果。根據(jù)CRF模型的特點,可不用考慮特征之間的關(guān)系,將之直接加入到CRF框架中,測試特征對新詞檢測效果所做的獨立或組合貢獻,以確定能代表候選新詞的本質(zhì)特征集合,提高新詞檢測效果。
3.3新詞檢測所用特征集合在CRF框架下,訓練和解碼所選用的語言知識特征包括前綴、后綴、串長、命名實體后綴;統(tǒng)計特征包括候選模式的出現(xiàn)頻率、互信息、色子系數(shù)和左右熵。上述特征并不復(fù)雜,應(yīng)用CRF統(tǒng)計模型可充分利用各類特征,實現(xiàn)更有效的新詞檢測。其中,前綴、后綴、串長是用于詞語檢測的基本語言特征,命名實體后綴用于識別新詞中的命名實體,是首次應(yīng)用在CRF模型中的語言特征,該特征在使用時根據(jù)候選字串所具有的命名實體后綴的長度來構(gòu)造;其他的統(tǒng)計特征,如互信息和左右熵等,用于衡量新詞結(jié)構(gòu)的獨立性和在上下文中使用的靈活性。對其中的數(shù)值型特征,因CRF模型在訓練和解碼時將特征值作為字符串來處理,所以需對連續(xù)的數(shù)值型特征進行離散化并轉(zhuǎn)化成字串特征,從而將無限量的連續(xù)數(shù)值特征量轉(zhuǎn)化為有限的離散字串特征量,提高了訓練和解碼效率,并可有效地改善新詞檢測效果。為方便后續(xù)分析處理,對以上特征進行編號,具體見表1所列。
3.4基于統(tǒng)計框架的新詞標注基于重復(fù)模式新詞檢測的基本步驟是,首先在語料中提取滿足閾值約束的重復(fù)字串,構(gòu)造候選新詞集合,然后根據(jù)候選新詞的相關(guān)特征,比如出現(xiàn)頻率、前綴、后綴以及其它信息來判斷和標注候選新詞集合中的條目。為有效提高多類特征的組合作用,本文采用具有更強包容能力的CRF模型作為統(tǒng)計框架整合多類特征,以實現(xiàn)更好的新詞檢測效果。在具體實施新詞檢測時,首先提取候選新詞的各類特征(見表1),然后根據(jù)特征值,應(yīng)用標注語料對CRF模型進行訓練,最后使用CRF模型標注從測試語料中提取的候選新詞。標注的結(jié)果只有兩個:“是新詞”與“非新詞”。
4實驗
4.1實驗及數(shù)據(jù)分析為驗證本文方法的性能,進行了如下試驗:實驗所用的CRF工具采用日本Kudo教授所提供的開源工具“CRF++0.52”[11],訓練語料采用北京大學計算語言研究所提供的1998年1月的標注語料,測試語料采用蘭開斯特大學標注的漢語平衡語料庫。實驗時首先對訓練語料和測試語料抽取重復(fù)模式,構(gòu)造候選新詞集合(提取重復(fù)模式所用的閾值為2),然后使用統(tǒng)計框架對其中字串進行標記。為檢驗新詞的開放實驗效果,需要確保訓練語料與測試語料所提取的候選新詞集合沒有交集。實驗中所用性能的評價標準為準確率、召回率和F值,F(xiàn)值中所用的調(diào)和因子為1,開放實驗結(jié)果參見表2。表2多特征組合新詞檢測實驗數(shù)據(jù)表編號特征集合準確率(%)召回率(%)F值(%)11-733.4459.4642.8121-837.6861.1646.6331-939.7159.547.6341-1141.462.2349.72注:特征集合“1-7”表示將編號從1到7的特征組合在一起構(gòu)成特征集合,作用于條件隨機域模型。其它的也類似。從實驗數(shù)據(jù)可見,隨著有效特征的加入,新詞檢測的效果在穩(wěn)步提高。說明在條件隨機域框架下,多特征組合可以實現(xiàn)更好的新詞檢測。這也進一步說明,多特征組合可以發(fā)揮特征之間的綜合作用,比特征的簡單組合具有更好的新詞檢測效果,實驗4(特征集合1-11)已很好地說明了這個問題。為研究本文方法的效果與串長之間的關(guān)系,現(xiàn)對編號為3和4的試驗數(shù)據(jù)做進一步分析,繪制串長和新詞檢測效果圖,如圖1所示。圖1新詞檢測的串長-效果關(guān)系圖從圖中可見,無論使用哪種特征組合,串長和新詞檢測效果之間關(guān)系的變化趨勢都是一致的:隨著串長的增長,新詞檢測的效果在逐漸降低,短串具有更好的新詞檢測和提取效果。長串效果較差的主要原因是組成長串的字符較多,組合情況更加復(fù)雜;而短串的組合情況相對較少,其更適合在組合特征的作用下進行標注。可見,要改善新詞檢測效果,應(yīng)從長串著手進行研究和改進。
4.2最大熵框架下的新詞檢測最大熵(ME)模型也是一個重要的統(tǒng)計框架,同CRF相似,都屬于判別型模型。二者在處理標注問題時具有很多共同的優(yōu)點,主要表現(xiàn)在ME模型也對特征沒有獨立性要求,也可作為統(tǒng)計學習框架對候選新詞實施過濾。為了進一步驗證本文所提出的新詞檢測方法的效果,對最大熵模型進行新詞檢測實驗是非常必要的。實驗時采用相同的實驗語料和條件,使用特征組合1-9和1-11(在CRF框架中取得較好效果的特征組合),結(jié)果見表3。從表中可見,在最大熵統(tǒng)計框架下實驗6的效果較實驗5好些,也證明增加有效特征會提高新詞檢測效果;從橫向上看,實驗5和實驗6分別比試驗3和實驗4的效果稍差,說明條件隨機域模型比最大熵模型具有更好的新詞檢測性能,其主要原因是CRF模型是一種全局最優(yōu)模型,且具有更強的特征融合能力。當然,如果有更好的統(tǒng)計模型出現(xiàn),也許會取得比CRF更好的效果。同單個特征相比,CRF和ME都取得了較好的特征組合效果,可見,應(yīng)用統(tǒng)計框架來進行特征整合是一個很有前途的新詞檢測研究方向。
4.3模型比較文獻[8]對新詞檢測特征進行了深入探索并進行了較全面的實驗,取得了相對較好的檢測效果,但其采用的是封閉實驗。為加強可比性,本文也采用封閉實驗環(huán)境重新進行試驗(所用特征組合為1-11,統(tǒng)計框架為CRF模型和ME模型),新詞檢測效果對比見表4。表4不同方法新詞檢測效果對比表新詞檢測方法準確率召回率F值文獻[8]方法45.96%71.19%55.86%本文方法(CRF)69.15%70.53%69.83%本文方法(ME)66.49%69.33%67.88%從以上對比數(shù)據(jù)可見,文獻[8]方法的召回率比本文方法高,本文方法在準確率和總體性能(F值)方面具有一定優(yōu)勢。文獻[8]中采用的實驗語料規(guī)模比本文中的要小得多,這會導(dǎo)致其中所用新詞檢測特征不能完全發(fā)揮作用,所以會在一定程度上影響其新詞檢測效果。但從理論上講,本文所用的統(tǒng)計框架方法(無論是CRF模型還是ME模型),能有效地整合不同類型的多個特征,體現(xiàn)特征之間的合力作用,可實現(xiàn)更加有效的新詞檢測,是新詞檢測研究的發(fā)展方向。
采用統(tǒng)計模型作為框架,實現(xiàn)對新詞檢測特征的有效整合,以獲得更好的新詞檢測效果。實驗表明,本方法能充分發(fā)揮多特征的組合作用,隨著特征的加入,新詞檢測效果在逐步提高。最終開放實驗和封閉試驗的F值分別為49.72%和69.83%,達到了較好的新詞檢測效果,證明使用統(tǒng)計模型作為框架整合有效特征是一種非常有前途的新詞檢測研究方法。由于使用相似的處理步驟,本文方法可方便地擴展到基于重復(fù)模式的命名實體、有意義串的識別研究中,以獲得更好的識別效果。