本站小編為你精心準備了統計學習框架中文新詞檢測方式參考范文,愿這些范文能點燃您思維的火花,激發您的寫作靈感。歡迎深入閱讀并收藏。
1引言
詞語是語言信息自動處理的基本單位。為使處理過程順利地進行,必須對大量產生的新詞進行檢測和識別。新詞檢測在句法分析、詞典編纂、機器翻譯以及輿情監測等領域都有著重要應用。與印歐語言不同,中文沒有特定符號來表示詞語邊界,因此任何相鄰中文字符都有構詞的可能性;且書面語中沒有字符形態變化,這都給中文新詞自動檢測帶來了巨大障礙。目前在中文新詞自動檢測的研究中,主要有基于單字散串和基于高頻重復模式方法。因后者具有能有效地識別新造詞、對語料依賴程度小、適應能力強以及召回率高等特點[1],近年來受到了廣泛關注,也取得了較多研究成果。
2相關研究
基于高頻重復模式的新詞檢測包含2個基本步驟,即高頻重復模式的提取和候選新詞的過濾。前者從語料中提取重復模式,構造候選新詞集合;后者對候選新詞集合中的非詞垃圾字串進行過濾,以提取新詞。目前大量研究都集中在候選新詞的過濾方面。劉挺等[2]使用滑動窗口來提取局部重復模式,構造候選詞集合,然后應用經驗函數來檢測新詞,研究表明,該方法能有效提高中文分詞效果;鄭家恒等[3]使用遞增的n-gram模型提取重復模式,在此基礎上使用手工編制的提取和過濾規則(包括常用構詞規則、特殊構詞規則和互斥性字串過濾規則)從互聯網語料中提取新詞;鄒剛等[4]在文獻[3]方法的基礎上,使用正則表達式來表示過濾規則,實現任意長度新詞的檢測;崔世起等[5]將新詞結構分成了不同的組成形式,如1+1、1+2、2+1、1+1+1等(其中1+1表示由2個單字構成的2字詞,1+2表示由1個單字和1個雙字詞構成的3字詞),并針對不同的組成結構采用特定的處理方法。LuoShengfen等[6]針對2字串,將多種字串的內部統計特征,包括出現頻率、互信息、色子系數等9種特征組成了一個加權詞語抽取模型,配合左右熵來進行詞語抽取;羅智勇等[7]以支持向量機(SVM)為統計模型,使用左右熵、似然比和相關頻率比作為特征進行武俠小說中新詞的檢測;賀敏[8,9]在重復模式提取的基礎上,應用外部環境和內部特征相結合的方法來檢測新詞,研究中主要使用了上下文鄰接分析、位置成詞概率和雙字耦合度,達到了較好的新詞檢測效果。目前的新詞檢測研究主要集中在新特征的挖掘和使用上,但因沒有可靠模型的指導,特征選擇還存在一定的盲目性;對特征的使用一般也僅限于單個特征或類型相似特征的簡單組合,尚未考慮將語言知識特征和統計特征等不同類型特征進行有效整合,以實現組合特征的綜合作用和更好的新詞檢測效果。本文在候選新詞集合基礎上,根據概率論的相關原理,提出一種新詞檢測的形式化描述模型,用于建立特征和新詞檢測結果之間的有效聯系,并提出在新詞檢測中應用統計模型作為框架,以有效地整合新詞的語言知識和統計這兩種不同類型的特征,改進和提高新詞檢測效果。
3.1新詞檢測的形式化描述在已經取得重復模式(候選新詞)集合的前提下,新詞檢測的任務就轉化為以重復模式的各種有效特征作為判別標準。判斷其是否是新詞的過程,實際是在可用特征的基礎上對候選新詞進行標注的過程。根據概率論的相關理論,候選新詞標記t∧的最大似然估計可表示為t∧=argmaxt∈{新詞,非新詞}P(t|候選新詞)(1)其中候選新詞的標記結果集合為{新詞,非新詞}。該式可進一步轉化為t∧=argmaxt∈{新詞,非新詞}P(候選新詞|t)P(候選新詞)=argmaxt∈{新詞,非新詞}P(候選新詞|t)(2)新詞本身具有未知性,候選新詞本身和標記之間沒有先驗知識,也就是說候選新詞同標記t之間的條件概率是未知的。如果是已知的,那么這個詞就不能稱之為“候選新詞”了。為了解決這個問題,考慮對候選新詞進行本質特征的分解,這樣即可通過本質特征與標記t之間的關系來求解候選新詞整體與標記之間的關系。但前提是,分解出來的特征要能充分體現候選新詞的本質特性。在具體處理時,可用本質特征的集合來代表候選新詞。這樣候選新詞與標記t之間的關系就轉化為本質特征與標記t之間的關系,實際上是在候選新詞的本質特征與標記t之間建立起了有效的聯系。根據以上的論述,新詞檢測過程可進一步描述為t∧=argmaxt∈{新詞,非新詞}P(FS|t)(3)式中,FS表示能代表候選新詞的本質特征集合。若根據上式對候選新詞的特征和標記進行訓練,因特征之間關系復雜,難以直接進行特征的訓練和標注。為了解決特征之間的獨立性問題,考慮應用有效的統計框架處理以上模型。鑒于條件隨機域模型(CRF)在自然語言處理領域的廣泛應用,并且不要求所用特征之間具有獨立性,因而非常適合以上模型的求解,可用之有效地整合能代表候選新詞的各類本質特征。
3.2條件隨機域模型(CRF)條件隨機域是一種無向圖模型,對于確定結點的輸入值,它能夠計算該結點輸出值上的條件概率,其訓練目標是使得條件概率最大化。設x=x1…xT為給定的輸入觀察值數據序列,也就是無向圖模型中T個輸入結點上的數據,比如某個候選重復模式的所有特征所組成的數據序列;定義Y為有限狀態機的狀態集合,每個狀態可以對應一個標記;設y=y1…yT為一個長度與x相等的狀態序列,即無向圖模型中T個輸出值。在帶有參數的線性鏈條件隨機域模型的作用下,從給定輸入序列x得到的輸出序列y的條件概率表示為PΛ(y|x)=1ZΛ(x)exp(∑Tt=1∑kλkfk(yt-1,yt,x,t))(4)式中,ZΛ(x)是一個規范化系數,它確保在給定輸入上所有可能的狀態序列的概率之和為1。規范化系數ZΛ(x)的計算涉及到的狀態序列數目非常巨大,一般呈指數級增長。但在線性鏈模型中,狀態結點間沒有閉合路徑,可通過動態規劃算法便捷地計算規范化系數,且尋找最可能狀態序列的問題也可用動態規劃方法加以解決。上式中的fk(yt-1,yt,x,t)表示一個特征函數,其值一般為布爾類型,滿足特定條件時為1,否則為0。比如在新詞檢測中,當所給特征滿足新詞的條件時,該函數的值為1,不滿足時為0。λk是在訓練中得到的、與每個特征函數fk相關的權重參數。如果它為較大的正數,則事件更可能發生;如果為較大負數,則事件傾向于不發生[10]。條件隨機域模型的主要優點是:(1)能夠綜合利用字、詞、詞性等多層次資源,能更好地使用領域知識和標記之間的依賴,充分利用各種語言知識特征和統計特征;(2)該模型對特征沒有獨立性要求,在使用時無需考慮特征之間是否相互獨立,因此可將多個代表候選新詞的本質特征放入CRF框架中,以實現各類特征的綜合作用,改善新詞檢測效果。根據CRF模型的特點,可不用考慮特征之間的關系,將之直接加入到CRF框架中,測試特征對新詞檢測效果所做的獨立或組合貢獻,以確定能代表候選新詞的本質特征集合,提高新詞檢測效果。
3.3新詞檢測所用特征集合在CRF框架下,訓練和解碼所選用的語言知識特征包括前綴、后綴、串長、命名實體后綴;統計特征包括候選模式的出現頻率、互信息、色子系數和左右熵。上述特征并不復雜,應用CRF統計模型可充分利用各類特征,實現更有效的新詞檢測。其中,前綴、后綴、串長是用于詞語檢測的基本語言特征,命名實體后綴用于識別新詞中的命名實體,是首次應用在CRF模型中的語言特征,該特征在使用時根據候選字串所具有的命名實體后綴的長度來構造;其他的統計特征,如互信息和左右熵等,用于衡量新詞結構的獨立性和在上下文中使用的靈活性。對其中的數值型特征,因CRF模型在訓練和解碼時將特征值作為字符串來處理,所以需對連續的數值型特征進行離散化并轉化成字串特征,從而將無限量的連續數值特征量轉化為有限的離散字串特征量,提高了訓練和解碼效率,并可有效地改善新詞檢測效果。為方便后續分析處理,對以上特征進行編號,具體見表1所列。
3.4基于統計框架的新詞標注基于重復模式新詞檢測的基本步驟是,首先在語料中提取滿足閾值約束的重復字串,構造候選新詞集合,然后根據候選新詞的相關特征,比如出現頻率、前綴、后綴以及其它信息來判斷和標注候選新詞集合中的條目。為有效提高多類特征的組合作用,本文采用具有更強包容能力的CRF模型作為統計框架整合多類特征,以實現更好的新詞檢測效果。在具體實施新詞檢測時,首先提取候選新詞的各類特征(見表1),然后根據特征值,應用標注語料對CRF模型進行訓練,最后使用CRF模型標注從測試語料中提取的候選新詞。標注的結果只有兩個:“是新詞”與“非新詞”。
4實驗
4.1實驗及數據分析為驗證本文方法的性能,進行了如下試驗:實驗所用的CRF工具采用日本Kudo教授所提供的開源工具“CRF++0.52”[11],訓練語料采用北京大學計算語言研究所提供的1998年1月的標注語料,測試語料采用蘭開斯特大學標注的漢語平衡語料庫。實驗時首先對訓練語料和測試語料抽取重復模式,構造候選新詞集合(提取重復模式所用的閾值為2),然后使用統計框架對其中字串進行標記。為檢驗新詞的開放實驗效果,需要確保訓練語料與測試語料所提取的候選新詞集合沒有交集。實驗中所用性能的評價標準為準確率、召回率和F值,F值中所用的調和因子為1,開放實驗結果參見表2。表2多特征組合新詞檢測實驗數據表編號特征集合準確率(%)召回率(%)F值(%)11-733.4459.4642.8121-837.6861.1646.6331-939.7159.547.6341-1141.462.2349.72注:特征集合“1-7”表示將編號從1到7的特征組合在一起構成特征集合,作用于條件隨機域模型。其它的也類似。從實驗數據可見,隨著有效特征的加入,新詞檢測的效果在穩步提高。說明在條件隨機域框架下,多特征組合可以實現更好的新詞檢測。這也進一步說明,多特征組合可以發揮特征之間的綜合作用,比特征的簡單組合具有更好的新詞檢測效果,實驗4(特征集合1-11)已很好地說明了這個問題。為研究本文方法的效果與串長之間的關系,現對編號為3和4的試驗數據做進一步分析,繪制串長和新詞檢測效果圖,如圖1所示。圖1新詞檢測的串長-效果關系圖從圖中可見,無論使用哪種特征組合,串長和新詞檢測效果之間關系的變化趨勢都是一致的:隨著串長的增長,新詞檢測的效果在逐漸降低,短串具有更好的新詞檢測和提取效果。長串效果較差的主要原因是組成長串的字符較多,組合情況更加復雜;而短串的組合情況相對較少,其更適合在組合特征的作用下進行標注。可見,要改善新詞檢測效果,應從長串著手進行研究和改進。
4.2最大熵框架下的新詞檢測最大熵(ME)模型也是一個重要的統計框架,同CRF相似,都屬于判別型模型。二者在處理標注問題時具有很多共同的優點,主要表現在ME模型也對特征沒有獨立性要求,也可作為統計學習框架對候選新詞實施過濾。為了進一步驗證本文所提出的新詞檢測方法的效果,對最大熵模型進行新詞檢測實驗是非常必要的。實驗時采用相同的實驗語料和條件,使用特征組合1-9和1-11(在CRF框架中取得較好效果的特征組合),結果見表3。從表中可見,在最大熵統計框架下實驗6的效果較實驗5好些,也證明增加有效特征會提高新詞檢測效果;從橫向上看,實驗5和實驗6分別比試驗3和實驗4的效果稍差,說明條件隨機域模型比最大熵模型具有更好的新詞檢測性能,其主要原因是CRF模型是一種全局最優模型,且具有更強的特征融合能力。當然,如果有更好的統計模型出現,也許會取得比CRF更好的效果。同單個特征相比,CRF和ME都取得了較好的特征組合效果,可見,應用統計框架來進行特征整合是一個很有前途的新詞檢測研究方向。
4.3模型比較文獻[8]對新詞檢測特征進行了深入探索并進行了較全面的實驗,取得了相對較好的檢測效果,但其采用的是封閉實驗。為加強可比性,本文也采用封閉實驗環境重新進行試驗(所用特征組合為1-11,統計框架為CRF模型和ME模型),新詞檢測效果對比見表4。表4不同方法新詞檢測效果對比表新詞檢測方法準確率召回率F值文獻[8]方法45.96%71.19%55.86%本文方法(CRF)69.15%70.53%69.83%本文方法(ME)66.49%69.33%67.88%從以上對比數據可見,文獻[8]方法的召回率比本文方法高,本文方法在準確率和總體性能(F值)方面具有一定優勢。文獻[8]中采用的實驗語料規模比本文中的要小得多,這會導致其中所用新詞檢測特征不能完全發揮作用,所以會在一定程度上影響其新詞檢測效果。但從理論上講,本文所用的統計框架方法(無論是CRF模型還是ME模型),能有效地整合不同類型的多個特征,體現特征之間的合力作用,可實現更加有效的新詞檢測,是新詞檢測研究的發展方向。
采用統計模型作為框架,實現對新詞檢測特征的有效整合,以獲得更好的新詞檢測效果。實驗表明,本方法能充分發揮多特征的組合作用,隨著特征的加入,新詞檢測效果在逐步提高。最終開放實驗和封閉試驗的F值分別為49.72%和69.83%,達到了較好的新詞檢測效果,證明使用統計模型作為框架整合有效特征是一種非常有前途的新詞檢測研究方法。由于使用相似的處理步驟,本文方法可方便地擴展到基于重復模式的命名實體、有意義串的識別研究中,以獲得更好的識別效果。