本站小編為你精心準備了基于特征選擇實體關系選取參考范文,愿這些范文能點燃您思維的火花,激發您的寫作靈感。歡迎深入閱讀并收藏。
實體關系抽取是信息抽取研究中的一個重要環節[1],它的作用是抽取出兩個實體之間的語義關系。目前,實體關系抽取一般都只考慮一個句子中兩個實體間的關系,即實體關系抽取問題的輸入是一個句子和句子中已經標記出的兩個實體,輸出則是這兩個實體間的關系。目前解決實體關系抽取問題主要采用指導性機器學習方法,主流的指導性學習方法有基于特征向量的方法和基于核函數的方法。其中,基于特征向量的方法[2,3]是將關系樣例進行特征抽取并將其表示為特征向量,然后通過機器學習的方法來訓練關系實例。而基于核函數的方法[4,5]直接以結構樹為處理對象來計算它們之間的相似度,再使用支持核函數的分類器進行關系抽取。然而,基于核函數方法的一個致命的缺點是訓練和預測的速度太慢,不適于處理大量的數據。因此,本文以基于特征向量的方法解決實體關系抽取問題。由于基于特征向量的實體關系抽取方法中,特征空間維數一般能達到幾萬或者幾十萬維,這樣的高維向量一方面將使得訓練分類模型以及預測結果的時間開銷大大提高,另一方面還可能由于引入了一些不必要的特征而使得抽取性能有所降低。因此,本文考慮將文本分類中的特征選擇算法引入到實體關系抽取中,希望能在降低時間開銷的同時提高抽取性能。
1實體關系抽取
1.1特征抽取
在基于特征向量的實體關系抽取方法中,其首要問題在于有效特征的選擇[6]。本文提出的實體關系抽取方案中選擇的特征分為五類:實體及其上下文詞法特征、動詞特征、距離特征、實體擴展特征、語義角色特征[7]。實體及其上下文特征主要包含實體中心詞、實體前兩個詞、實體后兩個詞以及這些詞的詞干和詞性。實體及其上下文特征是最基本、最簡單的特征。動詞特征表示句子中的所有動詞。距離特征是指要抽取實體關系的兩個實體間的詞距。實體擴展特征是指實體的同義詞和上位詞。語義角色特征是指用實體的語義角色作為特征。
1.2特征選擇
通過上面特征抽取的描述可以發現,實體關系抽取問題與文本分類[8,9]問題有相似之處,它們都是采用一串字符作為特征,因此從語料中抽取出的所有特征就組成了原始的特征空間。然而,一個小規模的語料庫就要抽取出上萬個不同的特征,對于分類器來說,這樣的高維空間時間開銷是非常大的[10]。因此,希望尋找一種特征選擇方法,能在保證分類性能的同時降低空間維數,提高分類效率。對于文本分類問題,已經有很多成熟的特征選擇算法用于特征降維。而對于實體關系抽取問題,卻還沒有相關研究。本文考慮到實體關系抽取問題與文本分類問題的相似性,擬將文本分類中的特征選擇算法引用到實體關系抽取中,用于解決實體關系抽取問題中空間維數過高帶來的問題。下面對引入的特征選擇算法進行介紹。
1.2.1信息增益信息增益(informationgain,IG)這個概念也是來源于信息論。在實體關系抽取中,它表示了某個特征存在與否對實體關系分類的影響。它的值越大,代表影響越大,因此在用它進行特征選擇時,總是選擇信息增益大的若干個特征。信息增益的計算公式為IG(t)=P(t)∑mj=1P(Cj|t)log(P(Cj|t)/P(Cj))+P(t)∑mj=1P(Cj|t)log(P(Cj|t)/P(Cj))(1)其中:m代表實體關系的總類別數;P(Cj)表示類別為Cj的訓練句子在整個語料庫中出現的概率;P(t)表示整個語料庫中抽取出的特征集合包含特征t的概率;P(t)表示整個語料庫中抽取出的特征集合不包含特征t的概率;P(Cj|t)表示訓練句子抽取出的特征集合包含特征t時屬于Cj類的條件概率;P(Cj|t)表示訓練句子抽取出的特征集合不包含特征t時屬于Cj類的條件概率。
1.2.2期望交叉熵期望交叉熵(expectedcrossentropy,CE)與信息增益的區別在于:信息增益考慮了一個特征在訓練句子中存在和不存在兩種情況,而期望交叉熵只考慮了特征在訓練句子中存在的情況。它的計算公式為CE(t)=P(t)∑mj=1P(Cj|t)log(P(Cj|t)/P(Cj))(2)
1.2.3x2統計(CHI)x2統計在統計學中是用于度量兩個變量之間的相關性的。在實體關系抽取中,用于度量特征與類別之間的相關程度,在這里假設特征與類別之間符合具有一階自由度的x2分布。在實際應用中,采用其近似公式為x2(Cj,t)=(AD-CB)2×(A+B+C+D)/((A+C)×(B+D)×(A+B)×(C+D))(3)其中:A表示屬于Cj類并包含特征t的訓練句子頻率;B表示不屬于Cj類但包含特征t的訓練句子頻率;C表示屬于Cj類但不包含特征t的訓練句子頻率;D表示不屬于Cj類也包含特征t的訓練句子頻率。為了得到一個特征對實體關系抽取的重要程度,可以將x2(Cj,t)進行加權求和,和值越大代表該特征對實體關系抽取越重要。
1.3實體關系抽取方案
按照本文提出的實體關系抽取方案,根據上面描述的一系列步驟,利用SVM算法構造分類器以判斷實體關系類型。本文使用的實體關系抽取方案具體步驟如下:a)原始語料預處理。對原始語料進行詞性標注、句法分析和語義角色標注。b)特征抽取及特征向量構造。對于語料里每條句子中的實體對,先從預處理后的文本中抽取出上文描述的特征,然后將抽取出的每個特征值作為實體對的特征向量中的一維,由此構成了實體對的特征向量。c)特征向量降維。利用前面講到的特征選擇算法對上一步構造出的特征向量進行特征選擇,將選擇出的有效特征重新組成特征向量。d)構造分類器。用訓練語料中實體對降維后的特征向量構造SVM分類器。e)輸出分類。利用訓練得到的SVM分類器判斷測試語料中實體對的關系類型。
2實驗結果及其分析
2.1實驗數據
實驗使用的數據由SemEval-2010評測任務8提供。Se-mEval(SemanticEvaluations)是國際知名的語義處理評測會議,由著名的ACL(AssociationforComputationalLinguistics)中的SigLex組織主辦。SemEval-2010評測任務8將實體關系類型分為九類,提供的訓練語料包含8000個句子,每個句子均標出了兩個實體及其所屬關系類型。在本文的實驗中,將8000個句子的前800個句子作為測試語料,其余的句子作為訓練語料。表2為實驗中訓練語料和測試語料的所屬關系類型統計。
2.2實驗評價標準
本文采用準確率P(precision)、召回率R(recall)和F1值(F1-measure)作為評測標準。它們的定義如下:P=T/E(4)R=T/N(5)F1=2×P×R/(P+R)(6)其中:T為某類被正確分類的實例個數;N為測試數據中某類實例實際總數;E為分類器預測為某類的實例總數。
2.3實驗過程及結果分析
實驗首先對語料進行詞性標注、句法分析和語義角色標注等預處理;然后按照上述特征抽取方法產生特征向量;接著利用上面講到的特征選擇算法進行特征降維;最后,使用LIBSVM對抽取出的特征向量進行訓練分類。由于現有特征選擇方法通常采用經驗方式來確定特征數目,因此為了得到各特征選擇方法在達到最佳分類性能時的特征數,本文采用了逐步增加特征數的方法來確定,實驗結果如圖1所示。從圖1可以看出,對于IG方法,特征數從5000增加到30000時,分類性能只增加了2.3%,即新增的特征并沒有對分類性能產生多大的作用。對于CE和CHI也是類似的,而且對于CE方法,它的分類性能在達到一定程度之后,則不再隨著特征數的增加而增加。同時筆者發現,當選擇的特征數達到某個閾值時,各特征選擇方法性能均會達到最佳狀態,如果此時繼續增加選擇的特征數,性能不但不會進一步提高,而且還有可能下降。對于這個使得性能達到最佳狀態的閾值的確定,則需要通過大量實驗才能得到。
表3給出了各個特征選擇算法對應的實體關系抽取方案的性能比較。比較表3的分類性能數據可以發現,無論使用哪一種特征選擇方法都沒有提高實體關系分類性能,最好的情況也就是不降低它的性能。這是由于在實體關系抽取方案中加入了特征選擇算法之后,降低了分類時特征空間維數,而在這個降維過程中,有一些對實體關系抽取有用的信息被丟掉。雖然增加了特征選擇的實體關系抽取方案可能會降低實體關系分類性能,但從表2的數據可以看出,該類方案依然是有其價值的。這是因為首先這類方案只是略微降低了分類性能,比如SVM+IG方案只降低了0.7%,SVM+CE方案只降低了1.5%;其次,該類方案有效地減少了分類時的特征數,提高了效率,比如SVM+CE方案以將性能降低0.7%為代價將特征數也減少到了24.7%,而SVM+CHI方案則在保持分類性能的基礎上將特征數減少到了24.1%。由此可以看出,該類方案是將分類性能和效率作了一個權衡,在盡量保證分類性能的同時提高分類效率。在實際應用中可以根據需要選擇合適的實體關系抽取方案。對于IG、CE和CHI三種特征選擇方法,從圖1和表3的實驗結果可以看出,CHI是更適合于實體關系抽取的。因為在選擇相同特征數時,以CHI得到的實體關系抽取性能最好。
3結束語
由于實體關系抽取問題與文本分類問題的相似性,本文引入了文本分類中的特征選擇算法,用于解決基于特征向量的實體關系抽取問題中特征空間維數過高的問題。實驗結果表明,本文引入的基于信息增益、期望交叉熵和x2統計的特征選擇算法均能有效地降低實體關系抽取中的特征維數,減少抽取的時間開銷,且保持了實體關系抽取的F1值。然而,特征選擇過程希望最好在降低特征維數的同時提高抽取性能,這個目標是困難的,也將是筆者下一步的研究方向。另外,考慮到本文只是簡單引入了文本分類中的特征選擇算法,下一步也可以組合多個特征選擇算法,以期更進一步地進行有效特征降維。