本站小編為你精心準(zhǔn)備了并列結(jié)構(gòu)識別研究參考范文,愿這些范文能點燃您思維的火花,激發(fā)您的寫作靈感。歡迎深入閱讀并收藏。
《電腦與信息技術(shù)雜志》2014年第三期
并列結(jié)構(gòu)分為有標(biāo)記的并列結(jié)構(gòu)和無標(biāo)記的并列結(jié)構(gòu)。吳云芳[8]指出,對于有標(biāo)記的并列結(jié)構(gòu),處理的關(guān)鍵是確定并列結(jié)構(gòu)的邊界;對于無標(biāo)記的并列結(jié)構(gòu),處理的關(guān)鍵是辨別同類詞連用形式的歧義格式。下面介紹并列結(jié)構(gòu)識別的三種方法:自底向上的圖表算法、中心詞驅(qū)動的并列結(jié)構(gòu)識別、基于條件隨機場的并列結(jié)構(gòu)識別。
1自底向上的圖表算法
自底向上的圖表算法是Hara[5]等提出的,解決嵌套的和非嵌套的并列結(jié)構(gòu)的識別。自底向上的圖表算法即可以處理非嵌套的也可以處理嵌套的并列結(jié)構(gòu)。該方法包含下面兩個步驟:定義并列結(jié)構(gòu)的語法結(jié)構(gòu);并列結(jié)構(gòu)樹分值的選取。(1)并列結(jié)構(gòu)的語法結(jié)構(gòu)并列結(jié)構(gòu)的語法結(jié)構(gòu)是為了確保兩個或多個并列成分的一致性。對于任何兩個并列結(jié)構(gòu),它們或者是沒有重疊的兩個獨立的并列結(jié)構(gòu)(非嵌套)或者是一個并列結(jié)構(gòu)是另一個并列結(jié)構(gòu)的一個并列成分的內(nèi)部部分(嵌套)。并列結(jié)構(gòu)分為完全并列結(jié)構(gòu)(COORD)和部分并列結(jié)構(gòu)(COORD’),主要是為了處理包含三個或三個以上并列成分的并列結(jié)構(gòu)。例如,(a,b,c)在句子中有下面三種形式的并列結(jié)構(gòu)樹,如圖1所示。其中,圖1(a)中的內(nèi)部樹(bandc)是部分并列結(jié)構(gòu),它與前面的并列成分a一起構(gòu)成一個完整的并列結(jié)構(gòu),部分并列結(jié)構(gòu)用COORD’表示。圖1(b)是嵌套的并列結(jié)構(gòu),bandc是完整的并列結(jié)構(gòu),a與(bandc)有構(gòu)成一個并列結(jié)構(gòu),且(bandc)是該并列結(jié)構(gòu)的一個并列成分。圖1(c)中不包含并列結(jié)構(gòu)。(2)并列結(jié)構(gòu)樹分值的選取自底向上的圖表算法能夠有效的獲取由一個句子產(chǎn)生的分值最高的并列結(jié)構(gòu)樹。并列結(jié)構(gòu)樹的分值取所有節(jié)點的加和,并且每個節(jié)點的分值的計算都是獨立的。這里只將COORD和COORD’兩種類型的節(jié)點設(shè)為非空值。并列結(jié)構(gòu)節(jié)點的得分是通過捕捉連詞下方的序列對的對稱性獲得的。
2中心詞驅(qū)動的并列結(jié)構(gòu)識別
中心詞驅(qū)動的并列結(jié)構(gòu)識別算法是由吳云芳[8]提出的,該算法分為下述3個步驟:(1)利用邊界特征詞劃定并列結(jié)構(gòu)的大致范圍。(2)對于名詞性的右中心結(jié)構(gòu)(如圖2所示),并列標(biāo)記之前第一個詞語被認(rèn)定為前并列成分中心詞,根據(jù)一系列相似性原則,在并列標(biāo)記后搜索與前中心詞相似度最大的詞語作為后并列成分中心詞,后并列成分由此確定;對于動詞性的左中心結(jié)構(gòu)(如圖3所示),算法類似只是方向相反。(3)根據(jù)并列成分結(jié)構(gòu)平衡與相似的原則,在并列結(jié)構(gòu)前端搜索與后并列成分平衡性和相似性最大的詞串作為前并列成分。步驟1中提到的邊界特征詞是指大多位于并列結(jié)構(gòu)外部而不位于并列結(jié)構(gòu)的內(nèi)部的詞語,如果位于并列結(jié)構(gòu)內(nèi)部,該詞一般情況下只與其自身形成的并列結(jié)構(gòu)。吳云芳將并列結(jié)構(gòu)的邊界特征詞分為3類。前邊界特征詞、前邊界特征詞類、后邊界特征詞。其中,前邊界特征詞主要有:來自、受到、得到、有利于、包括、具有、涉及、是、作為、如、諸如、例如、來等;前邊界特征詞類主要是連詞(C)和介詞(P);后邊界特征詞主要有:等、等等、都、分別、均、共同、也、之間、來、聯(lián)合等。
3基于條件隨機場的并列結(jié)構(gòu)的識別
用于自然語言處理的統(tǒng)計機器學(xué)習(xí)模型有很多種,如:最大熵、隱馬爾科夫、條件隨機場等。條件隨機場作為一個無向圖模型在序列標(biāo)注問題上比隱馬爾科夫模型、最大熵模型等有向圖模型識別的效果好[18]。王東波[11,19]運用條件隨機場識別有標(biāo)記的聯(lián)合結(jié)構(gòu)。條件隨機場模型是Lafferty[20]在最大熵和隱馬爾科夫模型的基礎(chǔ)上提出的一種用于標(biāo)注和切分的序列化標(biāo)注模型。基于條件隨機場(Crf)的并列結(jié)構(gòu)識別的系統(tǒng)流程圖,如圖4所示。
4結(jié)束語
并列結(jié)構(gòu)是一種特殊的語言形式,且并列結(jié)構(gòu)識別是自然語言處理不可或缺的一部分。并列結(jié)構(gòu)各并列成分的相似性除了結(jié)構(gòu)平行性之外,還有中心語相似的特性。并列結(jié)構(gòu)能得到很好的識別,許多自然語言處理的其它問題都能迎刃而解。但是,目前并列結(jié)構(gòu)的識別效果并不理想。本文對已有的并列結(jié)構(gòu)識別的研究方法和研究成果作了相應(yīng)介紹,希望能對并列結(jié)構(gòu)研究的學(xué)者給予幫助。
作者:王楊單位:遼寧行政學(xué)院