一区二区三区网站,久久久久国产一级毛片高清片 ,国产在线视频在线

本站小編為你精心準(zhǔn)備了新聞事件型實(shí)體關(guān)系抽取方法探討參考范文，愿這些范文能點(diǎn)燃您思維的火花，激發(fā)您的寫作靈感。歡迎深入閱讀并收藏。

新聞事件型實(shí)體關(guān)系抽取方法探討

摘要:新聞所包含核心內(nèi)容是事件，現(xiàn)有的中文實(shí)體關(guān)系抽取方法都針對(duì)屬性型關(guān)系，忽略了事件型關(guān)系的抽取;新聞內(nèi)容涉及領(lǐng)域廣，要求關(guān)系抽取方法具有良好的領(lǐng)域擴(kuò)展能力;同時(shí)，開放域人工標(biāo)注訓(xùn)練語(yǔ)料庫(kù)的難度較大。針對(duì)上述問(wèn)題，本文提出Bootstrapping的關(guān)系種子集自動(dòng)生成方法，并在迭代過(guò)程中加入擴(kuò)展和過(guò)濾規(guī)則，最終得到準(zhǔn)確度和復(fù)用性較高的實(shí)體關(guān)系提取模式。通過(guò)實(shí)驗(yàn)測(cè)試，本文提出的方法在事件型實(shí)體關(guān)系的提取中能夠取得良好效果。

關(guān)鍵詞:關(guān)系抽取;事件型關(guān)系;Bootstrapping;開放模板

隨著媒體行業(yè)信息化程度不斷加深，互聯(lián)網(wǎng)已成為媒體機(jī)構(gòu)最重要的宣傳陣地，中文新聞網(wǎng)頁(yè)總量也早已過(guò)億。面對(duì)海量的新聞內(nèi)容，傳統(tǒng)的搜索引擎基于關(guān)鍵字匹配和網(wǎng)頁(yè)重要度排序等方法，雖然在一定程度上能夠解決用戶查詢新聞信息的需求，但僅能提供符合條件的新聞文本，用戶仍需要通讀全文來(lái)獲取新聞所包含的事件內(nèi)容。此外，新聞?dòng)浾哌M(jìn)行新聞報(bào)道時(shí)，要花費(fèi)大量的時(shí)間從以往相關(guān)報(bào)道中獲取相關(guān)知識(shí)作為素材。因此，如何幫助用戶快速準(zhǔn)確的獲取新聞文本中所包含的核心內(nèi)容就成為近幾年新聞?lì)I(lǐng)域的一個(gè)研究熱點(diǎn)。信息抽取(InformationExtraction，IE)技術(shù)的主要目的是從非結(jié)構(gòu)化自然語(yǔ)言文本中抽取實(shí)體、實(shí)體關(guān)系和事件信息。

其中實(shí)體關(guān)系抽取用于識(shí)別實(shí)體間的語(yǔ)義關(guān)系。例如“國(guó)家主席在中南海會(huì)見(jiàn)到訪的美國(guó)總統(tǒng)奧巴馬”一句中，“”和“奧巴馬”是其中包含的兩個(gè)命名實(shí)體，而“會(huì)見(jiàn)”是兩個(gè)實(shí)體間的語(yǔ)義關(guān)系詞。我們可以看到:如果信息抽取是將非結(jié)構(gòu)化的自然語(yǔ)言文本表述為結(jié)構(gòu)化的表格數(shù)據(jù)，而實(shí)體識(shí)別確定了表格中各個(gè)元素的話，那么實(shí)體關(guān)系抽取則是確定這些元素在表格中的相對(duì)位置［1］。總之，實(shí)體關(guān)系抽取是在實(shí)體識(shí)別的基礎(chǔ)上，將無(wú)結(jié)構(gòu)的自然語(yǔ)言文本中包含的實(shí)體間的語(yǔ)義關(guān)系提取出來(lái)，然后以三元組(實(shí)體1、關(guān)系、實(shí)體2)的形式存儲(chǔ)在數(shù)據(jù)庫(kù)中，供用戶查詢或其他軟件系統(tǒng)復(fù)用。本文針對(duì)中文新聞的特點(diǎn)，提出了一種面向開放領(lǐng)域的中文新聞事件型實(shí)體關(guān)系抽取方法。

1研究現(xiàn)狀關(guān)系

抽取任務(wù)最早由MUC［2］會(huì)議提出，在后續(xù)ACE［3］、TAC［4］測(cè)評(píng)會(huì)議的推動(dòng)下取得了顯著的發(fā)展。早期主要采用基于規(guī)則的方法，一般針對(duì)特定關(guān)系類型，由語(yǔ)言專家或領(lǐng)域?qū)＜胰斯ぞ帉戧P(guān)系抽取規(guī)則集合。如:抽取層次關(guān)系，專家通過(guò)制定規(guī)則集合(YsuchasX，suchYasX，suchYasX，X，andotherY，YincludingX，YespeciallyX等)來(lái)抽取不同表述形式的層次關(guān)系［5］。上述方法非常依賴人工制定規(guī)則的質(zhì)量。優(yōu)點(diǎn)在于匹配精準(zhǔn)，但即便是某一種關(guān)系類別，人工也很難窮舉所有可能規(guī)則。如果有新的關(guān)系類型抽取需求，則要重新制定規(guī)則，因此基于規(guī)則的方法領(lǐng)域移植性較差。監(jiān)督學(xué)習(xí)方法在自然語(yǔ)言處理領(lǐng)域的廣泛應(yīng)用極大的促進(jìn)了實(shí)體關(guān)系抽取方法的革新。

監(jiān)督學(xué)習(xí)類方法又分為兩類:

1)基于特征向量的方法和基于核函數(shù)的方法。基于特征向量方法將關(guān)系抽取任務(wù)轉(zhuǎn)化成分類問(wèn)題，根據(jù)訓(xùn)練語(yǔ)料庫(kù)的特點(diǎn)選取有效特征，并構(gòu)造特征向量，使用條件隨機(jī)場(chǎng)［6］、最大熵［7］、SVM［8］等不同方法訓(xùn)練關(guān)系分類器用于關(guān)系預(yù)測(cè)。該方法性能好壞的關(guān)鍵在于特征選取，不同的領(lǐng)域不同的語(yǔ)料特征選取差別很大，所以移植性較差，但計(jì)算復(fù)雜度較低;

2)基于核函數(shù)［9－11］的方法，引入核函數(shù)對(duì)樣例關(guān)系和待識(shí)別關(guān)系之間的相似度進(jìn)行計(jì)算，不需要定義特征集合，通過(guò)一個(gè)隱含的高維特征空間計(jì)算相似度，一方面可以得到更加全面的特征信息，同時(shí)也解決了特征方法在特征選取方面存在的問(wèn)題，但核函數(shù)方法的計(jì)算復(fù)雜較高。

監(jiān)督學(xué)習(xí)方法相比人工規(guī)則的方法有了很大提升，但是還是需要人工進(jìn)行算法訓(xùn)練語(yǔ)料的標(biāo)注，往往只針對(duì)特定的關(guān)系或者特定的領(lǐng)域，難以適應(yīng)開放領(lǐng)域關(guān)系的抽取的要求。面向開放域的關(guān)系抽取，Banko［12］等人最早提出了開放式關(guān)系抽取的概念，利用啟發(fā)式規(guī)則和簡(jiǎn)單的句法特征訓(xùn)練分類器的TextRunner系統(tǒng)，Hase-gawa［13］等人在ACL2004提出利用無(wú)監(jiān)督的方法，在假設(shè)相同實(shí)體關(guān)系具有相同的上下文語(yǔ)境的前提下，使用聚類算法對(duì)關(guān)系進(jìn)行聚類，但這種方法過(guò)于依賴語(yǔ)料的好壞，而且假設(shè)也存在問(wèn)題。哈工大劉安安［14］等人提出無(wú)監(jiān)督開放式的中文實(shí)體關(guān)系抽取方法主要研究人、機(jī)構(gòu)、地點(diǎn)之間的屬性型實(shí)體關(guān)系開放式描述。WuF［15］等人提出的WOE系統(tǒng)，使用維基百科中的信息框來(lái)標(biāo)注關(guān)系抽取語(yǔ)料，該類方法主要依靠已有知識(shí)庫(kù)，在假設(shè)兩個(gè)實(shí)體對(duì)應(yīng)的句子均表示同一種關(guān)系的基礎(chǔ)上，通過(guò)將知識(shí)庫(kù)中已有的關(guān)系實(shí)例和待標(biāo)注訓(xùn)練語(yǔ)料進(jìn)行對(duì)齊自動(dòng)構(gòu)建訓(xùn)練語(yǔ)料庫(kù)，后續(xù)和監(jiān)督學(xué)習(xí)方法一樣進(jìn)行關(guān)系抽取分類器的訓(xùn)練和關(guān)系的抽取。方法不需要人工過(guò)多干預(yù)，但是現(xiàn)階段沒(méi)有完備可供使用的中文知識(shí)庫(kù)，同時(shí)，目前所有的知識(shí)庫(kù)只有屬性型關(guān)系，缺少新聞需要的事件型關(guān)系，無(wú)法構(gòu)建訓(xùn)練語(yǔ)料滿足新聞文本中抽取事件型實(shí)體關(guān)系的要求。因此，我們考慮采用自動(dòng)的方式生成種子關(guān)系集，然后通過(guò)自舉的方法不斷進(jìn)行新的關(guān)系的學(xué)習(xí)，結(jié)合規(guī)則的思想，自動(dòng)生成關(guān)系抽取模式，用于新的關(guān)系發(fā)現(xiàn)與抽取。

2開放式中文新聞事件型實(shí)體關(guān)系抽取

面向開放領(lǐng)域的實(shí)體關(guān)系抽取目前普遍采用弱/遠(yuǎn)監(jiān)督的方法，需要借助已有的知識(shí)庫(kù)，OLLIE系統(tǒng)［16］是抽取結(jié)果最好的系統(tǒng)，但其僅支持英文，初始種子集依靠ReVerb系統(tǒng)［17］產(chǎn)生。本文針對(duì)中文新聞提出自動(dòng)構(gòu)建種子集的方法，能夠解決中文領(lǐng)域無(wú)現(xiàn)成可用的知識(shí)庫(kù)和關(guān)系抽取系統(tǒng)的問(wèn)題。通過(guò)多次迭代學(xué)習(xí)關(guān)系抽取模式，以簡(jiǎn)單的模式為起點(diǎn)，生成更多復(fù)雜模式，從而匹配更多的關(guān)系，獲得比較好的實(shí)體關(guān)系抽取結(jié)果。方法主要分為下面兩個(gè)部分:新聞文本預(yù)處理和新聞事件型關(guān)系抽取。

2．1文本預(yù)處理

新聞文本以非結(jié)構(gòu)化形式存在，為了便于后續(xù)處理，我們需要進(jìn)行文本預(yù)處理，主要包括以下步驟:

(1)句子分詞與命名實(shí)體識(shí)別。綜合考慮分詞速度和準(zhǔn)確率指標(biāo)，我們選擇Ansj中文分詞包(分詞速度30萬(wàn)字/秒，準(zhǔn)確率大于96%)。輸出結(jié)果(有詞性標(biāo)注、命名實(shí)體標(biāo)注并且完成分詞的句子)將作為句子劃分和依存句法分析的基礎(chǔ)輸入。通過(guò)對(duì)結(jié)果分析發(fā)現(xiàn)，命名實(shí)體識(shí)別存在一定誤差，例如“中國(guó)傳媒大學(xué)食堂最受歡迎的菜品是廣院肉餅”的命名實(shí)體識(shí)別結(jié)果是“中國(guó)傳媒大學(xué)”為機(jī)構(gòu)，但緊鄰的“食堂”并沒(méi)有與緊鄰的名詞共同識(shí)別為一個(gè)組織機(jī)構(gòu)，我們期望得到的是“中國(guó)傳媒大學(xué)食堂”作為組織機(jī)構(gòu)名，同時(shí)“廣院”和“肉餅”也存在類似的情況，因此，我們對(duì)ansj的命名實(shí)體識(shí)別結(jié)果進(jìn)行如下處理:在識(shí)別出一個(gè)命名實(shí)體E1后，如果緊鄰這個(gè)實(shí)體的前后詞語(yǔ)是名詞N或者命名實(shí)體E2，我們就對(duì)其標(biāo)記，在后續(xù)得到依存句法分析結(jié)果后，如兩個(gè)詞語(yǔ)之間的依存關(guān)系滿足“ATT關(guān)系”，我們則將詞語(yǔ)組合的整體為一個(gè)命名實(shí)體E3(E1E2/E1N)。

(2)復(fù)雜句切分。考慮到依存句法分析對(duì)復(fù)雜長(zhǎng)句的分析準(zhǔn)確率很低，因此我們考慮對(duì)復(fù)雜句進(jìn)行切分，通過(guò)對(duì)新聞?wù)Z料的分析，我們選用逗號(hào)作為分句的標(biāo)點(diǎn)符號(hào)，遵循以下規(guī)則進(jìn)行復(fù)雜句切分:對(duì)由一個(gè)或多個(gè)逗號(hào)分隔的復(fù)雜長(zhǎng)句進(jìn)行切分，如果任意一個(gè)切分結(jié)果中的按照前一步進(jìn)行合并后的名詞或命名實(shí)體的總數(shù)少于2個(gè)，則不做切分。(3)依存句法分析。依存句法分析選用哈工大的語(yǔ)言技術(shù)平臺(tái)云［18］，以完成分詞、命名實(shí)體識(shí)別和復(fù)雜句切分處理后的文本作為輸入，進(jìn)行依存句法分析，輸出依存句法分析結(jié)果。

2．2事件型關(guān)系抽取

(1)關(guān)系抽取種子集自動(dòng)生成。對(duì)于事件型關(guān)系來(lái)說(shuō)，命名實(shí)體/名詞短語(yǔ)對(duì)之間的關(guān)系主要是施動(dòng)和受動(dòng)的關(guān)系，為了保證關(guān)系抽取種子集的質(zhì)量，我們選用最基本的關(guān)系抽取規(guī)則:依據(jù)依存句法分析的輸出結(jié)果，從依存樹中提取主語(yǔ)、謂語(yǔ)、賓語(yǔ)，其中主語(yǔ)和賓語(yǔ)是命名實(shí)體/名詞短語(yǔ)對(duì)，謂語(yǔ)則是與實(shí)體對(duì)主謂關(guān)系的動(dòng)詞/動(dòng)詞短語(yǔ)，進(jìn)而得到候選的實(shí)體關(guān)系三元組。考慮到種子集質(zhì)量對(duì)整個(gè)關(guān)系抽取的重要影響，我們定義以下規(guī)則對(duì)三元組進(jìn)行篩選過(guò)濾:基于停用詞表過(guò)濾關(guān)系無(wú)實(shí)際意義的關(guān)系指示詞和名詞;關(guān)系指示詞為動(dòng)補(bǔ)結(jié)構(gòu)時(shí)，排除該三元組;通過(guò)定中關(guān)系(ATT)將實(shí)體對(duì)象補(bǔ)充完整;基于以上過(guò)濾和補(bǔ)充規(guī)則，我們可以將滿足這些條件的句子中的實(shí)體三元組從候選集合中刪除或者補(bǔ)充完整，作為后面實(shí)體關(guān)系提取的種子集。

(2)基于Bootstrapping的事件型關(guān)系提取。將種子集中的三元組作為Bootstrapping算法的初始三元組在新聞?wù)Z料庫(kù)進(jìn)行軟匹配(句子中包含兩個(gè)以上三元組元素就匹配成功)，對(duì)匹配成功的句子抽取實(shí)體關(guān)系模式，存入模式庫(kù)，然后選擇模式庫(kù)中頻率高的前N項(xiàng)(本實(shí)驗(yàn)中N取10)對(duì)語(yǔ)料庫(kù)進(jìn)行模式匹配，匹配成功則抽取實(shí)體關(guān)系三元組。Boot-strapping方法的核心在于不斷迭代，每次迭代輸出的數(shù)據(jù)作為下次迭代的輸入數(shù)據(jù)，誤差會(huì)不斷被放大，因此對(duì)每一次迭代的輸入準(zhǔn)確性要求較高，通過(guò)上一步中三元組過(guò)濾規(guī)則對(duì)迭代結(jié)果進(jìn)行過(guò)濾。過(guò)濾新獲得的實(shí)體關(guān)系三元組再作為軟匹配的種子，不斷重復(fù)上述過(guò)程，直到?jīng)]有新的實(shí)體關(guān)系三元組產(chǎn)生為止。

3實(shí)驗(yàn)結(jié)果與分析

(1)測(cè)試集獲取:目前沒(méi)有公開的面向開放領(lǐng)域的中文新聞關(guān)系抽取語(yǔ)料庫(kù)，我們?cè)谛氯A社新聞庫(kù)中選取1000篇新聞文章(國(guó)內(nèi)政治領(lǐng)域300篇，國(guó)際政治領(lǐng)域200篇，體育領(lǐng)域100篇，科技領(lǐng)域50篇，歷史領(lǐng)域100篇，財(cái)經(jīng)領(lǐng)域50篇，軍事領(lǐng)域100篇，社會(huì)領(lǐng)域100篇)，采用交叉標(biāo)注的方式對(duì)新聞中所包含的事件句進(jìn)行人工標(biāo)注。

(2)實(shí)驗(yàn)設(shè)計(jì)與實(shí)現(xiàn):利用已構(gòu)建種子集中實(shí)體關(guān)系三元組作為輸入，采用Bootstrapping方法進(jìn)行開放模版的學(xué)習(xí)，表1中我們列舉了出現(xiàn)頻率最高的三個(gè)開放模版，模版符合下列條件:依存樹路徑中沒(méi)有空節(jié)點(diǎn);關(guān)系表示節(jié)點(diǎn)位于實(shí)體之間;如果模版的介詞需要和關(guān)系中的介詞匹配;依存樹路徑中不能存在名詞組合或形容詞修飾的關(guān)系邊。

4總結(jié)

本文自動(dòng)從中文新聞文本中抽取實(shí)體關(guān)系的算法是在OLLIE系統(tǒng)方法的基礎(chǔ)之上進(jìn)行改進(jìn)的。本文自動(dòng)構(gòu)建初始種子集，并通過(guò)過(guò)濾規(guī)則的設(shè)定控制了自舉算法每次迭代的誤差，對(duì)最終結(jié)果準(zhǔn)確率的提高切實(shí)有效。接下來(lái)將會(huì)對(duì)方法進(jìn)行優(yōu)化，在實(shí)體關(guān)系抽取基礎(chǔ)之上，進(jìn)一步研究對(duì)時(shí)間、地點(diǎn)等關(guān)系屬性值的抽取。

參考文獻(xiàn)

［1］車萬(wàn)翔，劉挺，李生．實(shí)體關(guān)系自動(dòng)抽取［J］．中文信息學(xué)報(bào)，2005，19(2):1－6．

作者：宋卿1，戚成琳1；楊越2 單位：1．中國(guó)傳媒大學(xué)，2．中國(guó)傳媒大學(xué)

新聞事件型實(shí)體關(guān)系抽取方法探討范文

擴(kuò)展閱讀

推薦期刊

新聞傳播

新聞潮

新聞窗

新聞前哨

精品推薦