美章網 資料文庫 學習食品安全事件實體抽取模型分析范文

學習食品安全事件實體抽取模型分析范文

本站小編為你精心準備了學習食品安全事件實體抽取模型分析參考范文,愿這些范文能點燃您思維的火花,激發您的寫作靈感。歡迎深入閱讀并收藏。

學習食品安全事件實體抽取模型分析

摘要:實體在非結構化文本中不僅與詞匯具有密切的關系,而且是構成短語的關鍵部分,特別是實體自身具有豐富的語義性,能夠為后續語義知識的深度挖掘奠定基礎。為了更好地從食品安全事件文本中挖掘出更加有價值和意義的知識,結合LSTM-CRF模型,筆者提出了食品安全事件實體抽取的基本流程,并構建了相應的食品安全事件實體抽取模型。在選取領域食品安全事件文本上,構建的食品安全事件實體抽取模型的調和平均值達到了相對可以接受的程度。基于深度學習食品安全事件實體自動抽取模型不僅為實體的抽取提供了策略,而且在一定程度上驗證了深度學習性能的整體狀況。

關鍵詞:食品安全事件;實體;LSTM-CRF

1引言

食品安全涉及到千家萬戶的切身利益,因此如何對食品安全進行全面、細致且有效的監管成為了控制食品安全事件發生的關鍵。通過構建細顆粒度的食品安全事件知識庫是一種有效的方式和手段。在構建食品安全事件知識庫的過程中,核心步驟是識別食品安全事件文本中的相關實體。因為實體在文本當中從形式上不僅是句法的有效構成部分,而且從語義上看扮演了極為重要的語義角色。所以,筆者基于經過人工標注的大規模帶有命名實體的文本,結合BiLSTM-CRF這一深度模型,探究了食品安全事件中實體的識別問題。隨著食品安全事件數據逐步的增加,目前針對食品安全事件文本進行的實體抽取主要基于新聞文本數據展開,主要通過機器學習的方法進行。基于ICTCLAS對新聞文本的自動分詞,首先,江美輝等界定了新聞文本中的時間、地點、主體、事件這四類實體,并完成了對相應實體的抽取[1]。其次,在抽取的實體基礎上構建了實體關系網絡。最后,構建了一體化的食品安全事件實體抽取和分析平臺。基于1500萬字構成的食品安全事件語料庫,王東波等首先獲取了食品安全事件實體的內部和外部特征[2],其次制定了相應的抽取模板,并驗證了模板的不同性能和特征。最后構建了基于條件隨機場的食品安全事件實體抽取模型。許華等對醫療文本中實體的抽取與本研究相近[3],該研究首先完成了對醫療語料的分詞,其次基于相應的詞性標記集,對文本進行了詞性標注,最后基于規則完成了對醫療文本中實體的抽取。基于統計獲取的多特征,吳毅完成了對食品安全事件當中食品名稱與誘因的實體的自動識別[4]。隨著人工智能的興起,基于深度學習的實體抽取逐步發展起來。例如,通過觀察實體的分布特征,把深度信念網絡有效擴展到神經網絡上,馮蘊天等結合具體的實體抽取特征和任務,給出了一種基于深度學習的實體抽取框架[5]。通過分析實體所構成漢字的特征,利用深度學習模型可以自動發掘實體字與字之間的語義組合特征,Liang等利用BILSTM-CRF深度學習模型[6],發掘字與字之間的語義特征,構建了基于深度學習的實體識別模型,并在公開的數據集上獲得相對突出的成果。通過分析中文地名的分布特征,沈思等針對中文地名實體抽取的具體研究任務[7],充分利用RNN這一深度學習模型,完成了對中文地名的自動識別,并比較基于字與基于詞兩種策略的優劣,通過具體的實驗驗證了基于字進行實體識別的有效性。上述基于深度學習的實體識別方法和技術,為本文構建基于深度學習模型的食品安全事件實體識別提供了直接而有效的借鑒。

2食品安全事件語料和模型介紹

2.1語料說明

通過對2195篇食品安全事件語料的分析,筆者定義了四類食品安全事件實體,即食品及食品安全事件實體、時間實體實體、人物及組織實體和地點實體,并通過人工的方式分別對以上四類實體進行了標注。為了將語料轉化為可供神經網絡模型訓練和測試的格式,為了便于進行深度學習模型的訓練,針對食品安全事件實體的內容特征,定義了17位標記集進行標注,并按照8∶2的比例將標注后語料分為訓練文本和測試文本,在基于BiLSTM-CRF模型上進行自動標注測試。然后抽取了與“瘦肉精”有關的食品安全事件新聞語料,在同樣的模型上對其進行十折交叉訓練。通過計算Precision(準確率)、Recall(召回率)和F-measure(F值)對BiLSTM-CRF模型的識別效果進行評價。本文定義了17位標記集{B-f,I-f,E-f,S-f,B-l,I-l,E-l,S-l,B-t,I-t,E-t,S-t,B-p,I-p,E-p,S-p,O},以字或詞為最小單位,對食品安全事件實體進行標記,各個標記的含義見下表1。例如對于食品及食品安全事件實體中的“瘦肉精”,對應的標記是“S-f”;人物及組織實體中的“北京市工商局”,相應的標記為“北京市B-p”,“工商局E-p”

2.2模型介紹

在深度學習系列模型中,循環神經網絡RecurrentNeuralNetwork(RNN)是一種高效的序列標記人工神經網絡[8],該模型能夠有效解決反饋機制的問題,有效解決某一時刻下反饋結果計算的問題,具體隱藏層和輸出層的計算公式如下。ht=f(Uxt+WHt-1)(1)yt=g(Vht)(2)雖然循環神經網絡解決了反饋機制的問題,但是對于長距離依賴的特征知識問題,這一深度學習模型整體表現效果相對較差,其突出表現為會造成梯度消失和梯度爆炸問題。在上述這一背景下,長期短期記憶網絡LongShort-TermMemory(LSTM)這一深度學習模型被提了出來[9]。LSTM模型通過記憶單元和門能夠有效控制歷時信息的存在和消失,具體使用的門包括輸入控制門、輸出控制門和遺忘門,具體記憶單元的計算如下。通過三個門,LSTM有效解決了RNN難以保留較遠距離信息的問題,而BiLSTM(雙向LSTM)模型能夠有效控制正向和逆向的信息,從而實現存儲兩個方向的歷時信息的目的。雖然能夠有效保留相應的歷時信息,但是當LSTM輸出時會存在非常強的依賴關系,因此會影響模型的整體性能。在這一背景下,LSTM和CRF組合模型被提了出來,這一組合模型不僅能夠有效考慮分詞、詞性、實體等上下文的信息和知識特征,而且在輸出時CRF還能有效解決輸出獨立標簽之間的依賴問題。為了確保面向海量食品安全事件抽取實體的整體性能,在具體實體抽取的過程中,使用了BiLSTM-CRF模型進行實體識別的實驗[10]。根據對深度學習系列模型識別效果的評價指標要求,本文對基于BiLSTM-CRF模型的食品安全事件實體自動識別性能的評價主要通過三個指標進行衡量:準確率(Precision)、召回率(Recall)、F值(F-measure)。具體計算公式如下。式中,A代表正確識別出的食品安全事件實體個數,B代表錯誤識別出的食品安全事件實體個數,C代表未識別出來的食品安全事件實體個數。其中F值能夠有效均衡精準率和召回率之間的關系。

3實體抽取結果分析

本文基于人工標注的2195篇食品安全事件語料,構建了包含164萬行tokens的深度學習語料庫。在具體的實驗中將語料庫按照8∶2的比例分為訓練語料和測試語料進行實驗。在具體實驗過程中只使用了食品安全實體的字為基本單位。在具體實驗過程中所使用的參數信息為:隱藏單元維度設置為300;batchsize的值設定為64;迭代次數界定為200;BiLSTM所使用的層數為3;earlystop界定為了100;特征數量設定成了6,而學習率的值為0.002。由于在基于深度學習訓練實體識別過程中需要使用到GPU,因此對本文的實驗環境介紹如下,CPU:Intel(R)Core(TM)i5-4590CPU@3.30GHz內存:16GBDDR4;GPU:NVIDIAQuadroK1200顯存:4GBGDDR5;操作系統:ubuntu16.04。服務器上高性能的GPU可以支持大規模的并行運算。基于BiLSTM-CRF模型的實體識別結果如表2所示。在大規模語料上,本文得到的所有食品安全事件文本當中識別的結果,在調和平均值上達到了65.12%,僅從字的角度來看,獲得的模型整體性能較為合理。在具體訓練過程中,Trainloss總體趨勢如圖1所示。為了更進一步的探究模型性能,并在小規模語料和主題比較一致的語料上探究模型的性能。本文從現有語料中以瘦肉精為主題抽取了包含9000行的tokens深度學習語料在此模型中進行十折交叉訓練,基于BiLSTM-CRF模型的在主題為瘦肉精的食品安全事件實體識別十折交叉實驗結果如表3所示。從表3可以看出,在所選擇的食品安全事件主題上最優的模型性能達到了90.11%,整體上達到了實用的程度,該模型的精準率達到了95.35%,這一組模型的性能指標充分說明了深度學習與條件隨機場組合模型的突出的性能。但是從表3可以看出,個別模型的性能并不是太突出,究其原因,是所選語料的規模過小,因為在小規模的語料中,語料中實體的分布會存在不均衡和偏頗的問題。

4結語

食品安全事件中的實體不僅具有多維度的語義知識,而且是構成應對食品安全事件應對策略的重要知識單元,食品安全事件中實體識別的精準度對整個食品安全事件的知識挖掘具有重要的意義和價值。筆者在所選取的特定語料文本上,構建了基于深度學習的食品安全事件實體模型,并對該模型的整體性能進行了3個指標上的分析。在后續的研究中,應適當擴展訓練模型的語料規模,并增加新的特征以提高整個模型的性能。

參考文獻

[1]江美輝,安海忠,高湘昀,等.基于復雜網絡的食品安全事件新聞文本可視化及分析[J].情報雜志,2015(12):121-127.

[2]王東波,吳毅,葉文豪,等.多特征知識下的食品安全事件實體抽取研究[J].現代圖書情報技術,2017,1(3):54-61.

[3]許華.基于有監督學習的醫療實體抽取方法研究[D].武漢:武漢科技大學,2016:23.

[4]吳毅.基于復雜特征知識的食品安全事件多類型命名實體抽取研究[D].南京:南京農業大學,2016:45.

[5]馮蘊天,張宏軍,郝文寧.面向軍事文本的命名實體識別[J].計算機科學,2015,42(7):15-18.

[7]沈思,朱丹浩.基于深度學習的中文地名識別研究[J].北京理工大學學報,2017,37(11):1150-1155.

作者:沈思 胡業勛 單位:南京理工大學

主站蜘蛛池模板: 欧美亚洲777| 蜜桃臀无码内射一区二区三区| 婷婷无套内射影院| 久久亚洲综合色| 欧美在线小视频| 亚洲黄色三级网站| 综合久久久久久久综合网| 国产大屁股视频免费区| 女人18毛片水真多国产| 在线a免费观看最新网站| 一本色道久久综合一区| 无码日韩精品一区二区免费| 乱人伦人妻中文字幕在线入口| 欧美日韩生活片| 人人添人人妻人人爽夜欢视av| 美女把尿口扒开让男人桶| 国产午夜精品理论片| 欧美在线精品永久免费播放| 国产综合视频在线观看一区| 99这里只精品热在线获取 | 十六一下岁女子毛片免费| 适合一个人在晚上偷偷看b站| 国产最新精品视频| 香蕉视频黄色在线观看| 国语对白刺激做受xxxxx在线| xxxxx国产| 性asmr视频在线魅魔| 中文字幕第2页| 日本三级黄色片网站| 久久精品国产亚洲av麻豆色欲| 欧美xxxxx69| 亚洲午夜国产片在线观看| 欧美顶级aaaaaaaaaaa片| 偷窥自拍10p| 男朋友想吻我腿中间的部位| 又粗又硬又大又爽免费视频播放 | 亚洲人成人网站在线观看| 欧美日韩综合网| 亚洲神级电影国语版| 烈血黄昏中视频| 亚洲视频在线看|