前言:我們精心挑選了數(shù)篇優(yōu)質(zhì)自動識別技術(shù)論文文章,供您閱讀參考。期待這些文章能為您帶來啟發(fā),助您在寫作的道路上更上一層樓。
關(guān)鍵詞:超高頻;射頻識別;車輛管理
1 引 言
隨著我國城市化建設(shè)的快速發(fā)展,人民生活水平的不斷提高,車輛數(shù)量和道路交通流量急劇增加,而道路的建設(shè)遠(yuǎn)趕不上車輛的增長,伴隨而來是交通擁堵、車輛違章違法等現(xiàn)象的日益突出,傳統(tǒng)的車輛管理系統(tǒng)已經(jīng)面臨巨大挑戰(zhàn)。目前發(fā)展的射頻識別(RFID)技術(shù)為這個問題的有效解決提供了理想的解決方案,同時也是以后車輛管理自動化的發(fā)展方向[1-7]。
而對公交公司而言,其停車場平時需要管理大量的公交車輛,同時車輛停放比較分散,出入頻繁,車輛日常管理和安全監(jiān)管難度較大。因此,需要采用高智能化的管理手段來實(shí)現(xiàn)停車庫信息化管理的建設(shè)[8-10]。
在深入分析國內(nèi)外成熟的基于RFID的智能停車場管理系統(tǒng)關(guān)鍵技術(shù)基礎(chǔ)上,以某公交公司的車輛管理為典型應(yīng)用背景,本文提出的一種基于超高頻射頻識別(RFID)技術(shù)的車輛管理應(yīng)用方案。該方案可有效降低車輛信息查詢復(fù)雜程度、車輛定位等問題。該系統(tǒng)采用自行研發(fā)的FR520讀寫器等關(guān)鍵設(shè)備,并通過立體停車庫的大量測試結(jié)果證明方案合理可行,運(yùn)行穩(wěn)定可靠[11-15]。
2 射頻識別技術(shù)
自動設(shè)備識別系統(tǒng)(Automatic Equipment Identification, AEI)是國際上正在努力開發(fā)并快速推廣普及的技術(shù)。它適用于安全性要求較高的部門的車輛電子自動管理系統(tǒng)。該項(xiàng)技術(shù)的基本思想是通過采用一些先進(jìn)的技術(shù)手段,實(shí)現(xiàn)人們對各類物體和設(shè)備在不同狀態(tài)(高速移動、靜止、惡劣環(huán)境)下的自動識別和管理,特別是采用超高頻RFID技術(shù)的自動設(shè)備識別系統(tǒng)正日益廣被使用。
RFID也稱智能標(biāo)簽,是繼個人電腦(PC)、互聯(lián)網(wǎng)、無線通信之后的第四次信息技術(shù)革命。一個RFID系統(tǒng)通常由三部分組成:讀寫器、標(biāo)簽及相關(guān)的天線。讀寫器天線發(fā)射無線電信號給標(biāo)簽,標(biāo)簽通過自己的天線接收此信號,利用該信號得到的能量啟動標(biāo)簽上的集成電路芯片工作。作為條形碼的無線版本,智能標(biāo)簽技術(shù)具有條形碼所不具備的防水、防磁、耐高溫、使用壽命長、讀取距離大、標(biāo)簽上數(shù)據(jù)可以加密等一系列優(yōu)點(diǎn),正在許多領(lǐng)域得到應(yīng)用。
在圖1所示的簡單RFID系統(tǒng)中,現(xiàn)將閱讀器(Reader)、天線(Antenna)和標(biāo)簽(Tag)的作用分別描述如下:
閱讀器:讀取(有時還可以寫入)標(biāo)簽信息的設(shè)備,可設(shè)計為手持式或固定式;
標(biāo)簽:由耦合元件及芯片組成,每個標(biāo)簽具有唯一的電子編碼,附著在車輛上標(biāo)識目標(biāo)對象,標(biāo)簽編寫成車輛的編碼唯一識別;
天線:在標(biāo)簽和讀取器間傳遞射頻信號。
圖1 系統(tǒng)工作原理示意圖
3 車輛管理系統(tǒng)設(shè)計
針對公交公司車輛管理背景,以其所屬的一個典型的立體停車場為例,車輛管理系統(tǒng)設(shè)計過程中需要重點(diǎn)考慮的問題包括:
(1) 建設(shè)目標(biāo)
為立體停車場管理人員提供實(shí)時監(jiān)控車輛信息的平臺、實(shí)現(xiàn)智能化車輛規(guī)范有序定位管理;還可以在管理立體車庫的車輛進(jìn)出,嚴(yán)密監(jiān)視出入車輛,有效控制定位車輛的作息位置,保證系統(tǒng)運(yùn)行穩(wěn)定可靠。
(2) 豐富的功能
具有自動識別、智能控制、車輛定位管理、報警提示、信息記錄、數(shù)據(jù)通信、查詢、統(tǒng)計、分析等功能;同時具備擴(kuò)展方便,升級容易等特性。
(3) 運(yùn)行穩(wěn)定可靠
具有冗余容錯性能;系統(tǒng)處理速度快,可靠性高,穩(wěn)定性好,錯漏率低,并具有數(shù)據(jù)備份、數(shù)據(jù)恢復(fù)能力。
(4) 車輛實(shí)時定位管理
對于立體車庫內(nèi)車輛進(jìn)行數(shù)字化管理;通過自動識別車牌卡信息,可以對車輛進(jìn)出時間進(jìn)行跟蹤,同時定位車輛停放及作息位置的信息。
4 車輛管理系統(tǒng)方案
(1) 系統(tǒng)分部網(wǎng)絡(luò)結(jié)構(gòu)
圖2所示的智能車輛管理系統(tǒng)是以后臺管理系統(tǒng)和前端控制系統(tǒng)通過專用網(wǎng)絡(luò)傳輸設(shè)備組成的管理系統(tǒng),網(wǎng)絡(luò)通信協(xié)議采用TCP/IP協(xié)議。而前端控制系統(tǒng)內(nèi)的通道識別系統(tǒng)則采用10/100M以太網(wǎng)組成的一個小的局域網(wǎng)系統(tǒng),進(jìn)行識別和外設(shè)控制管理。
圖2 系統(tǒng)分布網(wǎng)絡(luò)結(jié)構(gòu)
(2) 立體車庫平面結(jié)構(gòu)
圖3所示為該立體車庫的讀寫系統(tǒng)覆蓋效果圖。系統(tǒng)軟件可以控制讀寫器的四根天線的輪詢讀取車輛標(biāo)簽時間順序,根據(jù)每個天線能管理定位對應(yīng)停車區(qū)域的車輛,能把實(shí)時的公交停車位置區(qū)域上報到公交公司的調(diào)度室,方便管理人員對車輛管理與停放位置的查詢定位。
(3) 車輛管理平臺組成
后臺管理平臺包括:管理計算機(jī)、發(fā)卡讀寫器、讀寫器、讀寫器專用天線及電纜。其中上層應(yīng)用軟件及其數(shù)據(jù)庫系統(tǒng)安裝并存儲在管理計算機(jī)上。
5 固定式閱讀器選型
圖4所示是一種能滿足本文系統(tǒng)需求的四通道遠(yuǎn)距離超高頻RFID固定式閱讀器產(chǎn)品HIK-FR520,支持DRM工作模式,具有良好的防沖突和抗干擾性能,識別率高,功能強(qiáng),可靠性高,可擴(kuò)展性好等特點(diǎn)。
該產(chǎn)品可廣泛應(yīng)用于智能交通、服裝盤存、智能倉儲等領(lǐng)域,能夠?qū)崿F(xiàn)現(xiàn)代化的物流管理,海關(guān)智能通關(guān)、城市車輛自動識別、智能停車場、高速公路不停車收費(fèi)應(yīng)用等集成系統(tǒng)。其主要特點(diǎn)包括:
兼容EPC C1 Gen2/ISO 18000-6C;
PowerPC架構(gòu)CPU MPC8308,128 MB RAM;
具有載波消除功能,抗干擾能力更強(qiáng);
支持EPC密集型讀取模式(DRM);
遠(yuǎn)距離讀取,RF輸出功率達(dá)到32.5 dBm;
支持4路天線接口;
支持640 Kb/s標(biāo)簽數(shù)據(jù)讀取速率;
配置以及參數(shù)設(shè)定靈活,提供最大化標(biāo)簽閱讀量和最佳工作性能;
智能交通及車輛管理
大規(guī)模RFID系統(tǒng)應(yīng)用
圖3 讀寫系統(tǒng)覆蓋效果圖圖 4 超高頻固定式讀寫器
HIK-FR520的主要性能指標(biāo)如表1所列。
6 車輛管理系統(tǒng)的特點(diǎn)
公交立體停車管理智能是運(yùn)用超高頻自動識別技術(shù),利用現(xiàn)代計算機(jī)技術(shù)和自動控制技術(shù)等多領(lǐng)域技術(shù),綜合實(shí)現(xiàn)車輛自動識別和定位管理。本文提出的超高頻RFID車輛管理系統(tǒng)具有以下主要特點(diǎn):
整個系統(tǒng)具有遠(yuǎn)距離快速識別、智能控制、高可靠性、高保密性、易操作、易擴(kuò)展等特點(diǎn);
建立安全可靠的注冊車輛檔案,通過高新技術(shù)加強(qiáng)車輛監(jiān)管防盜功能;
提供一個對進(jìn)出車輛自動識別、智能管理的先進(jìn)、可靠、適用的數(shù)字化平臺,使公交公司對所有公交車輛出行、位置進(jìn)行實(shí)時動態(tài)管理的能力得到質(zhì)的提高;
能有效、準(zhǔn)確的對進(jìn)出停車庫的車輛(裝有車輛電子號牌的車輛)的數(shù)據(jù)信息識別、采集、記錄、跟蹤;
實(shí)時數(shù)據(jù)可以通過網(wǎng)絡(luò)及時傳送到后臺管理系統(tǒng),使管理人員在辦公室內(nèi)就可以及時了解公交車輛的停車在立體車庫位置的情況。
7 結(jié) 語
基于射頻識別的智能車輛管理系統(tǒng)是一種高效、快捷及科學(xué)的車輛管理手段。本文提出的超高頻車輛管理系統(tǒng)應(yīng)用于停車場車輛管理中,具有效率高、準(zhǔn)確性好、安全性高的優(yōu)點(diǎn)。該系統(tǒng)易于操作維護(hù),自動化程度高,大大減輕管理者的勞動量。該方案的主要創(chuàng)新點(diǎn)在于為立體停車場管理人員提供實(shí)時監(jiān)控并識別車輛信息的平臺、實(shí)現(xiàn)車輛的智能化規(guī)范有序定位管理,系統(tǒng)功能豐富,運(yùn)行穩(wěn)定可靠,具有廣闊的市場應(yīng)用前景。
參 考 文 獻(xiàn)
[1]楊筆鋒,詹艷軍. 基于射頻識別的智能車輛管理系統(tǒng)設(shè)計[J]. 計算機(jī)測量與控制,2010,18(1):97-99.
[2]黃銀龍,張輝,徐旭,等. 車輛管理RFID電子標(biāo)簽內(nèi)存規(guī)劃研究[J]. 通信技術(shù),2010,43(2):141-145.
[3]王慶安. 基于RFID和GPRS的非機(jī)動車輛管理系統(tǒng)研究[J]. 中國制造業(yè)信息化,2007,36(13):66-68.
[4]狄巨星,趙建光,范晶晶,等. 車輛管理RFID標(biāo)簽電源低功耗研究[J]. 電源技術(shù),2013,37(7):1233-1274.
[5]尼濤,楊宏,艾春安. 基于RFID技術(shù)的車輛管理門禁系統(tǒng)設(shè)計[J]. 工業(yè)控制計算機(jī),2005,18(9):1-2.
[6]馬凱. 基于多節(jié)點(diǎn)射頻卡的車輛管理系統(tǒng)研究[J]. 交通標(biāo)準(zhǔn)化,2013(13):34-36.
[7]孫欣. 基于超高頻RFID的第三方物流車輛管理解決方案[J]. 自動化博覽,2012(2):80-82.
[8]楊洋. 基于RFID技術(shù)的武警車輛管理系統(tǒng)研究[D]. 哈爾濱:黑龍江大學(xué)(碩士學(xué)位論文),2011.
[9]楊國榮. 基于RFID技術(shù)的智能小區(qū)車輛管理系統(tǒng)設(shè)計[J]. 信息技術(shù),2012(6):182-185.
[10]程仁鎮(zhèn). 基于車輛管理的RFID讀寫器設(shè)計[D]. 武漢:武漢理工大學(xué)(碩士學(xué)位論文),2012.
[11]張圣仟,楊小天,遲耀丹. 基于RFID在車輛信息自動識別技術(shù)的研究與應(yīng)用[J]. 吉林建筑工程學(xué)院學(xué)報,2012(2):76-78.
[12]李元忠,余權(quán),姚海天,等. 構(gòu)建智能交通平臺——RFID技術(shù)在城市車輛管理中的應(yīng)用[J]. 中國自動識別技術(shù),2008(4):90-92.
[13]王煌城,王宇歆. RFID應(yīng)用於交通管理之研究[C].海峽兩岸智慧型運(yùn)輸系統(tǒng)學(xué)術(shù)研討會, 2006.
論文關(guān)鍵詞:物聯(lián)網(wǎng),大學(xué)管理,應(yīng)用研究
一、物聯(lián)網(wǎng)的概念
物聯(lián)網(wǎng)(Internet of Things,簡稱IoT)是新興的IT技術(shù),它是指通過把射頻識別(RFID)、紅外感應(yīng)器、全球定位系統(tǒng)、激光掃描器等信息傳感設(shè)備,嵌入和裝備到公路、建筑、電網(wǎng)、供水系統(tǒng)、大壩、油氣管道等各種各樣的物體中,再結(jié)合現(xiàn)有的互聯(lián)網(wǎng),實(shí)現(xiàn)人類社會與物理系統(tǒng)的整合的一種IT技術(shù)。
在這個經(jīng)過整合的物聯(lián)網(wǎng)當(dāng)中,通過互聯(lián)網(wǎng)實(shí)現(xiàn)物品的自動識別和信息的互聯(lián)與共享,另外中心計算機(jī)群也能對整合網(wǎng)絡(luò)內(nèi)的人員、機(jī)器、設(shè)備和基礎(chǔ)設(shè)施進(jìn)行實(shí)時的管理和控制。通過這樣一種技術(shù)手段,人類就能以更加精細(xì)和動態(tài)的方式管理生產(chǎn)和生活,達(dá)到“智慧”狀態(tài),從而提高資源利用率和生產(chǎn)力水平大學(xué)管理,改善人與自然間的關(guān)系。
二、基于大學(xué)校園管理的物聯(lián)網(wǎng)關(guān)鍵技術(shù)
1. 感知技術(shù)
物聯(lián)網(wǎng)多通過RFID技術(shù)、傳感器來達(dá)到感知的目的。
RFID(Radio Frequency IDentification)技術(shù),中文名為射頻識別技術(shù),它是一種非接觸式的自動識別技術(shù),通過射頻信號自動、快捷、方便地識別目標(biāo)對象并獲取相關(guān)數(shù)據(jù),從而實(shí)現(xiàn)對各類物體在不同狀態(tài)(移動、靜止、惡劣環(huán)境)下的自動識別和管理。
傳感器是能感受規(guī)定的被測量,并能按照一定的規(guī)律轉(zhuǎn)換成可用輸出信號的器件或裝置,多為敏感元件和轉(zhuǎn)換元件組成,用來感知信息采集點(diǎn)的環(huán)境參數(shù)。
2. 傳感器網(wǎng)絡(luò)
傳感器網(wǎng)絡(luò)是一個分布式智能化網(wǎng)絡(luò)系統(tǒng)。它在每個節(jié)點(diǎn)配備了傳感器、無線電收發(fā)器、微控制器和能源裝置等部件,再通過這些部件的協(xié)作,就可以監(jiān)控不同位置的物理、環(huán)境狀況論文參考文獻(xiàn)格式。
3. 無線網(wǎng)絡(luò)
無線網(wǎng)絡(luò)指的是使用無線電技術(shù)進(jìn)行傳輸?shù)挠嬎銠C(jī)網(wǎng)絡(luò),它是有線網(wǎng)絡(luò)的延伸,和有線網(wǎng)絡(luò)功能相似,只是傳輸技術(shù)不同而已。它的優(yōu)勢是在沒有有線網(wǎng)絡(luò)的地方,或是移動的環(huán)境下,也能同樣地連接上網(wǎng)絡(luò)。
4. 數(shù)據(jù)融合技術(shù)
數(shù)據(jù)融合技術(shù)是利用計算機(jī)技術(shù)、人工智能等技術(shù),將來自多個傳感器的觀測數(shù)據(jù)進(jìn)行采集、過濾、自動分析、綜合處理,進(jìn)而得出相應(yīng)的估計、決策等信息,以便輔助人們進(jìn)行管理、決策工作。
三、物聯(lián)網(wǎng)在大學(xué)校園管理中應(yīng)用的前提條件
大學(xué)作為年輕人密集的地方,同時也是高級知識分子集結(jié)地,在大學(xué)校園管理中運(yùn)用物聯(lián)網(wǎng)技術(shù),能迅速被人們接受和運(yùn)用。且目前很多高校都擁有多年的校園網(wǎng)絡(luò)建設(shè),已擁有校園網(wǎng)及校園無線網(wǎng)絡(luò)。這些都為物聯(lián)網(wǎng)在高校管理中的運(yùn)用提供了前提條件。
四、物聯(lián)網(wǎng)技術(shù)在大學(xué)校園管理中的應(yīng)用
1. 應(yīng)用于圖書館檔案室管理
利用物聯(lián)網(wǎng)構(gòu)建新型的高校圖書館、檔案室管理平臺大學(xué)管理,可以創(chuàng)新很多管理辦法。
圖書館、檔案室工作人員將RFID標(biāo)簽貼在圖書、檔案中,通過標(biāo)簽中的芯片和天線,再利用物聯(lián)網(wǎng)構(gòu)建出RFID的無線射頻智能系統(tǒng),這樣就能讓圖書、檔案擁有了GPS的定位功能。圖書、檔案在移動過程中,一旦經(jīng)過館室中的各個檢查點(diǎn),就立刻并跟蹤并記錄下來,并在服務(wù)器中儲存相關(guān)信息。這樣子,師生們在電腦上輸入書名、檔案的師生姓名,就能實(shí)時地掌握圖書、檔案當(dāng)前的具置,再使用便攜式的掃描設(shè)備、手持機(jī)等工具進(jìn)行跟蹤,就能快速找到自己想要的書籍、檔案。物聯(lián)網(wǎng)技術(shù)的引入,使得以前單純依靠號碼、人工查找的辦法得到了智能化的改革。
依據(jù)物聯(lián)網(wǎng)技術(shù),還可以設(shè)計出圖書自助借還設(shè)備,師生們在借還圖書時,可以來到自助借還設(shè)備前邊,讓設(shè)備自動讀取借書證和圖書,由于使用RFID技術(shù),設(shè)備可以在幾十厘米到幾米距離內(nèi)讀取圖書,還可以一次讀取多本圖書,這樣子就提高了圖書借還速度,比之前使用條形碼,由圖書館工作人員現(xiàn)場一本一本地辦理借還手續(xù)高效得多。同時大學(xué)管理,設(shè)備還可以提供24小時借還圖書服務(wù),為高校師生提供更為方便的服務(wù)。
在高校圖書館、檔案室中引入物聯(lián)網(wǎng)技術(shù),將能為這些地方的管理提供靈活高效、減少人力的智能化方案。
2. 應(yīng)用于校園安防管理
在物聯(lián)網(wǎng)安防管理平臺中,通過射頻識別、圖像識別、GPS、無線傳導(dǎo)網(wǎng)絡(luò)、遙感等技術(shù),并結(jié)合日常的視頻監(jiān)控系統(tǒng),全面感知校園的環(huán)境、人和物的變化,而計算機(jī)系統(tǒng)將這些感知信息進(jìn)行匯總、處理,適時地進(jìn)行提示或報警。通過物聯(lián)網(wǎng)技術(shù),我們就可以全方位地提升校園的安防自動化程度,實(shí)現(xiàn)智能化的識別和管理,提高效率,節(jié)省人力,從而更好地進(jìn)行安防管理論文參考文獻(xiàn)格式。
當(dāng)有物體闖上校園的圍墻或其他敏感區(qū)域時,系統(tǒng)通過在這些區(qū)域的紅外激光、次聲壓傳感檢測器、感應(yīng)光纖等傳感終端,判別闖入物體的大小和具置,并通過傳感網(wǎng)絡(luò)調(diào)轉(zhuǎn)相應(yīng)的攝像頭監(jiān)控該區(qū)域,同時依靠圖像識別技術(shù)跟蹤闖入物體,相應(yīng)的提醒信息也立即發(fā)送到中心和高校保衛(wèi)人員的手持設(shè)備中。在得到提醒后,保衛(wèi)人員就能立即調(diào)取該攝像頭的畫面。經(jīng)過觀察后,當(dāng)確實(shí)需要派保衛(wèi)人員趕到現(xiàn)場時,物聯(lián)網(wǎng)安防管理平臺還可以利用地磁傳感器、校道旁安置的無線傳感節(jié)點(diǎn)、無線傳感網(wǎng),以及保衛(wèi)人員身上的手持終端大學(xué)管理,實(shí)時把握保衛(wèi)人員在校園內(nèi)的定位,以此中心就能方便地調(diào)度最近位置的人員前去現(xiàn)場。
物聯(lián)網(wǎng)技術(shù)的引入帶來了安防方法的改變,與先前的視頻監(jiān)控系統(tǒng)安防方法不一樣了,物聯(lián)網(wǎng)技術(shù)的安防管理不再要求保衛(wèi)人員一直守著監(jiān)控屏幕觀看。由于傳感網(wǎng)絡(luò)擁有圖像識別智能技術(shù),能夠在邊界內(nèi)出現(xiàn)異動時,及時感知信息,自動跟蹤拍攝和錄制畫面,并向中心和人員發(fā)送提醒信息。保安人員可以只在收到信息后才調(diào)取、查看相應(yīng)攝像頭的畫面。這將使得高校的安防管理輕松不少。
摘 要:介詞短語作為一種重要的短語類型在漢語中分布廣泛,正確自動識別介詞短語在自然語言處理的應(yīng)用領(lǐng)域具有重要意義和積極影響。本文嘗試?yán)媚壳氨容^流行的條件隨機(jī)場模型,主要面向漢語專利文本,對其中的介詞短語進(jìn)行識別研究。首先在分詞和詞性標(biāo)注的基礎(chǔ)上對語料進(jìn)行序列特征標(biāo)注,然后利用條件隨機(jī)場工具包訓(xùn)練了識別介詞短語的模型,最后設(shè)計相關(guān)實(shí)驗(yàn)來驗(yàn)證方法的效果,實(shí)驗(yàn)準(zhǔn)確率達(dá)到90%以上。
關(guān)鍵詞 :介詞短語 條件隨機(jī)場 識別
一、引言
專利文獻(xiàn)在國家經(jīng)濟(jì)發(fā)展和科技交流中發(fā)揮著十分重要的作用。近年來,中國專利的申請數(shù)量漲速飛快。面向?qū)@I(lǐng)域的文本信息處理(如專利文本機(jī)器翻譯)逐漸成為自然語言處理的重要應(yīng)用領(lǐng)域之一,并引起了學(xué)術(shù)界和業(yè)界的廣泛關(guān)注。
為了滿足專利文本特定的表述需要,介詞短語作為一種重要的短語類型,在漢語專利文本中分布廣泛。據(jù)統(tǒng)計,在隨機(jī)抽取的500句漢語專利語料中,包含介詞短語的句子有226句,占到了樣本總量的45.2%。[1]可見介詞短語的出現(xiàn)比例非常高。漢語介詞短語的自動識別具有較大的難度,主要表現(xiàn)在以下幾點(diǎn):
1.介詞短語的內(nèi)部構(gòu)成相當(dāng)復(fù)雜。介詞短語可以由介詞與其他詞語和短語(動賓短語、名詞短語、方位短語、時間短語等)構(gòu)成,甚至可以由整個句子構(gòu)成。復(fù)雜的內(nèi)部結(jié)構(gòu)很容易形成遠(yuǎn)距離的搭配關(guān)系。
2.兼類介詞的存在。在一定的語境下,介詞還可以兼做名詞、量詞、形容詞、連詞和動詞等,必須結(jié)合上下文語境才能判斷具體詞性。
3.在同一個句子中經(jīng)常會出現(xiàn)多個并列的介詞短語,或者會出現(xiàn)復(fù)雜的嵌套介詞短語。
下面是一個包含介詞短語的真實(shí)專利語句示例:
(1)本發(fā)明【在條件允許的情況下】【通過[為一個宏塊中的不同區(qū)域]提供不同的預(yù)測信息】而提出了許多更加準(zhǔn)確的結(jié)果。
從例句可以明顯地看出,專利文本中的介詞短語通常具有更多的字?jǐn)?shù)和更為復(fù)雜的結(jié)構(gòu)。例句中用括號標(biāo)示出了兩個并列的介詞短語結(jié)構(gòu),其中一個的內(nèi)部還有另外一個介詞短語,屬于嵌套結(jié)構(gòu)的介詞短語。正確識別這些短語就比較困難了。
在句子S=W1,W2,W3……Wn中,假設(shè)字符串Wi,Wi+1……Wj為待識別的介詞短語,介詞短語識別的主要任務(wù)就是分別將Wi和Wj識別為該介詞短語的左右邊界。由于左邊界就是介詞本身,因此關(guān)鍵問題在于確定右邊界位置。介詞Wi通常稱為前界,右邊界Wj稱為后界,緊鄰右邊界的詞語Wj+1一般稱為后詞。
考慮到介詞短語分布的廣泛性和對專利文本處理的影響,本文嘗試?yán)脳l件隨機(jī)場模型(Conditional Random Field,即CRF),主要對大規(guī)模專利語料中位于同一分句內(nèi)部的介詞短語進(jìn)行自動識別研究,希望能做出一些有益的探索。
二、相關(guān)研究
針對漢語介詞短語識別的難點(diǎn),國內(nèi)外學(xué)者做了大量研究工作,提出了一些有效的方法,主要包括規(guī)則方法,統(tǒng)計方法和將二者相結(jié)合的混合方法。梁猛杰等(2013)通過考察介詞規(guī)則庫的處理特點(diǎn),依據(jù)規(guī)則的覆蓋程度從低到高進(jìn)行分類,重新調(diào)整了規(guī)則的前后排序方案,同時對排序的規(guī)則進(jìn)行優(yōu)選,在保證時間復(fù)雜度較低的情況下提高了介詞用法自動識別的準(zhǔn)確率[2](P152~155)。朱筠(2013)、胡韌奮(2015)等在概念層次網(wǎng)絡(luò)理論(Hierarchical Network of Concepts,HNC)[3]的指導(dǎo)下,面向漢語專利領(lǐng)域的文本,專門構(gòu)建了較大規(guī)模的漢語專利語料知識庫,在利用規(guī)則方法開展?jié)h英專利機(jī)器翻譯研究的過程中探索了介詞短語的識別方法和思想[4][5]。于俊濤(2006)釆用基于最大熵模型的方法,通過獲取有效的特征集合完成了介詞短語識別的任務(wù)。奚建清(2007)引入機(jī)器學(xué)習(xí)方法,提出了基于隱馬爾可夫模型(HMM)的漢語介詞短語邊界確定方法。首先基于HMM自動識別介詞短語,然后利用依存語法錯誤校正方法對識別結(jié)果進(jìn)行修正,取得了不錯的識別準(zhǔn)確率[7](P172~182)。胡思磊(2008)、宋貴哲(2011)、張杰(2013)利用CRF模型對介詞短語進(jìn)行識別,取得了較好的效果。于俊偉(2005)采用了規(guī)則和統(tǒng)計相結(jié)合的介詞短語識別方法,提出了利用搭配模板獲取可信搭配關(guān)系以及基于詞性的三元統(tǒng)計模型和規(guī)則相結(jié)合的方法識別介詞短語[11](P17~23)。昝紅英等(2013)在已有工作的基礎(chǔ)上,提出了一種規(guī)則與CRF模型相結(jié)合的介詞用法自動識別算法。通過將人工書寫的規(guī)則與CRF在宏觀層面和微觀層面進(jìn)行有機(jī)的結(jié)合,根據(jù)介詞的具體特點(diǎn),選擇合適的識別方法,使最終的識別準(zhǔn)確率達(dá)到了80%左右[12](P2152~2157)。
三、CRF模型介紹
作為一種基于統(tǒng)計的判別式學(xué)習(xí)模型,CRF模型最早由Lafferty等人在2001年提出。該模型來源于最大熵模型。CRF通過計算和統(tǒng)計已知元素推理計算未知元素的條件概率。與隱馬爾可夫模型不同,CRF可以利用上下文信息,而不需要嚴(yán)格的獨(dú)立性假設(shè),因此在序列標(biāo)注問題中表現(xiàn)出很好的性能。此外,CRFs還解決了最大熵馬爾可夫模型(MEMM)中的標(biāo)注偏置問題。CRFs被廣泛應(yīng)用于自然語言處理領(lǐng)域的句法分析、命名實(shí)體識、詞性標(biāo)注等方面,并取得了很好的效果。CRFs是一種以給定的輸入序列X為條件來預(yù)測輸出序列Y概率的無向圖(undirected graphical)結(jié)構(gòu)模型。(X,Y)就是一個以觀察序列為條件的隨機(jī)域。概率計算可以通過如下公式得到:
四、基于CRF的介詞短語識別
國外學(xué)者已經(jīng)開發(fā)了完整的CRF模型工具包,利用工具包可以快速地訓(xùn)練模型并得到相應(yīng)的結(jié)果。在本文中,將使用CRF++0.53版本的工具包①對中國專利信息中心提供的專利語料進(jìn)行訓(xùn)練。
(一)序列標(biāo)注
很多基于CRF模型的語塊識別任務(wù)通常可以轉(zhuǎn)化為序列標(biāo)注問題。在識別介詞短語的過程中,首先對包含介詞短語的句子進(jìn)行分詞處理,然后對每個詞語進(jìn)行標(biāo)注,確定介詞短語的邊界。我們采用{B, I, E, O}標(biāo)記集進(jìn)行標(biāo)記。其中B表示介詞短語的前界,I表示介詞短語的內(nèi)部成分,E表示介詞短語的后界,O表示不屬于介詞短語的部分。
(2)本發(fā)明通過采用有效的方法提高汽車產(chǎn)量。
對于這個例句,可以做出如下標(biāo)記:
本發(fā)明O通過B采用I有效的I方法E提高O汽車O產(chǎn)量O。O
將其反映到序列標(biāo)注問題上,則可以認(rèn)為:
輸入序列X={本發(fā)明 通過 采用 有效的 方法 提高 汽車 產(chǎn)量 。}
相應(yīng)地,輸出標(biāo)注序列Y={O B I I E O O O O }
(二)特征選擇
特征是訓(xùn)練CRF模型必需的。在CRF中,特征選擇是一個非常重要的問題,選擇合適的特征對模型訓(xùn)練和測試都將十分有益。盡管可以不加限制地定義標(biāo)記序列的特征,但不代表特征越多就越好。通過考察大規(guī)模語料中介詞短語的特點(diǎn),初步確定了以下五個特征及其屬性值:
1.詞特征。詞作為句子的基本構(gòu)成單元,是最基本的特征,模型可以通過詞之間的差異性來尋找詞本身的內(nèi)部特征。
2.詞性特征。通過分析發(fā)現(xiàn),詞性特征對邊界的識別具有很大的提示作用。因此需要標(biāo)記序列中詞語的詞性。本文采用北京大學(xué)《現(xiàn)代漢語語法信息詞典》中的詞性標(biāo)記集進(jìn)行標(biāo)記。
3.候選前界特征。從當(dāng)前詞位置開始向前查找,查找位于同一分句中的介詞。如果該介詞存在,則該特征值為介詞本身;否則特征值為“N”。
4.候選后界特征。如果認(rèn)為當(dāng)前詞語可以作為介詞短語的后界,則特征值記為“Y”,否則記為“N”。
5.候選后詞特征。后詞對介詞短語的正確識別也起到了很大的提示作用,判斷當(dāng)前詞是否是候選后詞也能減小后界的選擇范圍。如果認(rèn)為當(dāng)前詞語可以作為介詞短語的后詞,則特征值記為“Y”,否則記為“N”。
下表是例句2的標(biāo)注實(shí)例:
將以上五個特征分為五列,對分詞處理后含有介詞短語的每一句語料進(jìn)行標(biāo)注,同時在最后一列加入{B, I, E, O}標(biāo)記集,以確定介詞短語的邊界,以此形成訓(xùn)練語料和測試語料。
(三)特征模板
對于CRFs模型而言,根據(jù)選擇的特征設(shè)計出不同的特征模板,根據(jù)特征模板系統(tǒng)生成不同的特征函數(shù),會影響系統(tǒng)的性能。因此,特征模板選擇的好壞將直接影響CRFs模型的效果。所以,特征模板的選擇也是CRFs模型在介詞短語識別中的重要問題之一。
CRFs模型的特征模板一般包括原子特征模板和復(fù)合特征模板。單獨(dú)使用原子特征模板,只能表現(xiàn)出單個位置的特征信息,容易造成期望值和實(shí)際結(jié)果的偏差較大,導(dǎo)致參數(shù)的估計不準(zhǔn)確。可以對原子特征進(jìn)行組合,構(gòu)成復(fù)合特征模板,通過定義各特征的窗口來描述標(biāo)注單元和上下文之間的關(guān)系。本文將窗口大小定義為2。即分別考慮當(dāng)前詞、當(dāng)前詞前面兩個詞及后面兩個詞的五項(xiàng)特征。
當(dāng)完成了序列特征標(biāo)注任務(wù),就可以利用CRF工具包對模型進(jìn)行訓(xùn)練并識別介詞短語了。
五、實(shí)驗(yàn)及分析
(一)實(shí)驗(yàn)結(jié)果
在這一部分,設(shè)計實(shí)驗(yàn)測試CRF模型識別介詞短語的效果。從中國專利信息中心提供的專利語料中隨機(jī)選擇了1000句含有介詞短語的句子作為測試集進(jìn)行序列標(biāo)注。實(shí)驗(yàn)采用四倍交叉驗(yàn)證方法,即將測試集按照數(shù)量均分為4等份,其中的3份語料作為訓(xùn)練語料,另一份作為測試語料,共進(jìn)行四次實(shí)驗(yàn),分別計算實(shí)驗(yàn)的三個評價指標(biāo):準(zhǔn)確率(P)、召回率(R)和F1值,并將實(shí)驗(yàn)的平均值作為最終的參考結(jié)果。評價指標(biāo)計算公式如下:
其中,“N”代表每次實(shí)驗(yàn)的測試集(250句)中介詞短語的數(shù)量,“N1”代表模型識別介詞短語的數(shù)量,“N2”代表正確識別的數(shù)量。
(二)實(shí)驗(yàn)分析
從上表可以看出,實(shí)驗(yàn)的整體評價指標(biāo)都達(dá)到了90%以上,表明CRF模型對于識別介詞短語的有效性。
通過分析識別錯誤的結(jié)果,初步認(rèn)為分析錯誤的原因可能有以下幾點(diǎn):
1.有的介詞在訓(xùn)練集中出現(xiàn)次數(shù)很少或者幾乎沒有出現(xiàn),因此CRF模型無法有效學(xué)習(xí)到這些介詞的特征,當(dāng)它們出現(xiàn)在測試集中,模型就難以正確識別。
2.有些介詞短語具有歧義,模型不容易判斷短語的右邊界位置。例如:通過墨水著色劑可以有效地使染布上色。這句話中,兩個名詞“墨水”和“著色劑”挨在一起,不確定二者是否可以組成復(fù)合名詞,不容易判斷到底哪個名詞才是介詞短語真正的右邊界。
3.CRF模型對于序列的標(biāo)注特征比較敏感。在人工標(biāo)注的過程中一些難以避免的標(biāo)注失誤或錯誤也會導(dǎo)致識別錯誤的現(xiàn)象。
六、結(jié)語
本文利用條件隨機(jī)場模型嘗試對漢語專利語料中的介詞短語進(jìn)行了識別研究。在分析大規(guī)模語料的基礎(chǔ)上,選擇了合適的特征,對語料進(jìn)行序列標(biāo)注,同時利用CRF工具包訓(xùn)練了識別短語的模型,最后設(shè)計了實(shí)驗(yàn)檢驗(yàn)識別效果。實(shí)驗(yàn)整體的準(zhǔn)確率達(dá)到了90%以上,表明提出的方法對于識別介詞短語是有效的。
未來將加強(qiáng)對歧義介詞短語的研究,考察更多語料,爭取發(fā)現(xiàn)更多有效的特征,同時擴(kuò)大測試規(guī)模,希望進(jìn)一步提高識別的效果與性能。
(本文得到了“國家高技術(shù)研究發(fā)展計劃”[863課題,項(xiàng)目編號2012AA011104],中央高校基本科研業(yè)務(wù)專項(xiàng)資金以及中國博士后科學(xué)基金資助項(xiàng)目的資助,特此表示感謝!)
注釋:
①http://crfpp.googlecode.com/
參考文獻(xiàn):
[1]Li Hongzheng,Zhu Yun,Yangyang,Jin Yaohong.Reordering
Adverbial Chunks in Chinese-English Patent Machine Translation[A].Proceedings of CCIS2014.
[2]梁猛杰,宋玉,韓英杰等.基于規(guī)則排序的介詞用法自動識別研
究[J].河南師范大學(xué)學(xué)報(自然科學(xué)版),2013,41(3).
[3]黃曾陽.HNC(概念層次網(wǎng)絡(luò))理論[M].北京:清華大學(xué)出版
社,1998.
[4]朱筠.基本句群處理及其在漢英專利機(jī)器翻譯中的應(yīng)用[D].北
京:北京師范大學(xué)漢語文化學(xué)院博士學(xué)位論文,2013.
[5]胡韌奮.面向漢英專利機(jī)器翻譯的介詞短語自動識別策略[J].
語言文字應(yīng)用,2015,1.
[6]于浚濤.基于最大熵的漢語介詞短語自動識別[D].大連:大連理
工大學(xué)碩士學(xué)位論文,2006.
[7]奚建清,羅強(qiáng).基于HMM的漢語介詞短語自動識別研究[J].計算
機(jī)工程,2007,33(2).
[8]胡思磊.基于CRF模型的漢語介詞短語識別[D].大連:大連理工大
學(xué)碩士學(xué)位論文,2008.
[9]宋貴哲.漢語介詞短語識別研究[D].大連:大連理工大學(xué)碩士學(xué)
位論文,2011.
[10]張杰.基于多層CRFs的漢語介詞短語識別研究[D].大連:大連
理工大學(xué)碩士學(xué)位論文,2013.
[11]干俊偉,黃德根.漢語介詞短語的自動識別[J].中文信息學(xué)
報,2005,(4).
[12]昝紅英,張騰飛,張坤麗.規(guī)則與統(tǒng)計相結(jié)合的介詞用法自動
識別研究[J].計算機(jī)工程與設(shè)計,2013,(6).
[13]Lafferty J.,Mccallum A.,Pereira F.Conditional