美章網(wǎng) 資料文庫 企業(yè)電子檔案分類法研究范文

企業(yè)電子檔案分類法研究范文

本站小編為你精心準(zhǔn)備了企業(yè)電子檔案分類法研究參考范文,愿這些范文能點(diǎn)燃您思維的火花,激發(fā)您的寫作靈感。歡迎深入閱讀并收藏。

企業(yè)電子檔案分類法研究

摘要:通過將文檔詞語轉(zhuǎn)化為詞向量表達(dá)式,再經(jīng)過卷積、池化等操作來抽取文檔分類特征。最后以企業(yè)簡歷電子檔案庫為原料進(jìn)行對比驗證。驗證結(jié)果表明,利用CNN卷積神經(jīng)網(wǎng)絡(luò)對電子文檔分類的準(zhǔn)確率達(dá)到94.61%,優(yōu)于FastText等分類方法。

關(guān)鍵詞:CNN卷積神經(jīng)網(wǎng)絡(luò);企業(yè)電子檔案;分類

隨著大數(shù)據(jù)、云計算等現(xiàn)代信息技術(shù)的發(fā)展,傳統(tǒng)的紙質(zhì)檔案快速向電子化、數(shù)字化檔案進(jìn)行轉(zhuǎn)變,檔案管理模式出現(xiàn)了深刻的變化。檔案管理的分類、檢索等基本方法也隨之產(chǎn)生了變化。本文參考Kim提出的神經(jīng)網(wǎng)絡(luò)模型,自動提取檔案文本的特征集合,使用Word2vec進(jìn)行詞向量訓(xùn)練,旨在進(jìn)一步提高電子檔案的分類準(zhǔn)確率。

一、CNN卷積神經(jīng)網(wǎng)絡(luò)

(一)神經(jīng)網(wǎng)絡(luò)神經(jīng)網(wǎng)絡(luò)是一些具有適應(yīng)性的神經(jīng)元組成的集合。神經(jīng)元是神經(jīng)網(wǎng)絡(luò)的最小組成單位,是一種二元線性分類器感知機(jī)制。

(二)詞向量詞向量也叫詞嵌入,是通過神經(jīng)網(wǎng)絡(luò)來訓(xùn)練語言模型,在訓(xùn)練過程中生成一組向量,這組向量將每個詞表示為n維向量,可理解為文本的數(shù)學(xué)化表示。一種最簡單的詞向量方式是One-HotRepresentation,就是用與詞典等長的向量來表示一個詞,該詞所在詞典的索引對應(yīng)分量1,其余分量全為0,例如“工程師”表示為[0001000...]。One-Hot方式非常簡潔,僅需為每個詞分配一個數(shù)字編號即可,但該方式容易出現(xiàn)維度災(zāi)難,不能較好地刻畫各詞語之間的相似性。另一種是Hinton在1986年提出的DistributedRepre-sentation向量方式,很好地克服了One-Hot方式的缺點(diǎn)。該方式通過語言模型的訓(xùn)練,用固定長度的短向量來表示詞語;將所有的詞向量放在一起,形成向量空間。在該空間上不同詞語之間的距離,就是該詞語法、語義之間的相似性。而Word2vecs是谷歌Tomas-Mikolvd團(tuán)隊研發(fā)的一款開源的詞向量產(chǎn)生工具,本文即利用Word2vecs來訓(xùn)練職員電子檔案的語言模型,獲取相應(yīng)的詞向量集合。

(三)卷積神經(jīng)網(wǎng)絡(luò)CNN卷積神經(jīng)網(wǎng)絡(luò)是深度學(xué)習(xí)技術(shù)中極具代表的網(wǎng)絡(luò)結(jié)構(gòu)之一,在圖像處理領(lǐng)域取得了很大的成功。在國際標(biāo)準(zhǔn)的ImageNet數(shù)據(jù)集上,許多成功的模型都是基于CNN的。近年來,該技術(shù)在自然語言處理、語音識別等方面均有突破性應(yīng)用。下文基于CNN卷積神經(jīng)對職員檔案進(jìn)行分類搜索,即是基于CNN在自然語言處理中的應(yīng)用。不同于普通網(wǎng)絡(luò)神經(jīng)算法,CNN卷積神經(jīng)網(wǎng)絡(luò)的特征抽取器由卷積層和子采樣層構(gòu)成。卷積層中存在著若干個特征平面,每個平面由一些矩形排列的神經(jīng)元組成(神經(jīng)元只與部分鄰層神經(jīng)元相連接),這些神經(jīng)元共享權(quán)值,稱為卷積核。先用隨機(jī)小數(shù)矩陣的形式對卷積核進(jìn)行初始化操作,再通過語料訓(xùn)練過程得到合理的權(quán)值。卷積核的應(yīng)用減少了神經(jīng)網(wǎng)絡(luò)各層之間的連接,降低了擬合風(fēng)險。子采樣也稱為池化層,具有最大值子采樣和均值子采樣兩種形式。子采樣的過程就是一種特殊的共享權(quán)值的過程。卷積和子采樣的引入精簡了神經(jīng)模型的參數(shù),簡化了它的復(fù)雜程度。

二、模型結(jié)構(gòu)

Kim對基于自然語言文本處理的CNN卷積神經(jīng)網(wǎng)絡(luò)作了詳細(xì)的闡述。其結(jié)構(gòu)包含輸入層、卷積層、池化層、全連接及SOFTMAX層[1]。根據(jù)CNN卷積神經(jīng)網(wǎng)絡(luò)的定義和模型結(jié)構(gòu),具體建模流程如下:

(一)數(shù)據(jù)預(yù)處理以企業(yè)人才簡歷檔案分類為例,抽取人才檔案庫中名稱為軟件工程師的檔案10000份,其中8000份作為訓(xùn)練集,2000份作為驗證集,并計算各檔案的特征矩陣。具體步驟如下:1.首先用分詞工具對訓(xùn)練集中的每個檔案T進(jìn)行分詞處理,并進(jìn)行去重、剔除無用詞語、刪除標(biāo)點(diǎn)符號、刪除空格等處理得到檔案T的詞典TD。用Word-2Vecotr對TD進(jìn)行向量初始化,并將初始化的結(jié)果合并到詞向量空間R中;2.然后將每條檔案T進(jìn)行分詞處理,得到詞序列wi(i)。將wi帶入向量空間R中,得到對應(yīng)的詞向量vi(i);3.再將T的詞向量序列vi作鏈接操作,得到檔案T的特征矩陣。4.最后將詞向量序列vi按照先后順序,從上到下排列。

(二)卷積操作卷積操作的本質(zhì)是對檔案序列進(jìn)行特征抽取的過程。

(三)池化操作檔案T的句子經(jīng)過m個卷積核進(jìn)行卷積運(yùn)算以后,生成m個R(d-h+1)x1空間的句子向量C。

三、分類器

經(jīng)過前述操作步驟,已將建立檔案T轉(zhuǎn)換為T所包含全部詞向量的特征矩陣,并通過卷積、池化操作得到T的特征向量P。

四、模型試驗

為更直觀地分析CNN神經(jīng)網(wǎng)絡(luò)與其它分類算法在電子檔案分類識別上準(zhǔn)確率和效率的差異,本文用TensorFlow編程實(shí)現(xiàn)了上述模型處理過程,進(jìn)行對比試驗。

(一)數(shù)據(jù)集從檔案庫中抽取10000份名稱為工程師的電子檔案數(shù)據(jù),隨機(jī)抽樣取8000份檔案作為訓(xùn)練樣本,其余的作為驗證測試數(shù)據(jù)。

(二)實(shí)驗效果通過對比試驗,發(fā)現(xiàn)使用機(jī)器學(xué)習(xí)的幾種算法都能實(shí)現(xiàn)對測試電子檔案的有效識別和準(zhǔn)確分類,從而大大降了用于人工搜索與閱讀判斷其所屬分類的時間成本。對比以上結(jié)果,由Facebook開發(fā)的快速文本分類器FastText提供了簡單、高效的文本分類和表征方法,但在電子檔案區(qū)分度不大的情況下,分類準(zhǔn)確率有待進(jìn)一步提高。TextGrocery則是一個基于SVM算法的短文本分類工具,內(nèi)置結(jié)巴分詞,但是從時間和準(zhǔn)確率來看,綜合效果并不十分突出。而基于卷積神經(jīng)網(wǎng)絡(luò)CNN的檔案分類算法,特征學(xué)習(xí)力能力優(yōu)異,特征對數(shù)據(jù)本質(zhì)的刻畫最為準(zhǔn)確、深刻,更有利于檔案的分類和區(qū)分;雖然耗時達(dá)1360秒,但與人工區(qū)分篩選耗時相比,該運(yùn)行時間完全可以接受。

五、總結(jié)

本文提出基于卷積神經(jīng)網(wǎng)絡(luò)CNN的電子檔案分類模型。該模型充分考慮了中文檔案文本特征稀疏、含有大量專業(yè)詞匯等特點(diǎn)。試驗表明,CNN卷積神經(jīng)網(wǎng)絡(luò)分類模型相比TextGrocery、FastText等經(jīng)典分類器準(zhǔn)確率大大提高。Word2vec訓(xùn)練模型的引入,極大地提高了在充分考慮語義特征情況下的中文單詞訓(xùn)練和向量詞典初始化的效率。在試驗過程中,還發(fā)現(xiàn)不同的卷積核數(shù)量和初始化方法對分類的結(jié)果具有一定的影響。未來的研究重點(diǎn)是如何優(yōu)化選取卷積核數(shù)量和分類的方法,更好地提高檔案分類的準(zhǔn)確率。

作者:伍薇

主站蜘蛛池模板: 国产日韩欧美亚欧在线| 我就想添50多的老女人水很多| 人妻体体内射精一区二区| 被男按摩师添的好爽在线直播| 国产精品人人做人人爽人人添| jux434被公每天侵犯的我| 无需付费看视频网站入口| 乱人伦人妻中文字幕| 欧美激情视频一区二区三区| 免费动漫人物扑克软件网站 | 日韩欧美亚洲国产精品字幕久久久 | 国产精品第1页在线播放| www.henhenai| 成人精品免费视频大全app| 久久精品国产99久久久古代| 欧美国产日本高清不卡| 亚洲精品福利你懂| 男生秘密网站入口| 午夜福利一区二区三区在线观看| 视频一区二区精品的福利| 国产成人综合精品| 香蕉免费在线视频| 国产高清www免费视频| a毛片免费全部在线播放**| 师尊要被cao坏了by谦野| 中文字幕无码av激情不卡| 日本精品一区二区在线播放| 乱亲玉米地初尝云雨| 欧美双茎同入视频在线观看| 亚洲欧美国产精品专区久久| 特级毛片在线播放| 免费国产精品视频| 精品国产午夜理论片不卡| 啦啦啦手机完整免费高清观看| 草莓视频国产在线观看| 国产国产精品人在线视| 国产欧美日韩另类一区乌克兰| 国产福利91精品一区二区三区| 100款夜间禁用b站软件下载 | 男朋友说我要冲你是什么意思| 北条麻妃在线一区二区|