美章網(wǎng) 資料文庫 HOG特征下的財務(wù)報表圖像識別范文

HOG特征下的財務(wù)報表圖像識別范文

本站小編為你精心準(zhǔn)備了HOG特征下的財務(wù)報表圖像識別參考范文,愿這些范文能點燃您思維的火花,激發(fā)您的寫作靈感。歡迎深入閱讀并收藏。

HOG特征下的財務(wù)報表圖像識別

摘要:在財務(wù)領(lǐng)域,紙質(zhì)報表向電子報表的轉(zhuǎn)換需要大量的人工和時間成本。本文探究了紙質(zhì)財務(wù)報表的自動識別過程,通過預(yù)處理、表頭和表格區(qū)域的分割提取、單元格分割、字符提取與識別、表格還原等過程實現(xiàn)報表圖片的轉(zhuǎn)換,在實現(xiàn)報表信息便捷存儲和查詢的同時,也克服了人工錄入的低效率、高成本等缺點。實驗結(jié)果表明,該算法能有效實現(xiàn)圖像的傾斜校正,且無需設(shè)置提示框限定拍攝范圍;能有效分割表格格式的字符,其準(zhǔn)確率為99.3%,無需手動框選待識別字符;字符識別準(zhǔn)確率為93.7%,其中數(shù)字識別的準(zhǔn)確率為97.8%,總體字符識別準(zhǔn)確率相較Tesseract提升了8.1%。

關(guān)鍵詞:紙質(zhì)財務(wù)報表;單元格分割;字符分割;訓(xùn)練樣本制作;字符識別

報表以其直觀的數(shù)據(jù)顯示作用在財務(wù)領(lǐng)域有著廣泛的運用,然而大量的紙質(zhì)文檔不僅不便存放,而且報表信息會隨著時間推移變得難以確認(rèn)。為此,本文研究了一種光學(xué)字符識別方法,掃描紙質(zhì)財務(wù)報表,然后通過字符識別算法將其中的數(shù)字和漢字轉(zhuǎn)換成計算機文字以便分析和使用。目前市場上成功的光學(xué)字符識別(OpticalCharacterRecognition,OCR)軟件有:漢王科技[1]、清華文通TH-OCR、賽酷文檔秘書、丹青、蒙恬、FineReader[2]和Google的開源OCR項目Tesseract等,這些OCR軟件有著很高的識別率,并廣泛應(yīng)用于身份證識別[3]、銀行卡識別、名片識別、文檔識別、報刊雜志數(shù)字化應(yīng)用等。但在財務(wù)報表識別中,這些OCR軟件會受表格線、傾斜角度、背景環(huán)境、光線條件等因素的影響,無法準(zhǔn)確地對單元格進(jìn)行分割或需要手動框選待識別字符,且一些OCR軟件需要注冊或付費,給使用造成不便。針對這些問題,本文設(shè)計研究了一套智能化程度高、適應(yīng)性強、成本低的財務(wù)報表識別算法,采集圖像時對報表擺放的位置和傾斜狀態(tài)可以不做過多要求,算法能適應(yīng)不同的外界環(huán)境,對于復(fù)雜的背景條件能很好地處理,有較強的適應(yīng)能力。

1整體流程

本文財務(wù)報表識別流程如圖1所示。圖像預(yù)處理:主要包括圖像灰度化、二值化、傾斜校正等過程,是圖像信息和字符提取的前提,直接影響后續(xù)處理的效果。表頭和表格區(qū)域的分割提取:表頭定義報表類型,表格區(qū)域定義報表內(nèi)容,將含表格線的表格區(qū)域與不含表格線的表頭區(qū)域分割開進(jìn)行單獨處理。單元格分割:根據(jù)表格區(qū)域特點,定位水平、垂直線,利用線段相交特性,提取出單元格區(qū)域。字符提取與識別:采用一維投影的方式,根據(jù)像素分布情況對字符進(jìn)行分割。選取財務(wù)報表常用字作為訓(xùn)練樣本,然后提取樣本方向梯度直方圖(HistogramofOrientedGradient,hog特征,利用支持向量機(SupportVectorMachine,SVM)分類器,對數(shù)字和漢字進(jìn)行識別。表格還原:將識別結(jié)果存儲為excel,以便查詢和使用。

2報表處理與識別過程

2.1圖像預(yù)處理

圖像預(yù)處理[4]是在識別前所做的前期處理,其目的在于抑制無關(guān)信息、突出重要信息。本文所用的圖片為相機拍攝的財務(wù)報表圖片,其光線復(fù)雜且存在不同程度的傾斜,需要通過預(yù)處理來改善圖像數(shù)據(jù)。其過程包括圖像灰度化、二值化、傾斜校正。圖像灰度化可以在保證圖像信息完整性的前提下降低圖像處理的數(shù)據(jù)量,提高識別速度,二值化[5]可以減少干擾信息,提高識別精度,圖像自適應(yīng)閾值二值化效果如圖2(b)所示。在圖像采集的過程中,紙質(zhì)報表擺放的位置、拍攝的角度等因素可能會造成圖片的傾斜,這些傾斜會對后續(xù)的分割和識別工作造成干擾,所以需要進(jìn)行傾斜校正。財務(wù)報表的表格區(qū)域有明顯的表格線,利用多邊形逼近[6]的方式得到表格區(qū)域的4個頂點(如圖3(a)中圓圈所示)。通過透視變換[7]對圖像進(jìn)行傾斜校正,其原理為:

2.2表頭和表格區(qū)域的分割提取

對報表中的字符進(jìn)行提取和識別時需要去除表格線的影響。整張財務(wù)報表可以大致分為含表格線區(qū)域和不含表格線區(qū)域,本文通過定位表格線來實現(xiàn)單元格的定位,在這之前需要對表格區(qū)域和表頭區(qū)域進(jìn)行分割。報表圖片中面積最大輪廓的外接矩形為表格區(qū)域,根據(jù)輪廓位置提取感興趣區(qū)域(RegionOfInterest,ROI)即可獲得。表頭區(qū)域不含表格線,以表格區(qū)域的位置信息作為參考,根據(jù)表格區(qū)域外接矩形的頂點坐標(biāo)和矩形的width可以計算出表頭區(qū)域四個頂點的位置,提取感興趣區(qū)域即可獲得表頭區(qū)域。

2.3單元格分割

2.3.1表格線提取結(jié)合自定義核,運用形態(tài)學(xué)算子,通過選擇核的大小和形狀,構(gòu)造一個對輸入圖像的特定形狀敏感的形態(tài)學(xué)運算得到表格的水平線和豎直線[8],將表格水平線和豎直線合并得到如圖4所示的整體的表格線。

2.3.2單元格提取在表格區(qū)域中,利用線段相交特性,水平、垂直表格線相互相交,構(gòu)成閉合區(qū)域,即尋找的單元格區(qū)域,記錄其位置信息,提取如圖5(b)所示的單元格。

2.4字符提取與識別

2.4.1字符提取財務(wù)報表的字符信息由漢字和數(shù)字組成,考慮到漢字中存在分隔較開的上下結(jié)構(gòu)和左右結(jié)構(gòu),不能通過找連通域或直接對二值圖進(jìn)行一維投影的方式分割字符。例如“二、公、利”等漢字,上述方式分割后得到只是字符的一部分,從而影響識別結(jié)果。本文先對單元格二值圖進(jìn)行膨脹和腐蝕操作,然后再利用一維投影的方式對字符進(jìn)行分割。在實際運行過程中,按上述操作分割后可能會出現(xiàn)相鄰字符相互牽連的情況(如圖6(d)所示),因此對分割后的輪廓需判斷其外接矩形長寬比,根據(jù)實際情況,設(shè)定基準(zhǔn)值為1.5,對于長寬比超過該值的輪廓進(jìn)行二次分割。一幅N×M的二值圖可用矩陣表示為:

2.4.2字符識別字符識別主要有模板匹配法和人工神經(jīng)網(wǎng)絡(luò)[9]。前者因特征維數(shù)過大會導(dǎo)致識別速度慢,后者需考慮網(wǎng)格輸入數(shù)據(jù)選擇和網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計問題[10]。圖像特征[11]有矩特征、顏色特征、邊緣輪廓特征、方向梯度直方圖等,其中HOG特征具有幾何和光學(xué)轉(zhuǎn)化不變性[12],所以本文通過HOG+SVM的方式對字符進(jìn)行識別,識別過程為:選取財務(wù)報表常用字作為字符模板,制作訓(xùn)練樣本集,提取訓(xùn)練樣本集的HOG特征,每個特征向量標(biāo)有指定其類別的標(biāo)簽,將特征向量輸入SVM進(jìn)行訓(xùn)練,得到SVM模型,然后將待識別字符歸一化后提取方向梯度直方圖特征,加載訓(xùn)練模型進(jìn)行預(yù)測,得到識別結(jié)果。識別過程如圖7所示。財務(wù)報表包含:利潤表、現(xiàn)金流量表、資產(chǎn)負(fù)債表3種類型。選取財務(wù)報表常用字323字(宋體)作為字符模板,將其歸一化到20*40的字符模板,并對單個的模板進(jìn)行角度為-5°~5°、縮放系數(shù)為0.5~1的仿射變換,每一個字符模板有66張訓(xùn)練樣本。此外,為數(shù)字0~9制作了相鄰數(shù)字樣本集100張,整個訓(xùn)練集共22318張樣本。仿射變換原理[13]可表示為:根據(jù)實際運行情況,設(shè)置HOG特征[14]的窗口大小:20×40像素、塊大小:4×4像素、塊滑動增量:4×4像素、胞元大小:4×4像素、一個胞元中統(tǒng)計梯度的方向數(shù)目:9,HOG特征的維數(shù)為450維,按照字符識別流程分別對不同背景環(huán)境和傾斜角度下三種類型的財務(wù)報表(宋體)進(jìn)行識別。

2.5表格還原

將識別結(jié)果根據(jù)單元格的位置對應(yīng)還原成如圖8所示的excel表格,存儲在計算機中,方便以后的查詢和使用。

3測試結(jié)果與分析

在實際運用中,由于三種類型的財務(wù)報表都有相對固定的格式,有經(jīng)驗的財務(wù)人員會很熟悉其中的漢字部分,所以數(shù)字識別是本文主要研究的內(nèi)容,通過統(tǒng)計105張如圖9所示的不同版式、不同傾斜角度、不同光線和背景環(huán)境下的財務(wù)報表,字符(宋體)識別率為93.7%,其中對數(shù)字的識別率達(dá)到97.8%。資產(chǎn)負(fù)債表由于版式為縱向,且字符較多,識別準(zhǔn)確率較其他兩種表有所降低。由于財務(wù)報表識別主要是對數(shù)字的識別,所以通常的語義矯正在此處的作用并不明顯,在實際運用中,字符識別的結(jié)果可以通過人工核對的方式進(jìn)行校正,由此可以大大降低手動錄入造成的人員時間和精力的消耗。為對比實驗結(jié)果,利用Google開源的tesseract-ocr[15]進(jìn)行測試,由于表格格式、背景環(huán)境、傾斜角度等因素的限制,tesseract-ocr在對表格進(jìn)行版面分析時存在諸多問題,此處將利用本文算法分割好的單個字符結(jié)合tesseract-ocr自帶的字符庫進(jìn)行識別,識別結(jié)果對比如表1所示。從表1可以看出,本算法對于帶表格格式的字符能較好地分割和識別。在利用tesseract-ocr識別時,輸入圖片可以是整張報表圖片、整個單元格或單個字符,表格線和傾斜角度等因素對于tesseract的字符分割造成了很大影響,所以在識別前需要自行分割。tesseract-ocr也可以自己訓(xùn)練字符庫,但生成的字典很多識別出來的是空字符,因為tesseract庫可能會將單個字符識別成多個部分或?qū)⒍鄠€部分識別成一個字符,此時需要手動點擊Merge、Split[16-18]等操作,校正過程十分繁瑣,給實際操作帶來不便。

4結(jié)束語

本文對財務(wù)報表的識別進(jìn)行了研究,通過預(yù)處理、表頭和表格區(qū)域的分割提取、單元格分割、字符提取與識別、表格還原等處理步驟,實現(xiàn)了紙質(zhì)財務(wù)報表的預(yù)處理、分割、識別和還原,對傾斜校正、字符分割等算法的實現(xiàn)進(jìn)行了特殊情況的處理,以適應(yīng)多種復(fù)雜的環(huán)境條件,是一套可靠、穩(wěn)定的財務(wù)報表識別算法。該方法也可以擴展運用于銀行卡識別、名片識別、文檔識別等,有較好的可擴展性。今后會對除宋體外的其他字體進(jìn)行樣本集的訓(xùn)練,以適應(yīng)多種字體的財務(wù)報表識別需求。

作者:鄧小寧 孫琳 陳念年 張玉浦 單位:西南科技大學(xué)

主站蜘蛛池模板: 老师让我她我爽了好久动漫| chinese猛攻打桩机体育生| 欧美亚洲一区二区三区| 偷拍激情视频一区二区三区| 色综合合久久天天给综看| 国产男女插插一级| 91福利小视频| 女人张开腿无遮无挡图| 中文字幕亚洲综合久久菠萝蜜| 日韩精品一区二区三区中文| 亚洲国产欧美日韩精品一区二区三区| 狠狠色噜噜狠狠狠888米奇视频| 又黄又爽视频好爽视频| 韩国福利影视一区二区三区| 国产精华av午夜在线观看| 91在线一区二区| 大屁股熟女一区二区三区| 一级特黄色毛片免费看| 打开腿给医生检查黄文| 久久国产乱子伦精品免费强| 最近免费中文字幕大全| 亚洲另类第一页| 欧美色成人综合| 亚洲综合激情视频| 理论片高清免费理论片| 免费高清av一区二区三区| 美国经典三级版在线播放| 国产一区二区三区国产精品| 韩国理论福利片午夜| 国产成人无码a区在线观看视频免费| 怡红院免费的全部视频| 国产精品视频你懂的| 99久久精品免费看国产| 天天干天天色天天| www.色五月| 好大好湿好硬顶到了好爽视频| 三上悠亚日韩精品| 成年女人a毛片免费视频| 中文字幕网在线| 无码精品A∨在线观看十八禁 | 亚洲av无码成人网站在线观看|