在线国产一区二区三区,无遮挡中文毛片免费观看,91在线精品你懂的免费

本站小編為你精心準(zhǔn)備了HOG特征下的財務(wù)報表圖像識別參考范文，愿這些范文能點燃您思維的火花，激發(fā)您的寫作靈感。歡迎深入閱讀并收藏。

HOG特征下的財務(wù)報表圖像識別

摘要：在財務(wù)領(lǐng)域，紙質(zhì)報表向電子報表的轉(zhuǎn)換需要大量的人工和時間成本。本文探究了紙質(zhì)財務(wù)報表的自動識別過程，通過預(yù)處理、表頭和表格區(qū)域的分割提取、單元格分割、字符提取與識別、表格還原等過程實現(xiàn)報表圖片的轉(zhuǎn)換，在實現(xiàn)報表信息便捷存儲和查詢的同時，也克服了人工錄入的低效率、高成本等缺點。實驗結(jié)果表明，該算法能有效實現(xiàn)圖像的傾斜校正，且無需設(shè)置提示框限定拍攝范圍；能有效分割表格格式的字符，其準(zhǔn)確率為99.3%，無需手動框選待識別字符；字符識別準(zhǔn)確率為93.7%，其中數(shù)字識別的準(zhǔn)確率為97.8%，總體字符識別準(zhǔn)確率相較Tesseract提升了8.1%。

關(guān)鍵詞：紙質(zhì)財務(wù)報表；單元格分割；字符分割；訓(xùn)練樣本制作；字符識別

報表以其直觀的數(shù)據(jù)顯示作用在財務(wù)領(lǐng)域有著廣泛的運用，然而大量的紙質(zhì)文檔不僅不便存放，而且報表信息會隨著時間推移變得難以確認(rèn)。為此，本文研究了一種光學(xué)字符識別方法，掃描紙質(zhì)財務(wù)報表，然后通過字符識別算法將其中的數(shù)字和漢字轉(zhuǎn)換成計算機文字以便分析和使用。目前市場上成功的光學(xué)字符識別（OpticalCharacterRecognition，OCR）軟件有：漢王科技[1]、清華文通TH-OCR、賽酷文檔秘書、丹青、蒙恬、FineReader[2]和Google的開源OCR項目Tesseract等，這些OCR軟件有著很高的識別率，并廣泛應(yīng)用于身份證識別[3]、銀行卡識別、名片識別、文檔識別、報刊雜志數(shù)字化應(yīng)用等。但在財務(wù)報表識別中，這些OCR軟件會受表格線、傾斜角度、背景環(huán)境、光線條件等因素的影響，無法準(zhǔn)確地對單元格進(jìn)行分割或需要手動框選待識別字符，且一些OCR軟件需要注冊或付費，給使用造成不便。針對這些問題，本文設(shè)計研究了一套智能化程度高、適應(yīng)性強、成本低的財務(wù)報表識別算法，采集圖像時對報表擺放的位置和傾斜狀態(tài)可以不做過多要求，算法能適應(yīng)不同的外界環(huán)境，對于復(fù)雜的背景條件能很好地處理，有較強的適應(yīng)能力。

1整體流程

本文財務(wù)報表識別流程如圖1所示。圖像預(yù)處理：主要包括圖像灰度化、二值化、傾斜校正等過程，是圖像信息和字符提取的前提，直接影響后續(xù)處理的效果。表頭和表格區(qū)域的分割提取：表頭定義報表類型，表格區(qū)域定義報表內(nèi)容，將含表格線的表格區(qū)域與不含表格線的表頭區(qū)域分割開進(jìn)行單獨處理。單元格分割：根據(jù)表格區(qū)域特點，定位水平、垂直線，利用線段相交特性，提取出單元格區(qū)域。字符提取與識別：采用一維投影的方式，根據(jù)像素分布情況對字符進(jìn)行分割。選取財務(wù)報表常用字作為訓(xùn)練樣本，然后提取樣本方向梯度直方圖（HistogramofOrientedGradient，hog）特征，利用支持向量機（SupportVectorMachine，SVM）分類器，對數(shù)字和漢字進(jìn)行識別。表格還原：將識別結(jié)果存儲為excel，以便查詢和使用。

2報表處理與識別過程

2.1圖像預(yù)處理

圖像預(yù)處理[4]是在識別前所做的前期處理，其目的在于抑制無關(guān)信息、突出重要信息。本文所用的圖片為相機拍攝的財務(wù)報表圖片，其光線復(fù)雜且存在不同程度的傾斜，需要通過預(yù)處理來改善圖像數(shù)據(jù)。其過程包括圖像灰度化、二值化、傾斜校正。圖像灰度化可以在保證圖像信息完整性的前提下降低圖像處理的數(shù)據(jù)量，提高識別速度，二值化[5]可以減少干擾信息，提高識別精度，圖像自適應(yīng)閾值二值化效果如圖2（b）所示。在圖像采集的過程中，紙質(zhì)報表擺放的位置、拍攝的角度等因素可能會造成圖片的傾斜，這些傾斜會對后續(xù)的分割和識別工作造成干擾，所以需要進(jìn)行傾斜校正。財務(wù)報表的表格區(qū)域有明顯的表格線，利用多邊形逼近[6]的方式得到表格區(qū)域的4個頂點（如圖3（a）中圓圈所示）。通過透視變換[7]對圖像進(jìn)行傾斜校正，其原理為：

2.2表頭和表格區(qū)域的分割提取

對報表中的字符進(jìn)行提取和識別時需要去除表格線的影響。整張財務(wù)報表可以大致分為含表格線區(qū)域和不含表格線區(qū)域，本文通過定位表格線來實現(xiàn)單元格的定位，在這之前需要對表格區(qū)域和表頭區(qū)域進(jìn)行分割。報表圖片中面積最大輪廓的外接矩形為表格區(qū)域，根據(jù)輪廓位置提取感興趣區(qū)域（RegionOfInterest，ROI）即可獲得。表頭區(qū)域不含表格線，以表格區(qū)域的位置信息作為參考，根據(jù)表格區(qū)域外接矩形的頂點坐標(biāo)和矩形的width可以計算出表頭區(qū)域四個頂點的位置，提取感興趣區(qū)域即可獲得表頭區(qū)域。

2.3單元格分割

2.3.1表格線提取結(jié)合自定義核，運用形態(tài)學(xué)算子，通過選擇核的大小和形狀，構(gòu)造一個對輸入圖像的特定形狀敏感的形態(tài)學(xué)運算得到表格的水平線和豎直線[8]，將表格水平線和豎直線合并得到如圖4所示的整體的表格線。

2.3.2單元格提取在表格區(qū)域中，利用線段相交特性，水平、垂直表格線相互相交，構(gòu)成閉合區(qū)域，即尋找的單元格區(qū)域，記錄其位置信息，提取如圖5（b）所示的單元格。

2.4字符提取與識別

2.4.1字符提取財務(wù)報表的字符信息由漢字和數(shù)字組成，考慮到漢字中存在分隔較開的上下結(jié)構(gòu)和左右結(jié)構(gòu)，不能通過找連通域或直接對二值圖進(jìn)行一維投影的方式分割字符。例如“二、公、利”等漢字，上述方式分割后得到只是字符的一部分，從而影響識別結(jié)果。本文先對單元格二值圖進(jìn)行膨脹和腐蝕操作，然后再利用一維投影的方式對字符進(jìn)行分割。在實際運行過程中，按上述操作分割后可能會出現(xiàn)相鄰字符相互牽連的情況（如圖6（d）所示），因此對分割后的輪廓需判斷其外接矩形長寬比，根據(jù)實際情況，設(shè)定基準(zhǔn)值為1.5，對于長寬比超過該值的輪廓進(jìn)行二次分割。一幅N×M的二值圖可用矩陣表示為：

2.4.2字符識別字符識別主要有模板匹配法和人工神經(jīng)網(wǎng)絡(luò)[9]。前者因特征維數(shù)過大會導(dǎo)致識別速度慢，后者需考慮網(wǎng)格輸入數(shù)據(jù)選擇和網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計問題[10]。圖像特征[11]有矩特征、顏色特征、邊緣輪廓特征、方向梯度直方圖等，其中HOG特征具有幾何和光學(xué)轉(zhuǎn)化不變性[12]，所以本文通過HOG+SVM的方式對字符進(jìn)行識別，識別過程為：選取財務(wù)報表常用字作為字符模板，制作訓(xùn)練樣本集，提取訓(xùn)練樣本集的HOG特征，每個特征向量標(biāo)有指定其類別的標(biāo)簽，將特征向量輸入SVM進(jìn)行訓(xùn)練，得到SVM模型，然后將待識別字符歸一化后提取方向梯度直方圖特征，加載訓(xùn)練模型進(jìn)行預(yù)測，得到識別結(jié)果。識別過程如圖7所示。財務(wù)報表包含：利潤表、現(xiàn)金流量表、資產(chǎn)負(fù)債表3種類型。選取財務(wù)報表常用字323字（宋體）作為字符模板，將其歸一化到20*40的字符模板，并對單個的模板進(jìn)行角度為-5°~5°、縮放系數(shù)為0.5~1的仿射變換，每一個字符模板有66張訓(xùn)練樣本。此外，為數(shù)字0~9制作了相鄰數(shù)字樣本集100張，整個訓(xùn)練集共22318張樣本。仿射變換原理[13]可表示為：根據(jù)實際運行情況，設(shè)置HOG特征[14]的窗口大小:20×40像素、塊大小:4×4像素、塊滑動增量:4×4像素、胞元大小:4×4像素、一個胞元中統(tǒng)計梯度的方向數(shù)目:9，HOG特征的維數(shù)為450維，按照字符識別流程分別對不同背景環(huán)境和傾斜角度下三種類型的財務(wù)報表（宋體）進(jìn)行識別。

2.5表格還原

將識別結(jié)果根據(jù)單元格的位置對應(yīng)還原成如圖8所示的excel表格，存儲在計算機中，方便以后的查詢和使用。

3測試結(jié)果與分析

在實際運用中，由于三種類型的財務(wù)報表都有相對固定的格式，有經(jīng)驗的財務(wù)人員會很熟悉其中的漢字部分，所以數(shù)字識別是本文主要研究的內(nèi)容，通過統(tǒng)計105張如圖9所示的不同版式、不同傾斜角度、不同光線和背景環(huán)境下的財務(wù)報表，字符（宋體）識別率為93.7%，其中對數(shù)字的識別率達(dá)到97.8%。資產(chǎn)負(fù)債表由于版式為縱向，且字符較多，識別準(zhǔn)確率較其他兩種表有所降低。由于財務(wù)報表識別主要是對數(shù)字的識別，所以通常的語義矯正在此處的作用并不明顯，在實際運用中，字符識別的結(jié)果可以通過人工核對的方式進(jìn)行校正，由此可以大大降低手動錄入造成的人員時間和精力的消耗。為對比實驗結(jié)果，利用Google開源的tesseract-ocr[15]進(jìn)行測試，由于表格格式、背景環(huán)境、傾斜角度等因素的限制，tesseract-ocr在對表格進(jìn)行版面分析時存在諸多問題，此處將利用本文算法分割好的單個字符結(jié)合tesseract-ocr自帶的字符庫進(jìn)行識別，識別結(jié)果對比如表1所示。從表1可以看出，本算法對于帶表格格式的字符能較好地分割和識別。在利用tesseract-ocr識別時，輸入圖片可以是整張報表圖片、整個單元格或單個字符，表格線和傾斜角度等因素對于tesseract的字符分割造成了很大影響，所以在識別前需要自行分割。tesseract-ocr也可以自己訓(xùn)練字符庫，但生成的字典很多識別出來的是空字符，因為tesseract庫可能會將單個字符識別成多個部分或?qū)⒍鄠€部分識別成一個字符，此時需要手動點擊Merge、Split[16-18]等操作，校正過程十分繁瑣，給實際操作帶來不便。

4結(jié)束語

本文對財務(wù)報表的識別進(jìn)行了研究，通過預(yù)處理、表頭和表格區(qū)域的分割提取、單元格分割、字符提取與識別、表格還原等處理步驟，實現(xiàn)了紙質(zhì)財務(wù)報表的預(yù)處理、分割、識別和還原，對傾斜校正、字符分割等算法的實現(xiàn)進(jìn)行了特殊情況的處理，以適應(yīng)多種復(fù)雜的環(huán)境條件，是一套可靠、穩(wěn)定的財務(wù)報表識別算法。該方法也可以擴展運用于銀行卡識別、名片識別、文檔識別等，有較好的可擴展性。今后會對除宋體外的其他字體進(jìn)行樣本集的訓(xùn)練，以適應(yīng)多種字體的財務(wù)報表識別需求。

作者：鄧小寧孫琳陳念年張玉浦單位：西南科技大學(xué)

HOG特征下的財務(wù)報表圖像識別范文