時間:2010-01-27 11:17:45來源:ronggang
一.概述
當(dāng)今在發(fā)票,車票及門票上的數(shù)字均由噴碼產(chǎn)生,由于受噴碼時墨量和光照的影響,能產(chǎn)生多種變形,給我們的識別造成了很多難點(diǎn).
二 單臺印刷機(jī)OCR識別系統(tǒng)描述
1.硬件系統(tǒng)
2.原理描述
A.切割和歸一化
先對圖像的文字部分進(jìn)行橫向和縱向切割,我們采用的是投影的方法,然后再對切割出來的部分,進(jìn)行大小歸一化,歸一化的方法主要兩種,一種是普通的大小縮放,我們采用的是另外的一種方法.我們先求出文字的質(zhì)心.
B.特征的提取
我們分別提取了待識別字體的網(wǎng)格特征,水平和垂直方向的投影特征,以及字體的邊緣特征,但是對于光照的差別比較大的情況,這些方法受到的影響是非常大的,因為在光照偏弱的情況下,象素點(diǎn)的個數(shù)明顯減少,以及造成字體邊緣的缺損。對于零這個字體。
為了避免由此帶來的識別錯誤我們對先切出來的字體進(jìn)行象素點(diǎn)比率的統(tǒng)計,假如當(dāng)它小于一個特定的門限值得時候,對它實施開運(yùn)算,大于門限值得時候進(jìn)行閉運(yùn)算。(c)為(a)圖進(jìn)行膨脹后的結(jié)果,(d)為(b)細(xì)化后的結(jié)果.對于所提取的特征值我們通過正規(guī)化相交的公式求得最后的分類器.
其中 為由字體算得特征相量, 是待識別字體算得相量。
然后根據(jù)這三個分類器通過簡單投票法形成多分類器進(jìn)行判別,即有兩個或兩個以上形成決策A,認(rèn)為A是合法的。若每個分類器形成的決策是不多的,我們就選定公式3中算的最大值作為分類器決策。假設(shè)三種特征的識別正確率分別為p1,p2,p3.那么我們的方法在理論上能達(dá)到的正確識別率為
3、軟件流程示意圖
4、系統(tǒng)測試結(jié)果
運(yùn)用上述的方法,在實際應(yīng)用中對包括車票,發(fā)票等噴碼印刷的票據(jù)進(jìn)行識別,我們的算法能夠給出正確的結(jié)果,2008年已經(jīng)有客戶將這一套系統(tǒng)應(yīng)用于他們的票據(jù)識別機(jī)器上,到目前為止穩(wěn)定性及可靠性等得到實際的認(rèn)可。
三 結(jié)論
實際應(yīng)用時,對我們的算法進(jìn)行了一系列的測試和統(tǒng)計,發(fā)現(xiàn)正確的識別率一般在99.9%以上,但是現(xiàn)在最大的問題是由于噴碼文字邊緣的不規(guī)則性,這就造成了Q,0,O,D之間有著極大的相似性。對于這類相似文字,我們對識別結(jié)果又加了一些局部特征量的判斷比如說內(nèi)沿特征,來進(jìn)一步提高識別率。
標(biāo)簽:
上一篇:變頻器原理以及基本知識
中國傳動網(wǎng)版權(quán)與免責(zé)聲明:凡本網(wǎng)注明[來源:中國傳動網(wǎng)]的所有文字、圖片、音視和視頻文件,版權(quán)均為中國傳動網(wǎng)(m.u63ivq3.com)獨(dú)家所有。如需轉(zhuǎn)載請與0755-82949061聯(lián)系。任何媒體、網(wǎng)站或個人轉(zhuǎn)載使用時須注明來源“中國傳動網(wǎng)”,違反者本網(wǎng)將追究其法律責(zé)任。
本網(wǎng)轉(zhuǎn)載并注明其他來源的稿件,均來自互聯(lián)網(wǎng)或業(yè)內(nèi)投稿人士,版權(quán)屬于原版權(quán)人。轉(zhuǎn)載請保留稿件來源及作者,禁止擅自篡改,違者自負(fù)版權(quán)法律責(zé)任。