CHARACTER RECOGNITION文字識(shí)別技術(shù)(OCR)
印刷體字符識(shí)別
A、基礎(chǔ)功能模塊
1.輸入圖像格式 可識(shí)別彩色(24BITS)、灰度(256階)和黑白二值圖像。支持TIFF、BMP、JPG、PDF等格式的圖像文件。
2.輸入版面格式 能自動(dòng)分析出橫排文本、豎排文本、表格和圖像等區(qū)域,并對(duì)文本和表格區(qū)域的文字進(jìn)行識(shí)別。
3.輸入字體格式 可識(shí)別中文簡(jiǎn)體、臺(tái)灣繁體、香港繁體、英文及中英混排、簡(jiǎn)繁混排等印刷文本。
4.輸入字體 可識(shí)別宋、仿宋、楷、黑、魏碑、隸書、行楷、幼圓等一百多種中文字體,識(shí)別字號(hào)介于“小六號(hào)”和“初號(hào)”。
5.輸出文本字符集 可輸出GB、GBK、BIG5、unicode碼結(jié)果文本。
6.標(biāo)準(zhǔn)印刷體漢字識(shí)別率:可達(dá)到99.7%。
7.印刷體數(shù)字識(shí)別 具有4個(gè)獨(dú)立的識(shí)別引擎,識(shí)別率可達(dá)到99.9%。
8.輸出識(shí)別結(jié)果 可輸出TXT、XLS、RTF、PDF、HTML等格式文本文件,RTF、PDF、Html格式支持版面還原。
9.開發(fā)環(huán)境 提供VC開發(fā)的DLL動(dòng)態(tài)庫(kù),支持C++、VC、VB、JAVA、.Net、Delphi等語(yǔ)言。
10.支持系統(tǒng)平臺(tái) 支持Windows平臺(tái)、Linux平臺(tái)。
11.表格識(shí)別: 自動(dòng)判斷、識(shí)別各種通用型印刷體表格。電子表格還原準(zhǔn)確精美,輸出的電子表格可隨意編輯。
12.可以準(zhǔn)確識(shí)別公文的題頭、正文、印章等區(qū)域,并將識(shí)別結(jié)果按原版面精確還原。
13.識(shí)別速度:印刷文稿識(shí)別速度達(dá)1000字/秒。
B、增強(qiáng)功能模塊
1.多國(guó)文字識(shí)別:支持日、韓、法、意、德、西班牙、瑞典、葡萄牙、丹麥、荷蘭、挪威等國(guó)文字的識(shí)別,標(biāo)準(zhǔn)印刷體字符識(shí)別率達(dá)到96%以上。
2.手寫體數(shù)字識(shí)別: 具有3個(gè)獨(dú)立的識(shí)別引擎,識(shí)別率達(dá)99%以上。
3.支持有規(guī)律的復(fù)雜表單、票據(jù)的識(shí)別。