在工作中,大量的接触到各种图片形式的表格(包括纯图片文件,PDF,)也应用了很多OCR软件,主要是国产的,但这些OCR都有二个显著的缺点,一、对表格的支持特别差,特别是嵌入表格的各数字,经常和表格线组成识别成一些奇怪的字符。二、识别率太低,其它我们一般只使用单元格内的数字,根本不需要识别文字,只需要对10个数字的识别率高就行了,但这些OCR只能统一孜孜不倦的按“文字”来识别,这样识别率太低了!
最近使用了 ABBYY FineReader 9.0多国语言版,觉得最显著的优点就是表格识别强,OCR识别汉字,并不比国内高,但我们大多数,只需要数字,可以设定为只有数字和标点,这样识别率大大提高,根据我的经验,600dpI一般能达到99%以上的识别率,特别是软件没把握的识别,会标注出来,这样我们整理使用就好多了。
不提供下载链接,网上搜一下,很多的!