扫描仪的“身影”如今己是随处可见,然而一般用户只是用它来扫描一些照片,以便放到网上进行展示;殊不知扫描仪在录入文字材料方面也是一把“好手”,通过扫描仪来快速扫描、识别文字,已经成为许多单位用户和个人用户每天必修的“功课”之一。不过在用扫描仪识别、录入文字材料的过程中,不少人往往只会用扫描仪缺省的设置参数来扫描识别文字,遗憾的是这种识别方法常常无法准确地将材料中的文字识别出来。为了有效提高办公效率,学会一些文字识别的操作技巧,从而提高文字材料的录入速度是非常有必要的。现在,笔者就将自己在扫描识别文字过程中总结出来的一些经验贡献出来,与各位朋友分享一下!
从识别软件挖掘
也许有人说,识别软件不是内置在扫描仪驱动程序中,这有什么好挖掘的?其实不然,不同的OCR扫描识别软件在文字识别的能力以及功能方面是不完全相同的,而挑选一款操作方便、识别能力较强的识别软件是提高文字识别准确率的前提。一般用户通常都会使用扫描仪内置的OEM识别软件,不过这种识别软件相比其他专业的识别软件来说,识别功能不强,文字识别的准确率也不是很高,甚至还无法对中文字体进行识别;而类似尚书OCR6.0、清华紫光OCR2003等专业的文字识别软件,不但在文本自动识别方面有较强的能力,而且在使用功能方面也比较突出一些,选择这些专业的识别软件可以很轻松地提高文字的识别准确率。当然,要是目标文稿中包含的文字具有复杂的格式,比方说段落中出现了首行缩进格式,文字字体使用了斜体、粗体等格式,那么有的OCR软件在识别这些格式时,常常会识别出乱码来;所以当我们在扫描识别一些具有特殊格式的文字材料时,一定要选用可以支持文字格式的扫描识别软件,只有这样才能获得较高的文字识别成功率。
从放置操作挖掘
不少人都认为放置扫描原稿是一件十分简单的事情,只要将原稿正面的内容对着平板玻璃放置,然后盖上扫描仪的上面盖就可以了;其实原稿的放置操作也会影响文字的准确识别,正确放置文稿的方法应该为先将文稿正面的内容对着平板玻璃放置,然后将文稿位置调整到扫描起始线正中,同时确保扫描仪的平板玻璃表面完整和干净,最后放下扫描仪的上面盖。要是文稿放置有一定倾斜角度的话,一定要在扫描完成后使用旋转工具对倾斜文字进行纠正,不然的话扫描识别程序会将水平笔划看作斜笔划来处理,这样文字识别的正确率就会下降很多。
从识别参数挖掘
在使用OCR识别软件来识别目标文稿中的文字时,常常需要先在识别软件中进行合适的参数设置,毕竟使用默认的参数设置是无法获取最令人满意的效果的。一般来说,需要设置的识别参数主要包括扫描模式设置、分辨率设置、亮度对比度设置等;在识别纯文字材料时,往往只需要将识别软件的扫描模式设置为“黑白”模式就可以了,要是将扫描模式设置为“彩色”或“灰度”模式的话,只会增加扫描识别的时间,而且也不会提高文字识别的准确率。要是被识别的目标文稿质量比较差时,我们可以尝试将扫描模式设置为“灰度”模式,然后用相关的扫描软件对扫描结果进行一下处理再继续进行识别,这样一来文字识别准确率就会大大提高。
在进行分辨率设置时,通常将分辨率设置得越低,扫描仪扫描文本的速度就越快,但扫描出来的文稿效果就越差;相反,将扫描分辨率设置得越高,扫描仪扫描文本的速度就越慢,但扫描出来的文稿效果就越好。不过这一理论并不是千篇一律的,毕竟将扫描分辨率设置得太高的话,文稿纸张上的小斑点都有可能被识别成标点符号,这样一来文字识别准确率反而会得不到提高。经过笔者多次测试发现,如果目标文稿中的文字字号为1、2、3号的话,那我们只需要将扫描分辨率设置为200dpi就可以了;要是目标文稿中的文字使用的是4号或5号字体的话,那可以将扫描分辨率设置为300dpi;高于5号的文字字体,必须将扫描分辨率设置为400dpi以上,但不能超过扫描仪的光学分辨率。
使用合适的扫描亮度与扫描对比度,可以确保目标文稿中的文字黑白分明,这对提高文字识别准确率非常关键;在调整扫描亮度与对比度时,我们应该仔细观察扫描预览效果,当发现预览效果中的文字笔画较细但并没有断开时,就表明此时的亮度和对比度数值是最合适的。如果在识别过程中,发现预览效果中的文字线条较粗较黑而且笔画分不清时,就表明此时的亮度数值设置得小了,我们应该尝试提高一些亮度值来看看;要是发现预览效果中的文字线条看上去凹凸不平,甚至有断线或残缺不全的现象时,那就表明此时的扫描亮度调整得有点高了,我们应尝试将亮度数值降低一些再看看。
此外,“输出信息”的参数设置也会对文字的识别准确率带来一定的影响;在缺省状态下,“输出信息”的数值常常会被设置为100%,这种参数设置仅仅适合那些新墨粉打印出来的文字材料或者印刷出来的报纸、书籍等,相反在扫描识别那些文字色彩比较浅的文稿时,最好能够将“输出信息”的数值调整得稍微大一些,不然的话扫描出来的图象看上去很不清晰,而且文字识别的准确率也不会很高;当然“输出信息”的数值也不能设置得过大,不然会延长扫描识别的时间,而且还会使识别出来的文字笔画看不清楚。
从识别原稿挖掘
在扫描识别不同类型的原稿时,需要用不同的识别处理方法,才能保证得到比较理想的识别效果。如果原稿为报纸或者半透明文稿的话,那么在扫描识别之前要是不采取任何措施的话,报纸背面的文字很容易透过纸张表面来混淆目标文字的字形,从而会对文字的正确识别造成不小的障碍。为此在扫描识别这类文稿时,最好在原稿背面盖上一张黑纸,同时在扫描过程中,将对比度稍微提高一些,这样就能有效降低背面文字对识别效果的干扰程度了。在扫描识别一些印刷质量较差的文稿时,一定要先进行色调调节操作,以确保扫描结果看上去黑白分明,否则的话扫描图象中有可能会出现许多黑色斑点,从而严重影响文字识别的准确率。当然在对色调参数进行调节时,一定注意观察扫描识别界面中的图象预览效果,并根据预览效果对色调进行反复调整,才能得到非常理想的识别结果。在扫描识别图文混排类型的原稿时,应该先确认一下自己选用的扫描识别应用程序能否支持自动图文分析功能,要是可以支持的话,那我们就应该启用该功能,这样扫描识别程序就会自动分析出目标文稿中的文字内容、文本位置等,而文字内容部分只要按照标示顺序来进行正常识别就可以了。
从手工识别挖掘
现在许多文稿排版为了追求尽善尽美的视觉效果,常常会使用图文混排方式,如果我们将原稿简单地扫描成一幅图像的话,将会严重影响文字的识别准确率。有鉴于此,我们应该根据实际情况,对原稿版面进行手工划分,让其版面分为若干个区域;而且应该保证处于同一区域中的文字字号与字体最好相同,尽量没有图像、图形,每一行的文字宽度应该相同,要是发现宽度长短不一的话,最好再进行细分,通常情况下一次最多能扫描识别10个选择区域。此外根据实际情况,我们还需要对多个选择区域设置好识别顺序。大家千万不能嫌这样的操作比较烦,这可是有效提高文字识别准确率的理想途径之一。
[1] [2]
(出处:http://www.sheup.com)
[1] [2]