广告好帮手,不用打字,图片文字识别软件
清华紫光最新推出了新一代文字识别软件——清华TH-OCR千禧专业版,并将其免费赠送给了清华紫光扫描仪的用户。它实现了使普通纸张上的文档自动原式原样地转化为计算机可以阅读、查询和理解的电子文档。它是一种非常快捷、省力的文字输入方法。
高文字识别率和强分析能力
TH-OCR千禧专业版在原国标二级字库约6763个汉字的基础上,增加BIG5码二级字库,使OCR千禧专业版可识别字符集达到20000余字。TH-OCR2000千禧专业版能同时识别多种字体和超大字符集,是可以识别两万汉字的文字识别系统。在TH-OCR2000版中新增了简体和繁体全字集,能比以前的版本识别更多汉字。它还可以实现对汉英、日英、韩英混排文本的识别,对各种字体综合识别率较高。在测试中,从《中国计算机报》上随机选取了一段有1090个字符、中英混排的文章进行识别,只有12个字符没能正确识别(其中包括9个英文单词和3个汉字)。识别率基本达到99%,并且识别速度较快。对以上1090个字符的识别经两次秒表计时,均为 13秒钟(运行环境为IBM Personal Computer 300GL、CPU Intel Celeron 466MHz、内存128MB SDRAM、硬盘8.4GB)。自动版面分析能力比以前有所增强,几乎不用人工干预,只需在版面分析选单中选择报纸或杂志,用户就可以对复杂的报纸和杂志版面进行自动版面分析。
方便的全新主界面
在TH-OCR2000千禧专业版中,系统的操作主界面和以前的版本相比也发生了较大的变化(见图1)。整个系统界面由工程管理窗口、待编辑文本窗口和对应图像窗口三个主要部分组成。在工程管理主窗口中,记录了曾经做过的扫描和识别,以方便地在各作业之间进行切换。在待编辑文本窗口中可以看到识别后的文本,其中红色字体是计算机认为有可能识别错的字体,即通常所说的可疑字。文本中当前光标所在位置的汉字,在对应图像窗口中以蓝色方框围住。这使用户不用查阅原稿,就可以进行全部的编辑校对和修改工作。在待编辑文本窗口中,光标所在行以高亮度显示本行对应的原始文本,以方便修改。它还提供了方便的“前向词汇”、“后向词汇”和“相似字”等词汇联想的方式,提高了编辑效率。
保留彩色图像
很多曾经使用过OCR的人,都因为它在识别文字的同时只能对彩色图像进行黑白保留而感到有些遗憾。TH-OCR2000千禧专业版不但对输入文稿的印刷质量适应性强,而且还能支持对灰度和彩色图像的处理。在操作中只要将图片选为区域块并将其属性设置为图形图像(如图2),就可以在识别后导出的文件中将彩色图片保留为原样。我们可将识别结果直接送到Word中编辑使用,也可以恢复成HTML格式供网上浏览,还可以直接以Mail的形式发送出去或保存为TXT文本格式。对扫描中难以避免的较小角度的倾斜,清华TH-OCR2000千禧专业版可以自动适应,无须任何处理就能识别。对于较大的倾斜角度,只须点击工具栏上的“倾斜校正”按钮即可很快地实现倾斜校正。
批量处理和手写体支持
在TH-OCR2000千禧专业版里,另一个新特点就是自动批量的页面数由100页增加到10000页。对大量文稿进行录入时,系统将在扫描时自动在工程管理窗口内编入页码,一次完成全部识别任务。它可以将识别后的文档整理,形成一个完整的文档并保存到磁盘上。
图1 全新的系统操作主界面
尽管TH-OCR2000版对手写体识别率比以前的版本有所提高,但对手写体工整程度要求还较高,如不能书写连笔字、字的大小要标准、字间距要均匀等。它在这方面还有待提高完善。
TH-OCR2000可广泛应用于我国电子出版、Internet网上资源数据库和数字图书馆的建设,以及各行各业的信息资源建设。
图2 保留彩色图像
清华TH-OCR千禧专业版的优点:
+ 识别性能提高,大字符集超过100种字体。
+ 对输入文稿的印刷质量适应性更强,并支持对灰度和彩色图像的处理。
+ 自动版面分析能力增强,尤其对复杂的报纸和杂志版面,基本上不用人工干预。
+ 对识别结果可进行RIF、HTML、TXT等多种格式保存。
+ 自动批处理页数有所增加。
+ 提供了丰富详细的词汇联想方式。
+ 更为易装易用。
缺点:
- 对手写体的书写要求较高,否则识别率较低。
- 只兼容清华紫光的扫描仪。